Qwen-Robot Suite, un “cerebro” que permite a los robots imaginar el futuro antes de actuar/Qwen-Robot Suite, un “cerebro” que permite a los robots imaginar el futuro antes de actuar

Source
I imagine we're all amazed by the capabilities of large language models (LLMs), especially considering that the first publicly released version of chatGPT isn't even four years old yet, as you'll all remember, it was unveiled in November 2022. Now, the next step is for all those capabilities to reside not only on a computer but also be installed on robots. Along these lines, Qwen-Robot Suite is Alibaba's first set of artificial intelligence models designed specifically for robots.
Supongo que todos estamos alucinados al ver las capacidades de los grandes modelos de leguaje (LLM), sobre todo si tenemos en cuenta que la primera versión liberada al público de chatGPT ni siquiera ha cumplido cuatro años ya que, como todos recordaréis, fue presentado en sociedad en noviembre de 2022. Ahora lo que procede es que todas esas habilidades no solo residan en un ordenador sino que puedan instalarse en los robots. En esta línea, Qwen-Robot Suite es el primer conjunto de modelos de inteligencia artificial de Alibaba diseñado específicamente para robots.
This is their bid to take artificial intelligence beyond chatbots and software, bringing it into the "physical world" so that machines can perceive, reason, and interact with the real environment. It can be understood as a "brain" or a modular operating system for robots. Rather than being a physical robot, it's a software package that provides the intellectual capabilities for any robot to "think" and act autonomously. It comprises three main models, each specializing in a core capability.
Esta es su apuesta para llevar la inteligencia artificial más allá de los chatbots y el software, llevándola al "mundo físico" para que las máquinas puedan percibir, razonar e interactuar con el entorno real. Se puede entender como un "cerebro" o un sistema operativo modular para robots. En lugar de ser un robot físico, es un paquete de software que proporciona las capacidades intelectuales para que cualquier robot pueda "pensar" y actuar de forma autónoma. Está compuesto por tres modelos principales, cada uno especializado en una capacidad fundamental.

Source
Qwen-RobotNav (The "Navigation"): This model allows the robot to understand space and move around. It has been trained to unify five navigation tasks into a single system, such as following natural language instructions ("go to the kitchen and find a cup"), navigating to specific points, tracking targets, and even driving autonomously. In tests, it demonstrated the ability to navigate an unfamiliar apartment following voice commands with a delay of only 196 milliseconds, without the need for pre-installed maps or specific programming.
Qwen-RobotNav (La "Navegación"): Es el modelo que permite al robot entender el espacio y moverse. Ha sido entrenado para unificar cinco tareas de navegación en un solo sistema, como seguir instrucciones en lenguaje natural ("ve a la cocina y busca una taza"), navegar hacia puntos específicos, rastrear objetivos o incluso conducir de forma autónoma. En pruebas, demostró ser capaz de navegar por un apartamento desconocido siguiendo órdenes de voz con un retraso de solo 196 milisegundos, sin necesidad de mapas preinstalados ni programación específica.
Qwen-RobotManip (The "Manipulation"): This model handles physical interaction, essentially the robot's "hands." It's a Vision-Language-Action (VLA) model that translates what it "sees" and the instructions it receives into precise movements for grasping, moving, and manipulating objects. Its key innovation is that it has been trained using over 38,100 hours of open-source data, without relying on proprietary data. This allows it to operate on different types of robotic arms (Franka, ALOHA, etc.) without requiring extensive retraining.
Qwen-RobotManip (La "Manipulación"): Es el modelo que se encarga de la interacción física, es decir, las "manos" del robot. Se trata de un modelo Visión-Lenguaje-Acción (VLA) que convierte lo que "ve" y las instrucciones que recibe en movimientos precisos para agarrar, mover y manipular objetos. Su gran innovación es que ha sido entrenado con más de 38.100 horas de datos de código abierto, sin depender de datos privados, lo que le permite operar en diferentes tipos de brazos robóticos (Franka, ALOHA, etc.) sin necesidad de reentrenamiento extenso.

Source
Qwen-RobotWorld (The "Imagination"): It acts as a predictive world model. Its function is to simulate and predict how the environment will evolve before the robot acts, as if the robot could mentally "rehearse" the task to avoid errors. It is trained with 8.6 million video-text pairs, allowing it to understand the physics of the world and anticipate the consequences of an action, such as predicting where an object will fall when pushed. As an open-source model suite, Alibaba makes this advanced, ready-to-use "brain" available to the entire global ecosystem (researchers, companies, and startups).
Qwen-RobotWorld (La "Imaginación"): Actúa como un modelo de mundo predictivo. Su función es simular y predecir cómo evolucionará el entorno antes de que el robot actúe, como si el robot pudiera "ensayar" mentalmente la tarea para evitar errores. Está entrenado con 8,6 millones de pares de video-texto, lo que le permite comprender la física del mundo y anticipar las consecuencias de una acción, como prever dónde caerá un objeto al ser empujado. Al ser un conjunto de modelos de código abierto, Alibaba pone a disposición de todo el ecosistema global (investigadores, empresas y startups) un "cerebro" avanzado y listo para usar.
Alibaba is fully entering the global race for Embodied AI, competing directly with tech giants like Google (with its Gemini Robotics project) and Nvidia (with its Cosmos and Isaac platforms). This demonstrates that the next big battle in artificial intelligence will not only be in conversational software, but also in the ability of algorithms to control machines in the real world. Although the company cautions that its deployment in the home could still be years away, the short-term impact will be seen in industry and logistics. Pilot programs are already underway with Alibaba Cloud's enterprise customers, suggesting that we will soon see smarter and more adaptable robots in warehouses, factories, and retail environments.
Alibaba está entrando de lleno en la carrera global de la IA encarnada (Embodied AI), compitiendo directamente con gigantes tecnológicos como Google (con su proyecto Gemini Robotics) y Nvidia (con sus plataformas Cosmos e Isaac). Esto demuestra que la próxima gran batalla de la inteligencia artificial no solo estará en el software conversacional, sino en la capacidad de los algoritmos para controlar máquinas en el mundo real. Aunque la compañía advierte que su despliegue en el hogar aún podría tardar años, el impacto a corto plazo se verá en la industria y la logística. Los pilotos ya están en marcha con clientes empresariales de Alibaba Cloud, lo que sugiere que pronto veremos robots más inteligentes y adaptables en almacenes, fábricas y entornos comerciales.
More information/Más información
https://a-bots.com/blog/qwen-robot-suite-future-of-embodied-ai
Qwen-Robot Suite demonstrates how AI has progressed from a simple virtual interface to a physical robot. The most impressive aspect is the ability to "see" and manipulate objects, navigate through an environment, and create mental images of future actions before execution (i.e., determining possible future results). By using predictive reasoning to anticipate results of their actions and practicing different methods of carrying out tasks in a virtual environment, robots can become increasingly safe, more intelligent, and more flexible in a variety of applications ranging from factory to warehouse (and eventually homes).
Es que esto de la IA está avanzando a pasos tan vertiginosos que aparecerá en cualquier momento un Terminator.
Gracias por compartir, saludos y bendiciones..!
0.00 SBD,
0.78 STEEM,
0.78 SP