Google DeepMind a dévoilé cette semaine un nouveau modèle d'intelligence artificielle, Gemini Robotics-ER 1.6, qui améliore considérablement les capacités robotiques pour les inspections industrielles. Selon Google DeepMind, le modèle porte la précision des robots dans la lecture des indicateurs analogiques de 23 % à 98 %, marquant un bond substantiel dans la gestion autonome des installations. Cette avancée pourrait redéfinir la manière dont les usines et les entrepôts surveillent les équipements critiques.
La dernière itération de Google DeepMind, Gemini Robotics-ER 1.6, représente plus qu'une simple amélioration marginale ; elle introduit ce que l'entreprise appelle la « vision agentique ». Cette fonctionnalité combine le raisonnement visuel avec la capacité d'exécuter du code, créant un « bloc-notes visuel » permettant aux robots de décortiquer et d'interpréter des images complexes. C'est là que le modèle se distingue véritablement. Le modèle précédent, Gemini Robotics-ER 1.5, n'atteignait qu'une précision de 23 % pour les tâches de lecture d'instruments.
Le nouveau modèle, doté de la vision agentique, atteint 98 %, a rapporté Ars Technica le 17 avril. Sans la vision agentique, le modèle de base Gemini Robotics-ER 1.6 offre toujours un taux de précision de 86 %, une amélioration notable par rapport à ses prédécesseurs. Cela suggère une architecture sous-jacente robuste, même avant les améliorations spécialisées.
Le marché vous dit quelque chose. Écoutez. Cette précision accrue permet à des robots comme Spot, le quadrupède de Boston Dynamics, d'effectuer des inspections visuelles d'installations industrielles avec une plus grande autonomie.
Spot est actuellement testé en tant qu'inspecteur robotique, naviguant dans les usines et les entrepôts, observant tout, des manomètres aux niveaux de liquide dans les voyants. Ces tâches exigent un « raisonnement visuel complexe », selon Google DeepMind, pour interpréter plusieurs aiguilles, les limites des conteneurs, les graduations et le texte intégré. La capacité à traiter des informations visuelles aussi variées avec précision a longtemps été un goulot d'étranglement pour le déploiement généralisé de la robotique dans des environnements industriels dynamiques et non structurés.
Ce changement est significatif. Boston Dynamics, propriété de Hyundai Motor Group, a exprimé un intérêt considérable à déployer des robots quadrupèdes et humanoïdes dans ses usines automobiles et autres sites industriels. La collaboration avec Google DeepMind sur le modèle Gemini Robotics-ER 1.6 soutient directement cette ambition.
Historiquement, les robots ont excellé dans les tâches répétitives et hautement spécialisées au sein d'environnements contrôlés, comme les chaînes d'assemblage. Leur efficacité dans ces rôles est indéniable. Cependant, l'aspiration à des travailleurs robotiques plus « polyvalents », capables d'opérer dans des environnements réels moins prévisibles, est restée largement une aspiration jusqu'à présent.
Ce nouveau modèle repousse cette limite. Un détail concret frappant, fourni par Google DeepMind, illustre la compréhension améliorée du modèle. Lors d'un test, Gemini Robotics-ER 1.6 a correctement identifié le nombre de marteaux, ciseaux, pinceaux, pinces et divers outils de jardinage au sein d'une image encombrée.
L'ancien modèle Gemini Robotics-ER 1.5, en revanche, a eu des difficultés. Il n'a pas réussi à compter avec précision les marteaux ou les pinceaux, a complètement ignoré les ciseaux et a identifié à tort une brouette inexistante parce que c'était l'un des objets demandés. Cela suggère une tendance réduite à l'« hallucination », un défi courant dans les modèles d'IA antérieurs où les systèmes génèrent des informations plausibles mais incorrectes.
C'est un pas en avant crucial. Au-delà de la précision visuelle, Google DeepMind décrit également Gemini Robotics-ER 1.6 comme son « modèle robotique le plus sûr à ce jour ». L'entreprise affirme qu'il possède une « capacité considérablement améliorée à respecter les contraintes de sécurité physique ». Cela signifie que les robots peuvent désormais mieux suivre les instructions de sécurité et prendre des décisions plus sûres lors de la manipulation de matériaux ou de liquides. Le modèle peut également percevoir plus précisément le risque de blessure pour les humains dans divers scénarios, comme un jeune enfant interagissant avec une prise électrique.
Cet aspect de sécurité n'est pas un simple ajout ; il est fondamental pour une acceptation publique et industrielle plus large. Voici le chiffre qui compte : le bond de 23 % à 98 % de précision. Éliminez le bruit et l'histoire est plus simple qu'il n'y paraît.
Ce bond de performance transforme le calcul économique de l'automatisation industrielle. Auparavant, la nécessité d'une supervision humaine pour vérifier les lectures des robots limitait le retour sur investissement des systèmes d'inspection autonomes. Avec une précision quasi parfaite, les entreprises peuvent réduire l'intervention humaine, ce qui entraîne des économies de coûts opérationnels substantielles et une meilleure fiabilité des données.
Cela pourrait accélérer l'adoption d'inspecteurs robotiques dans tous les secteurs, de l'énergie à la fabrication, où une surveillance précise et cohérente est primordiale. Pour les économies émergentes, en particulier celles du Sud global, cette technologie présente une perspective à double tranchant. D'une part, elle offre une voie pour moderniser rapidement les infrastructures industrielles et améliorer les normes de sécurité sans l'investissement de plusieurs décennies en formation de capital humain requis pour les rôles d'inspection hautement spécialisés.
Les usines des nations en voie d'industrialisation rapide pourraient sauter les méthodes d'inspection plus anciennes et plus intensives en main-d'œuvre. D'autre part, les gains d'efficacité pourraient déplacer une partie de la main-d'œuvre actuellement engagée dans ces tâches, nécessitant des stratégies proactives de reconversion et de création de nouveaux emplois. Cela exige une considération attentive.
La portée plus large de Gemini Robotics-ER 1.6 s'étend au-delà de la simple lecture d'indicateurs. Il signale une maturation de la capacité de l'IA à interagir avec le monde physique de manière nuancée. Le « raisonnement incarné », la capacité d'une IA à comprendre et à interagir avec son environnement physique, a été le Saint Graal pour les chercheurs en robotique. La capacité améliorée de « raisonnement multi-vues » du modèle, permettant à un système robotique d'utiliser plusieurs flux de caméras pour une compréhension environnementale plus complète, consolide davantage cette tendance.
Cela représente un changement fondamental. - Le modèle Gemini Robotics-ER 1.6 porte la précision de lecture des indicateurs par les robots de 23 % à 98 % grâce à la « vision agentique ». - Boston Dynamics teste ce modèle d'IA dans des environnements industriels pour permettre à des robots comme Spot d'effectuer des inspections autonomes. - Le nouveau modèle améliore considérablement la sécurité des robots, renforçant le respect des contraintes physiques et la perception des blessures humaines. - Cette avancée pourrait accélérer l'adoption de robots polyvalents et remodeler les coûts opérationnels industriels à l'échelle mondiale. La valeur pratique de ce modèle deviendra plus claire à mesure que les entreprises de robotique et les institutions de recherche acquerront une expérience pratique de ses capacités. Il faudra surveiller l'expansion des programmes pilotes au-delà des essais initiaux, en particulier dans les secteurs soumis à des charges réglementaires élevées ou à des environnements dangereux.
La prochaine phase consistera à évaluer ses performances dans un éventail plus large de scénarios réels, y compris des conditions d'éclairage et des types d'instruments variés. En outre, les observateurs suivront l'impact économique sur les marchés du travail mondiaux et le rythme auquel ces robots sophistiqués s'intégreront dans les effectifs humains-robots existants. Les implications à long terme pour l'efficacité et la sécurité industrielles ne font que commencer à se dessiner.
Points clés à retenir
— - Le modèle Gemini Robotics-ER 1.6 porte la précision de lecture des indicateurs par les robots de 23 % à 98 % grâce à la « vision agentique ».
— - Boston Dynamics teste ce modèle d'IA dans des environnements industriels pour permettre à des robots comme Spot d'effectuer des inspections autonomes.
— - Le nouveau modèle améliore considérablement la sécurité des robots, renforçant le respect des contraintes physiques et la perception des blessures humaines.
— - Cette avancée pourrait accélérer l'adoption de robots polyvalents et remodeler les coûts opérationnels industriels à l'échelle mondiale.
Source : Ars Technica
