Google DeepMind hat diese Woche ein neues Modell für künstliche Intelligenz, Gemini Robotics-ER 1.6, vorgestellt, das die Roboterfähigkeiten für industrielle Inspektionen drastisch verbessert. Laut Google DeepMind steigert das Modell die Genauigkeit von Robotern beim Ablesen analoger Anzeigen von 23 % auf 98 %, was einen erheblichen Fortschritt im autonomen Facility Management darstellt. Diese Entwicklung könnte neu definieren, wie Fabriken und Lager kritische Anlagen überwachen.
Die neueste Iteration von Google DeepMind, Gemini Robotics-ER 1.6, stellt mehr als nur ein geringfügiges Upgrade dar; sie führt das ein, was das Unternehmen als „agentische Vision“ bezeichnet. Diese Funktion kombiniert visuelles Denken mit der Fähigkeit, Code auszuführen, und schafft so ein „visuelles Notizbuch“ für Roboter, um komplexe Bilder zu analysieren und zu interpretieren. Hierin unterscheidet sich das Modell wirklich. Das vorherige Gemini Robotics-ER 1.5 Modell erreichte bei Aufgaben zum Ablesen von Instrumenten nur eine Genauigkeit von 23 Prozent.
Das neue Modell erreicht mit agentischer Vision 98 Prozent, wie Ars Technica am 17. April berichtete. Ohne agentische Vision liefert das Basismodell Gemini Robotics-ER 1.6 immer noch eine Genauigkeitsrate von 86 Prozent, eine bemerkenswerte Verbesserung gegenüber seinen Vorgängern. Dies deutet auf eine robuste zugrunde liegende Architektur hin, selbst vor spezialisierten Verbesserungen.
Der Markt spricht eine deutliche Sprache. Man sollte darauf hören. Diese erhöhte Präzision ermöglicht es Robotern wie dem vierbeinigen Spot von Boston Dynamics, visuelle Inspektionen von Industrieanlagen mit größerer Autonomie durchzuführen.
Spot wird derzeit als Roboterinspektor getestet, der Fabriken und Lagerhallen navigiert und alles von Druckmessgeräten bis hin zu Flüssigkeitsständen in Schaugläsern überwacht. Diese Aufgaben erfordern laut Google DeepMind „komplexes visuelles Denken“, um mehrere Zeiger, Behältergrenzen, Skalenstriche und eingebetteten Text zu interpretieren. Die Fähigkeit, solch vielfältige visuelle Informationen präzise zu verarbeiten, war lange Zeit ein Engpass für den weit verbreiteten Einsatz von Robotern in dynamischen, unstrukturierten Industrieumgebungen.
Diese Veränderung ist bedeutsam. Boston Dynamics, im Besitz der Hyundai Motor Group, hat großes Interesse daran bekundet, sowohl vierbeinige als auch humanoide Roboter in seinen Automobilfabriken und anderen Industriestandorten einzusetzen. Die Zusammenarbeit mit Google DeepMind am Gemini Robotics-ER 1.6 Modell unterstützt dieses Bestreben direkt.
Roboter haben sich historisch in repetitiven, hochspezialisierten Aufgaben in kontrollierten Umgebungen, wie Fließbändern, ausgezeichnet. Ihre Effizienz in diesen Rollen ist unbestreitbar. Das Bestreben nach mehr „freilaufenden“ Roboterarbeitern, die in weniger vorhersehbaren realen Umgebungen agieren können, blieb jedoch bisher weitgehend ein Wunschtraum.
Dieses neue Modell verschiebt diese Grenze. Ein anschauliches, konkretes Detail, das Google DeepMind lieferte, veranschaulicht das verbesserte Verständnis des Modells. In einem Test identifizierte Gemini Robotics-ER 1.6 korrekt die Anzahl von Hämmern, Scheren, Pinseln, Zangen und verschiedenen Gartengeräten in einem unübersichtlichen Bild.
Das ältere Gemini Robotics-ER 1.5 Modell hingegen hatte Schwierigkeiten. Es versäumte es, Hämmer oder Pinsel genau zu zählen, übersah die Scheren vollständig und identifizierte fälschlicherweise eine nicht existierende Schubkarre, weil diese zu den angeforderten Gegenständen gehörte. Dies deutet auf eine reduzierte Tendenz zur „Halluzination“ hin, eine häufige Herausforderung bei früheren KI-Modellen, bei denen Systeme plausible, aber falsche Informationen generieren.
Dies ist ein entscheidender Schritt nach vorn. Über die visuelle Genauigkeit hinaus beschreibt Google DeepMind Gemini Robotics-ER 1.6 auch als sein „bislang sicherstes Robotikmodell“. Das Unternehmen behauptet, es verfüge über eine „wesentlich verbesserte Fähigkeit, physische Sicherheitsbeschränkungen einzuhalten“. Das bedeutet, dass Roboter nun Sicherheitsanweisungen besser befolgen und sicherere Entscheidungen beim Umgang mit Materialien oder Flüssigkeiten treffen können. Das Modell kann auch das Verletzungsrisiko für Menschen in verschiedenen Szenarien genauer einschätzen, beispielsweise wenn ein kleines Kind mit einer Steckdose interagiert.
Dieser Sicherheitsaspekt ist nicht nur ein Zusatz; er ist grundlegend für eine breitere öffentliche und industrielle Akzeptanz. Hier ist die Zahl, die zählt: der Sprung von 23 % auf 98 % Genauigkeit. Entfernt man das Rauschen, ist die Geschichte einfacher, als sie aussieht.
Dieser Leistungssprung verändert die ökonomische Kalkulation für die Industrieautomation. Zuvor begrenzte die Notwendigkeit menschlicher Aufsicht zur Überprüfung von Roboterablesungen die Kapitalrendite für autonome Inspektionssysteme. Mit nahezu perfekter Genauigkeit können Unternehmen menschliche Eingriffe reduzieren, was zu erheblichen Betriebskosteneinsparungen und einer verbesserten Datenzuverlässigkeit führt.
Dies könnte die Einführung von Roboterinspektoren in allen Sektoren, von der Energieversorgung bis zur Fertigung, beschleunigen, wo präzise, konsistente Überwachung von größter Bedeutung ist. Für Schwellenländer, insbesondere im Globalen Süden, bietet diese Technologie eine zweischneidige Perspektive. Einerseits bietet sie einen Weg zur schnellen Modernisierung der industriellen Infrastruktur und zur Verbesserung der Sicherheitsstandards, ohne die jahrzehntelangen Investitionen in die Ausbildung von Humankapital, die für hochspezialisierte Inspektionsrollen erforderlich sind.
Fabriken in sich schnell industrialisierenden Nationen könnten ältere, arbeitsintensivere Inspektionsmethoden überspringen. Andererseits könnten die Effizienzgewinne einen Teil der Arbeitskräfte verdrängen, die derzeit diese Aufgaben ausführen, was proaktive Strategien für Umschulung und die Schaffung neuer Arbeitsplätze erforderlich macht. Dies erfordert sorgfältige Überlegung.
Die umfassendere Bedeutung von Gemini Robotics-ER 1.6 geht über das bloße Ablesen von Anzeigen hinaus. Es signalisiert eine Reifung der Fähigkeit von KI, auf nuancierte Weise mit der physischen Welt zu interagieren. „Embodied Reasoning“, die Fähigkeit einer KI, ihre physische Umgebung zu verstehen und mit ihr zu interagieren, war ein Heiliger Gral für Robotikforscher. Die verbesserte „Multi-View Reasoning“-Fähigkeit des Modells, die es einem Robotersystem ermöglicht, mehrere Kameraströme für ein umfassenderes Umweltverständnis zu nutzen, festigt diesen Trend zusätzlich.
Dies stellt eine grundlegende Verschiebung dar. - Das Gemini Robotics-ER 1.6 Modell steigert die Genauigkeit von Roboter-Anzeigenablesungen von 23 % auf 98 % mit „agentischer Vision“. - Boston Dynamics testet dieses KI-Modell in industriellen Umgebungen, um Robotern wie Spot autonome Inspektionen zu ermöglichen. - Das neue Modell verbessert die Robotersicherheit erheblich, indem es die Einhaltung physischer Beschränkungen und die Wahrnehmung menschlicher Verletzungsrisiken verbessert. - Diese Entwicklung könnte die Einführung von freilaufenden Roboterarbeitern beschleunigen und die globalen industriellen Betriebskosten neu gestalten. Der praktische Wert dieses Modells wird klarer werden, wenn Robotikunternehmen und Forschungseinrichtungen mehr praktische Erfahrungen mit seinen Fähigkeiten sammeln. Achten Sie auf Pilotprogramme, die über erste Tests hinausgehen, insbesondere in Sektoren mit hohen regulatorischen Auflagen oder gefährlichen Umgebungen.
Die nächste Phase wird die Bewertung seiner Leistung in einer breiteren Palette von realen Szenarien umfassen, einschließlich unterschiedlicher Lichtverhältnisse und Instrumententypen. Des Weiteren werden Beobachter die wirtschaftlichen Auswirkungen auf die globalen Arbeitsmärkte und das Tempo überwachen, mit dem sich diese hochentwickelten Roboter in bestehende Mensch-Roboter-Arbeitskräfte integrieren. Die langfristigen Auswirkungen auf die industrielle Effizienz und Sicherheit beginnen sich erst zu entfalten.
Wichtige Erkenntnisse
— - Das Gemini Robotics-ER 1.6 Modell steigert die Genauigkeit von Roboter-Anzeigenablesungen von 23 % auf 98 % mit „agentischer Vision“.
— - Boston Dynamics testet dieses KI-Modell in industriellen Umgebungen, um Robotern wie Spot autonome Inspektionen zu ermöglichen.
— - Das neue Modell verbessert die Robotersicherheit erheblich, indem es die Einhaltung physischer Beschränkungen und die Wahrnehmung menschlicher Verletzungsrisiken verbessert.
— - Diese Entwicklung könnte die Einführung von freilaufenden Roboterarbeitern beschleunigen und die globalen industriellen Betriebskosten neu gestalten.
Quelle: Ars Technica
