Skip to main content

I robot umanoidi sono più vicini. Ecco i nuovi modelli di Google

Gemini Robotics e Gemini Robotics-ER rispondono ai tre dogmi principali per poter operare sostituendosi all’uomo: generalità, interattività e agilità. Si tratta di un passo in avanti sostanzioso nel mondo dei robot umanoidi, pensati secondo un approccio a “strati” così da rafforzare la sicurezza

Rendere le macchine sempre più umane. È un po’ quello che ha cercato di fare Google con i suoi ultimi due modelli di intelligenza artificiale robotica, che portano l’IA “nel mondo fisico”. Ci è riuscita istruendoli con tre qualità principali. Secondo l’azienda di Mountain View, questi modelli devono essere generali, ovvero sapersi adattare in tutte le situazioni; devono essere interattivi, così da poter rispondere ai diversi output che gli arrivano, anche contrastanti; devono essere agili, forse l’aspetto più importante dei tre, visto che con questa peculiarità i robot svolgerebbero azioni quotidiane che per noi richiedono il minimo sforzo, come prendere oggetti o spostarli (senza romperli, ovvio).

La prima novità si chiama Gemini Robotics, un modello avanzato di visione-linguaggio-azione (VLA) costruito su Gemini 2.0, a cui sono state aggiunte nuove modalità di output per controllare direttamente i robot. Questi potranno svolgere funzioni banali ma allo stesso tempo rivoluzionarie, come incartare un pranzo. Sfruttando le capacità avanzate di comprensione del linguaggio, può ricevere indicazioni tramite un modo di parlare molto colloquiale, quello che usiamo quotidianamente. Per di più è in grado di monitorare l’ambiente che lo circonda, di rilevare cambiamenti e di adeguarsi a queste.

Il secondo modello invece è Gemini Robotics-ER (acronimo che sta per “ragionamento avanzato”) che grazie alla comprensione spaziale avanzata consente di utilizzare le capacità di ragionamento incarnato (ER) di Gemini. In questo modo, si legge nel comunicato di lancio, “può creare capacità completamente nuove al volo. Ad esempio, quando gli viene mostrata una tazza da caffè, il modello può intuire una presa appropriata a due dita per prenderla dal manico e una traiettoria sicura per avvicinarsi”.

“Collaboriamo con Apptronik per costruire la prossima generazione di robot umanoidi”, continuano dall’azienda. “Stiamo anche lavorando con un numero selezionato di tester fidati per guidare il futuro di Gemini Robotics-ER”, come Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.

Come ogni qualvolta viene partorito un nuovo strumento, la sicurezza è un tema da sciogliere il prima possibile. E Google lo ha già fatto. Come ha spiegato il ricercatore di DeepMind, Vikas Sindhwani, è stato adottato un “approccio a strati”, addestrando i modelli robotici con misure che gli permettono di evitare collisioni, limitare l’entità delle forze di contatto e garantire la stabilità dinamica dei robot. Questi sono inoltre in grado di valutare se un’azione è potenzialmente rischiosa oppure no, decidendo così se eseguirla o meno.

Oltre a questo, Big G sta per rilasciare un nuovo set di dati per valutare e migliorare la sicurezza semantica nell’IA e nella robotica. Si chiama Asimov ed è un insieme di benchmark e framework – definibile come una Costituzione robotica – che “aiuterà i ricercatori a misurare rigorosamente le implicazioni sulla sicurezza delle azioni robotiche negli scenari del mondo reale”.


×

Iscriviti alla newsletter