Мультимодальный AI-фреймворк HiP для роботов

В MIT создали мультимодальный AI-фреймворк HiP для роботов. Он объединяет обработку языка, компьютерное зрение и планирование задач. В результате робот может понимать совсем не детализированные задания. Деталями он наполняет их сам. Сам же продумывает и план выполнения этих деталей. Например, по просьбе “помой посуду” HiP поймет, что нужно сначала взять грязную тарелку, губку, чистящее средство, затем включить воду и так далее. Да, сейчас фреймворк позиционируют как платформу для домашних роботов-помощников, но наш взгляд здесь важен принципиально другой подход к построению модели. А приложения такой мультимодальной модели найдутся и в бытовых задачах, и в индустрии, и в бизнесе

Дело в том, что обычно мультимодальные модели обучают на синхронизованных датасетах. В данном случае это был бы датасет, где в один пример собраны текстовые задания, видео и последовательность действий. Этот подход с одной стороны проще, но сами эти датасеты еще нужно собрать, а это совсем не просто. HiP же состоит из трех отдельных моделей, каждая училась на своих данных и каждая отвечает за свой кусок в принятии решений. Поступившее задание сначала обрабатывает LLM, которая выделяет первую подзадачу и передает в диффузионную модель. Та переводит текстовую подзадачу в визуальную модель. Третий модуль решает, как именно перейти от одного состояния в другое и генерирует команду. Всё это динамически связано друг с другом, и на каждом шаге итеративно уточняется с помощью обратной связи между модулями.

 

Подписывайтесь на телеграм-канал «Цифровой директор»

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not remember your credentials, you should contact your web host.

Connection Type