В MIT создали мультимодальный AI-фреймворк HiP для роботов. Он объединяет обработку языка, компьютерное зрение и планирование задач. В результате робот может понимать совсем не детализированные задания. Деталями он наполняет их сам. Сам же продумывает и план выполнения этих деталей. Например, по просьбе “помой посуду” HiP поймет, что нужно сначала взять грязную тарелку, губку, чистящее средство, затем включить воду и так далее. Да, сейчас фреймворк позиционируют как платформу для домашних роботов-помощников, но наш взгляд здесь важен принципиально другой подход к построению модели. А приложения такой мультимодальной модели найдутся и в бытовых задачах, и в индустрии, и в бизнесе
Дело в том, что обычно мультимодальные модели обучают на синхронизованных датасетах. В данном случае это был бы датасет, где в один пример собраны текстовые задания, видео и последовательность действий. Этот подход с одной стороны проще, но сами эти датасеты еще нужно собрать, а это совсем не просто. HiP же состоит из трех отдельных моделей, каждая училась на своих данных и каждая отвечает за свой кусок в принятии решений. Поступившее задание сначала обрабатывает LLM, которая выделяет первую подзадачу и передает в диффузионную модель. Та переводит текстовую подзадачу в визуальную модель. Третий модуль решает, как именно перейти от одного состояния в другое и генерирует команду. Всё это динамически связано друг с другом, и на каждом шаге итеративно уточняется с помощью обратной связи между модулями.