Генеральный директор НТР Николай Михайловский рассказал НИУ ВШЭ про Искусственный Интеллект

Генеральный директор НТР Николай Михайловский поделился своим экспертным мнением про технологию искусственного интеллекта в России в нынешнее время, какие есть тенденции в научных исследованиях и какие перспективы у технологии человеко-машинного взаимодействия.

 

Сергей Сычев: По каким сейчас направлениям ИИ ведется самая активная разработка в России?

Николай Михайловский: Я не способен ответить полноценно за всех. Несомненно, есть работы по всему спектру приложений машинного обучения к прикладным задачам. Но где больше, я не берусь оценить.

Сергей Сычев: А какие продукты сейчас находятся в фокусе внимания вашей компании ?

Николай Михайловский: Мы не очень специализированная компания и занимаемся разработкой систем, связанных с машинным обучением, в 3 основных областях.

  1. Компьютерное зрение. Мы разрабатываем системы, связанные с промышленным компьютерным зрением, в первую очередь, в части обеспечения контроля процессов и измерения разных сущностей.
    Это имеет применение, во-первых, к охране труда: от предотвращения аварий на шахтах при проведении подземных работ до контроля использования средств индивидуальной защиты, что более широко.
    Во-вторых, решаем задачи, связанные с измерением чего-то на основе видеоданных, которые могут относиться к подземным работам в шахтах, например, измерение отклонений лавного привода — длинного конвейера, по которому едет уголь из шахты.
    Очень сложная система на самом деле, так как она работает с такой «непредсказуемой» вещью, как реальная геология. Если что-то подвинулось не так, то это либо признак, либо причина куполообразования. Если лавный привод искривился, то может произойти самое плохое. И видеоаналитика на основе систем машинного обучения является единственным способом контролировать наступление такой ситуации.
  2. NLP. Помимо систем, связанных с обработкой видеосигнала, мы разрабатываем системы, связанные с вычислительной лингвистикой, для офисного использования. Например, модель, которая из неструктурированной устной и письменной речи вытаскивает задачи и ставит их в тасктрекере. Мы — одна из 5-6 компаний в России, которая обладает компетенциями в обработке речи.
  3. Рекомендательные системы. И еще у нас есть компетенция в области рекомендательных систем, которые мы время от времени для разных заказчиков делаем. И они даже лучше всех других в определенных условиях работают. Это то, чем мы занимаемся.
    Полноценного видения всего российского рынка у меня нет, но в нем есть большие куски машинного обучения, которые продуктизовались и широко распространены, типа распознавания лиц, которые повнедряли везде, где только можно, и в некоторых случаях там, где не хотелось бы. Опять же, полного видения и оценки рынка я дать не могу.

Сергей Сычев: Вы охватили 3 из 5 основных направлений использования ИИ: NLP-технологии, рекомендательные системы, компьютерное зрение. Осталась только безопасность и системы управления.

Николай Михайловский: С безопасностью мы никак не связаны.

Сергей Сычев: И системами управления? Пилотирование, автопилотирования.

Николай Михайловский: У нас тоже есть группа, которая занимается автономной навигацией дронов без GPS. Но обычно об этой тематике разговаривают в разрезе транспортных средств типа автомобильных или комбайнов, трамваев. Этой областью мы не занимаемся, но да, у нас есть система автономной навигации дронов, которая плюс-минус к тому же классу систем, но у нас проходит как одна из измеряющих систем компьютерного зрения. И эти дроны у «Газпрома» летают.

Сергей Сычев: Вы имеете в виду малые летательные аппараты?

Николай Михайловский: Да, малые летательные аппараты. Это дрон, который может пролететь в дверь в помещение, самостоятельно, без пилота.
Более прикладной кейс – это нефтяной или газовый резервуар и складское помещение. Например, техническая инспекция нефтяного или газового резервуара. Для того, чтобы выполнить техническую инспекцию резервуара, нужно по всей поверхности резервуара сделать снимки. Это вполне конкретная алгоритмизируемая задача, алгоритмически и технически предельно сложная.

Сергей Сычев: Из перечисленных продуктов, технологических решений какие наиболее критически зависят от западных технологий?

Николай Михайловский: Все, что мы делаем в той или иной степени опирается на широкую информированность о том, что и где в мире делается. Мы находимся на самой грани науки, то есть мы не научная организация, но технологическая, которая делает работу, которая в других местах и научной может быть сочтена. Так вот советская школа нейрокомпьютинга, созданная в 80-90-х годах, в полном составе находится в Англии и Канаде. И все, что повырастало после этого, не автохтонно, а опирается на мировой опыт, и без этого мирового опыта не смогло бы состояться. Если его от этого мирового опыта оторвать, например путем перерезания всех информационных каналов, оно будет развиваться очень плохо и однобоко, потому что, во-первых, нас, людей, говорящих по-русски, довольно-таки, мало, во-вторых, научные школы почти полностью утрачены. Имеется плюс-минус 3,5 научных школы в области машинного обучения разного рода, которые имеют – это частное суждение, – сколько-нибудь мировой уровень. Плотность научной и технологической деятельности недостаточна для того, чтобы это все могло существовать при отрезании от мировой научной деятельности, от ствола.
Дальше есть вопрос вычислительных мощностей. Как известно, у нас даже процессоры общего толка не очень. Имеется уважаемый «Байкал», который непонятно, сможем ли мы делать. И имеется всякая экзотика, которой я не видел в применении ни разу. Я слышал доклады на конференциях, что оно есть. Я видел издалека людей, которые говорили, что они на этом что-то посчитали.
Поэтому не верится, что в разумное время можно создать нечто замещающее в России в области искусственного интеллекта.

Сергей Сычев: Какие форматы решений, построенных на технологии ИИ, наиболее востребованы рынком?

Николай Михайловский: Приходишь к клиенту, делаешь пилотный проект. Пилотный проект маленький, он обыкновенно на несколько миллионов рублей. После этого, если клиент видит некую для себя выгоду, а некая выгода может формулироваться разным образом, это может быть либо монетарная выгода, когда прямо либо повышаются продажи, либо снижаются потери, либо экономятся деньги. Это может быть некая выгода социально-психологического толка, когда определенный функционер либо сотрудник компании может получить те или иные лычки или похвастаться перед вышестоящими или контролирующими органами, что у нас не просто аналитика, а ИИ. И мы тут внедрили, а вы тут нет, и поэтому мы круче.
Как правило, заказчиками такого рода решений являются относительно крупные предприятия из первой сотни. За редким исключением, как наш опыт показывает: это большие промышленные предприятия. При этом полезно как то, что мы имеем некий готовый предпродукт, то, что называется решение, так и то, что мы этот предпродукт затачиваем на конкретные потребности предприятий. А дальше уже идет масштабирование решения.
Опять же, данная схема не общеиндустриальна и, возможно, не идеальна с точки зрения бизнеса, а отражает наши корпоративные склонности делать проекты определенным образом.

Сергей Сычев: Это касается компьютерного зрения или у распознавании речи тоже в основном коробочные решения.

Николай Михайловский: Там тоже есть решения и продукты.
Надо понимать, что как только мы сталкиваемся с большим предприятием, мы сталкиваемся с их представлением об их собственной уникальности, которое так или иначе должно быть удовлетворено независимо от того, насколько оно соответствует реальности.

Сергей Сычев: В чем причина такой неповоротливости или невосприимчивости к технологиям, которые в долгую однозначно приносят существенное сокращение транзакционных издержек?

Николай Михайловский: Я бы не сказал, что это неповоротливость и невосприимчивость. Среди людей, с которыми я разговаривал, ни один не сказал: «Это какая-то бесполезная игрушка, неинтересно». Обычно, «это интересно, давайте обсуждать».

Сергей Сычев: На ваш взгляд, решение с проприетарным кодом или с опенсорсом наиболее популярно на рынке?

Николай Михайловский: По моей оценке не менее 95% всех решений, которые в области машинного обучения в России да и в мире используются, основаны на открытом коде так или иначе, поскольку они написаны на Python и используют одну из больших библиотек машинного обучения (TensorFlow или PyTorch), и без этих кусков открытого кода они бы не состоялись. Более того, уже на следующем уровне почти все используют модели, взятые из известных библиотек, то есть взяли изображение и сегментировали. Нужно речь обрабатывать – взяли библиотеки NVIDIA. Нужна вычислительная лингвистика – взяли Спейси, OpenAI трансформеры и дальше чего-то немножечко доучили.

Сергей Сычев: А какие сейчас тенденции в области научных разработок, связанных с ИИ?

Николай Михайловский: Тенденций, в том числе разнонаправленных, довольно много. Есть несколько глобальных движений, вызванных объективным развитием технологий и потребности с другой стороны.
Первый класс движений связан с объединением модальности. Тривиальное объединение модальности – это устная и письменная речь. На самом деле до объединения модальностей там еще далеко, о чем вы сами знаете, потому что когда вы обрабатываете мое интервью, вам, чтобы мою речь относительно даже грамотно перевести в письменную, нужно провести определенную работу. И между устной речью и письменной, даже грамотными и даже качественно построенными, нужен такой же переводчик, как между русским и украинским языком. Их близость плюс-минус такая же.
А дальше начинаются более сложные модальности: видео, картинки, которые объединяются пока что в виде генеративных игрушек, которые генерируют по словесному описанию некую картинку или видео, но вполне возможно, мы скоро придем к тому моменту, когда можно будет сказать: «А сделайте мне пластмассовую вазу с треугольным рисунком», – и оно напечатается.
Технология полностью готова. Для того, чтобы ее напечатать, осталось полшага. Объединение модальностей уже почти произошло. Это первое.
Второе, объединение модальностей на технологическом уровне происходит из тоски по сильному ИИ, который как бы все хотели, но который по-прежнему бессмысленно далеко. И кажется, что, пообъединяв модальности, научив больше моделей и т.д., мы как-то туда приблизимся или чего-то поймем.
Тем не менее в России неожиданно сильное сообщество, интересующееся сильным ИИ. Оно не очень продуктивное. Оно немножечко словоблудское, но тем не менее оно объективно существующее и нетривиально функционирующее.
А дальше идет трендоприменение и прикладные вещи, обусловленные как технологическими возможностями, так и осознанием этих возможностей. С одной стороны, у нас есть воображаемые метавселенные и тому подобные вещи, где можно конструировать свои аватары, до некоторой степени повторяющие свои особенности, иногда движения, иногда еще что-нибудь. А с другой стороны, у нас имеются сталелитейные предприятия и еще в таком же духе, у которых есть конкретные задачи, которые можно решить. Из потока руды на конвейере выбрасывать то, что не должно попасть в дробилку, потому что ежели дробилка остановилась, это несколько миллионов потеряно за счет простоя.
И в этом довольно широком спектре возникают разнообразные приложения, которые никаким одним словом описать мне бы не удалось.

Сергей Сычев: Что это за приложения?

Николай Михайловский: Некогда известный в России Илья Гельфенбейн, ныне крупный Silicon Valley предприниматель, строит аватаров для метаверсов. У него новый стартап. Туда все венчурные капиталисты денег накидали, поскольку он предыдущий очень успешно продал Google. Тоже стартап, связанный с ИИ. Поэтому в него кидаются мешками денег, чтобы он сделал этих аватаров для метаверсов. Накидали уже больше 70 млн. Он гнется и скрипит под этим тяжким грузом.
С другой стороны, есть люди типа нас, которым нравится, когда происходит что-то очень физическое – конвейер, станок, блок цилиндров, руда, и которые делают решения, которые привязаны к реалиям физических предприятий. Но это другой конец спектра. И все что угодно посередине. Спектр очень широк.

Сергей Сычев: Какая перспектива у технологии человеко-машинного взаимодействия?

Николай Михайловский: Перспектива радужная. Но в это место прийти надо. С одной стороны, мы видим умные колонки, с которыми дети жизнерадостно разговаривают, дают им команды. Ребенок, который в раннем возрасте познакомился с «Алисой», Amazon Echo или еще чем-нибудь, мгновенно осваивает голосовой интерфейс с умным помощником. И поскольку у ребенка много разных желаний и потребностей, часть этих желаний и потребностей голосовой помощник жизнерадостно выполняет.
Однако ж попытки сделать из той же самой Алисы компаньона для людей пожилого возраста, которые тоже вроде бы не хотят никуда пальчиком тыкать в смартфон и не очень хорошо владеют компьютером, пока что неуспешны, потому как общего толка диалог о погоде, а тем паче о соседях, ежели кому надобно их обсудить, Алиса вести не может.

Сергей Сычев: Ей не хватает эмоциональности?

Николай Михайловский: Не только эмоциональности. Не хватает модели реальности, потому что модель реальности в любом устройстве вынужденно и заведомо ограничена.
И была же прекрасная история с японским проектом компьютеров пятого поколения. В 1980-е годы японцы запустили проект – компьютер пятого поколения, который должен был общаться с людьми на человеческом языке. И даже достигли определенных успехов. Но эти успехи были полностью нивелированы тем, что примерно одновременно в Штатах появился графический пользовательский интерфейс. И в этот момент оказалось, что компьютер – это такая штука, которая на самом деле умеет делать очень немного вещей. Что запрограммировали, то оно и умеет делать. В меню есть 5 пунктов, выйти, открыть файл, закрыть файл и т.д. – вот это оно умеет делать. И поэтому весь список, может быть, с некоторыми расширениями в виде выпадающего меню, может быть на экране перечислен. Это компьютер может сделать. И голосовой интерфейс, человечья речь, она же тьюринг-полна. Она позволяет описать все что угодно. Сложность существенно выше того, что компьютер мог на тот момент. Поэтому графический компьютерный интерфейс полностью и безоговорочно победил японский проект компьютеров пятого поколения, у которых, к тому же, были проблемы с распознаванием речи.
И только теперь, когда вместо компьютера у нас есть интернет, а также люди по другую сторону этого интернета, которые генерируют определенный контент и интент, появилась осмысленная необходимость общаться с компьютерами тьюринг-полным языком, богатым, поскольку у нас на другой стороне есть неопределенное количество информации и интент. И только с появлением и обогащением интернета появилась какая-то необходимость в том, чтобы с компьютером разговаривать человеческим языком.
Ежели говорить про нейроинтерфейсы, например, конечно, эта штука заведомо очень интересная. Очень хотелось бы попробовать. Более того, я сам обруч пытался носить, управлять через этот обруч. Но особых успехов в управлении силой мысли я не достиг. Видимо, мысль моя неоднозначна.
То есть это очень интересно. Но в какой момент это станет важно и нужно, пока непонятно, потому что богатство того, что у нас находится невыраженного, оно, вероятно, еще больше, нежели богатство того, что мы языком выражаем. И зачем оно, еще надо обществу найти обоснование.

Сергей Сычев: Мне кажется, вы переоцениваете богатство внутреннего мира среднестатистического пользователя. В среднем по планете оно не очень большое. Может быть, есть крайности, а в среднем не очень разнообразно.
Машинное обучение на граничных устройствах – насколько это технологический кейс качественный?

Николай Михайловский: На практическом уровне сейчас на конечных устройствах важен и полезен инференс, но не обучение. Там, где это возможно, инференс на конечных устройствах, это хорошо. У него есть свое тонкое место, о котором разработчики ПО раньше помнили, а теперь забыли. Когда еще интернета было маловато, и люди в основном устанавливали ПО путем исполнения установочного файла.
Был такой установщик, какой-нибудь install.exe. Его запускаешь, и он что-то тебе на компьютер устанавливает. Сейчас мы про него немножко позабыли, потому что ПО все как-то в браузере. Но те, кто в ту эпоху занимались разработкой относительно популярного ПО, помнят, какой безумный геморрой – обновлять ПО у 100 000 пользователей. Поскольку, ежели это ПО куда-то на сервер время от времени лазит, у них кто-то обновился, кто-то не обновился. У кого-то обновилось на 2/3 и все кривое. И они тебе пишут: «Почему вся эта фигня не работает?» А просто там что-то с обновлением не так.
Вот тот же самый геморрой случится на конечных устройствах, когда захочется модель какую-то обновить, а с обновлением моделей на конечных устройствах будет такой же геморрой. И поэтому выбор между тем, чтобы модель была на оконечном устройстве отлита в бронзе, обновлялась редко и мучительно, и тем, что ты имеешь геморрой со 100 000 частично обновленных устройств. Альтернативно все-таки заводить поток на центральный сервер и обрабатывать там. А тут получается так, что канал рвется. Когда у тебя 100 000 устройств, у тебя канал это все не пропускает. Поэтому в ближайшей перспективе скорее всего мы будем наблюдать разные вариации лямбда-архитектур распределенных, где часть выполняется на серверах, часть выполняется на оконечных устройствах.
Наша компания пока ни разу не решилась на такое.

Сергей Сычев: Конечные устройства тоже бывают с разной мощностью и разной автономностью.

Николай Михайловский: Понятно, что оконечные устройства, с одной стороны, бывают помощнее, и мощность оконечных устройств и ширина каналов будет последовательно возрастать. А дальше уже будет зависеть от конкретных приложений. То есть снова будут вставать сложные архитектурные выборы между тем, как построить архитектуру. 15 лет не было особых размышлений, как делать архитектуру сети. Сделал веб-систему и поехали. С 2006 года таких мыслей о том, чтобы сделать систему не клиент-серверную вебовскую, не было. А теперь они опять будут.

Сергей Сычев: Все-таки децентрализация – общий тренд. Не только в этой части.

Николай Михайловский: Децентрализация – конечно, но есть нюансы.

Сергей Сычев: Какой модели машинного обучения будут придерживаться в перспективе – с учителем, без учителя? С подкреплением?

Николай Михайловский: Что лучше – яблоки или помидоры? Всякому подходу обучения с учителем и обучению без учителя соответствуют определенные преимущества и определенные недостатки.
В некоторых областях разметка данных очень дорогая. Например, распознавание речи – одна из таких областей, где безумно, бессмысленно дорого размечать данные. Поэтому в таких областях выигрывают те, кто придумывает либо дешевый способ получить размеченные данные, либо способ обучиться на неразмеченных данных. Вероятно, вы знаете, что в вычислительной лингвистике плюс-минус все сейчас построено на больших нейронных языковых моделях.
Величие этих моделей состоит в том, что они могут что-то интересное выучить на неразмеченных данных, а потом на маленьком количестве размеченных данных получить хороший практический результат. И таким образом существенно удешевляется решение любых вычислительно-лингвистических задач. В том же распознавании речи попытки сделать аналогичный ход, научить систему чему-то хорошему на неразмеченных данных, имеют значительно меньший успех. Там имеется wav2vec 2.0, который действительно учит. Это фейсбуковский, а у Google HuBERT. И тот, и другой для решения практических задач пока приспособлены довольно ограниченно. Такой вот домен распознавания речи.
Везде, где возможно, надо либо придумать, как дешево собрать размеченные данные, либо как обучиться на неразмеченных данных. И конечно, лучше всяким разным вещам учиться на неразмеченных данных или учиться на размеченных данных неких стандартных, а дальше модель напильничком подпиливать. То есть всякие визуальные модели обучены на стандартном ImageNet или еще чем-то типа него, а дальше напильничком подправлено и решает какую-то практическую задачу.
Размеченные данные, неразмеченные данные – главное извлечь много информации из дешевых данных.

Сергей Сычев: Получается, неважно, с учителем или без, главная задача — максимально быстро из максимально несогласованных данных получить максимально точный результат. Если в моменте нужен учитель, то с учителем. Если можно без учителя, то развитие пойдет по другому пути.

Николай Михайловский: Ну да. При этом reinforcement learning, с одной стороны, стоит немножечко сбоку по характеру решаемых задач, в основном относящихся к области условной робототехники и поведенческого моделирования – игры, еще что-то такое. С другой стороны, в некотором смысле установлена эквивалентность между reinforcement learning и большими языковыми моделями. В некотором немножко обобщенном смысле это одно и то же. Как оно будет развиваться, пока непонятно.
Но для меня важная штука, показательная – это то, что во многих случаях эффективны оказываются не нейросетевые, а прямо оптимизационные модели. Просто сейчас уже большое количество людей отучилось думать чем-то кроме нейросетей, в смысле в терминах иных, нежели чем нейросети. Тем не менее прямые оптимизационные модели, с одной стороны, а) когда кто-нибудь их сделал, неожиданно выстреливают, а б) сохраняют свое лидерство в течение многих лет.
Старый пример – это GloVe, когда эмбеддинг для векторов языка, который в Стэнфорде сделали чисто оптимизационный, без всяких нейронных сетей, просто за счет оптимизации функции аналогии между словами, и этими векторами GloVe с 2014 года, когда вышла статья, до 2017 года, когда появились трансформеры, все пользовались, потому что они были лучше, чем нейронные.
Точно так же буквально в конце прошлого года для neural radiance fields (для способа построения трехмерных картин по картинкам)… В общем, там свой технологический взрыв идет. Можно строить трехмерные объекты по картинке. Не стереозрением, когда мы несколько картин одного и того же видим с разных точек и вычисляем трехмерную картину, а сначала придумали, что нейросеть может взять и посчитать, одним глазом посмотрев на окружающее, трехмерную картину мира довольно точно.
А потом в конце прошлого года под самый Новый год вышла работа, где то же самое в 1000 раз быстрее, без всяких нейронных сетей предложили считать. Чисто оптимизационную задачу решили и все.
И я подозреваю, что для многих задач имеются два альтернативных тренда. Один альтернативный тренд состоит в том, чтобы взять что-нибудь готовое и быстренько получить некий результат. Один говорит: берешь стандартный Yolo v7, на маленьком датасете обучаешь – у тебя в изображении объекты выделились, все. А другой тренд говорит, что если приложить некие ментальные усилия, то можно те же результаты на уровне state of the art нейронных сети получить, прямо решая эту задачу, и будет тот же результат. Но это самостоятельная наука, уже не инженерная. Недостаточно уметь 5 строчек на Python написать.