Индустрия | Компания НТР

Научно-технический вебинар «Генеративные модели в науке и индустрии»

Модератор Модераторов — Wed, 21 Jun 2023 07:57:44 +0000

Спикер о вебинаре:
Генеративные модели являются одной из передовых областей в машинном обучении. Они в первую очередь ассоциируются с изображениями и получили общемировую популярность благодаря сетям для генерации изображений по текстовому описанию: Dall-E, Imagen, Stable Diffusion, и Midjourney.
Но в этом докладе мы не будем говорить про картинки, а обсудим применения в естественных науках и индустриальных приложениях.
Мы рассмотрим как генеративно-состязательные сети помогают ускорить симуляцию откликов в детекторах экспериментов физики высоких энергий; как нормализационные потоки могут использоваться для поиска Новой физики на Большом адронном коллайдере; как они помогают астрономам изучать сверхновые и решать обратные задачи по реконструкции параметров солнечной атмосферы и некоторые другие приложения. В заключение рассмотрим несколько примеров из индустрии, где генеративные модели используются для моделирования поведения сложных установок и систем.

Презентация: https://drive.google.com/file/d/1YZVwXt7d3PZFYNfyux8xLIyN5Y8j-MD4/view?usp=sharing
Видеозапись: https://youtu.be/_C_aNbydfe0

Расшифровка вебинара:

Меня зовут Михаил Гущин, я старший научный сотрудник лаборатории методов анализа больших данных факультета компьютерных наук Высшей школы экономики. И сегодня на этом вебинаре я бы хотел обсудить с вами генеративные модели, а именно их применение в науке и индустрии.
Итак, мы сегодня будем говорить про генеративные модели и то, как их уже применяют в других местах и как именно их применяют. Когда мы говорим про генеративные модели, то прежде всего мы ассоциируем их с моделями по генерации изображений, по их текстовому описанию.
Например, нейронная сеть DALL-E от OpenAI, DALL-E-2. Мы можем вспомнить примеры недавние от СБЕР, которые выпустил Kandinsky, который тоже умеет генерировать красивые картинки. Также, это уже тренд, наверное, последних полугода, с генеративным искусственным интеллектом у нас еще также ассоциируется chat-GPT.
Gpt3, который там умеет чуть ли не все. И очень много где, во многих местах, где вы можете услышать про генеративные модели, в основном будут говорить про вот эти две темы. Про то, как генерируем картинки, про то, как генерируем тексты. Иногда можно встретить про то, как генеративная модель используются для генерации звука.
Даже у нас в России есть коллективы, которые занимаются именно этой задачей. Она тоже является одной из таких популярных. Но в этом докладе я хочу поговорить про другие темы, которые зачастую не раскрываются на вебинарах, семинарах и лекциях. Я не буду сегодня говорить про картинки, про генерацию картинок совсем.
Я не буду говорить про генерацию текстов тоже совсем. И про звук тоже не буду говорить. Я сегодня познакомлю вас с несколькими примерами из естественных наук, из астрономии, из астрофизики, из физики высоких энергий, где генеративные модели уже используются прямо сейчас. Используются активно, можно сказать, в продакшне, как говорится, и помогают уже ученым совершать научные открытия.
Также, уже ближе к концу доклада, мы немного поговорим про то, где генеративные модели могут применяться в индустриальных задачах. И вообще, в целом, какие задачи мы можем решать с помощью генеративных моделей.
И в самом-самом конце я вам покажу такую маленькую демонстрацию того, как вы можете попробовать применить генеративные модели для решения своих задач у себя компании, в университете, прямо сегодня, то есть взять какую-то простую генеративную модель и решить свою задачу и посмотреть, понравится вам или нет.
Прежде чем я перейду к конкретным примерам, я хочу просто кратко напомнить, какие бывают генеративные модели, просто чтобы напомнить. Если вы знаете про все эти генеративные модели, здорово, значит, вам будет легко понимать все, что будет происходить дальше.
Если вы с ними не знакомы, то не переживайте, у нас такой научно-популярный сегодня доклад, вам тоже будет все понятно. Если выделять так вот в целом и грубо, то можно выделить 4 основных типа генеративных моделей, которые вот сейчас наиболее популярны. Первый тип это вариационные автокодировщики. Они, пожалуй, появились раньше всех. По-моему, первая статья в 2012 году была опубликована.
Типичная архитектура вариационного кодировщика состоит из кодировщика и декодировщика, который сжимает наши данные в какое-то скрытое пространство z, кодирует его, и декодировщик его декодирует обратно. И мы хотим, чтобы x» был максимально близок к x. При этом они будут чуть-чуть отличаться, но так, чтобы распределения их совпадали. Потом, следуя хронологии, появились ганы, генеративно-состязательные сети.
Они состоят уже из двух сетей, генератора, который из шума генерирует нам новые наблюдения, и дискриминатора, который проверяет, насколько сгенерированные объекты похожи на реальные. Дискриминатор — это фактически обычный классификатор. И вот, пожалуй, наверное, с ганов начался вот этот бум, потому что ганы показали отличное качество генерации изображений и до сих пор улучшают.
Затем появились нарезумпционные потоки, которые учат обратимое преобразование наших данных в какой-то шум, в какое-то скрытое представление с известным нам распределением.
И зная это преобразование, по обратному преобразованию мы можем из шума нагенерировать новые объекты, которые будут похожи на наши изначальные даты. И вот совсем новая тема — это диффузионные модели. Они тоже состоят… они чем-то похожи на нормализующие потоки. Ну, конечно, математика чуть-чуть другая. Сейчас диффузионные модели считаются лучшими моделями в плане качества генерации изображений.
Посмотрим, что будет дальше, сохранят ли они первенство либо найдется какая-нибудь еще модель. Если вы не знакомы с генеративными моделями, то важно понимать про них следующее, что генеративные модели принимают на вход выборку данных и учат явное либо неявное распределение, которым описываются эти данные.
И затем из этого распределения они могут сэмплировать новые объекты, которые будут похожи на оригинальные данные, но не совпадать с ними точно. И таким образом мы можем нагенерировать любой объем вот этих синтетических данных. И вот этим мы будем пользоваться дальше. И первую группу примеров, которые я хочу раскрыть, это астрономия.
В астрономии есть несколько задач, несколько таких направлений, где генеративные модели активно используются. И первая из таких задач — это реконструкция параметров солнечной атмосферы. То есть есть телескоп, который наблюдает за нашим солнцем. Эти телескопы обычно небольшие, потому что света от солнца достаточно. И они просто наблюдают, снимают поток света от солнца и записывают спектры, которые они получили.
Эти спектры, их еще называют профилями СТОКСа. И когда мы наблюдаем за солнцем, фактически делаем снимок, фотографию, то для каждого пикселя вот этой фотографии у нас есть вот таких четыре профиля стокса, которые описывают все процессы, происходящие внутри, которые доступны для наблюдения.
И задача заключается в том, чтобы по этим профилям восстановить параметры того, что происходит на поверхности самого Солнца, в его атмосфере. Что это за параметры прежде всего это магнитное поле его величина его направление также это температура, например, да и некоторые другие параметры всего их 11 штук и это решают обычными
автокодировщиками архитектура похожа на юнет сеть то есть на вход мы понимаем для каждого пикселя мы принимаем профиль стокса, а на выходе мы получаем картинку с 11 каналами, где каждый канал отвечает за какой-то один параметр. И здесь приведены, например, 9 таких картинок. То есть это реально фотографии поверхности Солнца. Где здесь можно применять генеративные модели?
Оказывается, что эту же задачу можно решать не обычными юнет-архитектурами, а можно решать с помощью генеративных моделей. В частности, можно взять нормализующий поток, как авторы этой статьи. На вход потоку передают все те же профили стокса, а на выходе они также предсказывают значение 11 параметров.
Но теперь, поскольку это генеративная модель, они для каждого пикселя могут сгенерировать множество значений этих параметров и тем самым восстановить распределение возможных значений каждого параметра в данном конкретном пикселе.
И вот здесь как раз представлено, оранжевым — это распределение, которое получили с помощью нейронной сети, коричневым — это распределение, которое получается из Монда-Карло симуляции для проверки, а точка — это то реальное значение, которое получается. Мы видим, что нейронные сети с высокой точностью восстанавливают подобное распределение. Здесь как раз представлены картинки.
Вот здесь, например, это температура на поверхности, Вот здесь температура на поверхности, а вот это как раз неопределенность, а вот этой определенной температуры, которую мы получили с помощью генеративной модели. Еще одна тема, очень популярная в последние годы, это гравитационные волны. Кратко, что это такое, напомню.
Мы все с вами знаем, что есть электромагнитные волны, с помощью которых это то, как распространяется свет. И было предсказано теоретически, что гравитация тоже может распространяться волнами. Но еще 10 лет назад этот эффект не был измерен экспериментально. Теория была, а эксперимента не было. И ученые уже на протяжении многих десятков лет пытаются как раз поймать вот эти гравитационные волны.
И у них это получилось относительно недавно, всего несколько лет назад. Как они это делали? Предполагается, что… То есть мы наблюдаем за тяжелыми объектами в космосе, это обычно парные черные дыры.
То есть два массивных объекта, которые вращаются вокруг общего центра масс, и во время такого вращения они как раз и спускают гравитационные волны, которые доходят до нас. И мы их будем ловить следующим способом. Мы знаем, что поскольку гравитация меняется, то меняется сила тяжести, можно сказать, и вот этот эффект мы можем промерить. Для этого был собран ЛИГО, такой детектор, который состоит из двух перпендикулярных колен.
В каждом колене стоят лазеры, которые интерферируют друг с другом на мишене. Идея в следующем, что когда до нас доходит гравитационная волна, то каждое из этих колен деформируется чуть-чуть по-разному.
В результате набегает разность фаз между лазерными лучами, и мы видим смещение интерфекционной картины. И вот наблюдая за этим смещением, мы получаем вот такой сигнал, который изображен вот здесь, на этой картинке. И что этот сигнал нам говорит? Он говорит, что, когда массивные тела вращаются более-менее с постоянным периодом, мы наблюдаем какой-то периодический сигнал.
По мере их сближения, частота колебаний увеличивается, и в момент, когда эти два массивных тела коллапсируют, то есть сливаются в одно, мы наблюдаем как раз такой всплеск гравитационных волн, и затем, когда они уже слились полностью, образовали один объект, гравитационная волна полностью исчезает.
И именно за наблюдение вот такого сигнала, за возможность его наблюдения была дана Нобелевская периода, где здесь использовались генеративные модели. Они как раз используются для того, чтобы восстанавливать параметры двойных черных дыр по сигналу, который
мы наблюдаем Земли, и для того, чтобы находить не только это значение, но и оценивать распределение невозможных значений этих параметров, чтобы оценить довелительный интервал. Что здесь происходило? Они тоже брали либо сверточные условные автокодировщики, либо нормализующие потоки. На вход подавали сигнал, который они наблюдают с земли.
Синим как раз показан реальный сигнал, который они наблюдают вместе с шумами. И на выходе генеративной модели они как раз получают распределение возможных значений и параметров черной дыры. Таких параметров пять, например, это масса одной черной дыры, масса другой черной дыры в солнечных массах, затем время, когда они сливаются и другие какие-то параметры.
Всего 5. Каждый имеет свою физическую природу. И здесь мы тоже видим, что если мы сравниваем нейронную сеть и симуляцию честную физическую, то мы видим отличное совпадение, то есть мы видим, что генеративные модели действительно могут учить распределение такой сложной природы.
И на сегодняшний момент, кстати, мы уже наблюдаем очень много таких парных черных дыр, здесь приведена иллюстрация того, что мы уже пронаблюдали, и для каждой такой пары мы уже знаем ее свойства с каким-то доверительный материал, конечно же.
Еще одна задача из астрономии — это классификация сверхновых. Все мы с вами видели вот такие красивые картинки из телескопа Хаббла, и еще более красочные и детальные с телескопа Джеймса Уэбба, и на самом деле все вот
эти красивые картинки, многие из них, они соответствуют какой-то сверхновой звезде, то есть взрыву сверхновой. И оказывается, что есть разные типы сверхновых. Они обычно отличаются по химическому составу в спектре их излучения, а также они отличаются по тому, как именно они образовывались, как именно они взрывались.
Например, есть сверхновые, которые образовались в результате термоядерного взрыва, их еще называют 1А. А есть много сверхновых, которые образовались в результате сжатия ядра, то есть часть звезды сжалась внутрь, и за счет высвобожденной энергии внешняя оболочка разлетается.
Это уже другие типы сверхновых, их тоже бывает много. И дальше их уже можно внутри отличать по химическому составу. Есть кремнии, в спектре нету, есть гелии, либо нету, линии широкие, либо узкие и так далее. Но различать по химическому составу это долго и дорого. Их еще можно различать с помощью кривых блеска, так называемых.
Это когда у вас есть телескоп, и вы просто наблюдаете за звездой и записываете, сколько света до вас доходит, и строите зависимость от времени. Сверхновые имеют свойство менять свою светимость в зависимости от времени. И вот эта зависимость называется кривой блеска. И вот оказывается, что по форме этих кривых мы тоже можем отличить типы.
Здесь представлены как раз кривые блеска для совершенно разных типов сверхновых. Современные телескопы наблюдают миллионы звезд каждую ночь, и нужно уметь идентифицировать их типы на ходу, очень быстро.
Для этого используются алгоритмы машинного обучения, то есть это задача классификации, и общий pipeline выглядит следующим образом. У вас есть кривые блеска для одной какой-то звезды в разных спектрах, в разных фильтрах. Здесь, например, изображено шесть фильтров, то есть шесть таких вот кривых.
Наблюдения могут быть нерегулярными, потому что погода может быть плохая, телескоп может сломаться, либо телескоп просто смотрит в другую часть неба в эту ночь. И для модели машинного обучения это не очень хорошо, поэтому обычно сначала вот эти наблюдения как-то аппроксимируют либо аугментируют, то есть с помощью какой-то модели,
фитируют какую-то модель и получают какое-то непрерывное представление кривой блеска затем вот это непрерывное представление мы можем трансформировать в нужный нам формат данных в зависимости от метода который мы используем например мы можем получить картинку одномерную картинку с шестью фильтрами и затем использовать сверточные сети для того чтобы решить задачу классификации определить тип сверкнул
Так вот, оказывается, что качество вот этой классификации очень сильно зависит от того, как именно мы интерполировали, аппроксимировали наши кривые блеска. И до недавнего момента State of the Art здесь были гауссовские процессы. То есть мы просто брали наблюдения и фитировали гаусским процессом все, что у нас есть.
Вот такой результат мы можем получить, если мы возьмем вот такую кривую блеска из двух фильтров. И вот в этой работе было показано, что оказывается мы можем это делать не только с гаусскими процессами, мы можем это делать с помощью небольших нейронных сетей. Повторюсь, что здесь вот каждая нейронная сеть будет опучаться только на одной кривой блеска, то есть данных на самом деле мало.
Но, тем не менее, нейронные сети отлично с этим справляются, в том числе отлично с этим справляются генеративные модели. Они могут выучить не только среднее значение наблюдаемых величин, но также могут предсказать неопределенность или погрешность измерений в каждой точке.
И по скорости, кстати, некоторые нейронные сети будут даже быстрее гаусских процессов. Это еще один пример, где генеративные модели машинного обучения используются в астрономии. Дальше я бы хотел еще рассказать про пару примеров из физики высоких энергий.
Для начала кратко, что такое физика высоких энергий и что там вообще происходит, что она изучает. Я буду сегодня рассказывать про эксперименты LHCb. Это один из четырех экспериментов на Большом Адронном Коллайдере на границе Франции и Швейцарии.
Наша лаборатория является членом этой коллаборации. И физика высоких энергий, если кратко, она занимается изучением стандартной модели. А стандартная модель описывает то, из чего состоит все в этой вселенной. То есть вся стандартная модель изображена на самом деле вот в этой табличке.
Что-то очень похоже на таблицу Менделеева, но только самых элементарных частиц. С некоторыми из них вы уже знакомы, например, электрон или фотон. Но есть еще другие элементарные частицы, из которых состоят протоны, нейтроны и так далее. За открытие последней такой частицы, за открытие бозона Хиггса, дали Нобелевскую премию, по-моему, в 2012 году как раз.
Это то, ради чего большой адронный коллайдер и строился. Как происходит изучение? По большому адронному коллайдеру движутся навстречу два протонных пучка, один и второй. Когда они сталкиваются, а сталкиваются они в центре экспериментов LHCb, Atlas, ELLIS и CMS, то в процессе столкновения возникает множество других частиц, которые в свою очередь распадаются на другие частицы.
И вот ученые записывают все эти распады, все образовавшиеся частицы, восстанавливают их распады, и по этим распадам они делают выводы о том, какая физика вообще есть, по какой физике происходят эти распады, и какие есть вообще элементарные частицы.
Вот здесь приведен пример одного из детекторов, который работает на одном из экспериментов. Это детектор Atlas. Он имеет высоту примерно 25 метров и длину 44 метра. Вот здесь для сравнения изображены фигурки людей.
Вот здесь и вот здесь внизу. Чтобы представить масштабы вот этих установок. Которые по сути являются таким большим фотоаппаратом, который фотографирует элементарные частицы, которые распадаются и образуются в результате столкновений протонов.
Он состоит из многих частей, нам сейчас не очень важно понимать, что каждая часть делает, но нам важно понимать что когда протоны сталкиваются и образуются вот эти частицы вторичные, то они пролетают через различные сенсоры вот этого детектора, и мы записываем как раз вот эти отклики сенсоров. Здесь линиями как раз на этой схеме изображены частицы, а разноцветными квадратиками показаны отклики различных сенсоров этого детектора.
Так, у нас вопрос в чате. А зачем пересказывать по колебаниям распределение значений, если их можно померять эмпирически? Ведь мы это как-то получили для обучающего выборки. Да, Николай, большое спасибо за вопрос. Поскольку мы уже проехали эту тему, давайте я тогда отвечу на него уже после доклада, хорошо?
Чтобы не возвращаться, возвращаясь к детектору, то есть мы записываем вот эти отклики сенсоров и по ним мы восстанавливаем все вот эти частицы их распады как происходит как происходит поиск новой физике.
Вот есть стандартная модель, которая описывает всю физику, которую мы знаем. В том числе она описывает все возможные распады всех частиц, которые мы знаем. И вот если мы попытаемся построить распределение параметров частиц, то в каком-то пространстве, то многомерном, то окажется, что здесь пример картинки.
Многомерное пространство, мы смотрим на проекцию по массе частиц, здесь m — это масса искомой частицы, например, новый, то окажется, что красное распределение — это все частицы, все распады, которые описываются известной нам физикой, то есть известной нам стандартной моделью.
Но может произойти так, что в каком-то регионе у нас реальных наблюдений из эксперимента, из детектора может оказаться чуть-чуть больше, чем нам говорит стандартная модель. И вот это отклонение и есть новая физика. Синенький бамп, горбик, он отвечает как раз за новую физику.
И если очень грубо говорить, то ученые занимаются тем, что они занимаются поиском таких регионов, где реальные наблюдения не сходятся с прогнозом стандартной модели. Как только они это находят, они объявляют о новом научном открытии, и мы с вами все равнимся. Как здесь можно использовать генеративные модели? Мы предполагаем, что в этом регионе есть новая физика, то есть есть отклонение от стандартной модели.
К сожалению, мы вот это красное распределение с вами не знаем. Мы его можем оценить, но мы его не знаем точно. То есть у нас нет разделения на синий и красный. Но мы, например, знаем, что вот мы можем предполагать, что вот в этом регионе, вот здесь и вот здесь по краям новой физики мы не ожидаем.
Поэтому мы можем выучить генеративную модель, которая выучит нам распределение, вот это красное распределение. Затем с помощью обученной модели мы интерполируем это красное распределение в интересующий нас регион, сигнальный регион так называемый. И затем мы сравним то, что дает нам генеративная модель, с тем, что мы реально наблюдаем на детекторе.
И если мы наблюдаем отклонения, значит, мы нашли новую физику. Примерно такой подход сейчас исследуют физики, он пока еще на стадии исследования, он не работает в PRODE, в PRODE работают другие методы, но это один из таких перспективных подходов. Еще одна задача, которая используется уже практически в продакшене, то есть используется в реальных научных исследованиях, это быстрая симуляция.
В чем она состоит? Если мы возьмем различные типы частиц и посмотрим, как они проходят через различные сенсоры детектора, то мы увидим следующую картинку.
Например, давайте возьмем электрон красненький. Он проходит через первый ряд сенсоров, оставляет свои отклики, доходит до электромагнитного колориметра и полностью поглощается. При этом в колориметре образуется какой-то ливень частиц, который мы тоже регистрируем.
Если мы посмотрим на нейтрон, то трекер проходит, не задевая его, потому что он нейтральный, он проходит электромагнитный калориметр, но полностью поглощается адронным калориметром. Тоже образуется ливень, который мы регистрируем. Для того, чтобы делать научные исследования для того, чтобы как-то оценивать, что нам выдает, для того,
чтобы оценивать красное распределение стандартной модели, нам требуется подробная физическая симуляция всех физических процессов, которые мы знаем, и всего детектора. Мы честно моделируем пролет каждой частицы через каждый сенсор, честно записываем все отклики, честно это все сохраняем и потом уже делаем какие-то дальнейшие выводы в дальнейших шагах анализа.
Этот процесс очень трудоемкий, он требует большого количества вычислительных ресурсов. И возникло предположение, что, наверное, с помощью генеративных моделей мы можем ускорить эту симуляцию, то есть мы можем взять реальный физический симулятор, нагенерировать какую-то выборку и на этой выборке обучить генеративную модель, которая будет решать эту же задачу, но только в сотни раз быстрее. Так оно и получилось. Как это было? Как общая архитектура всех таких генеративных моделей в этой задаче. Есть нейронная сеть, которую мы называем генератор, которая на вход принимает параметры, входящих в сенсор частиц.
Это параметры заряд частицы, плюс либо минус, либо ноль, импульс этой частицы, то есть три компонента импульса, направление и величина. Тип этой частицы, то есть что это? Это был электрон, это был протон, это был фотон, нейтрон, каон, какое-то количество этих типов.
И вот по этим параметрам нам нужно, вот эта нейронная сеть генерирует нам отклик, то есть возможный отклик колориметра. Эти отклики можно представить в виде вот таких вот картинок, то есть это вот этот ливень как бы в поперечном разрезе. Затем мы берем вот эти синтетические отклики и сравниваем их с реальными, то что нам выдала настоящая сложная физическая, но медленная симуляция.
Мы сравниваем с помощью другой нейронной сети, которая называется дискриминатор, и которая говорит нам, насколько синтетические отклики похожи на реальные. Мы обучаем обе эти сети до тех пор, пока синтетика не станет похожей на реальность.
Это получается уже неплохо, и с каждым разом получается все лучше и лучше. Здесь представлены примеры. Верхняя строчка — это как раз примеры подробной физической симуляции, которая называется Gen4. А внизу представлены результаты нейронной сети. Мы видим визуально, что отклики очень похожи, но нейронная сеть делает это в сотни раз быстрее.
Если проводить какие-то дополнительные тесты, например, сравнивать распределение по каким-то статистикам, которые мы можем получить из откликов, то в целом мы видим, что распределения тоже совпадают, но в некоторых случаях есть небольшие отклонения, с которыми сейчас пытаются бороться, И на текущий момент, на сегодняшний день есть работы, где вот этих отклонений уже практически нет.
В многих экспериментах, например. Так тут вопрос, а зачем нам симуляции, у нас же есть реальные данные, разве нет? Да, есть. Но вот реальные данные, они содержат в себе как известную нам физику, так и новую физику. А симуляция нам дает только известную нам физику.
И вот сравнивая известную физику и известную плюс новую, мы можем найти разность и можем сказать, что вот мы нашли вот эту новую физику. Если бы у нас не было симуляции, то мы бы не смогли разделить то, что мы уже знаем, от того, чего мы еще не знаем. И, соответственно, ничего бы мы открыть не смогли бы.
Вот если очень кратко, и на самом деле, вот быстрая симуляция откликов, не только колориметров, но и других сенсоров, других датчиков, детекторов, это очень такая горячая тема именно в физике высоких энергий на Большом адронном коллайдере и не только в других странах тоже, поскольку она действительно помогает экономить очень много вычислительных ресурсов и соответственно очень много денег. Для сравнения, только за электричество для большого адронного коллайдера ЦЕРН платит порядка 100 млн евро в год.
И это электричество в том числе уходит на вычислительные центры для того, чтобы считать симуляции. А симуляции составляют примерно 20% от всех ресурсов. Представьте, что нейронные сети, даже если вам в 10 раз все позволяют ускорить, вы уже экономите десятки миллионов евро в год просто на нейронных сетях.
И вот подобные примеры, подобные приложения мы можем найти не только в каких-то других естественных науках, в других экспериментах, но также и в индустрии, поскольку что в астрономии, что в физике высоких энергий, нам приходится иметь дело с какими-то большими датчиками, с большими детекторами, которые очень сложно устроены. И примерно то же самое есть в крупных компаниях.
И я здесь расскажу один из наших недавних проектов. Это как раз моделирование производительности систем хранения данных. Мы взяли реальную систему хранения, которая состояла из различных дисков. Это HDD диски, это SSD диски, которые организованы в пулы хранения под RAID, с различными RAID схемами.
Также в системе хранения есть кэш, который позволяет ускорить операции чтения и записи наиболее популярных кусков информации, ну и конечно же есть контроллеры хранения, то есть это какие-то процессоры, которые, собственно, обрабатывают все вот эти запросы.
Наша задача заключалась в том, чтобы по параметрам внешней нагрузки и по параметрам конфигурации нашей системы хранения предсказать, сколько информации в секунду наша система сможет записывать или читать, и с какой задержкой у нас будет происходить каждый запрос. Эту задачу мы решали тоже с помощью генеративных моделей, так называемых условно-генеративных моделей. На самом деле все, что я рассказывал выше, это тоже условно-генеративная модель.
На вход мы подавали нашей модели параметры нагрузки, то есть, например, размер блока, доля операции чтения и записи, размер очереди, с которым мы подаем нашу нагрузку, количество потоков параллельных, через которые мы эту нагрузку тоже подаем, также подавали некоторые параметры
конфигурации, такие как rate-схема, которая задается двумя числами, k плюс m, 8 плюс 2, например, или 4 плюс 1 и сколько у нас дисков в общем было в пулах. И на выходе мы просим предсказать нашу генеративную модель распределения параметров производительности для вот каждого входа.
Производительность мы измеряли в количестве операции, input-output операции в секунду и задержку, среднюю задержку одной такой операции. Вот здесь на картиночке как раз приведены примеры таких распределений для каких-то входных параметров. Синеньким здесь показано то, что мы реально измерили на нашей системе, а оранжевыми крестиками показано то, что предсказывает наша модель.
При этом это прогнозы для тех параметров, которые модель не видела в обучающей выборке, то честный честный тест на неизвестных значениях. Если подробно вот тут еще приведен я привел два примера уже с деталями того что именно было подано на вход.
Первый пример — это распределение параметров производительности для HDDPU, а второй пример для SSDPU, то есть уже другие диски с другой физикой внутри, и здесь приведены входные параметры. То есть мы подали вот такие входные параметры на вход нашей сети и получили такие распределения. Мы тоже видим здесь, что прогнозы хорошо согласуются с реальными наблюдениями.
То есть это работает, и работает хорошо. И мы можем оценить не только среднюю производительность, но мы можем также оценить то, как эта производительность может меняться, то есть разброс вот этой производительности, потому что это всегда какой-то стокхастичный процесс. У нас все всегда меняется, что-то меняется внутри дисков, что-то меняется в нашей логике софтверной внутри. Это все сказывается на итоговой производительности, и все это нейронная сеть генеративная может выучить напрямую из данных.
Нам думать про все физические процессы внутри абсолютно не нужно. И в конце я бы немного хотел поговорить с вами о том, где в целом мы можем использовать генеративные модели и как именно.
Все примеры, которые я показал здесь, они из естественных наук, из каких-то избранных индустриальных приложений, и возможно, не все из вас занимаются похожими проектами, потому что у каждого есть свои проекты, они уникальны по постановке задачи, по данным и вообще по методам решения.
Так вот, оказывается, что если мы посмотрим на все вот эти примеры выше и попытаемся обобщить, то оказывается, что мы можем применять генеративные модели в тех же задачах, где мы применяем обычные нейронные сети либо обычные классические модели машинного обучения, например, CatBoost, XGBoost и так далее.
То есть мы можем с помощью генеративных моделей решать задачи в регрессии, только в этом случае мы будем получать в качестве прогноза не только среднее значение y, которое мы хотим предсказать, но мы сможем также получать доберительные интервалы или погрешности вот этих прогнозов, потому что генеративная сеть выучит нам прям распределение этих y, а не только их среднее значение.
С таким же успехом мы можем применять для решения задачи классификации, и тоже генеративная модель сможет нам выдать неопределенность нашего прогноза. Мы можем использовать для поиска аномалий, как это было сделано, например, в физике высоких энергий.
Мы учим распределение нормальных данных, и все, что плохо описывается этим распределением, мы можем списать на аномалии либо на какие-то новые наблюдения в наших данных. Да, у нас вопрос, разве обычные классификаторы не имеют некий конфиденц тоже? Ну, скажем так, обычные классификаторы, ну прям обычные, которые мы учим где-нибудь на курсах, они из коробки не умеют.
Для того, чтобы вы получили какой-то конфиденц, вам нужно либо добавлять какую-то голову, то есть условно, чтобы нейронная сеть предсказывала вам еще и сигму. И вы обычно тогда считаете, что y распределен по нормальному закону, с каким-то средним μ и с какой-то σ. Но гарантии того, что у вас действительно все распределено по нормальному закону, у вас нет. А генеративная модель не требует этого предположения.
Если нормальный закон, здорово, значит обучимся быстро. Если это какое-то очень сложное распределение с длинными хвостами, ну ладно, чуть-чуть больше эпох нам нужно будет, чтобы выучить этот длинный хвост, но мы его сами выучим. И от data-scientist, от ML-инженера не потребуется никаких действий для этого. Генеративная модель сама выучит нужное распределение, сама все сделает за вас.
Да есть конечно другие методы как можно получить неопределенность там например с помощью dropout или с помощью ансамблевых методов да можно, но в зависимости от того какой вы метод выберите у вас у вас будет немножечко другой смысл вот этой неопределенности и более того те же самые методы вы можете применить и генеративную модель там тоже может быть dropout там тоже можно делать ансамбли, но генеративная модель выдает вам прям целое распределение ваших игреков для заданного икса, а не только одну точную оценку.

The post Научно-технический вебинар «Генеративные модели в науке и индустрии» first appeared on Компания НТР.

Научно-технический вебинар «Медицинская диагностика на основе спектрального анализа выдыхаемого воздуха методом лазерной фото-акустической спектроскопии и машинного обучения»

Модератор Модераторов — Fri, 07 Apr 2023 09:28:14 +0000

Спикер о вебинаре:
В докладе будут обсуждаться методические и технические проблемы, связанные с реализацией метода медицинской неинвазивной экспресс-диагностики на основе спектрального анализа выдыхаемого воздуха. Будут обсуждаться подходы к решению указанных проблем. Будут представлены результаты реализации данного метода медицинской диагностики рака легких и острого инфаркта миокарда.

Дополнительные материалы:
ИИ научили выявлять инфаркт миокарда по «летучим» биомаркерам

Видео: https://youtu.be/HngCH5Ai-8A
Презентация: Опубликована не будет

The post Научно-технический вебинар «Медицинская диагностика на основе спектрального анализа выдыхаемого воздуха методом лазерной фото-акустической спектроскопии и машинного обучения» first appeared on Компания НТР.

Научно-технический вебинар «Трехмерная реконструкция тела человека с использованием SMPL модели»

Модератор Модераторов — Wed, 31 Aug 2022 08:13:17 +0000

Спикер о вебинаре:
В этом докладе будет рассказано про модель SMPL (Skinned Multi-Person Linear Model). Эта модель представляет телосложение и позу человека как набор параметров в низкоразмерном пространстве, которые затем можно отобразить в 3D-сетку человеческого тела. Мы рассмотрим, как работает эта модель и как она может быть использована в задачах реконструкции тела человека.

Ссылка на статью: https://arxiv.org/abs/2112.04203

Видеозапись: https://youtu.be/mcR1njLus3U

Презентация: https://drive.google.com/file/d/1Q_id_U93yX80zTtZuGCjdQj2679HrZ0i/view?usp=sharing

The post Научно-технический вебинар «Трехмерная реконструкция тела человека с использованием SMPL модели» first appeared on Компания НТР.

Конференция «У лояльных хмурый день светлей. Как B2C бизнесу инвестировать в лояльность с пользой в 2021?»

Alexandra Koroleva — Thu, 21 Oct 2021 10:41:27 +0000

9 сентября Цифровой Директор, медиапроект компаний НТР и Userstory, проведет конференцию на тему программ лояльности 2021 года.

На конференции мы обсудим:

Трансформация смысла. Что значит лояльность в 2021?
Что в 2021 вкладывается в понятие «эффективная система лояльности»?
Как считать эффективность системы лояльности?
Зачем компаниям инвестировать в лояльность в 2021?
Чему уделить особое внимание, создавая систему лояльности в 2021?
Коммуникация. Как добиться максимального охвата?
Роль big data и персонализации в программах лояльности.
Как вместо ненавистного спамера быть любимым брендом?

Формат: гибридный (офлайн + онлайн-трансляция)

Когда: 9 сентября, 19:00 — 23:00.

Где: Государственная публичная научно-техническая библиотека России, ул. 3-я Хорошевская, 17, г. Москва. + Zoom.

Аудитория: директора по маркетингу, руководители программ лояльности и CRM, руководители направления клиентского опыта, IT-директора, директора по развитию, директора по цифровой трансформации.

Докладчики и темы выступлений

От программы лояльности к персонализированным коммуникациям и клиентскому опыту. — Илья Усович, руководитель CRM и программы лояльности, Hoff.
Портрет клиента 360 градусов: как знание о клиенте окупает программу лояльности. — Андрей Кудрин, руководитель программы лояльности, Восточный Союз.
Рекомендательные алгоритмы в системах лояльности. — Николай Михайловский, генеральный директор, НТР.

Бизнес-дискуссия

В дискуссионной части мероприятия примут участие представители: Яндекс.Лавка, Магнит Доставка, Рольф, Аптека 36,6, Альфа-Банк, Hoff, Восточный союз, Банк Центрокредит, МС “Созвездие” и другие.

А после официальной части будет организован фуршет, где гости за вином и закусками смогут пообщаться неформально, завести полезные знакомства и обменяться опытом.

Участие в конференции офлайн/онлайн бесплатное!

Количество мест для участия в формате офлайн ограничено.

Регистрация и подробности на странице мероприятия:

http://cdto.events/loyalty

Запись: https://youtube.com/playlist?list=PLcjwqhY9G9XCFn6_ug9B-CQG0i0HX55ir

The post Конференция «У лояльных хмурый день светлей. Как B2C бизнесу инвестировать в лояльность с пользой в 2021?» first appeared on Компания НТР.

Конференция “Персонализация в информационных системах”

Alexandra Koroleva — Mon, 09 Aug 2021 10:02:10 +0000

Наступила новая эра развития цифровых сервисов. Персонализация выходит за рамки B2C систем и появляется внутри корпоративных систем — в первую очередь, ориентированных на массовых сотрудников. Персонализованные порталы, персонализованные планы обучения, персонализованные мобильные приложения и т.д. Это связано и с доступностью широкого спектра сервисов для сотрудников предприятия (так что надо парировать информационный перегруз), и с уходом от четко предзаданных ролей в гибких подходах и командах.

20 мая эксперты из крупнейших компаний поделятся своими успехами на поприще персонализации в IT-системах и подискутируют на тему необходимости этого подхода.

Формат конференции: гибридный (участие офлайн + онлайн-трансляция)

Когда: 20 мая 19:00 — 23:00.

Государственная публичная научно-техническая библиотека России, ул. 3-я Хорошевская, 17, г. Москва. + Zoom.

Аудитория: IT-директора, HR-директора ,технические директора, директора по цифровизации, директора по цифровой трансформации и т.д.

Темы выступлений

“Рекомендательные сервисы для обучения сотрудников”.

Светлана Багаева, продакт-менеджер корпоративного Онлайн-университета, Ростелеком.

“Автоматизация персональных траекторий обучения”.

Андрей Скуратов, Начальник управления «Корпоративный университет», Ингосстрах.

“Персонализация в интерфейсах ваших приложений”.

Ян Дорошенко, дизайн-директор, Userstory.

Тема уточняется.

Николай Михайловский, генеральный директор, НТР.

Бизнес-дискуссия

После выступлений докладчиков пройдет дискуссионная часть мероприятия. В дискуссии примут участие представители компаний: Ростелеком, Ингосстрах, Boiron, Гедеон Рихтер, МС “Созвездие”, ФК “Пульс”, НЛМК и другие.

Участие в конференции офлайн/онлайн бесплатное!

Количество мест для участия в формате офлайн ограничено.

Регистрация и подробности на странице мероприятия:

https://cdto.events/personalization-in-information-systems

The post Конференция “Персонализация в информационных системах” first appeared on Компания НТР.

Научно-технический вебинар “Концепция интеллектуального помощника для менеджера IT проектов на основе Essence”

Alexandra Koroleva — Mon, 09 Aug 2021 09:53:52 +0000

Спикер о вебинаре:

Эта работа посвящена вопросу применения прикладных методов, которые должны упростить достаточно сложную область управления ИТ проектам. В вопросах применения прикладных методов, необходимо, чтобы описываемая область получила строгую модель описания на которую можно опираться, для чего предлагается использовать процессы разработки и Essence в качестве одновременно и языка их описания и онтологической модели проекта. Использование Essence как модели описания позволяет получить достаточно строгую модель проекта, к которой применимы прикладные методы. В качестве proof-concept применяются динамические байесовские сети, и решается задача поиска ложнопозитивных ошибок менеджера в Essence Alpha Poker.

Видео: https://youtu.be/paM0cYlI-Ag

Презентация: https://drive.google.com/file/d/1Z29mNQe6syReRNq0htLPY_vGO2kJM2Zi/view?usp=sharing

Cсылка на статью: https://www.researchgate.net/publication/338037221_Implementation_of_Essence_Practice_into_Project_Management_System_Redmine

‍

(00:00:00) (Начало записи)

Николай Михайловский: Добрый день, коллеги. Я Николай Михайловский, генеральный директор компании «НТР», и я приветствую вас на очередном научно-техническом вебинаре, который «НТР» проводит вместе с Высшей IT-школой Томского государственного университета. У нас сегодня Денис Змеев с рассказом про концепцию интеллектуального помощника для менеджера IT-проектов. Это не совсем про нейронные сети, это больше про менеджмент проекта и то, что вокруг него, но и не без интеллектуальных сетей тоже.

Денис, пожалуйста, вам слово.

Денис Змеев: Добрый день/вечер всем, в зависимости от часового пояса. Этот доклад – фактически это результат 5-6-летней работы, которую я вел в своей аспирантуре, начиная с магистратуры, фактически к вопросам, связанным именно с более разумным, правильным и эффективным управлением проектами в программной инженерии на основе процессов разработки.

Сразу оговорюсь, что если мы говорим про практическое применение любого метода, интеллектуального, не интеллектуального, прикладного, не прикладного, то всегда есть такая простая схема. У нас есть что-то в реальном мире типа текущего состояния проекта. Мы преобразовываем его в какую-то математическую модель, это отдельная задача, которую нужно сделать хорошо, качественно. Дальше мы на уровне этой самой модели делаем какую-то прикладную математику, алгоритмику и так далее, получаем вторую модель. После этого на основании второй модели пытаемся сделать какой-то прогноз развития снова в реальный мир, а потом фактически показываем, условно, нашему заказчику или интересанту в стилистике то, что мы получили, оно похоже на правду, непохоже на правду. Если он говорит, что «похоже на правду, могу это использовать», значит, все сошлось, все работает. Если нет – не работает.

Следовательно, если я попытаюсь очертить логику, что должен делать интеллектуальный помощник, он фактически должен брать на себя задачи, начиная от преобразования ситуации реального мира до какого-то формального «прогноза» того, что в реальном мире должно случиться. Прогноз в кавычках, потому что это может необязательно прогноз, это может быть и просто вспомогательная полезная информация, которой до этого не было видно.

Теперь, имея эту схему в голове, давайте рассмотрим, что происходит в отрасли управления проектами и в программной инженерии в частности. В целом, если рассматривать модель, математически объект реального мира как в проектной разработке, то существует просто множество, возможно, даже очень большое множество работ, которые в качестве математической модели берут то, что называется сетевые графики проекта. Наиболее известный их пример – то, что называется диаграммами Ганта. С ними получается вообще все замечательно, то бишь включая условно работы, которые доходят до того, как решить задачу назначения или какой метод решает задачу назначения точнее, даже при условии того, что некоторые, условно, работы и так далее могут быть выполнены не со стопроцентной вероятностью и так далее. В общем, здесь работает все замечательно, хорошо.

Но у сетевого графика проекта, если вы попытаетесь применить его к IT-отрасли, есть несколько печальных особенностей, которые вкратце можно выразить. Их разработка экономически нецелесообразна в большинстве случаев, когда мы говорим про проектную разработку. Поскольку сетевой график проекта нужен в первую очередь для планирования, а все методы оптимизации какие-то могут упрощать некоторые спорные пункты или проблемы, связанные с планированием работы, то зачастую потеря, условно, одной-двух итераций, это могут быть месяцы разработки, может обойтись дешевле, чем разработка и поддержание потом в состоянии календарного плана-графика проекта в том или ином виде. А если мы к этому добавляем еще проблему того, что требования могут поменяться, всплывают неизвестные условия и так далее, после которых план-график проекта нужно перестраивать, соответственно, затраты на него будет расти просто пропорционально дороже. В результате получаем, что красивая, клевая математическая модель на практике малоприменима.

Давайте рассмотрим другой набор методов, которые зачастую не требуют, условно, красивую, строгую формальную модель, которые могут работать уже постфактум, по существу, с данными. Зачастую к этому относится ___ (00:04:15) прикладной статистики. Если мы говорим про эту отрасль, то в 1996 году вышел страшный, печальный сборник, который, мягко говоря, сказал, что это почти что нерешаемая задача. На слайде, в принципе, основные причины, почему она нерешаема. Это фактически анализ разных кейсов компаний, которые проходили в Америке, от крупных кейсов типа разработки системы для запуска ракет для НАСА до кейсов автоматизации банковских систем. Разные команды, которые пытались применять разные математически подходы для разных целей. Одна из команд пыталась относиться к программной инженерии как к инженерии, получила, что природа нашей работы, программных инженеров, неинженерная, то бишь у нас нет абсолютно четкого прогресса по разработке конкретного одного изделия.

(00:05:04)

В этом плане все, что работало до этого, внезапно не работает. При этом эта же команда дальше утверждает, что при этом технологический прогресс есть, и он при этом достаточно специфичный, но при этом не абсолютно строго формальный. В результате статистика, которая работала бы к общему управлению проектами, тоже начинает сбоить и выдавать некоторые огрехи и противоречивые результаты.

Команда, которая разрабатывала как раз банковские системы. пытался анализировать программную инженерию с точки зрения характеристики изделия. В нашем случае они пытались анализировать строчки программного кода. С этим у них тоже, естественно, много что не получилось, потому что сложность программного изделия не измеряется строками кода, а все другие характеристики типа производительности, совместимости и прочие другие способы охарактеризовать то, что мы получаем в результате, несильно помогают оценить сложность разработки или спрогнозировать работы.

Дальше, еще одна команда анализировала, как непосредственно работают разработчики и пыталась их ставить, условно, в абсолютно тепличные жесткие условия, при которых фиксировались буквально до дыхания и температуры в комнате. Внезапно они поняли, что фактически, когда мы говорим про программную инженерию, у нас нет объективных факторов анализа, что происходит с разработчиками, потому что у нас нет, условно, затрачиваемых ресурсов, у нас нет простоя, условно, приборов или личного конвейера, или чего-то такого, что позволяло бы оценить работу разработчиков, кроме как непосредственно спросить разработчиков.

Когда мы начинаем их спрашивать, то это либо субъективные данные, либо фактически любые попытки навязать анализ и наблюдение за разработчиками другие методами сталкиваются с тем, что это начинает влиять на результат.

В результате получается, что красивая абстрактная математическая модель неприменима на практике, модели, которые спокойно работали бы без нее, неприменимы на практике, потому что специфика нашей отрасли весьма специфична и с ней сложно что-либо сделать по-другому. А фактически многие попытки сделать что-то другое, то бишь разработать другие математические модели, требуют новую модель объекта, которая до этого в программной инженерии фактически что… до сих пор сложно сказать, что она есть.

А после того, как эта модель будет получена, если мы говорим про модели, связанные с машинным обучением и статистикой, еще и нужны размеченные согласно этой модели данные, которые мы должны брать, по логике вещей, из профессионального сообщества, поскольку в первую очередь профессиональное сообщество заинтересовано в эффективных управления. Но удача найти у них датасет при условии того, что еще матмодели даже нету.

Фактически дальше возникает вопрос, а где найти основу для матмодели, которая позволит что-то применить или исправить в этой отрасли. В процессе наших изысканий мы подумали, что существуют так называемые процессы разработки, которые все знают как SCRUM, Agile, водопад, унифицированный процесс, куча разных видов driven development и прочего, прочего, прочего. По своей природе и семантике того, что в них написано, они, так или иначе, пытаются нарисовать модель проекта. Но модель проекта, которая постепенно начинает преобразовывать среду управления, из которой в будущем можно забирать данные, а среда управления проектами позволяет нам фиксировать проектную деятельность, и вроде бы все замечательно. Вот основа новой модели, берем, изучаем процессы разработки как модель, и пытаемся на основании ее что-нибудь придумать.

Но тут тоже возникает проблема, что процессы разработки как целый класс сущностей придумываются в первую очередь бизнесом для решения принципиальных прикладных задач. Основная особенность проблемы того, что она придумана бизнесом, то, что до сих пор у процессов разработки нет общепринятого определения, что это такое на самом деле. Существует термин «процессы разработки», существует методология разработки, существует метод разработки. В зависимости от того, какую литературу вы читаете, какого автора, вы найдете абсолютно разные определения, которые иногда расходятся, противоречат и называют одну и ту же вещь абсолютно по-разному.

Дальше, учитывая, что это было решение профессионального сообщества, это превратилось еще и в бизнес по придумыванию и продвижению процессов разработки. К сожалению, специфика такая, что люди, которые в этом бизнесе стали принимать активное участие, стали дистанцироваться друг от друга, создавая новый набор терминологии, пытаясь специализированно говорить, что наши сущности не такие, как они были до этого, а многие даже не пытались думать на тему формальных и неформальных внутренних структур собственно процесса разработки, и сводились по принципу «оно так работает, делайте вот так, и все будет хорошо».

При этом же, как ни странно, тому же классу процессов и разработки свойственна проблема в том, что они позволяют модифицироваться, и иногда на конференциях можно заметить интересную ситуацию, при которой рассказывают о своем опыте два скрам-мастера из разных проектов, когда они начинают интересоваться, чем непосредственно занимается другой собеседник, внезапно выясняется, что роль скрам-мастера еще при этом принципиально различается. При этом, казалось бы, они все последователи SCRUM.

(00:09:59)

Последний фактор, который во все это ввел еще просто некоторую долю хаоса и безумия, что фактически эта отрасль превратилась одновременно и в хайповую, и модную, еще и случился «парадокс выжившего», где можно пытаться прогнозировать некоторые вещи, связанные с кризисом доткомов, которые фактически привели к тому, что очень многие Agile based методы стали популярными, потому что случилось много стартапов, которые пережили кризис доткомов. При этом, благодаря или вопреки Agile они пережили, естественно, история умалчивает, но при этом то, что сейчас Agile перешел во все отрасли, кроме как айтишной, это вещь, которую мы вполне себе наблюдаем в выступлениях даже, условно, генерального директора «Сбербанка».

Так вот, чтобы со всеми этими, мягко говоря, безобразиями бороться, создалось сообщество Senate, которое придумало язык Essence. Язык Essence – фактически это язык, который пытается навести порядок, иными словами, это язык описания процессов разработки, это его немножко упрощенная интерпретация. Основная принципиальная особенность этого языка, помимо того, что графическая нотация, ставшая стандартом MG Group и прочие-прочие вещи, было то, что, в отличие от предыдущих попыток типа (00:11:10) они сказали, что вообще-то все процессы разработки состоят из так называемых практик, то бишь какие-то вещи, которые процесса разработки стараются делать одним и тем же или схожим образом. Фактически процессы разработки, как бы вы их ни комбинировали, не адаптировали под свои собственные компании, проекты и так далее, зачастую сводятся к тому, что вы набираете набор практик, которые вас устраивают, остальные либо выбрасываете, либо меняете, либо не делаете это практиками, просто-напросто как получится. Благодаря этому как-то пытаются навести порядок между тем, что творится в компании, в ___ (00:11:45) ___ сообществе, в отрасли менеджеров проектов, которые в эту штуковину пытаются лезть и разобраться, и в академическом сообществе.

Дальше будет небольшой обзор элементов языка, которые достаточно критичны, но если вы в курсе, то можете дальше немножко упустить внимание, и все будет нормально. Одним из интересных элементов, которые ввели авторы Essence, они ввели такую сущность, которая называется ALPHa. Это акроним от интересного термина, который фактически сводится к тому, что абстрактный уровень прогресса, иногда в некоторых старых источниках они называли это абстрактным уровнем здоровья проекта, а не прогресса. Но фактически это штуковина, которая опять же на абстрактном уровне фиксирует, как хорошо, плохо, далеко вы продвинулись в какой-то определенной отрасли. Согласно авторами Essence, в любом проекте по разработке программного обеспечения существует семь основных «альф», они перечислены на слайде.

Особенность «альф» заключается в том, что помимо того, что они это дело фиксируют, фиксируют они это фактически при помощи двух механизмов. Механизм первый. У каждой «альфы» есть свой собственный набор состояний, который хоть как-то позволяет оценивать, на каком этапе вы находитесь. К скрину, который сегодня прикладывался в качестве приглашения об этом семинаре, показывались как раз карточки состояния «альф» с циферками и с указаниями, что это означает.

Каждое состояние, второй механизм состоит из набора чекбоксов, утверждений, которые достаточно легко проверяются по принципу «да/нет», по крайней мере, выглядит, как они проверяются, легко, но которые позволяют понять, «альфа» находится или не находится в этом состоянии.

Дальше фактические вещи, которые больше похоже на то, что происходит на обычной практике, это Activity Space Activity, которые в этом плане можно свести, что Activity очень сильно выполняет функции и задачи классических тасков и задач в проектах, Activity Space – это некоторая общая абстрактная классификация этих самых задач. Если мы говорим, что нужно провести встречу с заказчиком, узнать у него требования, это конкретно будет Activity, но при этом это все делается в рамках появления требований, которые относятся к Activity Space.

Последние два элемента, которые мы рассмотрим, это рабочий продукт, фактически сущность, которая максимально близка к понятию артефакта в программной инженерии, и компетенция, которую ввели разработчики Essence, нужна для того, чтобы описывать, условно, для практик, а какие люди потенциально могут этих практики выполнять. Компетенции при этом не совсем напоминают роли, но они будут немножко в стороне фактически дальше.

Помимо элементов языка, также авторы Essence создавали ядро, которое позволяет нам описывать общую структуру проекта, особенности, в частности, как взаимодействуют элементы друг с другом, и как работают элементы, которые фактически ввели авторы Essence, которые называются «альфами», как они взаимодействуют, на что они влияют, на что они должны смотреть и с чем что фактически будет связано. С такой логикой фактически каждая «альфа» фиксирует какую-то свою определенную зону проекта, при этом эти зоны тоже, как вы видите, разделяется на три внутренних подуровня в зависимости от того, к какой отрасли эта зона проекта относится.

(00:14:56)

У каждый «альфы» есть состояние. Артефакты в первую очередь подтверждают, что «альфы» этих состояний достигают, а Activity созданы для того чтобы создавать, обновлять и развивать артефакты дальше, в зависимости от того, что у вас происходит в проекте.

К этому, соответственно, добавляется, что помимо общих структур и общих состояний, соответственно, существует полный список всех состояний со всеми утверждениями, которые там есть, и даже существует игра, созданная для обучения и для некоторых поисков ошибок в компании, которая называется ALPHa State Poker, которая фактически создана на основании того, что команда начинает анализировать и рефлексировать свой прогресс при помощи как раз состояния ALPHa-карточек.

Все вот эти вот вещи, описания в стандарте, дополнительные анализы, связи и прочее, прочее, прочее позволяют, так или иначе, выразить то, что мы назвали теоретическим контуром Essence. Фактически это уровень ядра, которое позволяет описывать высокоуровнево, абстрактно прогресс проекта, и благодаря которому в идеале описываемые практики в реальных проектах должны сходиться. Тут пока еще вопрос, как, четко или нечетко они сходятся, потому что там возникла парочка интересных моментов в разговоре с авторами Essence, но, тем не менее.

В теории фактически то, что вы видите сейчас, это фактически все «альфы», семь основных «альф» со всеми состояниями и с пространствами активности, которые показывают переходы между состояниями в разных «альфах», и как они связаны друг с другом. При этом же, обладая потрясающими возможностями описывать теоретический, абстрактный уровень, который так любит академическое сообщество, также Essence позволяет описывать конкретные практики, которые используются в разных компаниях, в разных процессах разработки, в разных проектах даже в одних и тех же компаниях. При этом это описание всех практик на уровне, какие конкретно получаются таски, какие эти таски должны проходить артефакты, как эти артефакты будут меняться, с какими «альфами» это все связано, также все спокойно описывается, вписывается, и можно использовать, причем достаточно легко модифицируемо, потому что в целом есть хорошая графическая нотация, которая в целом понятна. В этом плане эта вещь позволяет как легко описывать и легко решать задачи обучения новым практикам и изучению, что там происходит, так и, соответственно, некоторое общее детальное формальное описание всего процесса разработки, или то, что называется в Essence методом разработки, для того чтобы это дело как-то в будущем анализировать.

В целом все хорошо, замечательно, потрясающий язык. Существуют даже тулзы, которые его поддерживают, чтобы эти вещи описывать. Тут на слайде два скрина, один из свободной ___, (00:17:44) где описаны три метода разработки, Agile, Essential с Agile Scale и Unified Process, а справа внизу скрин из ___ (00:18:01) средства для фактически создания подобного рода описаний.

Но проблема в другом, что, создав такой язык, создав некоторую идеологию, которая посвящена тому, что нужно охотиться за практиками и из них компоновать процессы разработки, сообщество и компания Ivar Jacobson International не решила другую задачу, пока не решила, но они уже пытаются – как после этого, имея красивую формальную, даже строгую в какой-то степени модель процесса разработки, преобразовать среду управления проектами так, чтобы теперь среды поддерживали правила процесса разработки автоматически, без необходимости это придумывать менеджерам проекта.

Это была одна из частей моей условной исследовательской прикладной разработки. Фактически в процессе нее мы были вынуждены придумывать более упрощенную модель из Essence, потому что некоторые вещи оказались слишком, избыточно семантические и большой роли с точки зрения формальной структуры не играли. Дальше, соответственно, когда мы придумали промежуточную модель, мы придумали и как фактически ее в случае чего адаптировать под разные среды управления проектами, создав модели описания, и как после этого конкретно в этой среде управление проектами можно фактически использовать некоторые фишки Essence, чтобы они выполнялись автоматически без необходимости это делать, опять же поддерживать менеджеру ручками.

В процессе все это дело, описание модели, выполнение, логика должна приводить к тому, что вы можете поддерживать, перестраивать практики, использовать разные практики, которые описаны в Essence, в своих проектах. При этом от вас это просто потребует минимум времени на настройку и на конфигурацию.

Как я сказал, это было сделано. В целом у нас две среды управления проектами, которые, так иначе, получили такое решение, одна из них – это Redmine, фактически два скрина, одно – это импорт практики, второе – это конкретное выполнение таска, при котором вы указываете, с какими артефактами этот таск был связан.

(00:19:58)

Если вы ставите таск, вы можете указать, к какому архетипу активности он указался, и в зависимости от этого вам просто укажут, с какими артефактами он должен быть связан, и тогда при завершении этого таска эти артефакты тут же переведутся в нужный уровень детализации, который у них должен быть указан. Казалось бы, все, то бишь, вот решена в каком-то формате задача, как фактически процессы разработки, описанные формально, конвертировать в среду управления проектами. У нас теперь есть формальная модель, из которой дальше потенциально можно делать, как минимум формальная модель реального объекта у нас существует.

Однако дальше возникает вопрос – о’кей, формальную модель мы получили, давайте думать, что мы будем делать с тем, какой метод должен разрабатываться. В попытках анализа и поиска методов внезапно немножко страшные и убивающие все пространство идеологии выводы.

Проблема первая. Если я возьму в качестве основы формальной модели процесс управления, который называется Rational Unified Process, то фактически ни к одной другой компании, кроме как работающей по Rational Unified Process, этот метод применим не будет. Следовательно, я должен подобрать какой-то метод, который не накладывает жестких ограничений на то, каким способом именно компания занимается разработкой.

Второе. При этом, да, мы должны учитывать специфику при разработке, чтобы это не превратилось просто в абстрактный метод управления проектами, который вообще никак не связан с программистской деятельностью.

Третья проблема опять же связана с тем, что, поскольку предыдущие попытки академического сообщества красиво и идеально решить задачу для профессионального сообщества в вопросе как лучше управлять проектами, проваливались, то фактически сейчас все подобного рода заявления, попытки, призывы к тому, что «давайте проведем эксперименты» и так далее, скорее всего, будут проигнорированы, поскольку это убытки, которые не приносят прибыли. Соответственно, нужно найти какой-то метод, который позволит хотя бы показать, что прибыль можно хоть какую-то получить, или хоть какую-то выгоду для компании получить, при этом не требуя от компании многих затрат на изначальное внедрение и попытку эту выгоду получить.

Но при этом как только метод будет запущен, дальше возникает вопрос: о’кей, данные теперь появились, теперь давайте думать, как этот метод улучшить. Соответственно, как я сказал про прибыли и убытки, поддержание этого метода, не говорим про развертывание и внедрение, тоже не должно быть накладным, потому что иначе, соответственно, для компании это убытки, отрыв от работы и прочее, следовательно, это потеря времени и ресурсов, которые дорогие.

В поисках, в изысканиях и так далее случайно выбор пал на то, что называется динамическая байесовская сеть. Если быть более строгим, то, что я дальше буду рассказывать, это очень оригинальная модификация и другой способ применения алгоритма байесовского отслеживания знаний для случая с несколькими навыками, которые иногда можно загулить как в английской аббревиатуре BKT, если вы в курсе, что это такое и как оно работает.

Если вы не в курсе, то в целом работает оно примерно вот так. Соответственно, у нас есть утверждения, о которых я говорил раньше, из которых определяется состояние проекта, состояние ALPHa-карточек, из которых можно отслеживать некоторый общий прогресс проекта. Идея байесовских сетей – фактически это частный случай цепей Маркова, в которых есть скрытые и явные узлы, и наблюдаемые узлы. Фактически мы можем спросить менеджера, что он считает о каком-то утверждении в его проекте, и для нас это будет наблюдаемый узел, то бишь мы всегда можем спросить «что ты считаешь?» и получить ответ, 0 или 1, поставлен чекбокс, не поставлен чекбокс. При этом существует какое-то аморфное состояние, что происходит с проектом на самом деле. Одна из особенностей программной инженерии в том, что это экспертная работа, означает, что эксперт может ошибаться, при этом зачастую ошибки экспертов в IT-отрасли это бо́льшая часть причин, почему проекты проваливаются.

Соответственно, есть вероятности, при которых то, что менеджер сказал, является правдой гарантированно, или то, что менеджер мог ошибиться. Причем мы знаем, существует категория ошибки, и ложноположительные, и ложноотрицательные, то бишь менеджер может просто не знать, что в его проекте на самом деле эта штуковина уже была выполнена, или то, что на самом деле он этой штуковиной уже обладает, но при этом он боится, что он неправ, поэтому он говорит, что нет.

Соответственно, если мы дальше эту штуковину введем, то, поскольку состояния проекта семантически связаны друг с другом, то бишь то, чтобы вы работаете со стейкхолдером, вам условно позволяет оценивать вашу потенциально будущую ролевую модель в проекте, то состояние проекта в разных чекбоксах начинает последовательно влиять друг на друга в разных ипостасях, и причем меняться по итерациям.

(00:24:54)

Если мы только начинаем проект, скорее всего, у нас все будет поставлено как «нет», как только прошла итерация, какие-то работы мы уже выполнили, там пошел прогресс. Эти состояния нам позволяют, соответственно, оценивать далее не только мнение менеджера об этом пункте, но так же остальные утверждения, связанные с этим состоянием.

Если эту концепцию развивать дальше, то получается в среднем такая вещь, что если команда будет играть в Essence ALPHa Poker, что в среднем занимает 15-30 минут в неделю, то, прогоняя мнение команды через построенную байесовскую сеть, можно получить пункты, в которых команда потенциально ошибается. В нашем случае ложно-положительно ошибается, потому что ложноотрицательные ошибки вполне себе допустимы с точки зрения семантики и управления проектами. Если мы говорим про общую достигнутую выгоду, у человека, у которого обычно много вещей, которые нужно контролировать, появляется возможность смотреть на какие-то вещи объективно, то бишь из того, что он, может быть, не знает, не помнит, не контролирует, не учитывает, что вроде бы, как мне, по крайней мере, кажется, вполне себе разумная, допустимая вещь.

Это как выглядит теория, как это итого реализовано и во что эта штуковина превращается. У нас есть утверждения, которые были на ALPHa-карточках. Каждое утверждение итого конвертируется в 3 различных вершины байесовской сети. Это скрытое значение этого самого утверждения, влияние предыдущей итерации проекта и мнение менеджера об этом утверждении.

На слайде приведен пример для утверждения, то, что мы договорились о выборе критериев архитектуры для «альфы» «Программные системы», состояние –архитектура была выбрана.

Затем все эти утверждения, соответственно, выносятся на общий уровень и появляются отдельные узлы, которые описывают общее состояние ALPHa-карточек непосредственно этой «альфы». Соответственно, сейчас на слайде вы видите ALPHa байесовской сети, которая связана непосредственно только с программной системой.

Что происходит после этого? После этого мы начинаем оценивать зависимость между разными утверждениями с разных ALPHa-карточек, как они семантически и еще и стандартно влияют друг на друга, таким образом, добавляя дополнительные зависимости между утверждениями, которые есть о проекте. Соответственно, к сожалению, сам стандарт несильно эти утверждения фиксирует. У него есть некоторое общее описание, которое обычно сводится к тому, что для этой категории деятельности это состояние, в целом другая «альфа» должна быть в этом состоянии, но при этом без указания на конкретное утверждение, которое конкретно есть в чекбоксах. Поэтому остальные связи пришлось фактически экспертно восстанавливать, анализируя семантически и буквально до формулировок, иногда вплоть до некоторых терминов, что же на самом деле здесь написано.

Справа на слайде видно непосредственно, как мы это делали, это пример одной из карточек конкретного одного утверждения одной из «альф», слева – некоторая общая концепция, во что эта штуковина превращается. Прогнав это все через все 204 утверждения, через все тридцать с лишним состояний проектов, мы получаем вот такую байесовскую сеть, в которой 646 вершин, больше 1800 связей. Другая особенность такого подхода к этому анализу в том, что каждая вершина, имеющая количество входных ребер m, генерирует вероятностные векторы из количества элементов 2m+1. У самой большой вершины с самым большим число входных ребер у нас число примерно было 14, если память не изменяет, нужно потом перепроверить.

Дальше мы это все должны превратить в способ подсчитать вероятности, непосредственно которые следуют из байесовской сети для каждого утверждения в отдельности. Для этого можно воспользоваться достаточно своеобразным очень простым алгоритмом. Фактически на слайде приведен пример, как непосредственно в системе, в которой мы делали эту самую сеть, контролируются все связи, указываются все вероятности, которые там прописаны. После этого мы определяем, что непосредственно менеджер думает об этом состоянии, оно истинно или ложно, и из этого определяем ту часть сектора, которая нас интересует, а потом просто-напросто используем формулу полной вероятности от всех зависимых вершин, которые там происходят. Понятно, что для этого зависимые вершины должны быть уже просчитаны, поскольку этот метод не терпит циклов в графе.

Соответственно, для того чтобы после этого найти ложноположительные ошибки, мы должны выбрать те учреждения, о которых менеджер читает, что они истинные, при этом их вероятность ниже порогового значения.

В результате в текущей уже реализации, если команда играет в ALPHa Poker в нашем плагине, то фактически по нажатию на кнопки, и после этого некоторого времени вычислений мы можем узнать, в каких местах с большой вероятностью менеджер опережает реальные события.

(00:30:05)

Здесь приведен пример, что фактически менеджер читает, что уже определяется архитектура программной системы, однако при этом не предоставлено ничего из требований, то бишь фактически проектируем систему, то, как выяснили, зачем он вообще нужна и что мы в ней хотим.

Это текущий достигнутый результат. Да, он, конечно, не выглядит значительным, но с точки зрения всех составных частей это было очень тяжелое путешествие к нему. Наверное, с точки зрения общего формата работы это фактически финальный слайд. Дальше – а что тебе с этим можно сделать? Это вроде как импортируем практики и получаем только то, что мы играем, должны играть в ALPHa Poker и прочее. Есть некоторые идеи, разные пути развития. Одна из них –посмотреть теперь не на Essence, посмотреть на другие вещи, которые пытались, так или иначе, вводить стандарты или общее управление проектами, и не только в программной инженерии, типа PM Book, Сbook, (00:31:02) а также из того, что было сделано итого в библиотеке, распространяемой в EPF Composer ___ (00:31:08) 2.0. возможно, там существуют другие способы формально описывать проекты и, возможно, на пересечении с Essence можно выйти на некоторую общую интересную закономерность, которая позволит более детально это все дело прописывать.

Дальше одна из гипотез, которая у меня провалилась, пока я пытался найти ровно этот метод, была основана на подсчете энтропии для определения ошибок менеджеров, но как я потом пересчитал, в моих текущих предположениях теперь то, что сейчас сеть построена экспертом со всеми зависимостями, при наличии появления данных можно переделать алгоритм, чтобы как раз на основании энтропийной зависимости между наблюдаемыми значениями он сеть перестраивал и дооптимизировал, и фактически перейти к вопросу, как от экспертно построенной сеть получить сеть, которая построена не экспертно, а на основании данных какой-то конкретной компании и даже нескольких компаний.

Другой вариант развития – это перейти от общего уровня теоретического контура на уровне ALPHa Poker к конкретным практикам. В чем некоторая особенность подхода сейчас? Сейчас фактически все наблюдаемые свидетельства, которые с точки зрения байесовской теории вероятности очень критичная вещь, это мнения менеджеров. Мы не анализируем, например, написаны, не написаны артефакты для этого самом мнения менеджеров. Однако если спустить логику анализа того, что происходит в проекте, еще на основании того, какие в системе существуют артефакты, на каких они уровнях, что в них написано, а после этого придумать общий язык описания, как это связано с чекбоксами в ALPHa-карточках, потому что этой штуковины в Essence не существует, то дальше можно сделать подходы, при которых фактически менеджер может даже не играть в ALPHa Poker. Он просто запускает алгоритм, алгоритм проверяет, есть в репозитории команды, дальше анализировать семантически, что там написано, и после этого говорить менеджеру, где у него потенциальные проблемы, уязвимости, несостыковки и так далее. Или, например, учитывать мнение менеджера не только как уже и практически единственный источник данных о состоянии проекта, а учитывать его наравне с объективными показателями, формой существования тех или иных артефактов для проекта.

Другой вариант расширения – это посмотреть другие прикладные подходы, математические принципы, которые вполне себе оригинальны, развиваются и решают нестандартные ситуации. Это теория хаоса, мультиагентные системы, самообучающиеся нейронные сети. Я думаю, список можно продолжать очень долго. Но для этого его нужно конкретно знать.

Но практически для всех этих путей развития, с ними придется бороться с двумя очень такими печальными проблемами. Первая проблема в том, что, к сожалению, компания Ivar Jacobson International, который фактически является условным монополистом в области Essence кроме как стандарта, контролирует единственный проприетарный продукт, который позволяет использовать Essence с точки зрения писания формата стандарта, она не сильно хочет делиться накопленными данными по описанию практик и методов, которые они уже сделали.

Второе – то, что если мы говорим по поводу того, что все-таки передать теперь и перейти от академической теории к практической применимости, то нужно найти первую команду или компанию, которая будет готова все-таки немножко рискнуть временем и ресурсами на первичную попытку, потому что, еще раз, пока это фактически концепция, ее нужно апробировать уже в реально боевых условиях. Но поскольку это концепция, то первое апробирование потенциально рискованное.

Все, слайды закончились. Спасибо за внимание. Пожалуйста, вопросы.

Николай Михайловский: Денис, спасибо за очень интересный и бодрый доклад. Так, коллеги, пожалуйста, можно задавать вопросы в Q&A, можно задавать вопросы в чат. Пожалуйста.

(00:35:05)

Пока коллеги собираются с вопросами, я думаю, что для того чтобы оценить возможность внедрения предложенный системы, например, у нас, можно было бы для менеджеров проектов провести некий вебинар про Essence и Essence ALPHa Poker, и это, возможно, помогло бы оценить такую возможность внедрения. Поэтому я предлагаю такую штуку запланировать.

Денис Змеев: Я с удовольствием, но можно после того, как я защищу кандидатскую? Потому что очень долгая слишком история, которую нужно нормально закончить.

Николай Михайловский: Да пожалуйста, защищайте кандидатскую. Это когда будет примерно?

Денис Змеев: Я надеюсь разобраться с этим за лето.

Николай Михайловский: О’кей. Хорошо. Можно, мы немножечко в первые слайды отъедем? А, у нас есть в Q&A, у нас Станислав Капулкин спрашивает: «Денис, знакомы ли вы с теорией категорий?»

Денис Змеев: Скорее всего, нет, в такой формулировке. По крайней мере, я про такую именно теорию отдельно не слышал.

Николай Михайловский: Та теория категорий, про которую я слышал и очень шапочно знаком – это довольно общего рода алгебраическая теория. Но, может быть, мы попросим Станислава пояснить, в связи с чем этот вопрос? Станислав, давайте я вам дам возможность говорить. Я, более того, вас могу в панелисты продвинуть.

Станислав Капулкин: Добрый день. Соответственно, теория категорий – это графический язык визуальный, и часть схем, которые вы приводили на слайдах, они вполне могут быть нарисованы и специалистом по теории категорий. При этом он универсальный математический язык, универсальность его означает, что на нем как раз можно описывать… В принципе, на его основе можно построить и кодогенерацию. Его придумали математики, на нем можно описывать доказательства теорем, то есть можно писать логику вычислений каких-нибудь в теореме с доказательством, почему эти вычисления соответственно ведут к какому-то правильному ответу. А можно там описывать вычисления соответственно и кодогенерить по ним код. По-моему, это выглядит хорошо для расширения Essence, вы говорили в конце, что в Essence нету части по описанию задач, которые… Последнее, что вы говорили, что если в Essence добавить в каком-то виде описание задач, то можно убрать даже ALPHa Poker, заменив все это на какую-то автоматическую верификацию. Теория категорий потенциально для этого подходит.

Денис Змеев: Хорошо. В таком случае я посмотрю, я говорил немножко другое. В Essence и в ALPHa Poker фиксируются вот такие вот чекбоксики, это утверждения. Сейчас в теории Essence нет фразы о том, как, например, если я использую product backlog или что-нибудь еще, как непосредственно вещи, которые я делаю на уровне артефактов типа сценариев, вариантов использования, какие именно чекбоксики они должны потенциально поставить. Это отдано на откуп экспертного мнения менеджера, аналитика, архитектора и так далее.

Если мы говорим про штуковину, которая анализирует проект за человека, соответственно, нужно сделать какой-то язык, который хотя бы постарается эти вещи связать. Использовать для этого теорию категорий – да, возможно, но тут надо будет долго копаться, потому что в любом случае вопрос, а сможем ли мы сделать инструмент, который будет поддерживать одновременно и Essence, и теорию категорий.

Николай Михайловский: Возможно, мы можем попросить Станислава прислать какие-то ссылки на какие-то тексты, связанные с теорией категорий, для того чтобы иметь единое представление о том, о чем идет речь.

Станислав Капулкин: Я думаю, что я буду рад чуть позже сделать отдельный доклад на эту тему. У меня уже есть публичное выступление, но в какой-то момент появятся, накопятся еще материалы новые, с которыми можно будет, например, провести хорошую лекцию.

(00:39:56)

Николай Михайловский: Как будете, готовы пишите мне, и обсудим ваше выступление потенциальное.

Денис, если вернуться назад, назад, назад, в самое начало, в управление проектами в программной инженерии, чем бы хотелось вот это дополнить? Посыл следующий. Во-первых, проекты из области программной инженерии относятся к классу разработки технологий по определению. Класс разработки технологий – это такой класс видов деятельности, в которых мы, познавая некий процесс, выстраиваем некую технологическую обвязку для процессов. Некоей ключевой деятельностью в программной инженерии является познание некоего процесса. Это познание процесса может происходить как в виде выявления требований, то есть, по сути, в разговорах, так и в виде, например, отгрузки в клиентскую среду неких решений и наблюдения того, что после этого происходит, да, то есть чего нам заказчик в ответ на это сказал, и вообще, стали ли этим пользоваться.

Таким образом, поскольку мы говорим о познании в принципе, то в программно-инженерном проекте происходит высказывание некоторых гипотез и тестирование границ их применения, поскольку это общая схема любого процесса познания. Таким образом, у нас еще одним взглядом на то, что происходит в проекте программной инженерии, состоит в том, что у нас есть некоторое количество гипотез, которые, в том числе можно описывать и с байесовской точки зрения, а дальше мы эти гипотезы проверяем или определяем их границы применимости, что тоже неким образом в байесовский фреймворк, как мне кажется, укладывается.

Есть еще один аспект того, что я говорю. Этот аспект связан со сжатием информации, скажем так. Поскольку когда мы высказываем некую гипотезу, когда вы строим любую модель, а в ходе программной инженерии мы строим модели, мы занимаемся тем, что отбрасываем информацию, которая неважна для нашей модели. Таким образом, построение моделей, в том числе в рамках программной инженерии, есть процесс сжатия информации об объекте автоматизации. Мы нечто об объекте автоматизации отбрасываем, а нечто оставляем в проекте, с очевидностью.

Таким образом, на то тестирование гипотез и на байесовскую историю, которую мы только что обсудили, можно смотреть еще и с этой точки зрения: какая информация отбрасывается и какая информация остается внутри проекта. Обычно то, что я говорю сейчас, интерпретируется в виде рисков проекта, но возможна интерпретация и с точки зрения информации. Я призываю неким образом подумать и в эту сторону тоже, потому что, кажется, что там может быть прикопано что-то интересное.

Денис Змеев: Сюда же можно попробовать и прикопать принятие решений по байасу в условиях ограниченности информации для ограниченности ресурсов на проверку гипотез.

Николай Михайловский: И так на это можно смотреть тоже, да. Там есть достаточно широкое поле, связанное как с базовыми байесовскими подходами, так и, например, с ограниченностью ресурсов, тоже, пожалуйста.

(00:45:01)

Антон Воронов спрашивает: «Через какое время возможно внедрение на реальном проекте реальной компании?»

Денис Змеев: Технически плагин для Redmine уже готов, и на самом деле для первой попытки внедрения он даже не нужен, надо просто играть в ALPHa Poker. Дальше просто вопрос – либо мы тратим время менеджеров, чтобы они разобрались в ALPHa Poker, либо вы допускаете исследователей к вашему состоянию проекта, даже с NDA, не с NDA, просто для проверки применимости. После этого… Как минимум первые результаты можно будет получить очень быстро, фактически ввести данные, прогнать алгоритм, через пятнадцать минут все заработало. Если текущий результат, получается, что вопрос буквально вот: понять, в какой проект ввести данные, поехали. А если мы говорим про полноценное, именно полная процедура, полная автоматизация и так далее, тут до бесконечности можно делать, если честно.

Николай Михайловский: Возможно ли внедрение того, что обсуждалось, без процедуры ALPHa Poker вообще?

Денис Змеев: Сейчас ALPHa Poker для нас – это модель общего описания проекта, другой у меня пока нету. Можно сделать как? Можно просто пригласить, условно, меня, я пообщаюсь с менеджером и так далее, буду с ними регулярно общаться, сам все переносить в ALPHa Poker, а после этого соответственно мы будем получать какие-то утверждения, потенциально рискованные.

Николай Михайловский: Так, кажется, больше у нас вопросов нету. Денис, еще раз спасибо за интересное выступление. Я думаю, после защиты диссертации мы еще пообщаемся более подробно.

Денис Змеев: Хорошо.

Николай Михайловский: Спасибо. До свидания, до новых встреч.

(00:00:00) (Конец записи)

The post Научно-технический вебинар “Концепция интеллектуального помощника для менеджера IT проектов на основе Essence” first appeared on Компания НТР.

Научно-технический вебинар “Система искусственного интеллекта «Эксперт-в-Цикле» для поиска новых материалов”

Alexandra Koroleva — Mon, 09 Aug 2021 09:47:01 +0000

Спикер о вебинаре:

Использование ИИ в специализированных областях знаний, таких как химия, медицина, биология и т. д., является перспективным, но часто страдает от медленного развертывания и адаптации к различным задачам. Мы предлагаем методику, позволяющую быстро уловить намерения и опыт эксперта предметной области, чтобы обучить персонализированные модели ИИ для конкретных задач. Наш подход «эксперт в цикле» увеличивает объем генерируемых компьютером материалов-кандидатов, которые переходят в экспериментальную фазу. Непрерывное взаимодействие модели ИИ с экспертами по предмету позволяет улавливать и использовать неявные знания экспертного уровня и контекстно-специфические ограничения, недоступные в противном случае. Обсуждается применение предложенного подхода к лабораторным исследованиям нескольких семейств полимерных материалов.

Видео: https://youtu.be/_zljMuiq-TQ

Презентация: https://drive.google.com/file/d/1wfTNxTVCzeBYttxT2GrNpQyqrCWo-bcG/view?usp=sharing

(00:00:00) (Начало записи)

Николай Михайловский: Я Николай Михайловский — генеральный директор компании NTR. Я рад приветствовать всех на нашем очередном научно-техническом вебинаре, который мы проводим с Высшей IT Школой Томского государственного университета. У нас в гостях Дмитрий Зубарев IMB Almaden Modern Research Center с рассказом про «Системы искусственного интеллекта «Эксперт-в-Цикле» для поиска новых материалов». У нас уже второй подряд вебинар про научное приложение систем машинного обучения, систем искусственного интеллекта. Предыдущий был с коллегами из Российского квантового центра, но с чуть более распространенным приложением reinforcement learning к роботизации. Здесь вообще такая глубокая научная тематика. По крайней мере мне, как человеку очень далекому от поиска новых материалов, кажется, что это очень глубокая научная тематика. Соответственно, Дмитрий, передаю вам слово.

Дмитрий Зубарев: Спасибо, Николай. Спасибо за приглашение и организацию. Спасибо Руфине, я вижу ее среди слушателей. Меня зовут Дмитрий Зубарев. Я технический лид программы ускоренного открытия материалов в исследовательском центре Almaden IBM Research. Сегодня я хотел рассказать о нашей работе по разработке системы искусственного интеллекта «Эксперт-в-Цикле» и о том, как мы используем эту систему для поиска новых материалов.

Это короткое описание моего научного прошлого. Я закончил Университет дружбы народов по специальности физическая химия и занимался экспериментальной физической химией. В какой-то момент я поступил в аспирантуру Utah State University, где занимался квантовой химией. Конкретно я занимался теоретической фотоэлектронной спектроскопией кластеров в молекулярных пучках. После докторантуры я работал в Беркли — это моя первая пост-докторантура, где я занимался разработкой квантовой Монте-Карло в приложении к фермионным системам. Диффузионное Монте-Карло _____ (00:02:36). Также занимался немного химией горения и разработкой квантовых химических методов _____ (00:02:46) на ошибку в вычислении. Моя вторая пост-докторантура была в Гарварде, где я занимался исследованиями в контексте происхождения жизни. Я занимался реконструкцией пребиологических реакционных сетей. Это технология, связанная с машинным обучением — контекстно свободные словари. После Гарварда моя третья пост-докторантура была в IBM Research, где я начал заниматься ускоренным открытием материалов.

В IBM Research я работаю пятый год. Лаборатория Almaden — это лаборатория полного цикла, то есть фактически это мини-департамент разработки материалов. Основной фокус на разработке полимеров. Almaden известен своей работой в области фотолитографии электронных материалов. В Almaden была разработана технология химической амплификации. Эта технология ответственна за 100% производства микроэлектронной техники и полупроводников во всем мире. В последние несколько лет мы используем эту лабораторию, как своего рода испытательный стенд для внедрения искусственного интеллекта в исследовательскую деятельность с акцентом на индустриальный или промышленный контекст.

Фотография, которую вы видите на экране — это своего рода знак или девиз, который висит на стене в лобби нашего центра. «Наука и данные для расширения человеческих возможностей» — этот девиз очень хорошо отражает специфику нашей работы. Когда мы говорим об искусственном интеллекте, для нас в первую очередь важно то, как искусственный интеллект будет взаимодействовать с естественным интеллектом и как искусственный интеллект будет помогать людям в нашей исследовательской работе. Один из основных факторов нашей работы — это специалисты профильного направления, то есть те люди, которые долго изучали предмет, долго работали в области по определенному предмету. Эту уникальную экспертизу можно оценить по способности человека заниматься консалтинговыми услугами.

(00:05:23)

Это сразу разделяет такие виды деятельности, как crowdsourcing, от экспертной оценки. Есть масса вещей, которые можно делать с помощью crowdsourcing, но которые не имеет смысла делать с вовлечением экспертов. С другой точки зрения, эксперты являются носителями знаний, которые нельзя найти среди большой, необразованной и мало подготовленной технически группы людей. Поэтому, когда мы смотрим на наших научных сотрудников, работающих в лаборатории, мы выделяем следующие факторы, которые обеспечивают их уникальность. Во-первых, каждый из этих специалистов является носителем модели _____ (00:06:13), который обеспечивает научный прогресс. Это модели, которые позволяют людям публиковать научные публикации, предлагать патенты, выступать на конференциях, получать гранты и проводить исследования.

В области общего искусственного интеллекта есть такая концепция здравого смысла — это знания, которыми мы все обладаем, поскольку мы эволюционировали в определенной среде. Искусственный интеллект имеет сложности с получением этих знаний. Когда мы говорим об экспертах, есть обратная сторона медали этого здравого смысла. Эксперты приобретают свой здравый смысл, потому что они очень долго работают в определенной области. Это часто не только специализированные области, но очень часто специализированная среда. Допустим, среда, связанная с определенной компанией, с исследовательской деятельностью в этой компании, рыночное положение компании. Это подкрепляется неявным экспертным знанием. Допустим, с теми концепциями, которые мы изучаем и которые не отражены в литературе, не кодифицированы и не сводятся к набору фактоидов. Это создает сложности, например, для систем искусственного интеллекта или машинного обучении с изучением этих концепций, потому что системы искусственного интеллекта, как правило, оперируют фактоидами.

Третий аспект — это талант и креативность. Мы умудрились в XXI веке создать технологически продвинутую цивилизацию фактически без методов машинного обучения. То есть, когда мы говорим, что машинное обучение, глубокое обучение показывает способности, превосходящие человеческие — это так, это правда. Надо отдать себе определенный кредит в том, что ученые очень многого добились за относительно короткий промежуток времени, используя те средства, которые эволюционно у нас есть. Конечно же, мы не можем обойтись без наших когнитивных оценок сдвига. Любой человек является носителем этих сдвигов. У нас есть предпочтения, предубеждения и биологическая или интеллектуальная неэффективность. Соответственно, когда мы говорим о взаимодействии систем искусственного интеллекта с человеческим интеллектом для нас важно улучшить те позитивные аспекты, которые у нас есть, и компенсировать те недостатки, которые у нас есть, с помощью искусственного интеллекта.

Переходя к идее систем «Эксперт-в-Цикле», хочется сказать, что основной фактор для нас — это то, что эксперты — движущая сила научно-технического прогресса сегодня и в обозримом будущем. Это связано с агентностью во всех исследовательских областях или разработческих областях. Решения принимаются человеком в конечном итоге. Основной агент, проявляющий интерес или заинтересованность в последствиях этих разработок — это тоже человек. Это не искусственный интеллект как таковой. Экспертные знания очень часто являются основой обучения систем машинного обучения в форме, которая документирована. Допустим, можно делать data mining, можно смотреть на базы данных, курированные по результатам, опубликованным в статьях.

К сожалению, экспертные знания очень медленно трансформируются в структурированные данные, которые поддаются такому анализу. Написание статьи занимает от нескольких месяцев до года.

(00:10:24)

Для того, чтобы написать статью, надо работать над исследовательской программой в течение какого-то длительного времени. Эту программу надо одобрить, за нее надо бороться. Если сейчас фокус машинного обучения состоит в том, чтобы использовать структурированные данные, которые можно найти в свободном доступе… Эти данные, безусловно, не являются фронтом интеллектуального роста научных или технических доменов. Другая проблема состоит в том, что неявное экспертное знание не переносится в структурированные данные вообще.

Это создает вполне реальные технические сложности, когда мы начинаем генерировать гипотезы с помощью электронных систем. Эти гипотезы выглядят очень хорошо, очень многообещающе. Они не выживают переноса в экспериментальную фазу, потому что вычислительные химики, допустим, очень плохо себе представляют реальность экспериментальной работы. Экспериментальные химики представляют эти реалии очень хорошо. Очень часто они эмоционально реагируют на откровенно наивные предложения со стороны вычислительных химиков. Это вполне реальная проблема. Ее можно классифицировать, и для нас, как для лаборатории полного цикла, это является приоритетом.

Когда мы генерируем гипотезы о новых материалах с какими-то свойствами, для нас важно, чтобы высокий процент этих гипотез перешел в экспериментальную фазу. Фактически мы пытаемся построить мост между, с одной стороны, специалистами разной подготовки — вычислительными или экспериментаторами. С другой стороны, кондиционировать систему искусственного интеллекта так, чтобы она работала на уровне, который приемлем для экспертов, которые затрачивают свое время для разработки гипотез и привнесения их в какую-то практическую плоскость. Мы определяем «Эксперт-в-Цикле», системы искусственного интеллекта такого типа, как персонализированные модели экспертного уровня. На данный момент это дискриминаторы и генераторы, которые пригодны для «клонирования» экспертов в каких-то узких, специализированных задачах.

Если у вас есть вопросы, пожалуйста, задавайте их.

Николай Михайловский: Дмитрий, можно на слайд назад вернуться. Тут фраза, которая лично меня немножечко задевает. Это фраза «Экспертное знание медленно трансформируется в структурированные данные, поддающиеся анализу». С моей точки зрения, знание вообще — это способ сжатия информации, способ сжатия данных. Как знание в принципе устроено? Знание — это некая модель предметной области, зачастую выраженная в виде формулы и так далее. Это первое. Есть некая модель. Вторая вещь — когда мы строим любую модель, мы отбрасываем некие несущественные вещи для модели. У химика один взгляд на предмет, у биолога будет другой взгляд на тот же предмет, у физика третий. Кошка для физика — это просто небольшое тело массой три килограмма. В этом смысле знания не могут трансформироваться в данные. Поскольку знание есть способ сжатия данных, отбрасывания в данных несущественных вещей… Когда мы неким образом думаем, мы отбрасываем лишнее. Поэтому можете как-то пояснить, что значит «знание медленно трансформируется в данные»?

Дмитрий Зубарев: Да, конечно. Я согласен с вашим комментарием. Здесь есть некоторая условность или традиция использования определенных терминов. Я согласен, что знание можно рассматривать, как процесс сжатия чего-то. Здесь есть два аспекта, которые я, может быть, хотел пояснить.

(00:15:22)

В человеческом понимании или в понимании экспертов знание — это не фактоиды, это, как правило, концепции. Мы учим концепции. Мы учим концепции таким образом, что, когда мы видим какой-то фактоид, мы можем оценить этот фактоид с точки зрения концепции. Любой вечный двигатель принадлежит концепции вечного двигателя. Неважно, какой конкретно чертеж перед нами стоит. Данные, которые используются в машинном обучении — это, как правило, фактоиды. Это фактоиды, описанные в статьях, патентах, базах данных. Я провел какое-то время, переводя текст моей стандартной презентации с английского на русский. Естественно, у меня были какие-то альтернативы использования слова knowledge. В общем, я готов поставить слово «знание» в кавычки, понимая, что знание на человеческом или экспертном уровне — это концепция, а знания, которые используются в анализе — это фактоиды.

Второй момент — это, что в каком виде эксперты бы не представляли свои знания, перенос этих знаний в кодифицированную форму статьи, патента, базы данных занимает время. Если я готов сегодня потратить 30 минут на то, чтобы провести какой-то эксперимент в data mining с базой данных патентов, которые у меня есть, я не могу не задать себе вопрос: почему я не занимаюсь майнингом этих знаний непосредственно из экспертов в той форме, в которой эти знания присутствуют у экспертов? В этом проявляется глубокая направленность нашей работы с экспертами. Потому что традиционно «Эксперт-в-Цикле» или «Человек-в-цикле» — это просто система тренировки, система машинного обучения с вовлечением живого интеллекта. Для нас это моделирование интеллекта, системы знаний или модели какого-то домена.

Это проблема, которую я не могу описать достаточно точно, потому что мы не знаем, как ее описывать. Я провел несколько недель, пытаясь, допустим, обсудить, как правильнее всего пытаться описывать явную модель человеческого интеллекта в специализированном домене с людьми, которые занимаются knowledge graphs и прочими вещами. В целом я согласен с вашим комментарием.

Николай Михайловский: Окей, спасибо.

Дмитрий Зубарев: Возвращаясь конкретно к ситуации с поиском полимерных материалов, хочу сказать, что я не химик в экспериментальном смысле. Физические химики занимаются синтезом очень простых систем. С полимерами я познакомился в Almaden, поэтому на всякий случай я включил определение полимерного материала, найденное в Википедии. Это материал, который состоит из повторяющихся звеньев, связанных в какие-то цепи. На самом деле, это очень упрощенное представление полимерного материала. Полимерные материалы — это не только цепи. Это сшитые цепи, цепи, сшитые в сети, которые переплетаются с другими сетями. Синтез полимерного материала — это начало разработки материала. Синтезированная полимерная цепь может превратиться в большем, чем один материал. Это сильно зависит от формулирования, истории обработки, формирования материала.

Несмотря на то, что полимерный материал — это, как правило, органика, логика полимерного домена сильно отличается от логика фармацевтической химии. Структура молекулы известна. Если мы говорим о молекуле, мы подразумеваем какую-то определенную структуру. Структура полимера, как правило, не только недоступна изначально, но и очень часто не нужна изначально. Безусловно, если она известна, это помогает. Однако структура полимера надо устанавливать. Она часто статистическая, имеет какие-то свойства, которые очень сложно в явном виде, компактно выразить. Полимеры не могут стоить столько же, сколько стоит потенциальное лекарство. Синтез компонентов для полимеров не может быть слишком сложным. Если, допустим, один миллиграмм потенциального лекарства от рака может стоить более тысячи долларов и вовлекать десять шагов синтеза, разделения, фильтрования и прочего. Мои химики, коллеги-полимерщики говорят, что полимер должен синтезироваться в ведре при перемешивании лопатой. На самом деле, это очень аккуратная оценка того, что происходит в лабораториях-вендорах.

(00:20:39)

Поэтому поскольку нормы прибыли в полимерной индустрии существенно меньше, чем в фармацевтике, полимеры используются в очень широком наборе технологий: от бытовых до высокотехнологических. Время от синтеза полимера до разработки, масштабирования, внедрения имеет большую роль. Сейчас существует оценка, что это занимает до десяти лет или больше. Целью является ускорение этого процесса. Естественно, как и во всех других областях химии, есть ожидание, что новые вычислительные подходы, как комбинаторный скрининг, генеративные модели, обратно моделирование, помогут находить новые материалы быстрее. Это ожидание справедливо в том смысле, что все эти модели позволяют генерировать большое количество кандидатов с утверждением, что все эти кандидаты являются самой замечательной вещью, которая может произойти с нашей технологией. Проблема в том, что мы не можем проверять всех этих кандидатов ни в ручную, ни в автоматических лабораториях. Любые экспериментальные системы имеют ограниченную пропускную способность. Они связаны с затратами. Поэтому вычислительные гипотезы должны обогащаться кандидатами, которые не только многообещающие, но и практичные.

Здесь появляется этот момент: что мы потеряли, когда трансформировали что-то, что мы знаем с большим уровнем детализации, в те данные, которые используются для тренировки моделей? Оказывается, что мы выбрасываем какое-то количество информации, которая очень критична для принятия решения: стоит ли нам работать с определенными кандидатами или нет? С точки зрения вычислительных химиков — да, стоит. С точки зрения химиков, которые работают в лаборатории — это безумие. Я слышал от достаточно большого количества моих коллег истории о том, как предлагают синтезировать материалы, синтез которых потребует 2000 градусов Кельвина или каких-то совершенно безумных каталитических усилий.

Работая над одним из клиентских проектов, мы вплотную уперлись в эту проблему. Посоветовавшись с коллегами, которые работают в intelligence augmentation (00:23:19) домене, мы перенесли их методологию «Эксперт-в-Цикле» в область материалов. Идея такого прямолинейного применения «Эксперта-в-Цикле» — это ранжировать кандидата в соответствии с какой-то функцией полезности, которая изучается в ходе постоянного взаимодействия с экспертом, который должен проводить экспериментальные исследования материала. Грубо говоря, когда мы показываем кандидата нашим экспертам-химикам, мы задаем им один и тот же вопрос: готовы ли вы инвестировать свое время в то, чтобы этот материал, этого кандидата перенести из гипотетической в практическую реальность?

Немного о роли конкретных экспертных знаний, когда мы говорим о полимерах. Если мы говорим о температуре фазовых переходов полимеров, их молекулярном весе, способности выдерживать механические нагрузки, то эти свойства должны быть воспроизводимы в любой лаборатории. С другой стороны, когда мы обсуждаем вопросы синтетической доступности компонентов, устойчивости полимеризации, стабильности мономеров во время полимеризации, соответствии внутренних и внешних стандартов, допустим, экологических, доступности сырья в терминах цены, то все эти вопросы не существуют в каком-то однозначном виде. Ответы на них зависят от контекста. Как я замечал, в фармацевтике допустимо синтезировать какой-то молекулярный компонент в 10 стадий. Для полимерного материала — это невозможно.

То же самое сводится, допустим, к ценовым вопросам, доступности сырья. Я был очень удивлен в какой-то момент, когда наши клиенты заметили, что они не могут пользоваться определенными категориями мономеров, потому что они поступают к ним в таре большего размера. Когда эта тара открывается, у нее есть определенный срок жизни. Их индустриальная линия не может пропустить более высокий объем.

(00:25:45)

Соответственно, они будут терять деньги на сырье, которое они не переработали. Такие факторы являются решающими, когда речь идет о выборе кандидатов, которые лаборатория будет синтезировать и изучать.

Один из примеров, которые мы рассматриваем в статье, который я обсуждаю — это балл синтетической доступности. Балл синтетической доступности — это достаточно удобная метрика, которая позволяет оценить или угадать, насколько тяжело будет синтезировать ту или иную молекулу. Этот балл связан с частотой нахождения фрагментов молекулы в базах данных. Этот балл очень часто используется для того, чтобы, допустим, ранжировать кандидатов для синтеза. Мы сравнили балл, вычисленный с помощью стандартной методологии. Чем он ниже, чем легче синтезировать молекулу, с ответами наших химиков, которые выбирали, готовы ли они синтезировать или изучать определенные мономеры или нет.

Как оказалось, эксперты часто выбирают синтетически сложные молекулы. Здесь абсолютно не было тренда на то, чтобы они упрощали свою жизнь. Они готовы синтезировать сложные молекулы, если они видят какую-то перспективу в их использовании. Более того, когда мы обсуждали их конкретные ответы, они замечали, что их выбор зависел от многих факторов, не только от синтетической доступности, но и от каких-то желаемых свойств, стоимости материалов, доступности инструментов. Это, например, очень хорошо иллюстрирует проблему того. что если мы будем использовать, допустим, балл синтетической доступности, как сформулирован в хемоинформатике, то мы придем к совершенно другим выводам о том, что эксперты выберут, если этот выбор предоставить экспертам.

Я перехожу к рабочему процессу «Эксперта-в-Цикле». Это общая диаграмма того, как мы тренируем модели. Она состоит из трех фаз: исходная генерация данных, тренировка классификатора и тренировка генератора. Я остановлюсь на каждой стадии более подробно. Если есть какие-то вопросы, пожалуйста, задавайте сейчас.

Первая стадия — это генерация исходных данных. Мы используем метод грубой силы. В этом случае мы составляем набор исторически произведенных мономеров, допустим, если мы рассматриваем синтез какого-то материала. Этот набор строится из содержания баз данных, допустим, патентные базы данных. Те мономеры, которые были исторически запатентованы, разбиваются на фрагменты или строительные блоки. Эти строительные блоки рекомбинируются по комбинаторному принципу для того, чтобы расширить набор данных. Те мономеры, которые были добыты из баз данных, являются положительным классом, потому что мы знаем, что их можно сделать. Новые мономеры в комбинаторном дизайне — какие-то из них мы можем заранее обозначить, как недоступные. Они могут, допустим, иметь неправильные комбинации полимеризуемых групп. В конце концов мы собираемся спросить наших экспертов, что они думают об этих кандидатах.

Вторая стадия — это тренировка классификатора или дискриминативной модели-эксперта. На практике, когда мы работаем с группой, на которой специализируется генерация молекулярных кандидатов, наши эксперты должны были сидеть перед компьютером и прокручивать страницы предложенных кандидатов, выбирая какой-то очень маленький процент, который имел смысл. Это занимает время. Это занимает время на абсолютной шкале, это занимает время тренированных специалистов, которые должны тратить время на какие-то другие задачи, более продуктивные. Основная классификационная задача или задача дискриминативной модели — это разработать суррогат человеческой или экспертной оценки, который может заменить эксперта в этой задаче и освободить время эксперта. Наша группа абсолютно не первая, которая занимается этой работой. Как я упоминал, наши коллеги в области intelligence augmentation разработали этот метод, когда перед ними стоял вопрос: как более эффективно использовать время консультантов?

(00:30:42)

Консультанты стоят дорого. Они очень часто привлекаются для извлечения специализированной информации. Если консультант работает только то время, которое консультант физически может предложить, то это менее эффективно в ценовом контексте, чем использование тренированной модели, которая может заменить консультанта в какой-то момент. Во время тренировки классификатора мы задаем вопрос: является ли этот кандидат, которого эксперт видит, синтетически практичным, и есть ли понимание, что он будет вести себя правильно в полимеризационном процессе? Соответственно, наша цель — изолировать всех хороших кандидатов и не показывать отрицательный класс или класс кандидатов, с которыми эксперты не готовы работать. Модель учится на выборе экспертов каждый раз, когда эксперт взаимодействует с системой. Мы можем постепенно заменить источник данных с нашего комбинатрного дизайна на, допустим, какие-то генеративные модели, которые доступны из других источников. В этом и состоит идея, что тренированная модель классификации кандидатов может быть встроена в какие-то другие, параллельно существующие системы, которые генерируют гипотезы о материалах.

Наконец третья фаза — это генерация или генеративная модель эксперта. Поскольку у нас есть расширяющийся класс положительных примеров тех мономеров или молекулярных компонентов, которые эксперты согласны принести в лабораторию, мы можем использовать этот положительный класс для тренировки генеративных моделей. Идея состоит в том, чтобы генерировать мономеры за пределами комбинаторного дизайна и в то же время генерировать эти мономеры, кондиционированные на каких-то неявных предпочтениях экспертов. По большому счету эта фаза стоит модель креативности эксперта. У нас были вполне реальные случаи, когда эксперты, взаимодействующие с собственными генеративными моделями, говорили, что они видели кандидатов, о которых они думали полгода назад, но не смогли перевести в практическую деятельность по каким-то причинам. То есть у нас есть основание думать, что мы можем таким образом моделировать креативность экспертов.

Я перехожу к описанию вычислительных экспериментов, которые мы провели. Эти эксперименты опубликованы в статье “Expert-In-the-loop AI for Polymer Discovery”. Опубликованы на конференции CIKM в 2020-м году. Данные составляли три группы: полимеризуемые компоненты для полиимидов, мономеры для полимеризации с раскрытием цикла — это кольцевые лактоны. Из этих двух наборов данных мы собрали положительный классы, которые использовали для обучения генеративных моделей. Один из факторов, с которыми мы имеем дело в данном случае — это несбалансированность классов данных. Отрицательный класс на несколько порядков больше, чем положительный класс. Положительный класс не является плотным. Другими словами, если я нарисую разумную молекулу, разумный мономер, ее очень легко испортить неправильным помещением какой-то функциональной группы.

Один из этих наборов данных открыт. Он в открытом доступе, ссылка включена в статью. Мы надеемся, что эта проблема привлечет внимание более широкого круга исследователей, потому что взаимодействие между искусственным интеллектом и интеллектом человека — это очень интересное направление, особенно в науке. Некоторые практические наблюдения: когда мы ранжируем кандидатов, сгенерированных в каких-то посторонних системах или в нашей системе, мы ожидаем, что они перейдут в экспериментальную фазу. Пропускная способность любой экспериментальной фазы ограничена. Поэтому на практике, если мы даже сгенерировали 100 высокоприоритетных кандидатов, то это уже успешная функция системы. Сто приоритетных кандидатов могут занять химиков на год.

(00:35:42)

Из фидбэка наших экспертов мы знаем, что система очень часто генерирует «почти» приемлемых кандидатов. Здесь возникает вопрос, с одной стороны, практический: насколько уверены эксперты в их оценке того, принять или отклонить кандидата? С другой стороны, возникает вопрос: насколько легко можно расширить систему искусственного интеллекта, чтобы эти «почти» приемлемые кандидаты автоматически трансформировались в приемлемые?

Немного чисел. Эта статистика наборов данных иллюстрирует то, что я описал. Это большие наборы данных — мы говорим о десять в пятой, как минимум. Набор данных может быть существенно расширен. Комбинаторный дизайн, генеративные модели могут производить миллионы кандидатов. Одновременно это показывает рабочую нагрузку на экспертов, если ожидается, что эксперты обрабатывают эти данные «вручную». Это невозможная задача. Особенно невозможной она выглядит, если вы сравните объем негативных и позитивных примеров, то есть кандидатов, которых эксперты выбрали, и кандидатов, которых они отклонили. Фактически ручная обработка данных в таком режиме — это упражнение в выбрасывании кандидатов в мусорное ведро. Это абсолютно неэффективный способ использования времени тренированных профессионалов.

В этой таблице вы видите результаты классификации. Это один из классификационных тестов. В основном мы пользовались моделями стандартного машинного обучения — Random Forest (00:37:33), Support Vectors и Logistic Regression с одной конволюционной сетью. В скобках вы видите типы описания молекулярной структуры молекул. Это, как правило, маленькие графы. Для того, чтобы работать с ними в машинном обучении, их надо каким-то образом векторизовать. Соответственно, векторизация делается либо по содержанию фрагментов, либо по структурным отпечаткам пальцев — ECFP, либо по фрагментации на функциональные группы — BRICS. Вы видите, что классификатор достаточно быстро тренируется на высокий уровень качества. На практике две или три итерации тренировки после показа комбинаторного дизайна с участием эксперта будут достаточными для того, чтобы получить метрики в районе 90 и выше процентов.

Краткое описание генеративных моделей, которые мы использовали. LSTM — сети долговременной кратковременной памяти, включая двунаправленный LSTM. SeqGAN — это адверсарная (00:39:02) система, где генератор — это фактически агент в системе обучения с подкреплением, то есть reinforcement learning. Дискриминатор вычисляет вознаграждение для агента, который собирает последовательность, описывающую молекулу из знаков. RankGAN — тоже адверсарная (00:39:24) система, которая состоит из генератора и ранкера. Стандартный GAN — это генератор и дискриминатор. В данном случае молекула не дискриминируется, а им присваивается какой-то вес между нулем и единицей. TextGAN — это простая архитектура адверсарной (00:39:42) сети с генератором LSTM и дискриминатором кумуляционной (00:39:46) сетью. Соответственно, когда мы тренируем модели, мы тренируем несколько моделей и смотрим на их агрегированный ранг для кандидатов.

Это результаты генеративных сетей. В каждом случае мы сгенерировали тысячу кандидатов. Объем классифицированных кандидатов разнится. Когда мы говорим о классифицированных кандидатах, это кандидаты, которые были оценены экспертами. В лучшем случае у нас точность была 25%, то есть 25% из рецензированных кандидатов были приняты. Для генеративной архитектуры и в контексте, который мы описываем, это очень хороший результат. Допустим, 59 принятых кандидатов — этого достаточно на то, чтобы занять лабораторию на длительное время.

(00:40:50)

Система реализована как преиндустриальная система, то есть у нее есть back-end, front-end, серверная сторона. Система построена таким образом, чтобы ей могли пользоваться химики, которые не имеют предварительного опыта работы с системой искусственного интеллекта. Соответственно, это простой, интуитивный интерфейс, который настроен для бинарных оценок. Поэтому, когда мы задаем экспертам вопросы, эти вопросы подразумевают ответ «да» или «нет». Наш вопрос: готовы ли вы перенести этого кандидата в лабораторию? Соответственно, дальше — это динамика левого-правого клика. В среднем, использование этой системы после того, как мы натренировали классификатор, сокращает время работы экспертов на три порядка величины. Это оценка, так как понятно, что никто не может потратить тысячу часов на рецензирование вычислительных, сгенерированных кандидатов. Фактически мы не только сокращаем время малопродуктивной работы экспертов, мы увеличиваем объем, который эта система может пропустить и рецензировать. На данный момент системой пользуются около десятка исследователей, включая химиков-синтетиков.

Один из факторов, о котором мы заботимся — это объяснимость результатов моделирования. Когда мы строим классификатор или генератор, мы их строим на основе структуры молекул. Соответственно, мы хотим объяснить ранг, присвоенный молекуле с точки зрения ее структуры. Для этого мы тренируем отдельную модель Random Forest, которая ранжирует фрагменты, найденные в молекуле. Эти фрагменты доступны пользователю, когда он работает с графическим интерфейсом. Он может открыть панель, увидеть фрагменты и одобрить эти фрагменты в том числе, если эти фрагменты совпадают с причиной, по которой они оценивают молекулу, как приемлемую или неприемлемую.

На данный мы вывели около десяти новых полимеров, которые были перенесены в экспериментальную фазу в лаборатории. Эти десять полимеров живут в разных классах полимерных материалов. Мы работаем с эффективными платформами для полимеризации циклических лактонов, функциональными полиимидными блоко-полимерами, функциональными полиакрилатами и молекулярными компонентами для фотолитографии. Безусловно, сократили время, которое эксперты раньше затрачивали на работу с «шумными» данными. Мы интегрировали в систему несколько генеративных моделей. Сейчас мы работаем в основном над исследованием альтернативных стратегий представления и преобразования химических данных. Я упомянул, что мы описываем молекулы _____ (00:44:19) фрагментов. Это, безусловно, не единственный способ описывать их структуры. Здесь есть масса возможностей с graph kernels, graph embeddings.

Мы также очень сильно заинтересованы в разработке концепций того, как генеративные модели взаимодействуют с экспертами. Те модели, которые мы представили, не позволяют эксперту вмешаться в процесс генерирования. С нашей точки зрения, это сильное ограничение. Для нас важно, чтобы эксперты могли строить кандидатов новых материалов с помощью генеративных моделей. Соответственно, мы работаем над этим.

Еще раз спасибо за возможность представить эту работу. Спасибо за ваше внимание. Пожалуйста, я с удовольствием отвечу на вопросы.

Николай Михайловский: Пожалуйста, коллеги, вопросы. Пока коллеги собираются со своими вопросами, у меня есть такой даже не вопрос, а, наверное, рассуждение. Оно увязывает неожиданным, может быть, образом то, что вы сейчас делаете с вашей предыдущей деятельностью. Есть гипотеза о том, что знание в некотором смысле эквивалентно эволюции.

(00:45:50)

То есть некий базовый механизм, который лежит в основе знания, и некий базовый механизм, который лежит в основе эволюции — это механизм мутации, то есть видоизменения гипотезы, и механизм отбора, то есть критики. В этом смысле интересно было бы ваше мнение по поводу возможности… Такая система, которую вы сейчас строите — система «Эксперт-в-Цикле», где фактически экспертное знание — это знание, которое позволяет произвести критику. Эксперт у вас фактически является критиком. Он держатель некой неявно созданной модели и является в этом смысле механизмом естественного отбора в рамках вашей экосистемы. Про полимеры мне говорить намного труднее, чем про знание или про машинное обучение, поскольку я ничего не понимаю в полимерах.

Соответственно, видится, что такая система, если ее неким образом правильно строить, то есть если ее строить так, как устроена эволюция, должна была бы неким образом эволюционно производить все более и более сложные какие-то полимеры и одновременно иметь… В некотором смысле, необязательно структурно. Вопрос сложности здесь тоже должен быть дополнительно определен. Она неким образом должна из экспертной затравки коэволюционировать система генеративная, которая осуществляет мутации, и критическая, которая осуществляет отбор. Можете что-нибудь по этому поводу сказать?

Дмитрий Зубарев: Да. Та система, которую мы описали в этой статье — это фактически расширение существующих методов, которые, грубо говоря, являются методами тренировки модели. Когда мы стали работать с нашими экспертами, у нас возник честный вопрос. Если система искусственного интеллекта — это система, основанная на интеллектуальном агенте, который может принимать решения… Существует гипотеза, — она может быть немного более специализированной, чем эволюция знания, как таковое — что развитие наших интеллектуальных способностей или способностей мозга решать сложные задачи связано непосредственно с многоагентской структурой нашего взаимодействия со знаниями. Для нас, например, одно из направлений исследований сейчас — это системы, которые основаны на reinforcement learning… Забываю, как переводится.

Николай Михайловский: Пусть будет reinforcement learning. Я думаю, что все здесь понимают, о чем речь. Обучение с подкреплением — так оно на русский язык переводится.

Дмитрий Зубарев: Да, обучение с подкреплением. Когда речь идет о многочисленных агентах, которые взаимодействуют друг с другом, вопрос, который у нас возникает: могут ли эти агенты выработать систему представления данных, систему представления знаний, систему абстракций? Фактически мы смотрим на этот вопрос с двух точек зрения. То, что называется снизу-вверх — допустим, мы идем от системы с множественными агентами. Сверху-вниз — если мы смотрим на существующие исторические знания, допустим, в каком-то домене. Допустим, полимеры, органическая химия, химия лекарств. Можем ли мы определить какие-то признаки, как знание эволюционировали в той или иной области? Я согласен, что это недооцененный вопрос.

(00:50:49)

Потому что, когда мы надеемся, что системы искусственного интеллекта начнут решать проблемы, было бы неплохо понимать, как мы эти проблемы решали в историческом контексте, и по каким, грубо говоря, законам эти решения эволюционировали.

Николай Михайловский: Да, интересно. Здесь, на самом деле, есть для меня две переклички. Одна перекличка — есть такой персонаж Александр Николаевич Горбань. В некотором смысле классик нашей науки в России. Ныне он британский ученый, как водится, но тем не менее. На мой взгляд, сильно недооцененный современным движением в области машинного обучения персонаж, поскольку основные его работы по машинному обучению были сделаны в 90-е годы. Он сейчас тоже активно работает над вопросами человеко-машинного (00:51:52) обучения и reinforcement learning. Поэтому, возможно, было бы интересно посмотреть на то, что он делает с соавторами, или даже пообщаться. Это одна сторона.

Вторая сторона — околобиологическое рассуждение. Оно состоит в том, что на уровне гипотезы в биологии сложность агента определяется сложностью экосистемы. Есть гипотеза о том, что в простой экосистеме агент со сложным поведением вообще не может. Поэтому вполне возможно, что для построения агентов со сложным эффективным поведением нужна среда, в которой имеются агенты с разнородным поведением, то есть агенты, у которых разные поведенческие характеристики и так далее. В такой среде можно надеяться на то, что агент reinforcement learning будет получать более сложное поведение. Потому что в модельных средах, где агенты идентичны или находятся в простой среде, качество и сложность поведения агентов в целом ограничена. В области того же reinforcement learning есть свежие, довольно популярные работы, которые показывают, что более сложное поведение агента достигается последовательным повышением сложности среды.

Это опять же перекликается с идеей эволюции, о которой мы только что говорили и которая с предыдущими вашими работами напрямую связана, как я понимаю.

Дмитрий Зубарев: Да. У меня, допустим, есть коллеги, которые занимаются молекулярной биологией. Они в явном виде рассматривают вопрос появления трансляционной системы, как фактически появление агента в биохимическом смысле. Это безумно интересная тематика. Одна из моих основных дилемм состоит в том, что я вычислительный химик. Слово «полимер» я выучил четыре года назад. На самом деле, я знаю о полимерах ненамного больше, чем вы. Мне гораздо интереснее заниматься вопросами эволюции сложных систем, чем предсказывать температуру фазового перехода полиимида. Поэтому мы и стали заниматься обучением с подкреплением. Это в меньшей степени вопрос разработки материалов. Это в большей степени вопрос разработки будущего науки или интеллектуальной деятельности. Мне приходится время от времени объяснять, почему мы делаем reinforcement learning вместо _____ (00:55:32) оптимизации, когда речь заходит о материалах.

Да, мне этот вопрос очень близок. На самом деле, еще раз могу сказать, что это безумно интересная тематика. Мы стараемся переключиться на нее практически полностью. Сейчас, когда мы, допустим, говорим про «Эксперт-в-Цикле», мы фактически рассматриваем модели, основанные на явном представлении, допустим, системы знаний и в контексте обучения с подкреплением.

(00:56:08)

Николай Михайловский: Окей. Я думаю, мы как-нибудь в другой форме продолжим этот очень интересный диалог. Коллеги, молчащие ныне, вопросы, соображения? Большое спасибо за интересный рассказ. Тема казалась специальной, поэтому, видимо, не так много народу собралось. Хотя мы в процессе диалога пришли к удивительно общим вещам, напрямую граничащим с reinforcement learning, с general AI (00:56:48) и тому подобными вещами. Большое спасибо. Один из самых интересных диалогов, которые у меня за историю этих вебинаров был. Спасибо всем, кто присутствовал.

Дмитрий Зубарев: Спасибо за приглашение. Если появятся вопросы, пожалуйста, пишите. Мой рабочий e-mail, по-моему, я предоставил в описании.

Николай Михайловский: Да, будем вам писать. Спасибо. До свидания.

Дмитрий Зубарев: Спасибо. Всего доброго.

(00:57:20) (Конец записи.)

The post Научно-технический вебинар “Система искусственного интеллекта «Эксперт-в-Цикле» для поиска новых материалов” first appeared on Компания НТР.

Научно-технический вебинар “Интерферобот: Настраиваем оптический интерферометр методами обучения с подкреплением”

Alexandra Koroleva — Mon, 09 Aug 2021 09:42:29 +0000

В настоящее время круг решаемых в роботике задач ограничен применением классических подходов к управлению роботом. Использование машинного обучения – в частности, обучения с подкреплением – позволит применять роботов для решения трудно формализуемых задач в реальном мире. Мы расскажем об использовании обучения с подкреплением для тренировки робота, настраивающего оптический интерферометр. Робот получает на вход интерференционную картину с видеокамеры и, экспериментируя с доступными ему действиями, обучается настраивать установку без участия человека. Робот, обученный в симуляции, затем способен настраивать реальную установку не хуже, чем человек.

Запись: https://youtu.be/zD_0o6mTyiQ

Презентация: https://drive.google.com/file/d/1ycRhDb-jQkdtiCBTSjaDQ2sgeoy5HJ4q/view?usp=sharing

(00:00:00) (Начало записи)

Николай Михайловский: Добрый день! Я Николай Михайловский, генеральный директор компании «НТР». У нас сегодня очередной научно-технический вебинар по машинному обучению, который «НТР» вместе с Высшей IT-школой Томского государственного университета. И сегодня нам Дмитрий Сорокин из Российского квантового центра будет рассказывать про обучение с подкреплением для робота, который интерферометром управляет. Правильно я понимаю?

Дмитрий Сорокин: Да. Абсолютно правильно.

Николай Михайловский: Хорошо. Мне кажется, кворум уже собрался. Дмитрий, передаю вам слово.

Дмитрий Сорокин: Меня зовут Дмитрий Сорокин. Я – меня уже представили – научный сотрудник Российского квантового центра. И сейчас я хочу рассказать о нашей работе, которая называется Interferobot. В этой работе мы с помощью обучения с подкреплением настраиваем оптический интерферометр. Данная работа была представлена на конференции ЮРИПС (00:01:10). И так же я расскажу о том, как мы эту работу развиваем дальше.

Для начала действительно стоит пояснить о том, что такое «эффект интерференции», на котором и работают интерферометры. Если у нас есть некоторая поверхная жидкость, то на ней могут бежать волны. И в зависимости от разности фаз между двумя волнами, они могут интерферироваться. И интерференция может быть или конструктивная, или деструктивная. В зависимости от разности фаз.

Тот же самый эффект был обнаружен Томасом Юнгом в двухщелевом эксперименте для когерентного лазерного света. То есть в этом случае, так же пропуская лазерный свет через две щели, мы можем наблюдать интерференцию. И это подтверждает, что свет является не только частицей, но еще и волной.

Теперь рассмотрим, что такое интерферометр. В данной работе мы занимались настройкой определенного класса интерферометров, который называется «Интерферометр Маха-Цендера». В этом интерферометре луч лазерного света разделяется на два пермсветоделителя. Затем нижний луч отклоняется зеркалом. И после этого оба луча объединяются. И их можно смотреть с помощью камеры. И, если у нас есть разница в оптическом пути между двумя плечами, то мы будем наблюдать интерференцию.

Интерферометры сами по себе используются в достаточно большом количестве применений, в частности для спектроскопии, для систем навигации. Они также использовались в детекторах LIGO и Virgo для обнаружения гравитационных волн. И также их можно использоваться для измерений шероховатостей поверхностей.

Для того, чтобы использовать интерферометр, его изначально нужно настроить. То есть, если мы хотим уметь очень точно определять разность оптических путей при внесении каких-то элементов в эти оптические пути, мы должны изначально их выровнять практически идеально. И на этом рисунке слева изображен настроенный интерферометр, а справа – ненастроенный интерферометр. И видно, что, если у нас интерферометр настроен, то оптические пути практически совпадают и мы имеет конструктивную интерференцию.

В случае с интерференцией используется метрика, которая называется «видность». И считается она достаточно просто. Нам нужно всего лишь знать максимальную и минимальную интенсивности света и построить с помощью них обезразмеренную величину, которая измеряется от 0, когда интерференции нет, до 1, когда интерференция идеальна.

Как же настраивают интерферометр? На этом рисунке изображен интерферометр, у которого есть некоторая отстройка и два луча падают на камеру не параллельно друг другу, то есть они, во-первых, не параллельны, во-вторых, они падают в несколько различные точки камер. И интерферометр подстраивается с помощью двух управляемых зеркал, движения которых на данном слайде обозначены зеленой стрелочкой. И для того, чтобы иметь возможность визуализировать разность фаз, также меняется фаза опорного пучка с помощью пьезо-зеркала (00:05:32).

(00:05:32)

Слева изображено, как получается интерференционная картина. Мы видим два пучка, которые здесь называются «Beam1» и «Beam2». И амплитуды у них вот такие Гауссы (00:05:52). И когда они складываются, они интерферируют следующим образом, и получается вот такая интерференционная картина.

Также справа изображены видео, которые получены с помощью лабораторной установки. И правое видео показывает, как выглядят пучки при настроенной интерференции, а левое — при расстроенном интерферометре.

Дальше я хочу рассказать, как выглядит экспериментальная установка. С точки зрения экспериментальной оптики она довольно-таки простая. Потому что, когда делаются большие квантово-оптические эксперименты, оптическими приборами занимается практически весь оптический стол. Но интерферометр является очень важной частью, которая входит в большинство экспериментальных установок. На этом рисунке отмечен лазер. Луч из него светоделителем делится на два плеча. Потом они объединяются вторым светоделителем. И смотрят с помощью камер. И так же фаза опорного луча меняется с помощью пьезо-зеркала (00:07:21). RL-Agent может управлять зеркалами с помощью таких моделизированных (00:07:35) подвижек и смотреть на видео данные с камер. Задача ставится в том, чтобы, получая данные с камеры, понимать, в каком состоянии что нам нужно делать и управлять оптическим элементом.

Николай Михайловский: У нас тут есть скверный (00:07:54) вопрос: «А где располагается объект, шероховатость которого мы хотим исследовать на интерферометре?».

Дмитрий Сорокин: Я не очень экспериментатор. То есть я занимаюсь машинным обучением. Но смотрите. Интерферометр позволяет измерять разность фаз между двумя лучами. И те объекты, которые мы измеряем, мы должны вносить в одно из плеч интерферометра. То есть, если у нас есть какое-то вещество и мы хотим померить его коэффициент преломления, то есть хотим померить, насколько изменится оптический путь в этом веществе, то нам достаточно его внести в это плечо интерферометра. Аналогичные схемы существуют и с шероховатостью. Но деталей я сейчас не могу привести. Надеюсь, что я ответил на вопрос.

Про пьезо-зеркало (00:09:06). Пьезо-зеркало (00:09:07) — это такое зеркало, которое ходит вперёд и назад, и помогает нам визуализировать разность фаз между двумя пучками. И вот здесь приведен примерный график позиции пьезо-зеркала (00:09:28) от времени. Амплитуда его движения должна быть порядка длины волны.

Теперь вещь, которая уже больше относится к машинному обучению. Это то, как мы ставили задачу для RL-Agent и как мы его учили. У нас есть такая оптическая установка. И истинным состоянием этой установки является не так уж и много.

(00:10:07)

Состоянием этой установки являются волновые вектора и положения пучков на камере. Но этой информации у нас нет. А то, что мы видим, мы видим изображение с камеры. И так как у нас пьезо-зеркало (00:10:36) движется, то в качестве Observation мы берём 16 последовательных картинок, которые получены за прямой и обратный проход пьезо-зеркала (00:10:48). Сейчас мы решаем задачу в постановке дискретных действий. Поэтому действиями у нас являются повороты зеркал на определённые углы. И каждое зеркало может поворачиваться в двух перпендикулярных плоскостях. И мы здесь выбрали три величины углов. Таким образом, с действиями ничего не делать, у Agent получается пространство действия, равное 25.

Дальше интересный момент, как мы рескейлили (00:11:32) Reward. В случае интерференции у нас есть величина «видность», которая определяет качество настройки интерферометра. Однако, для практических применений разница между видностью 095 и 098 очень существенна. И, чтобы эту разницу показать и Agent, мы видность рескейлили (00:12:01) с помощью такого логарифма. И ограничили эпизод 100 шагами. Для удобства.

Николай Михайловский: У нас есть ещё вопросы. Михаил Усачёв спрашивает: «Какие трудности, недостатки есть в существующих методах настройки. Что обусловило переход на ML (00:12:29)?».

Дмитрий Сорокин: Хороший вопрос. Существующие методы настройки – это настройка руками. Как она производится? В случае экспериментов собирается экспериментальная установка, а потом очень долго и очень аккуратно юстируется. Но это полбеды. Потому что у вас установка собрана, в ней не один, а, может быть, пять интерферометров. Вы их аккуратно отъюстировали. И вы начинаете проводить свой эксперимент. Но эксперимент проводится не за один день, а может длиться порядка месяца. Оптические установки имеют свойство расстраиваться из-за различных колебаний.

Николай Михайловский: Мышка бежала, хвостиком махнула.

Дмитрий Сорокин: Да. Даже несмотря на то, что оптический стол имеет амортизацию, всё равно. И настройка должна проводиться очень точно с микрометрической точностью. И хотелось сделать такую вещь, которая бы могла самостоятельно эту установку подстраивать. ML (00:13:43) здесь нужен для того, что мы работаем с картинками. Если бы мы смотрели только на видность и пытались идти просто жадным образом в сторону увеличения видности, ходя с каким-то шагом, в случае расстроенной установки мы бы не пришли к успеху совсем, потому что видность практически везде «0», кроме достаточно узкой области. В этой достаточно узкой области такая политика бы работала, но она опять была бы неидеальной.

Николай Михайловский: Дмитрий спрашивает: «Каким образом были выбраны дискретные величины углов?».

Дмитрий Сорокин: Дискретные величины углов в этой постановке задачи – это гипер-параметр. Тут есть важная величина αmax. Что это такое? Картинка, которая приходит на вход Agent, имеет размер 64 на 64 пикселя. И размер этой картинки достаточно грубый. И, если мы будем сильно отклонять зеркала, то размер интерференционных полос может стать меньше пикселя. А это будет очень плохо, потому что в этом случае будет происходить такая вещь: мы отклоняем-отклоняем зеркало, полоски уменьшают, уменьшаются и уменьшаются, а потом раз – и они начинают увеличиваться.

(00:15:27)

Чтобы этого не допустить, мы ограничили максимально область действия Agent величинами αmax. 1/10 — это 1/10 максимального отклонения, то есть чтобы с помощью большого шага Agent смог за 10 шагов грубо настроиться. А другие величины для более тонкой настройки. С непрерывными действиями теоретически Agent мог бы работать лучше — я про это попозже расскажу — но там возникает очень много своих сложностей. А это пруф оф консат (00:16:13), который очень даже хорошо работает.

Николай Михайловский: У нас сегодня на удивление оживлённая дискуссия. Глеб Куликов спрашивает: «Но ведь начальную грубую юстировку вы все равно проводите руками? А чем тогда работа Agent отличается от перебора вариантов?».

Дмитрий Сорокин: Работа Agent – это совсем не перебор вариантов. В этом случае RL намного лучше — в моем понимании — чем генетические алгоритмы и другие подходы без градиентной оптимизации. Почему лучше? Потому что то, что Agent учит, он учит алгоритм настройки. И я чуть позже покажу видео того, как Agent настраивает. То есть он видит интерференционные полосы. Он понимает их размер. И он понимает их угол. Из этого понятно, в каком направлении нужно зеркала вращать. Вращая зеркала в нужном направлении, Agent переходит в следующее состояние, в котором он тоже понимает, в каком направлении нужно вращать зеркала. А если бы мы делали какой-нибудь генетический алгоритм или какой-нибудь поиск, то он бы никак не использовал то, что он видит, то есть с помощью картинки понимать, куда идти.

И наш метод заключается в том, что мы написали симулятор интерферометра. На симуляторе обучили вот такого Agent. Потом запустили на экспериментальной установке. И он работает. Он работает хорошо. И мы сравнили то, как он работает, с тем, как настраивает человек. И результат получился несколько лучше, чем у человека.

По поводу того, что юстировка изначально проводится человеком. Она проводится. Но если эксперимент долгий, то интерферометр расстраивается. А подстраивать его по кнопке очень хочется.

Николай Михайловский: Вы ответили уже на вопрос Дмитрия. «Пришлось сделать виртуальную среду для Agent, чтобы тестировать RL-модель с высокой скоростью итераций?». Ответ, судя по всему, «да».

Дмитрий Сорокин: Да. И не только тестировать, но и обучать, так как для обучения требуется… Я дальше расскажу, какая скорость у нас получилась на установке. Обучать с нуля на установке — это малореалистичный сценарий.

Николай Михайловский: Дмитрий Башкирцев спрашивает: «То есть у вас Machine Learning решает дифференциальное уравнение в системе с положительной и отрицательной обратной связью?».

Дмитрий Сорокин: Не совсем так. Он решает не диффур. Я не совсем понимаю, причём тут дифференциальные уравнения. Если мы аккуратно напишем уравнения, которыми задается видность, то мы получим зависимость от истинных положений зеркал. И, зная истинное положение зеркал, очевидно, что мы можем настроить интерферометр за один шаг. Просто зеркала подвернуть так, чтобы они стояли параллельно. Интерферометр настроен. Успех. Однако, когда у нас есть обычные экспериментальные зеркала, мы сталкиваемся с рядом проблем. Первая проблема. Мы не знаем их истинного положения. То есть в моторчиках нет энкодеров. Те моторчики механизированные, которые используются в оптике, могут ходить на микрометрические углы, но в них нет энкодеров. А даже если бы и были, там, во-вторых, очень маленькие углы, во-вторых, эти моторчики проскальзывают, причем существенно, порядка 10%. И поэтому задача этим способом не решается. Но, исходя из состояний, то есть из видимой картинки, мы понимаем, куда вращать зеркала. И Agent решает именно эту задачу.

(00:20:56)

Николай Михайловский: Ник Линкер (00:20:59) спрашивает: «Результат работы Agent в том, что он, Agent, выдаёт значение всех углов правильно и вы потом эти углы явно устанавливаете руками?»

Дмитрий Сорокин: Нет. Совсем нет. Agent выдает значение, насколько нужно повернуть зеркало и сам его и поворачивает. То есть помимо симулятора мы ещё написали среду с точно таким же интерфейсом для эксперимента. Все элементы, то есть камера, зеркала, подключены к компьютеру. И Agent напрямую крутит всё.

Николай Михайловский: И у нас есть два соображения. Андрей Иванов говорит: «Это просто попытка притянуть сюда ТАУ (00:21:47), но RL — это другое». А Николай Кириллов замечает: «Если хотите исследовать шероховатость, обратите внимание на голографические схемы, скажем, спектр интерферометрии. Здесь не та схема. Спасибо». Давайте продолжать.

Дмитрий Сорокин: Давайте. Дальше про нашего Agent. Здесь, справа, изображены интерференционные полоски. Это примерно те картинки, которые видит Agent. С точки зрения машинного обучения, тут нам, с одной стороны, повезло, потому что паттерны достаточно простые, они сверточными (00:22:30) сетками хорошо распознаются и более-менее хорошо работают. Из сложных моментов тут можно выделить то, что яркость картинки разная в зависимости от того, пучки сведены или разведены, как понятно из физики. Это первое. И второе. Есть ещё сложный момент, заключающийся в том, что углы между пучками понимать просто: если у вас есть угол, вы видите полоски, и ширина полоски более-менее однозначным образом связана с углом между пучками. Однако второй момент. Если вы уже поставили свои два пучка параллельно, но у вас есть некоторое расстояние между их центрами на камере — этот момент уже ловится гораздо сложнее, потому что картинки начинают быть очень похожими. Такие два момента я хотел проговорить. Reset происходит так, как я уже сказал. Мы определились с некоторой интересующей нас областью углов. А потом делаем reset. Рандомно расстраиваю установку внутри этой области. В этой работе мы использовали _____ (00:23:53) со следующими параметрами: replay буфера общим числом шагов, учили на карточке NVIDIA. И всё обучение занимает порядка десяти часов. Архитектура тут самая базовая, которую использовали deepmind (00:24:20) в статье про нэйч диквен (00:24:21), который играл в atari игры (00:24:22).

Николай Михайловский: Нас ещё спрашивают. Дмитрий спрашивает: «Приходится ли подбирать коэффициенты для реального физического мира после тренировки Agent в синтетическом окружении? И, если да, то каким образом это происходит?».

Дмитрий Сорокин: Тоже хороший вопрос. Тут нам очень повезло. Я в конце покажу графики. Как всегда в RL, когда вы что-то учите в симуляции, а потом запускаете на реальном роботе, у вас есть такая величина, как разница между симуляцией и реальностью. В английском его называют syntorial gap (00:25:04), и он всегда есть. И если он у вас очень большой, у вас ничего не работает. Если он у вас достаточно маленький, Agent работают, но несколько хуже. У нас второй случай.

(00:25:17)

Agent у нас работает, но несколько хуже, чем в симуляции. Есть различные способы преодоления этой разницы. Некоторые очень теоретически красивые, но из тех, что работают, работает в основном самый простой метод, когда вы в обучение добавляете побольше шумов. Причём добавляете их с таким расчетом, чтобы те данные, которые вы уже реально будете подавать на вход Agent, были как нечто среднее между этими шумами. Это метод, которым мы воспользовались. И как раз на этом слайде, справа, изображены пучки. Пучки изображены какие? Верхний пучок — экспериментальный. Если присмотреться, то можно увидеть вдоль него, во-первых, странные полоски диагональные, во-вторых, можно увидеть, что у него интенсивность не одинаковая по всему пучку, а почему-то больше к верхнему левому углу. Такие экспериментальные пучки. А средний пучок — это симуляция. Это просто квадрат гауссовой (00:26:39) функции. А нижняя картинка – это симуляция с шумами. Здесь мы добавили шумы в каждый пиксель. И видно, что несмотря на то, что мы не описываем именно наши экспериментальные шумы, он уже начинает больше походить на них, чем идеальная картинка.

Но шумами в пучках тут всё не ограничилось. И мы делали такие рандомизации. Мы варьировали радиус пучка на плюс-минус 20% каждый эпизод. Мы меняли яркость всей картинки на плюс-минус 30% каждый шаг. И яркость — это очень важная величина. Если эта величина стоит неправильно, то Agent совершенно может не работать, потому что нейронная сеть и активации могут не активироваться.

Мы добавляли белый шум. И также мы добавляли рандомизацию в движение пьезо-зеркала (00:27:50). У нас пьезо-зеркало (00:27:54) движется вперед и назад, причём вперёд оно движется медленнее, а назад оно движется быстрее, чтобы Agent по направлению движения полосок мог понимать, в какую сторону нужно крутить зеркала. И процент между тем, какую часть времени зеркало движется вперёд, а какую — назад, также варьировался.

Николай Михайловский: Николай Кириллов спрашивает: «Сколько времени ваш алгоритм юстирует схему в среднем?».

Дмитрий Сорокин: Я покажу это потом. Если говорить, я сейчас могу несколько ошибиться, но там речь порядка 50 минут.

Николай Михайловский: Дмитрий спрашивает: «Как подбирались рандомизации и аугментации для шумов?».

Дмитрий Сорокин: Хороший вопрос. Всегда рандомизация — это такая вещь, которая, во-первых, не должна быть слишком сильной, чтобы не сломать Agent совсем, а, во-вторых, должна быть достаточно сильной, чтобы быть похожей на то, с чем мы будем иметь дело в эксперименте. И цифры здесь ставились примерные, исходя из этих соображений. То есть попробовали сильно побольше — Agent учился значительно хуже. Остановились на тех величинах, которые, во-первых, Agent не ломали, во-вторых, помогали ему обобщаться на эксперимент. Также мы делали oblation на все эти рандомизации и получилось так, что они действительно помогают.

Николай Михайловский: Андрей Иванов спрашивает: «А яркость нельзя было нормализовать в диапазоне?».

Дмитрий Сорокин: Когда мы имеем дело с картинкой, то да, значение пикселей там нормализуется. Однако — сейчас постараюсь вспомнить, зачем это нужно было сделать — есть у нас такой момент, что может происходить пересветка. То есть, если у вас значения сложились больше, чем 255, то они будут единицей в достаточно большой области.

(00:30:40)

И в эксперименте это происходит сплошь и рядом в зависимости от того, какая мощность будет в каждом из пучков. И еще один немаловажный момент: мощности в пучках тоже нужно выравнивать, иначе по понятным физическим соображениям единичной видности вы никогда не достигнете. И, чтобы Agent понимал, что может быть такая пересветка, как раз яркость и варьировалась. Такой ответ.

Дальше обучение. Обучали мы полностью в симуляции. И на этом рисунке приведены графики, полученные в процессе обучения. Видно, что угол между пучками в логарифмической шкале уменьшается. Также уменьшается и расстояние между их центрами. И видно, что угол уменьшается значительно лучше даже во время тренировки симуляцией, чем расстояние между пучками. Но Agent всё равно учится их сводить.

Ещё два довольно-таки интересных графика — это два нижних. Если посмотреть на видность, то видно, что видность у нас растёт. Потом, начиная с некоторого момента, она выходит на константу. Если посмотреть на ретерн (00:32:14), суммарную дисконтированную награду, которую получает Agent в процессе обучения — тут это для _____ (00:32:23) — видно, что награда растёт больше, чем растёт видность. Это связано отчасти ещё и с тем, что мы, как мне кажется, достаточно правильно зарескейлили (00:32:37) награду, то есть добавили логарифм единицы минус видность (00:32:42), который в том числе позволяет Agent различать похожее состояние и оптимизироваться лучше.

Дальше. Тут справа показывается то, как Agent работает. Это экспериментальные данные. Agent видит полоски и Agent постепенно сводит пучки так, чтобы прийти в настроенное состояние. Настроенное состояние, когда два пучка мигают. И настроенное состояние примерно такое, но чуть получше. Вот такое. А тут, слева, запись того, как это выглядит в лаборатории. Вот у нас оптические элементы, и вот как раз механизированные подвижки, которые самостоятельно вращаются. А над правой картинкой, вверху, изображены действия, которые делают Agent.

Замечание: «Поскольку вы рассматриваете гауссовы пучки, то у вас видность будет равна единице только в определенном сечении. Как вы выбрали эти сечения — непонятно».

Может быть, я не совсем правильно понял вопрос, так как я всё-таки не оптик по образованию, но у нас есть два гауссовых пучка. И радиусы у пучков одинаковые. Они и выходят, и расходимости, и все параметры одинаковые. В задаче у нас нет оптических элементов, которые бы меняли радиус пучка. А расходиться они будут одинаково, так как у них оптические пути довольно-таки близки. И поэтому, если их идеально свести на камере, то есть так, чтобы у них оптические пути совпали, то мы получим единичную видность.

Николай Михайловский: Если я правильно понимаю вопрос — я тоже не оптик и довольно плохо оптику помню — если мы поставим наш фотоэлемент под углом, то видность единица достигнута не будет никогда?

(00:35:14)

Дмитрий Сорокин: У нас пучки падают по нормали на камеру. То есть камера юстируется так, чтобы она стояла по нормали к опорному пучку.

Николай Михайловский: Ник тоже нас спрашивает: «Там на графиках была верхняя граница по горизонтали 1,2 млн. То есть это больше 1 млн микродвижений моторчиков?».

Дмитрий Сорокин: Это шагов обучения Agent симуляции. Да, можно считать, что Agent симуляции делает микродвижения моторчиков и примерно за миллион этих микродвижений Agent обучается тому, как интерферометр нужно строить.

Николай Михайловский: То есть это не в фактической, не в лабораторной настройке, цифра?

Дмитрий Сорокин: Да, это за одну настройку. Это графики про то, как Agent учится. То есть Agent изначально не знает ничего. А потом вы ему говорите: «Вот, Agent, настраивай установку. Вот тебе такая награда». И Agent старается это делать. И суммарно, если просуммировать все его шаги по эпизодам, получится где-то 1 млн шагов, которые Agent требуются для того, чтобы обучиться. Но для того, чтобы настроить один раз, то меньше сотни.

Николай Михайловский: Дмитрий спрашивает: «Я правильно понимаю, что исходные данные 2D картинки обусловлены удобством для юстировки человека? Пробовали ли работать с временными рядами или многомерными изображениями?».

Дмитрий Сорокин: Изображения многомерны, потому что тут 16 2D-картинок, которые подаются на вход Agent. Почему 16 — тоже понятно. Если мы посмотрим прямо сейчас, как у нас мигает настроенный интерферометр, то мы догадаемся, что некоторые из картинок имеются вид яркого пятна, а некоторые практически черные. И, чтобы по этой картинке более-менее хорошо определялось состояние, мы объединяем картинки во времени для одного положения моторчиков в бач (00:37:34) из 16 картинок, про которые мы говорим Agent, что «это твоё состояние». А обрабатывать по одной картинке — это задача гораздо сложнее. И в таком подходе мы её не решали. Но кажется, что оно не даст большого выигрыша для этой задачи.

А насколько оно обусловлено настройкой для человека? Да. Человек тоже настраивает по камере. Но принципиально там нет сильно других измеряемых величин. То есть измеряемой величиной является картинка с камеры. Да, я могу её… Если бы у меня был один пучок, я бы мог её зафиксировать (00:38:29) гауссом. Я это и делал, когда подбирал радиус пучка для симуляции. Но когда у меня два пучка, то есть Agent смотрит ровно на то, на что смотрит человек. Искусственно мы никакие другие туда фичи не добавляли. Даже не добавляли туда видность. Agent знает видность только из функции награды. И сам может ее посчитать из этих 16 картинок.

Николай Михайловский: Дмитрий ещё спрашивает: «Как выбираете временную дельту между 16 картинками?».

Дмитрий Сорокин: Хороший вопрос и вопрос правильный. Я говорил, что у нас тут есть пьезо-зеркало (00:39:11), которое ходит вперед и назад. Чтобы картинки описывали состояние, мы должны снять 16 картинок за прямой и обратный проход пьезо-зеркала (00:39:23). Это мы и делали. У нас достаточно медленная камера, которая снимает 16 картинок примерно за одну секунду. Это число узнается из паспорта этой камеры. А потом мы подобрали частоту на генераторе такую, чтобы проход пьезо-зеркало (00:39:44) туда и обратно занимал примерно то же время. Поэтому просто снимаем 16 картинок с камеры с той дельтой, с которой камера их может выдать. А пьезо-зеркало (00:39:56) подбирается так, чтобы эти картинки были репрезентативны.

(00:40:02)

Спасибо. Давайте дальше. Идём дальше. Теперь самое интересное: как это всё работает. Тут мы сделали что? Мы взяли нашего Agent, который обучался в симуляции, который никогда не видел экспериментальную установку и запустили его в эксперименте. Среда имеет точно такой же интерфейс и все действия, который делает Agent, напрямую идут на механизированной подвижке. И тут мы сравниваем то, как хорошо работает Agent по сравнению с человеком в зависимости от времени в минутах. Люди были усреднены по нескольким сотрудникам Российского квантового центра. Interferobot был один.

Процедура была следующая. Мы проводили эксперимент в двух видах. Первый вид — сравнение по времени. Второй вид — сравнение по шагам. Почему так было сделано? Потому что наш Agent крутит зеркала на какой-то фиксированный угол, а человек может крутить зеркала на тот угол, на который он посчитает нужным. И в этой метрике наиболее естественно откладывать видность в зависимости от времени, в которое произошёл шаг. И тут видно, что Agent синий, а человек красный. И, так как человек может крутить зеркала на произвольный угол, то, имея достаточный опыт, Agent может понимать, на какой примерно угол надо зеркала крутить и быстро получает неплохую видность, где-то 0,8. Однако, для того, чтобы настроиться до конца, то есть до видности где-то 0,98, которая считается хорошей, если вы делаете эксперимент, человеку приходится пройти через некоторые состояния, в которых он сильно этот интерферометр расстраивает, если сходу не получается настроить его хорошо. Такие состояния связаны с тем, что, когда вы угол между пучками убрали в 0, у вас осталось расстояние между центрами, которые сложно увидеться. И одна из политик, из алгоритмов действий, которые делает человек — это развести пучки дальним зеркалом совсем и посмотреть, какое у них будет смещение и его потом обратно подкорректировать. Это было сравнение по времени.

А вот сравнение по шагам. Когда мы умеем управлять с компьютера экспериментальной установкой, очень просто дать человеку тот же интерфейс, который имеет Agent, то есть чтобы человек также нажимал на кнопочки на клавиатуре и зеркала поворачивались на такой же угол. И на нижнем графике приведено сравнение опять-таки человека и Agent. Но видно, что здесь они стали серьёзно ближе, но Agent по-прежнему имеет преимущество. И Agent в симуляции жёлтым. И из этого графика как раз видно, какая у нас разница между симуляцией и реальностью. И она обусловлена несколькими вещами. Одна из них довольно-таки существенна. Это прокручивание моторчика. Но вторая — это разница в изображениях и в шумах в этих изображениях.

Николай Михайловский: Николай Кириллов спрашивает: «На этом графике что такое отрицательная видность и больше единицы?».

Дмитрий Сорокин: Как строился этот график? Вопрос правильный, но ничего крамольного в этом нет. Как строился этот график? Мы сделали 100 эпизодов. По этим эпизодам посчитали среднюю величину. И они здесь изображены просто линиями. А потом отложили плюс-минус стандартное отклонение в обе стороны. Вот и всё. То есть, если в 95 эпизодах у вас всё хорошо, а в пяти эпизодах сильно плохо, тогда у вас будет большое стандартное отклонение, которое вы отложите и вверх, и вниз, и получите больше 1 и меньше 0. Видно, что это вылезание со временем уменьшается. И, если посмотреть на синего, на Agent, то у него стандартное отклонение в конце, когда интерферометр уже настроен, где-то с 70 шагов, очень узкое. Такой ответ.

(00:45:30)

И последняя точка в этой работе — у меня будет ещё вторая часть про продолжение — заключается в том, что… Давайте проанализируем. Что у нас вообще делает Agent? Какая у него получается политика? И давайте посмотрим на модельную задачу, когда нам нужно подняться на гору. В случае с подъемом на гору у нас есть две политики. Первая — это мы можем идти с маленьким шагом и оптимизироваться жадно, то есть оптимизироваться так, чтобы на каждом шаге у нас наша целевая функция, то есть видность, желательно не убивала, желательно росла. И вторая политика, которая потребует меньше шагов, но шагов большей величины, заключается в том, чтобы шагать сильно и в одну сторону, и в другую. Это оптимальная политика в смысле количества шагов. И мы наблюдаем то, что наш Agent действует как раз оптимально.

Это можно увидеть из этих двух графиков внизу слайда. На правом изображена видность в течение одного эпизода. И, если мы посмотрим на шаги, например, номер 24, 25, 26, то мы увидим, что на шаге 24 у нас был всё довольно-таки неплохо, на шаге 25 Agent пучки развёл, а на шаге 26 свел обратно. И, если мы построим этот же график в осях в фазовой плоскости, то есть в осях «условный угол» и «условное расстояние между пучками», то мы получим такой график, в результате которого Agent хорошо сводит пучки сначала по углу, а потом сводит уже больше (00:47:52) центра между ними. И тут, если есть вопросы по всему, что я рассказал на этот момент, задавайте.

Николай Михайловский: Нам уже коллеги сказали: «Ваш подход понятен».

Дмитрий Сорокин: Это хорошо.

И дальше у меня ещё есть несколько слайдов про то, что мы делаем сейчас. Это работа, которая прямо в процессе. У текущего подхода, который я презентовал до сих пор, есть два момента, которые можно улучшать. Первый момент, как справедливо заметили — Agent у нас с дискретными действиями. И на первый взгляд кажется, что, если дать Agent возможность крутить ручки вообще как угодно на любые действия, но в пределах допустимого, то Agent сможет настраиваться гораздо быстрее. И второй момент заключается в том, что интерферометр, который мы настраиваем, достаточно базовый. А в экспериментах всё происходит несколько интереснее. И в экспериментах имеют дело с такой картинкой. Когда у нас есть два луча, причём лучи с разным радиусом, когерентные — разный радиус может получаться, если у вас стоит какой-нибудь телескоп, а телескопом называется конструкция из двух линз — и с разной расходимостью ещё, мы хотим эти два луча совместить на камере и получить идеальную интерференцию. Для того, чтобы это сделать в экспериментах, добавляют два телескопа в этот настраиваемый луч. Мы пока экспериментируем с одним. Но, когда у нас тут всё заработает, мы перейдём на два. В текущей постановке отличие от той задачи, которую я рассказывал, состоит в том, что здесь добавился ещё один оптический элемент линзы. Здесь стоят две линзы и если расстояние между ними равно сумме фокусов, то они практическими на прохождение луча, и мы получаем идеальную интерференцию. И помимо двух зеркал здесь нужно юстировать ещё и положение этой линзы. И наш Agent по-прежнему видит картинки с камеры и действует уже теперь не только на зеркала, но ещё и на линзу.

(00:50:47)

Второй момент заключается в том, что мы делаем Agent с непрерывными действиями. И для того, чтобы это заработало, требуется ряд, если их знать, довольно-таки понятных вещей, если не знать – довольно-таки интересных. Тут изображен наш интерферометр. У нас ещё один оптический элемент линзы, которые мы можем двигать. Наш Agent по-прежнему видит 16 картинок. Действия Agent теперь лежат в пятимерном квадрате от -1 до 1. И что мы сделали? По-прежнему здесь остался член, в котором видность минус логарифм единица минус видность (00:51:40), который отвечает за то, что мы умеем различать видности, мало отличающиеся друг от друга, по абсолютному значению, но существенно отличающиеся по расстоянию между пучками. И аналогичный трюк сделан для действия Agent. Действия Agent рескейлятся (00:52:07) экспоненциально следующим образом. Здесь некий числовой коэффициент 1 000, который является условным гиперпараметром модели. А скейл (00:52:22) такой подобран для того, чтобы Agent не только понимал, что у него видность отличается, но мог еще и понимать, что и действия, которые он производит, тоже отличаются. Через эту величину градиент не течёт, если говорить непосредственно про задачу RL. Это величина, которая применяется уже внутри среды. И это был первый момент.

Второй момент заключается в том, что здесь добавлен член с отрицательной наградой, которая даётся только в том случае, если действия Agent привели к тому, что он мог бы выйти за границы разрешенной области. Это также помогает ему, во-первых, учиться, во-вторых, не эксплуатировать среду, потому что Agent мог бы просто уводить зеркала в край и уже на этом получать некоторую видность и считать, что это хорошая политика, когда она на самом деле не такая. И для Agent с непрерывными действиями мы уменьшили длину эпизодов.

Тут показаны экспериментальные картинки, справа, того, как у нас отличаются интерференционные паттерны в случае с линзой и случае без линз. И видно, что, во-первых, полосы интерференционные у нас могут загибаться теперь. Второй более важный момент — тут самый репрезентативные картинки не показаны, так как они пока не попали в наш ивайл (00:54:37), потому что тут ивайлили (00:54:42) только десять раз. И это результаты, которые получены только сейчас. И тут видно, что из-за линзы еще мы можем менять размер пучка. А так как меняется размер, у нас сохраняется энергия. Меняется его интенсивность. И теперь может сделаться так, что один пучок у нас очень тёмный, практически не виден, так как картинка у нас масштабируется. Но есть яркий пучок — это второй — чего нельзя добиться без линз.

(00:55:14)

Мы обучали DDPG со следующими параметрами. Он учился уже больше. Он учился 20 часов. И в качестве энкодера ему поставили адаптированную сетку в виде VGG11. Она получается более стабильной к экспериментальным шумам. Хоть человек юстирует установку, хоть потом Agent ее после человека настраивает — установка никогда не будет настроена прямо идеально. И всегда пучки у нас будут находиться не по центру камеры. Всегда у нас будут различные другие сложности. И нам нужна была архитектура, которая будет более устойчива к таким шумам, в частности, из-за наличия в ней макс пуллингов (00:56:17) и других вещей. С VGG11 этот метод работает. Работает довольно-таки неплохо. Такая у него архитектура.

И этот слайд показывает экспериментальное сравнение TD-3 Agent с дикуэном (00:56:40), с линзами. Тут статистика не очень большая. Поэтому на это можно смотреть пока достаточно условно. Но видно, что он настраивается гораздо быстрее. И это здорово. Другие энкодеры не пробовали, но тут задача достаточно простая. Тут нам не нужно распознавать _____ (00:57:10), но нужно, чтобы энкодер был достаточно устойчивый к тем шумам, с которыми мы работаем. Перешли на декуин (00:57:23) – да. Перешли на TD-3 – да. Именно потому, что декуин (00:57:26 для дискретных действий. То есть он просто возвращает вероятности всех действий, а потом уже, когда мы выбираем какое-то действие, мы выбираем или самые вероятные, если мы хотим евалица (00:57:45), если мы хотим уже применять эту политику, или с какой-то небольшой случайностью выбираем неоптимальное действие, чтобы Agent мог исследовать среду и лучше обучаться.

Это наша группа. Часть группы у нас в Российском квантовом центре, а часть группы у нас в Оксфорде, и обоими группами руководит профессор Александровский _____ (00:58:19). Большое спасибо за внимание. Я готов ответить на оставшиеся вопросы, если они есть.

Николай Михайловский: Анна Машера (00:58:33) спрашивает: «А можно вопрос от менеджера? Зачем нужна такая настройка и можно ли настраивать другие сенсоры, например, камеры? Простите, если говорили об этом в начале. Опоздала».

Дмитрий Сорокин: Примерно, зачем нужно, я говорил. Мы занимаемся экспериментальной оптикой. И, когда ученые делают эксперимент, они собирают некоторую экспериментальную установку. Экспериментальная установка состоит из сотен, а иногда и тысяч оптических элементов, которые нужно очень точно установить на специальном оптическом столе, который гасит вибрации, отъюстировать, то есть настроить с микрометрической точностью, и затем уже проводить эксперименты. Базовым куском этих экспериментов является оптический интерферометр. И жизнь устроена так, что установки имеют место расстраиваться, причем делают это регулярно. И регулярно приходится их подстраивать и, в случае большой установки, этот процесс может занимать и часы. В случае одного интерферометра — меньше. И хочется сделать такую систему, которая бы по кнопке умела интерферометр обратно подстроить. Понятно, что в определённых пределах. Но те пределы, которые мы установили, очень широкие по зеркалам и по линзе, они покрывают большинство интерференционных картин, которые наблюдаются.

(01:00:05)

С камерами другая история. Я не очень понимаю, что такое юстировка камеры в этом смысле. Потому что мы крутим механические элементы, которые влияют на то, какие интерференционные картинки мы получаем. А параметры камеры, такие, как выдержка, не фиксируются (01:00:29). В случае с продажами камер это несколько не наш случай.

Николай Михайловский: Я немножко помогу вам ответить на вопрос Анны и расшифрую то, что имеется в виду. Имеется в виду то, что камеры бывают не настроенными на резкость для определенных объектов. И тогда Анне хотелось бы иметь алгоритм, который бы правильно объективы фокусировал. Для этого вроде бы есть алгоритмы, не связанные с enforcement learning (01:001:04), но, если хочется в enforcement learning (01:01:09), я думаю, это тоже можно.

Дмитрий Сорокин: Да. Это можно. Но enforcement learning (01:01:14) имеет под собой некоторые ограничения. Так как это deeplearning (01:01:21), вам нужно очень много данных. Это раз. Два — у вас получается в общем случае нетривиальная моделька, которая работает за какое-то время. И два – она чувствительна к тем данным. То есть лучше всего её использовать именно на тех данных, на которых вы учились. Но этот случай не про роботику.

Николай Михайловский: Дмитрий Башкирцев передаёт привет Львовскому. Ник линкер (01:02:01) спрашивает, как здесь поаплодировать докладчику. Если нет у нас больше вопросов… Есть у нас больше вопросов? Действительно, на удивление живой и интересный вебинар получился, несмотря на довольно узкую область. Я Нику даю возможность аплодировать в прямом эфире. И сам в некотором смысле вам аплодирую. Спасибо!

Мужчина: Спасибо, это было интересно.

Дмитрий Сорокин: Мне тоже было очень приятно вам рассказать.

Николай Михайловский: А ещё Дмитрий спрашивает: «Разве количества синтетических примеров (01:02:58) не хватило бы для deeplearning (01:02:59)-методов?

Дмитрий Сорокин: Это и есть deeplearning (01:03:02). В чём фишка RL еще в данном случае? У нас есть энкодер. И мы, с помощью этого энкодера, картинки обрабатываем в некоторое скрытое представление. Но в случае с deeplearning (01:03:24) у нас есть размеченный датасет. Вот в чём дело. То есть, если вы делаете классификацию, то у вас размечено, где какие классы находятся. Если вы делаете регрессию, то у вас есть правильные ответы. В нашей задаче мы не говорим Agent, в каком состоянии он должен крутить какое зеркало. Он выучивает эту последовательность действий самостоятельно. И в этом есть огромный плюс. Огромный плюс заключается в том, что, в случае с симулятором, мы можем сказать, где довольно-таки неплохое действие. Мы знаем, в какую сторону крутить зеркала. Условно. Но это может быть не всегда правильной политикой, потому что Agent точно не знает центра пучков, а пытается их каким-то образом выучить, понять, где они находятся. Условно, мы могли бы это делать в симуляторе. Если бы мы захотели такой же алгоритм обучения развернуть на эксперименте и у нас бы был быстрый эксперимент, который бы давал сэмплы как симулятор, мы бы могли развернуть RL на эксперименте. Мы бы не могли развернуть обучение с учителем на эксперименте. Почему? Потому что никто нам бы не разметил столько экспериментальных траекторий.

Николай Михайловский: Хорошо, Дмитрий. Спасибо большое. Спасибо большое всем присутствующим. До новых встреч. До свидания.

Дмитрий Сорокин: До свидания.

(01:05:05) (Конец записи.)

The post Научно-технический вебинар “Интерферобот: Настраиваем оптический интерферометр методами обучения с подкреплением” first appeared on Компания НТР.

Конференция “Как считать возврат на инвестиции в IT?”

Alexandra Koroleva — Mon, 09 Aug 2021 09:35:16 +0000

Тема возврата инвестиций во внедрение IT-систем будет интересна всем, кто задумывается над цифровизацией своего бизнеса и не знает, как посчитать выгоду, или уже имеет опыт внедрения IT-решения, результаты которого неудовлетворительны или непонятны.

25 февраля мы обсудим и попытаемся определить, как же все-таки посчитать возврат на инвестиции во внедрение IT-систем: для каких систем как его считать, в каких случаях можно обойтись без него и т. д.

Формат конференции: гибридный (участие офлайн + онлайн-трансляция)

Когда: 25 февраля 19:00 — 23:00.

Где: Дизайн-квартал “Флакон”, г.Москва, ул. Большая Новодмитровская, 36 стр. 2, 2 этаж. + Zoom.

Аудитория: IT-директора, технические директора, директора по цифровизации, директора по цифровой трансформации.

Темы выступлений

1. “В какой форме можно ожидать возврат инвестиций от ИТ-проектов внедрения программных систем”.

Марина Аншина, Президент фонда ФОСТАС, председатель правления Российского союза ИТ-директоров.

2. “Модель делегирования инвестиционных решений в гибкой организации”.

Пётр Подымов, автор и тренер в AlphaZetta Academy.

3. “Отраслевой опыт оценки инвестиций. Добыча, переработка, электрогенерация, логистика, химическое производство”.

Татьяна Каримова, Начальник отдела оценки и анализа инвестиций, СУЭК, Еврохим.

Бизнес-дискуссия

После выступлений докладчиков начнется дискуссионная часть мероприятия. В дискуссии примут участие представители компаний: Сибур, фонд ФОСТАС, АФК Система, МС “Созвездие”, ФК “Пульс”, СУЭК, Первая грузовая компания (дочка РЖД) и другие.

Участие в конференции офлайн/онлайн бесплатное!

Регистрация и подробности на странице мероприятия: https://cdto.events/investment-in-it
‍

Запись: https://www.youtube.com/playlist?list=PLcjwqhY9G9XCWYfo18fHJSRWlRH58pLcA

The post Конференция “Как считать возврат на инвестиции в IT?” first appeared on Компания НТР.

Научно-технический вебинар «Применение текстовых классификаторов к поиску в электронной коммерции»

Alexandra Koroleva — Mon, 09 Aug 2021 08:05:16 +0000

Спикер о вебинаре:

Алгоритмы, лежащие в основе поиска в электронной коммерции, проделали долгий путь от традиционных технологий поисковой индексации до машинного обучения. Интеграции современных достижений ИИ в ретейле привела к стремительному росту понимания поисковых запросов покупателей. Этот доклад является обзором технологий текстовой классификации, основанной на нейросетях, используемых в поисковике большой ретейловой компании. Мы рассмотрим основные сценарии использования применения текстовых классификаторов; поймем, почему применение одних общеизвестных архитектур нейросетей лучше, чем других; обсудим, какие эвристики аугментации тренировочных данных можно использовать, опираясь на уже имеющиеся данные, обычно доступные в ретейл-компаниях.

Рекомендуемая подготовка:

* Общее знакомство с архитектурами Recurrent Neural Network (RNN) и Convolutional NN (CNN).

* Статья Yoon Kim (2014)

Convolutional Neural Networks for Sentence Classification

* Ye Zhang, Byron Wallace (2015)

A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification

‍

Запись прошедшего вебинара: https://youtu.be/ZXXfJ6tixJ8

The post Научно-технический вебинар «Применение текстовых классификаторов к поиску в электронной коммерции» first appeared on Компания НТР.