Вебинары | Компания НТР

Научно-технический вебинар «Расстояние Выготского: подход к оценке схожести интеллектуальных задач»

Alexandra Koroleva — Thu, 07 Mar 2024 08:17:23 +0000

Спикер о вебинаре:
Оценка моделей играет значительную роль в современной обработке естественного языка. Большинство современных тестов NLP состоят из произвольных наборов задач, которые не гарантируют какого-либо потенциала обобщения для модели при применении модели вне набора тестов и не пытаются минимизировать потребление ресурсов, необходимых для оценки модели. Мы обсудим теоретический инструмент и практический алгоритм для вычисления сходства между заданиями, который мы называем «расстоянием Выготского». Основная идея этого показателя сходства заключается в том, что он основан на относительных результатах «учеников» на выбранном задании, а не на свойствах самой задачи. Если две задачи близки друг к другу с точки зрения расстояния Выготского, модели, как правило, имеют сходную относительную успеваемость по ним. Таким образом, зная расстояние Выготского между задачами, можно значительно сократить количество оценочных заданий при сохранении высокого качества валидации. Эксперименты с различными бенчмарками, включая GLUE, SuperCLUE, CLUE и RussianSuperGLUE, демонстрируют, что подавляющее большинство бенчмарков NLP могут быть как минимум на 40% меньше по объему включенных задач. Также расстояние Выготского может быть использовано для валидации новых задач и бенчмарков, тем самым расширяя потенциал обобщения будущих моделей.

Презентация: https://drive.google.com/file/d/1iOq-UN_BlchyJW9y12LVIRkBym7-hUt0

Видеозапись: https://youtu.be/x65EYl-ynBY

Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР

В данной работе мы рассмотрим теорию «Расстояние Выготского: подход к оценке схожести интеллектуальных задач». Основное внимание уделяется изучению методов анализа и оценки, которые позволяют оценивать и сравнивать интеллектуальные задачи на основе их схожести.

Спасибо большое, во первых, за приглашение. Спасибо, Николай, и спасибо, что нашли время, присоединились. Меня зовут Иван, я профессор с недавних пор в Высшей технической школе в городе Вусбург. Германия это такое небольшой университетский город между Мюнхеном и Франкфортом, и мы здесь строим центр искусственного интеллекта. Я занимаюсь генеративными языковыми моделями,, до этого я занимался ими в лаборатории естественного языка, которую запустил в Петербургской высшей школе экономики. И это работа, которую мы начали, когда я работал в вышке вместе с моим студентом Максимом Сурковым, который сейчас продолжает развивать наши совместные работы в своей аспирантуре. Да, мы говорим про расстояние Выготского или Выготского, я, к своему стыду, не знаю, куда правильно ставить ударение, но так или иначе расскажу, кто это и почему мы хотим счастьем назвать это самое расстояние. Давайте по порядку Начнем с вот такого график, который мы в другой нашей работе с моим с автоми леша Тихонов назвали Кембрийский взрыв моделей. Вот если вы находитесь в Томске, то вы знаете, что Западно-Сибирская равнина крайне интересно с точки зрения археологии, потому что в ней можно найти много представителей флоры и фауны, которые жили на самое равнение много много много лет назад. И Кембрийский взрыв видовой это то, что археологи называют моментом, когда на Земле сложились сами благоприятные условия для жизни и внезапно видов стало очень очень много. Грубо говоря, процесс формирования новых видов не останавливался, а процесс вымирания существенно замедлился. В связи с этим видов стало много, видовое разнообразие резко подросло. Вот мы сейчас с вами живем в эпоху ким близкого взрыва, такого маленького кембрийского взрыва и больших языковых моделей. И к самому слову большие модели к словосочетанием большие языковой модели есть много вопросов, и мы чуть попозже в этом докладе про них говорим. Но вот это график из нашей статьи, которую мы в принципе обсуждаю, как оценивают качество работы больших языковых моделей. И мы показываем новые собственной модели опубликованной на Hugging Face за месяцы 2022 и 2023 года а синеньким помеченные модели на базе ламы красной модели на базе электай, сером все остальные. И вы видите, что процесс экспоненциален. Статью у нас взяли в августу двадцать третьего поэтому с тех формы туда не смотрели, но я полагаю, что сейчас этот столбик уже выходит за пределы славя, потому что за очень у нас появилось несколько моделей на базе Мистраль с открытыми весами. буквально на этой неделе Гугл опубликовал свои веса всем языковой модели на базе архитектуры CMU Distil такие как мамба рвкв опубликованы тоже были в позднею осенью в начале зимы. соответственно это экспонциальный пост количество модель он продолжается, а это количество статей, говорящих про то, как измерять качество этих самых языковых моделей. И очевидно, что сейчас в целом Элпие как дисциплина научная находится в жесточайшем кризисе, потому что мы видим много новых инструментов, мы видим много новых результатов, и мы совершенно не понимаем, как на самом деле убедиться, что предложенный результат действительно значимо лучше, чем предыдущие. И прежде чем я поговорю, просто невыгодка. Мне кажется, что это как раз статья, которая возможно позволить нам немного систематизировать вот этот самый экспенциальный рост модели. И вот прежде чем поговорить про суть нашего результата, давайте просто поговорим про то, как большие языковые модели разбивались и как их оценивали. Да, важно понимать, что у нас нет определения, что такое большая языковая модель, но интуитивно мы понимаем, что за последние пять лет понимание, что такое большая оно менялось, да, То есть, условно говоря, в две тысячи семнадцатом году вышла статья шен Зол, и в которой предложили архитектуру трансформер. на следующий год с год с небольшим вышла статья Берта, и Берт стал такой, ну, в общем, базовой штукой. И на то момент, когда Берт выходил, для некоторых исследователей из академии Берт учить с нуля оказалось неподъемной задачей. Но с тех пор закон Мура, который говорит, что количество вычислительных мечтастей, доступных нам, будет расти экспедиционная экспедиционально привел к тому, что какие то модели, которые с большими такими же не кажется и сейчас, наверное, конвенционально все, что больше, чем джип Гпт три, три, три, пять это большая модель, все, что меньше точка три, точка пять это маленькая модель, более того, примерно такую же. а такое же определение больших и маленьких модель зафиксировали европейские законодатели в принятом документе, который регулирует собственно эти самые большие и головой модели. Они говорят, что если у вас больше чем три с половиной гигафлопс на вычисление потрачено был большая модель, и это примерно соответствует пяти три пять, которые уже считается большой по этой законодательной инициативе. а все остальное, что меньше, оно как бы под нее не подпадает. При этом до появления пяти три жизнь была устроена довольно просто были бенчмарке бенчмарков было много, но они помещались на один слайд. Вот, собственно, самое главное в марк вы здесь видите. я думаю, большинство слышали или видели. мы можем устроить голосование, не знаю, есть у нас такой интерактивный инструмент голосования или нет, но может поставить плюсик, если, к примеру, знаете, что такое глюд или суперглю. Вот если у нас есть чат и можно в нем что нибудь написать. Я не знаю, есть ли у нас возможность. Николай, у нас есть возможность устроить голосование и проверить, как люди знают, межбанке. : Поднимите руку, если вы знаете, что такое глю. Суперглю Вот метя поднял руку, отлично какое то количество не подняли. : Так, три человека в курсе. Давайте тогда я, судя по скорости, с которой люди. понимают. други, видимо есть некоторые. Вопросы. Ну, смотрите вот что такое в принципе бенчмарк? Бенчмарк это какой то набор задачек, который предлагается модель выполнить глю это дженер лэнгвич андестендинг в люишем грил ю и это был бенчмар, предложенный в восемнадцатом году людьми из Нью Йорка. он содержал в себе несколько подзадач. Эти подзадачи были ответ на вопросы, ответ на вопросы когда у вас есть выборы из четырех вариантов ответа или ответ на вопросы, когда вы, допустим, есть текст по тексту задан вопрос нужно, чтобы модель ответила сама сгенерировала ответ задачи связанной суммаризацией. К примеру вот есть большой текст, вот есть задача написать саморе большого текста и иногда даже есть человеком написанная саме. И можно бы сравнить, насколько ваша модель близко суммузует похожее на человека. Вот, пожалуй, очень интересный бенчмарк, про который я советовала бы посчитать, это схема винограда. Виноград это такой американский ученый украинского происхождения, который и предложил в какой то момент более операционализованную альтернативу тесту Тюринга. Вот давайте мы будем развивать умение поднимать руки. давайте спросим кто знает, что такое тостюринга поднимите руки так те же на манеже. А нет, побольше Дарья подняла. раньше даже не понимал. Так, ну, слушайте, а что ж вы. А, ну вот, вот вот вот. все. все квалифицированное большинство знает, что это стерлинга. Спасибо. Давайте расскажем для тех, кто спит. Как это? Давайте проверим, они живы вообще. А если вы не знаете, что такое эта Стюринга, вы поднимите руку есть люди, которые не знают, что это сюнга, или просто остальные спят. А вот Николай честный человек. Николай, объясним, что такое то стена? : В общем, очень коротко то Сюринга была такая базовая идея, что если модель в чате общается с вами, я сильно упрощаю. Тюринг мыслил в терминах записочек. В его времена была такая слоная игра, когда мужчины и женщины уходили в соседнюю комнату и остальные участники вечеринки отправляли туда записочки, и по ответам должны были догадаться, кто им отвечает мужчины или женщины, а соответственно тех, кто ушли в другую комнату. У них была задача ну, как бы один отвечал честно, а другой или другая, соответственно пытались прикинуться, что они там, не знаю, ушел не ср Реджинальд и его кузина, и они оба пытаются косплеить кузину Сырбель. А мы с вами должны по ответам понять, кто настоящий сэр Реджиналь. Так то кузина. Вот там Тюрин предложил заменить соответственно одного из участников игры на компьютер и сказал, что если мы с вами не можем понять по ответам компьютер с нами говорит человек значит, компьютер разум это его статья в журнале Майнд журнале Королевского философского общества, которое до сих пор является самым цитируемой статьи в этом журнале по философии, что довольно забавно. Вот а схема винограда, предложенная виноградом, это альтернатива. Это тут Юринга, он говорит Смотрите, довольно часто, когда мы говорим про интеллект, нам на самом деле важно, понимает ли модель, как устроен мир. И вот я предлагаю вам такое простое предложение, по которому можно понять, понимает модель, как устроен мир, или нет. Предложение такое Я не мог засунуть гитару в чемодан нет, гитару я не мог засунуть в бас в чемодан, потому что он был слишком больш Модель спрашиваем кто был большой басс или чемодан И человек он понимает что в предложении я не мог снуть бас в чемодан, потому что он был слишком большой, слишком большой был басс, потому что если бы чемодан был слишком большой, то как раз легко у него бас гитара поместилась, а вот модель может не понимать, и наоборот можно такую же схему построить такую я не мог заснуть бас в чемодан, потому что он был слишком маленький, и тогда ответ уже чемодан, а не бас. То есть чтобы правильно разрешить с кема винограда, модель должна понимать какие то соотношения между двумя объектами или субъектами, упомянутыми в тексте. Это такой интересный упрощенный варианте статьюллинга, который не очень известен, но при этом, мне кажется, классно, в общем вот эти бенчмарки представлять себя такую коллекцию заданий разного толка, и на них можно было хорошо работать, потому что модели были примерно в два раза хуже людей, иногда на тридцать процентов, иногда на пятьдесят хуже людей, и соответственно было довольно хорошо видно, как мы прогрессируем по этим маркам. Но все изменилось появлением джи пяти три, потому что в этот момент по всем этим бичмакам мы стали получать, а иногда и выше качество. То есть, условно говоря, если раньше люди работали там, отвечали на вопросы по тексту лучше, чем модель, теперь модель стали отвечают лучше, чем люди. и это привело к следующей волне бенчмарков, которые были построены по такому же принципу, но стали сложнее и больше. И попытка здесь была сказать смотрите, да, мы понимаем, что на тех старых бфмаках нашей модели работают почти так же, как люди. но вот у нас есть новые бенчмарки, они значительно сложнее, и на них уже можно увидеть, что по прежнему модели не справляется. Тут на самом деле возникло много проблем. Вот пример смартом три век Юэй. Проблема в том, что это вопросы по некоторым фактам. Может быть, вы играли есть такая игра тривиодра, она была довольно популярна в разного рода социальных медиа социальная казуальная игра, в которой можно самому играть можно с друзьями когда вам на скорость задают какие то факты такие в формате своей игры не знаю в, каком году было не была основана москва или или какова длина волге и вы начинаете вопросы отвечаете ну, и в, общем не, трудно понять, что не так много людей хорошо отвечают на такого рода запросы. И оказалось, что та же самая Дже пяти три и особенно чат Дже пяти на вот такие бчмарки отвечают очень хорошо частично потому что эти бенчмарки были опубликованы в сети попали в кому крол, который собирался для обучения чаджи пяти и, оказалось что вся втором смысле модель знает это тебе не в парке просто наизусть и даже просто оценив ее на о том, как она хорошо отвечает на эти вопросы, довольно сложно убедиться что эти ответы вот эти оценки они верны для новых вопросов которые тебе шмаки не попали. А после чатжи пяти наступила нынешняя эра, когда стало совсем хорошо в том смысле, что модели стали большими, начинают пяти четыре и вот пяти четыре она, к примеру, проходит так называемый тест Джимат или там тест Эсад это разного рода тест, на которых тестируют американских выпускников школ для поступления в университеты, и вот она их проходит лучшие медианного ученика. Вот давайте осознаем это. И это не потому, что медианный ученик в Сша очень плохо, хотя, конечно, он не чита медианному ученику в Томске, я уверен, но тем не менее это потому, что модели стали действительно хорош в таком широком спектре задач, и примерно понятно стало, что обойтись какой то одной моделью, в смысле одним бенчмарком, который достаточно большой, очень сложно, но люди все равно продолжают стараться, придумывают новые бенчмарки, придумывают какие то способы оценки. И сейчас картинка выглядит примерно так мы берем много много много разных бчмаков, оцениваем на ней модель и дальше пытаемся как то усреднить при помощи какого нибудь рейтинга элла рейтинга или мы берем и прям людьми собираем оценки работы модели для разных ситуаций так, чтобы модель гарантирован костилровлась на данных, которые никогда не видела. Есть еще такой третий способ, который совсем оккультный, когда мы пытаемся сделать модель, которая бы моделировал оценку человеком. Я сейчас не буду вдаваться в детали, но так или иначе сам этот факт того, что у нас бичмарк становится очень много, они становятся узко специальными очень разными, и возникает масса вопросов протока агрегировать вот этот факт. он толкнул нас на мысль, что неплохо бы было придумать некоторый инструмент, который бы позволил нам различать бенчмарки между собой. потому что, если посмотреть на разные задания, на которых модели оцениваются достаточно быстро, возник ощущение, что как бы не все бенчмарки одинаково полезны. Есть какие то задания, которые явно очень простые, и не очень понятно, почему мы до сих пор их используем для оценки работы модели и что нам эта оценка говорит. А есть, допустим, задания, глядя на которые кажется, что если Мадрес справляется с этим заданием, то, наверное, есть тем более простым она тоже справится, да, в общем, у нас возникла задача. Вопрос скорее, как мы можем систематизировать имеющийся вот этот зоопарк бенчмарков? При этом надо понимать, что вокруг парка есть очень много проблем. Во первых, вот как я сказала, они просто проливаются в ком крол и дальше модели лучивают наизусть дальше их очень много и разные новые бенчмарки. Когда человек публикует новый бенчмарк, говорит вот я сделал, не знаю, новый набор заданий для того, чтобы проверить, насколько хорошо модель отвечает на вопросы по медицине. Ну, он же как бы, скорее всего, медик или работает вместе с медиками. Он собрал каких то реальных данных вокруг медицины, собрал каких то ответов, как ты их разметил, но он вообще никак не проверил, как этот бенчмарк относится со всем остальным, что уже есть опубликованная. Дальше. Оказывается, что в некоторых темах у нас бенчмарков многое но в то же самое, не знаю, в ответах на вопросы по школьной программе бечмарков много. Почему, как вы думаете, есть люка? Вот поднимите руку с гипотеза, почему по медицине бенчмарков мало, а по ответу на школьную программу много. Поднимите друга Есть гипотеза Андрея, есть гипотеза остальных, нету интуиции. Ну смотрите, давайте я вам расскажу, как устроен реальный мир. Школьные учебники это паблик ноледж, это паблик домен. Почти все школьные учебники опубликованы без копирайта, и на основании их любо дорого собирать бенчмарки. А кроме того, школьное знание это знание, которое обладает большое количество людей. Поэтому вы можете проверить качество вашего бенчмарка при помощи разного рода платформы для крау сбора данных. А вот медицина это часто сильно коммерциализованная область, в которой крутятся миллиарды долларов. И несмотря на то, что вроде как все понимают, что от того, что будет больше открытых данных, это будет лучше работать в системе диагностики, лучше работать системой персолизации лечения. Проблема в том, что очень многие медицинские организации не заинтересованы в публикации данных, потому что беспокоятся, ну, потому что они не очень понимают, как работают искусственный интеллект, я не очень понимают, как в принципе работают технологии. Поэтому они думают, что от того, что они опубликуют свои данные и в конечном итоге, значит, не знаю, диагностов нужно меньше. они не понимают, что на самом деле в мире живет там десять миллиардов человек, И в идеале мы могли бы построить персонализованную диагностику и персонализованные решения для всех десяти миллиардов. И нам для этого нужны все имеющиеся у нас диагносты и еще в десять раз больше которых просто взять не откуда именно для этого и нужен и Вот и поэтому в разных областях ситуация скрудными данными устроены по разному, и, в частности, в некоторых властях очень мало открытых да. Ну и дальше как бы есть всякие штуки, связанные просто с существительными сложностями. То есть представьте, что вы взяли новую модель вы сожгли и так кучу компьютер, для того, чтобы обучить, а теперь вам нужно показать, что она лучше других моделей, и для этого вам нужно в идеале ее потестировать нам примерно всех бичмарках, которые есть. Это довольно долгая и утомительная задача, и ученый может себе позволить, наверное, потратить это время. а вот если бы в индустрии работаете и, не знаю, вы работаете в каком нибудь банке, хотите обновить ваш отбота вам бы как бы хотелось как то быстро оценить лучшую модель для ваших задач, чем предыдущая, или нет? прогнать ее на каком то небольшом количестве бенчмарков и понять, что она работает. И вот в современном мире хорошего способа сделать это быстро, к сожалению, нет. Ну и вообще, если вам интересно прогуливейше почитать подробнее вот ссылка на Прилин Приприн вышел на вкшопе Джем в прошлом году этот дженерейшен модул по, моему модулинг в общем это бакшоп джим При гемоп, который посвящен как раз сбор бенчмарков для генеративных моделей Башоп очень медленно просиде до сих пор не вышли. поэтому вот есть ссылкой на преприн на архиве но этот препринят он проходил рею и там. в общем, можете почитать дальше про то, как вообще все устроено валюции. Но теперь, когда мы поняли, в чем суть проблемы, что значит бенчмарки растут как грибы после дождя, так как отличается хорошие от плохих непонятно, как их себе стиматизировать непонятно. и главное, совершенно непонятно, какова предсказательная сила течь марков, которые у нас есть. потому что вы же в идеале хотите убедиться, что, ваша модель будет работать на новых задачах не совершенно непонятно от того, что вы ее на десяти, допустим, бечмарках оценили или на пятнадцать. Вот вы как бы значительно увеличили оценку того, что на новых данных вашей модель будет хорошо работать, или незначительно? Вот на все эти вопросы у нас нет хороших ответов, и, собственно, мы предлагаем некоторую метрику. Сравнение бенчмарков мы предлагаем назвать в честь такого советского психолога Выготского, который предложил идею, которая, собственно, он заметил. он занимался когнитивной психологией. У нас есть два таких столпактивной психологи, которые работали в Советском Союзе Это Лурия и Выгодки, они даже вместе работали. И вот Выгодки я обратил внимание на интересный феномен если ребенок разговаривать со взрослыми, то взрослые разговаривать с ребенком на более сложном языке, чем язык, на котором разговаривает ребенок. Взрослый дает ребенку более сложные задачи, чем те, которые ребенок может делать уже сейчас сам. То есть, грубо говоря, дети с детьми разговаривают на более простом языке, взрослые взрослыми на более сложно, а вот взрослые с детьми разговаривать на языке, который проще, чем тот язык, на котором они разгова взрослыми, но сложнее, чем тот язык, на котором дети разговаривать друг с другом. И он, собственно, вел это представил понятие то, что в английском называется зона прокс деблат, это как бы некоторая разница между тем, что ребенок может делать сам, и тем, что ребенок может делать при помощи инструментов или других людей, которые знают больше, то есть групп. говоря, вместе с учителем или вместе с какими то инструктором вы можете сделать чуть больше, чем сами по себе. И вот этот подход в принципе к оценке ну и вообще выгодске он он очень много думал именно про то как оценивать успех или не успех образовательного образовательной программы что такое образовательный результат, и постоянно выступал за то, что нужно оценивать в терминах ученика, а не в терминах единой какой то программы. Ну, грубо говоря, если у вас есть человек, которому явно есть сильная предосположенность к математики, довольно странно оценивать его результаты на основании такой же контроль, на основании которой вы оцениваете человека с задержкой в развитии. Да, наверное, если человек задержка в развитии решил на двадцать процентов больше примеров из вашей контрольные, чем месяц назад, то вы, наверное, достигли более впечатляющего образовательного результата с этим человеком, чем если у вас на двадцать процентов больше решил человек, который я не знаю луриак с российской олимпиадематике. И собственно, вот эта идея оценивать качество обучения, опираясь на учеников, а не на их результаты, нам оказалось интересной, и мы подумали, что надо ее применить к бенчмаркам, и ввели понятие расстояние Выготского. И, в общем, базовые идеи здесь написана Мы обычно используем бенчмарки для того, чтобы оценить модели, и на каждом бенчмарке оно представьте у вас есть задачка, не знаю, ответ на вопросы, и у вас есть процент ответов, которые каждая модель дала. Пусть у вас есть десять моделей тогда вот этот рейтинг модели на задачки. А это какая то перестановка из десяти позиций на первом месте модель номер три, на втором месте модель номер два, на третьем месте модель номер шесть и так далее. да, и у вас есть, допустим, задачка Б, и на этой задачки у вас, к примеру, задачи суммаризации текстов и какая то метрика, по которой вы эти модели спорите, и у вас соответственно, новая перестановка из за тех же десяти моделей, но на задач Кб. И обычно мы мыслим про бенчмарки в терминах, что если моя модель выше на всех задачах унчмарка, чем другая модель, то, значит, эта модель лучше. Мы решили посмотреть на задачи внутри бенчмарка в термин рейтингов. Ведь на самом деле если у меня задача и задача б, и ранжирование моделей на каждой задаче одинаковая, то в некотором смысле мне неважно знать результаты модели на второй задаче, если я знаю их на первый. Представим себе, что вот у меня есть ранжирование на задачу ответа на вопросы и поэтому оранжированию на первом месте модельным один, на втором номер два, на третьем номер три и так далее. а дальше у меня есть задача суризации и на нейранжирован ровно такое же. И интуитивно понятно, что в некотором смысле получается, что несмотря на то, что для нас эти задачи выглядят как разные, одна задача ответов на вопросы, а другая задача сумаризации. Для модели в некотором смысле задача одинаковые, потому что модели не меняют своего относительного положения в рейтинге на этих задачах. И собственно, мы предложили вести метрику расстояние Выготского как просто количество перестановок, которые нужно сделать, чтобы получить из рейтинга на одной задачей рейтинг на другой. То есть представим себе, что у нас есть очень простая ситуация. Пусть у нас будет две задачи задача один и задача два. и соответственно задача один у нас модели а б а и б с на первом месте модель анна втором модель цен на третьем б это, соответственно ранжирование пи а здесь у нас А бц это оранжеров сига. И вот идея ровно в том, что для того, чтобы получить из писигма, нам нужно сделать одну перестановку, и тогда у нас получится ранжирование соответственно дальше. Если количество перестановок нормировать, то мы получаем число, которое будет в интервале от нуля до единицы и в нуле у нас будет ситуация, когда у нас не нужны вообще никакие перестановки, у нас есть транжирование, а цена одной задачи и абц на другой, и нам не нужно вообще ничего делать. А в единице у нас будет ситуация, когда у нас в одной задаче Абц, а в другой задаче соответственно а, к примеру и для того чтобы сейчас нет цб так, и соответственно, чтобы из одной из получить другую, нам нужно сделать аж четыре перестановки, иначе оранжирование не совпадают. То есть, грубо говоря, задача номер один в случае, когда расстояние Выготского один, она максимально отличается от задачи номера. Вот давайте в этом месте сделаем небольшую паузу, и вы поднимите руку, если вы поняли, о чем речь. : Потому что. потому что это. это. это ордер, сет. нам важно, кто на первом месте, кто на последнем. Нет, ну вот мы не можем, мы не можем представлять, мы не можем представлять с конца в начало за один ход. это как бы строка. То есть мы не можем, нам надо переставки делать, меняет вкус. : Так? Именно так. Ну, вы логика в этом на самом деле такая, что поскольку это ранжирование на рейтинге когда мы сменяем, ну вот представим, что у нас есть четыре модели и мы хотим переставить местами вот эту и вот эту, вторую. Четвертый на самом деле означает, что нам нужно и третью переставить местами с четвертый, потому что после того, как мы переставили здесь у нас взаимная то есть, грубо говоря, у нас если мы переставим а в начало а вниз, то у нас изменится относительное положение б по отношению к обоим моделям. Да, и нам это надо учитывать. Давайте все таки вопрос про руки. Вот вы поняли, что происходит. То есть смотрите, у нас есть ранжирование моделей, и мы говорим вот у нас иранжирование оно порядочное, от самый хороший, самый плохой. и мы говорим, что две задачи идентичны в терминах расстояние выгодского то есть расстояние ними ноль, если оранжирование одинаковое, а есть зараживание максимально отличается. так что нам нужно делать много перестановок для того, чтобы из одного получить другое, то тогда мы говорим, что эти две задачи максимально далеки друг от друга. вся на состояние Выготского, да? Ну, к примеру, представим себе школьные предметы. Представься школьные предметы и скажем, что у вас есть математика и музыка, к примеру. Это, кстати, довольно интересная аналогия, потому что корреляция Пирсона изначально была предложена Пирсона в статье, в которой он изучал работу. Леонид, вижу, у Вас вопрос, отвечу у него закончу комментарии. Пирсон в своей работе, в которой вел к реляцию Пирсона, он вообще ее вел для того, чтобы найти то, что он называл коэффициентом интеллекта. Он обнаружил, что ученики, у которых хорошие оценки в школе по разным предметам, у них хорошие оценки по другим не знаю, говорит, высокая оценка полатыни у вас в англист высокая оценка и по муски тоже высокая оценка и и так далее. И были предметы, которые были слабо корреливы друг с другом, например, физическая культура, да? вот если у вас высокая оценка по английском и по музыке, это совершенно не гарантирует, что будет высокая оценка по фехтованию. Дело было в девятнадцатом веке, тогда были такие предметы, а с другой стороны, были какие то предметы, которые сильно коррелировали. к примеру, о том то, что мы сейчас называем вербальный интеллект, то есть знание языков или абстрактное мышление. Вот прям выделялись там вот эти компоненты достаточно хорошо. И вот мы мыслим в этих же терминах. Мы говорим, что если у нас есть две задачи, на которых школьники показывают сопоставимый сравнительный рейтинг, то в нашем случае школьники это языковые модели, то тогда как эти две задачи в некотором смысле похоже, и неважно, как они выглядят для нас. Может быть, для нас они кажутся разными, но для вот этих самых обучаемых они похожи и наоборот. Теперь можно ответить на вопрос Леонида. Леонид. Защий вопрос в такой оценке мечпарков предполагается. Что, модели на разных вич вичмарках ведут себя одинаково даже я су через средние агрегаты по классу моделей. Я не до конца понял вопросы, потому что мне кажется, во первых, он сформулирован как утверждение. Ну, давайте я прокомментирую. Смотрите, мы не агрегируем по классу модели, мы подходим в экспериментах. Я дальше про чуть подробнее скажу. Мы говорим вот у нас есть, не знаю, пейперс всуд это такой веб сайт, на котором собранный открытый результат тестирования разных модели на разных бить в марках, и мы показываем, как это работает, на примере конкретных межпарках и конкретного набора моделей. Пусть у нас есть десять моделей, которые на восьми задачах с бенчмарка как то работает. Я сейчас вам покажу, как это выглядит. А вот у нас есть бенчмарк галю в этом бечмарке есть некоторое количество задач и задач в этом бечмарке каждый тип задачи он отмечен точкой на этом граф граф это это минимальное дерево из граф который получается, когда мы рисуем в расстояние Выготского для глюк, значит, и соответственно у нас здесь сеньким отмечены задачи на понимание естественного языка, а зеленым отмеченные задачки, которые требуют просто оценки качества классификатора в терминах точности Черным это задача пара фраза бежим задачи сентиа. Но при этом если мы посмотрим на вот эту спян три то есть то мы видим, что в некотором смысле оказывается, что рт и мнлы, хотя вроде как они себя оппозиционируют как и то и другая задача нашел Франции они находятся друг от друга довольно далеко, а то есть схожесть между ними невысока, и не знаю, наоборот, там какие то задачки находятся довольно близко, хотя мы думали иначе. Соответственно, идея вот в чем чтобы мы взяли порядка дюжины модели, которые все результаты которых опубликованы на меч марки глю и исходя из предложенной выше формулы посчитали расстояние выгодского Взяли дальше порождающее дерево получившего, ск и вот от врождающее дерево. Оно показывает нам структуру Бенчмарка и показывает похожесть заданий друг на друга внутри этого парка. И мы видим, что многие задания довольно похожи. То есть есть задание, которое далеко друг от друга. Мы, по сути, не обозначаем ребрами задания, которые далеко друг от друга, но есть задачи, которые сравнительно похожи. И если вы посмотрите на эту траекторию, просумируйте ребра от внд рт, то вы на самом деле получите примерное значение ребра между в и рт, которое было, и мы его убрали, поскольку это порождающее дерево. То есть в некотором смысле мы можем померить расстояние от каждого бечмарка любой другой бенчмарка в нашем в нашей коллекции а просто просуммировав значение ребер на кратчайшем пути от одной задачи до другой. и это довольно удобно само по себе, и оно показывает некоторые неочевидное она вещи. Ну, к примеру, вот оно показывает, что задачи, которые вам кажутся с задачами начин могут быть как очень похожи друг на друга вот здесь так, и очень далеки друг от друга. Так вопрос в чате. Выбор модели как раз определяет то, насколько хорошо мы можем оценить. Да, совершенно верно, Леонид, Это собственный вопрос, который можно поисследовать, насколько устойчиво это штука к выбору модели. Мы на текущий момент пользуясь открытыми данными в том, что есть на Ппс Вск. И понятное дело, что когда модель мало, а стабильность такого рода оценки ниже. Однако в случае с языковыми моделями мы видим, возвращаясь к тому первому слайду. Кембрийский взрыв. Мы видим, что модель на самом деле тысячи скоро будут, и кажется, что в дальнейшем вопрос о стабильности отпадет, потому что модели очень много, и хорошим тоном является оценкой модели на достаточно большом количестве популярных гончмарков. Поэтому вот эта статистика по мере развития и публикации все большего количества языковых модели, она, кажется, будет становиться все более и более стабильной с этой точки зрения до другой. Давайте посмотрим пример Суперглю это следующий бенчмарк поверок Блю, которые сделали через год. в нем чуть больше задачи, они немного другие, а он, соответственно, немного другую структуру имеет. Но снова мы видим интересные вещи, то есть мы видим, что некоторые вот здесь как бы другая кодовая схема, здесь, соответственно, есть ответы на вопросы. Здесь уже начал мужчин в одном месте находится, и он довольно похож. но мы видим, что кэй здесь, оказывается, местами похоже друг на друга, местами не похоже. То есть у нас есть две кеи компоненты, которые мы, как люди, обе записали в коше. Ленски сказали, что они похожи, судя по тому, как модели на них проформят, и разные. Леонид, можно ли при такой оценке выискивать, на каких слах марки похожи и можно использовать только один из парок и отличаются и тогда найти можно использовать вымеч марка. Леонид, Вы молодец. Если бы Вы придумали эту идею год назад, то мы бы с вами написали статью. Но мы придумали идею с Максом, и, собственно, я сейчас про это как раз и покажу. Вот смотрите, это наша оценка попсу. мы прокачали датасет всех бенишмаков и статьей это соответственно, плотность размеров бенчмарков с точки зрения количества задач у них большинство обещ марков содержит себе две три задачи есть какие то бег парки больше пяти. Есть небольшое качество бечмарков действительно сложных и интересных, в которых десять пятнадцать задач мы на них сосредоточились это вот там суперглю, это плэйн геймс и так далее. вот это соответственно, распределение тем по которым бенфмарк опубликованный пеперс самое большое собственно, компьютерное зрения потом язык и вот игровой бенчмарк тоже достаточно большой интересный какое то количество на современных рядов и на разного рода методологические штуки, но это на самом деле такой синкретический раздел Попс сказал я бы не обращал на него внимания. но при этом вы видите, что, допустим, вещи, связанные с компьютерным кодом или с медициной, но они их мало, и тут не очень интересно что то делать в плане компрешено. А вот дальше мы сделали вот что. Мы взяли и разбили суперблю на публичной и частной лидерборды. То есть мы взяли два задания Булаки и Копа и сказали, что давайте вот они будут публичными и мультиверсии будут закрытыми, и давайте попробуем проверить, можем ли мы по публичному скору предсказать закрытый скот. Это примерно то же самое, что предлагают ли они. То есть я вам напомню, что булатю он находится вот здесь, а копа находится вот тут, они довольно далеко друг от друга. И соответственно, взяв открытыми задачки на концах порождающего дерева, мы рассчитываем, что мы сможем предсказать, что то, что, грубо говоря, между этими задачками лежит, то есть с и мультисии. И это действительно оказывается так. Мы чуть больше, чуть чуть позже покажу, как работает вот эта сжатия бенчмарков, покажу еще одно распределение. Возвращаясь вопрос Леонида, на который я уже ответил. Он предвосхитил в этом смысле мой рассказ. Действительно, стабильность оценки зависит количество модели, которые мы можем оценивать. Мода количество модели это девять моделей, которые на одном и том же бчмаки посчитанные для тех больших бчмак, которые смотрели там как бы, ну там порядка десяти модели было соответственно, нас это вполне устраивало, и, собственно, мы видим основные эпч марки для которых мы Делали вот клюв это китайский китайский бехмарк понимал языка он самый маленький российский чуть побольше суперглю еще побольше просто глю, на нем очень много моделей. И соответственно, вот что получается в термина компрессии это три разных классификатора, которые дают девяносто пять процентный интервал оценки точности с которыми мы можем предсказать скор на закрытой части бенчмарка в зависимости от того, насколько сильно мы сжимаем. И, собственно, вы видите, что если сжимать бечмар где то на сорок шестьдесят процентов, то можно с очень высокой точностью. То есть там свис в этом смысле дает сам большую точность и соответственно самую маленькую абсолютную ошибку. Вот как бы просто методом викторов опорных можно взять классификатор, который по шестидесяти процентам бичмака предсказывает скор на оставка сорока или, наоборот, и неплохо работает. То есть, грубо говоря, можно выкинуть больше половины меч марка и с точностью восемьдесят процентов предсказать результаты модели на выкинутой части бчмак. И это как бы очень важный финальный результат, который мы показали, и то, что как выкинуть часть бч парка, и то, что в зависимости от задачи мы можем ошибаться от пяти до двадцати процентных пунктов в абсолютном споре модели, что, кстати, само по себе суперзабавана, потому что сама методология до этого момента она вся была основана только на относительном положении моделей на бичмаке и вообще никак не учитывала абсолютной величиной того, как модели перформ. И в сухом остатке получается, что при помощи Выгодский единственность можно делать несколько вещей. Во первых, расстояние Выготского Позволяет вам представить бенчмарк В виде порождающего дерева которое, позволяет вам увидеть насколько, схожи или различные задачи внутри бич марка. Во вторых, вы можете выбрать после того как такое порождающее дерево построили некоторый набор задач, по которым вы можете там по сорока процентам мечмака предсказать достаточно высоко на результаты модели на оставшихся в шестидесяти процентов. И самое главное на самом деле, на что я надеюсь и за что очень хочется радовать это, чтобы, когда человек публикует новый меч марк он брал предыдущий бечмарк, относительно которого он утверждает, что он улучшается. То есть почти всегда люди публикуют новый бичмарк, не знаю про ответы на вопросы, и говорят мы делаем это потому что тот бечмарк ответ на вопросы протух и на нем модели работают так же как люди. Вот хочется, чтобы с появлением расстоянии Выготского как методологического инструмента люди теперь правильно учмак брали оценивали на нем десяток моделик из тех моделей, которые, у них есть скоро на предыдущем мечь марке и говорили смотрите, ребята, вот мы оценили расстояние Выготского между новым бенчмарком и старым довольно большое. Это означает, что новый бенчмарк действительно повышает наши шансы на то, что модель вот как бы генерализуется и ее обещающий потенциал растет, потому что мы включили этот бенчмарк в наш набор задачных, которых мы считаем качество работы модели. Ну, все, я все, что хотел, рассказал. Я думаю, что можно перейти к вопросам и дискуссии. Пока в ней участвовал только Николай Леонид. : Вы знаете, я тут у меня два комментария. Во первых, я с некоторой иронией отношусь к желанию Шмидхубер утверждать, что, он все придумал хотя уважаю безмерно ряд в работу, но мне кажется, что все таки есть какой то кодекс научной чести. и мне кажется, мне представляется, что он почему то его нарушает, я уж не знаю почему, но это говорит с мое личное оценочное суждение. Кто я такой, чтобы судить Шмидхубера? Ему и без моего мнения отлично. Повторых. Мне кажется, что есть общая тенденция, с которой я лично борюсь, и всем моим русскоязычным коллегам советую присоединиться к этой битве. Это на самом деле как куда более важная, мне кажется, часть развития мирового такого культурного пространства. Это то, что вообще наука предполагает, то, что вы развиваетесь внутри некоторой интеллектуальной традиции. И вот эта пресловутая фраза Ньютона, что я стоял на плечах гигантов, а до этого не знаю, исламские ученые которые придумали формулировку так сказал такой как как было на самом деле, знает только Аллах, а до этого еще древние греки в принципе придумали ссылаться на документы друг друга. Это вот идея того, что мы находимся внутри некоторые интеллектуальной традиции и ее развиваем. И мне кажется, что, к моему сожалению, многие русскоязычные ученые не обращает достаточно внимания на тот интеллектуальный потенциал, который русскоязычная культурная традиция несет. И всегда, когда можно популяризовать какие то достижения русских ученых прошлого веков, и я стараюсь это делать. К примеру, мой любимый пример это мы все знаем, кто такая Да Лавлась, мы все знаем, кто такой Чарс Бегаш, ну, может быть, многие знают как некоторого первого автора концепции компьютера, как первого программиста. Но у нас был такой Николай Корсаков, который в тысяча восемьсот тридцать втором году написал записку на создание инсуальной машины, попал в Русскую академию наук, и он предлагал в отличие от Бебеджи, который хотел паровой вычислитель. Корсаков предлагал делать вычислитель, в котором информация кодировала с размерами Брука. Он предлагал у брука три размера плюс вес это четыре переменные. и он, значит, пытался так вводить данные в некоторую машину, которая при помощи весов должна была производить вычисление, на что получила ответ от господина Остроградского, что господин Корсаков потратил много ума, чтобы люди могли обходиться без ума. Идея, конечно, прикольно типа, но делать мы ничего не будем. Вот то есть вот такой есть персонаж, забытый многими. Я вот очень топлю, чтобы Вышкинский Центр искусственного интеллекта, который в Петербурге, возможно, появятся, назвали в честь Корского ровно в рамках этой же идеи, что давайте как бы находить людей из нашей интеллектуальной традиции и помнить о том, что они сделали классные штуки. : Да, я бы тоже предлагал побиться в какой то момент Википедии за то, чтобы это была двойная инфляция, это алгоритма но. : Мы, да? Ну, во первых, там, в статье есть еще другие картиночки, там есть, по моему, картинка для ран супруглю. А если нет, можно мне написать письмо, я пришлю, она у меня где то есть, может быть, мы просто ее не публиковали, я сейчас не вспомню. Во вторых, мы сейчас делаем более интересную штучку. Мы хотим попробовать посмотреть, можно ли такую же штуку применять к школьным материалом, ск говоря метрика, ей все равно, кто обучающийся, и нам интересно попробовать генерализировать эту штуку и посмотреть, можно ли ее в принципе для педагогического дизайна использовать. : Понимаю, это мы просто так в статье предлагаем так назвать эту метрику мы ее придумали и хотим назвать честь российского советского исследователя ну. так, бывает когда, в. : Делаете новый результаты вы можете как то назвать? Это один из бонусов занятий наукой, и я советую им пользоваться, если результат хороший, и пользуйтесь на здоровье. Можно таким, да? Важно сказать, что эту статью у нас взяли на коллинг, то есть в июне, в мае, будет в турне конференции по вычислительной энгвистике, и мы там будем рассказывать. Она попала в основную часть конференции, то есть тоже пока есть Приприн, просидев в июне, но статью накольник уже взяли Можно ли таким способом сравнивать не только по ансамблю модели, но и модели ансамблюсов, модели пантов люди сравнивают уже давно, и там много такого сделано, и это как раз, ну, там есть много интересных результатов. Там немного другая логика, потому что довольно странно ранжировать датасетты относительно друг друга. Поэтому там обычно идут какие то усреднения, агрегации, их много разных, и про это как раз есть много разные прикольные математики. Поэтому я бы не советовал пользоваться этой методикой, я бы советовал именно этой методикой пользоваться. когда у вас есть задачи, на которых у вас есть оранжирование того, как работают на них модели или другие ученики. Это может быть не только, мы полагаем, что это может быть любой интеллектуальный агент. не обязательно модель, не обязательно языковая модель. Но будет ли запись публично это. : Нам нечего скрывать, мы ученые. Разница между жильцом и ученым в том, что жилец сохраняет знания, а ученый распространяет. Это смена парадигм лет пять назад случилось. : Но прежде чем откладится, и кратко резюмирую видимо, нету. Спасибо большое за приглашение. Я надеюсь, что было интересно. и если у вас есть какие то дополнительные вопросы у Николая и у организаторов этого мероприятия есть мои контакты, можно написать мне письмо и задать вопросы. : Хорошего вечера.

The post Научно-технический вебинар «Расстояние Выготского: подход к оценке схожести интеллектуальных задач» first appeared on Компания НТР.

Научно-технический вебинар «От СДУ до задачи Монжа-Канторовича и обратно: путь к ИИ?»

Alexandra Koroleva — Tue, 05 Mar 2024 08:27:25 +0000

Спикер о вебинаре:
А.Н. Колмогоров — крупнейший математик XX века, основоположник современной теории вероятностей, также заложивший основы теории марковских случайных процессов с непрерывным временем. Эти результаты, оказавшие огромное влияние на развитие прикладных методов обработки сигналов, фильтрации, моделирования и обработки финансовых данных, в 21 веке снова оказались в центре внимания в связи с развитием искусственного интеллекта и его приложений.

Действительно, для решения таких важных прикладных задач, как повышение разрешения изображений, синтезирование речи по тексту, генерация изображений на основе текстовых описаний, и др. требуются эффективные методы генеративного моделирования, которые способны порождать объекты из распределения, задаваемого выборкой примеров. Недавние достижения в области генеративного моделирования как раз и базируются на диффузионных моделях и используют математическую основу, заложенную еще в прошлом веке А.Н. Колмогоровым и его последователями.

В докладе будет рассказано о современных подходах к генеративному моделированию на основе диффузионных процессов и на основе решения задачи Монжа-Канторовича. Будет показана связь решения энтропийно-регуляризованной задачи Монжа-Канторовича с задачей построения диффузионного процесса с определенными экстремальными свойствами. Работа соответствующих алгоритмов будем продемонстрирована на примере решения различных задач обработки изображений.

Презентация: https://drive.google.com/file/d/1NV0OkagOYdYF_LylDtVpOzPo-PQxLcfA/

Видеозапись: https://youtu.be/fSbAHoCoUOk

Речь идет о генерировании изображений, даже тех, которые не существуют и могут соответствовать какому-либо текстовому описанию. Сегодня я поговорю о нескольких классах алгоритмов, которые могут решать эту задачу. И почему это вообще связано с искусственным интеллектом? А потому, что существуют два типичных подхода к решению подобных задач, и между ними есть некая связь, о которой я расскажу.
Генеративное удаление как таковое развивалось довольно давно, но в 2014 году появился новый подход на основе ГАНов (Генеративных adversarial networks) — это сверточные нейронные сети, которые берут на вход какой-то вектор шума или шумовую матрицу. Если правильно настроить параметры такой сверточной сети, на выходе можно получить изображения высокого разрешения, например, лиц людей, которые не существуют. Эта техника эксплуатирует факт, что если у нас есть простое распределение, например, равномерное гауссово, то нелинейным отображением его можно преобразовать в arbitrarily сложное многомерное распределение. Вопрос заключается в том, как это сделать.
То есть, мы можем не знать вид плотности распределения рэпле, но мы можем сгенерировать неявное представление этой плотности, которая проявляется в данном случае. Распределение данных, генерируемых ею, напоминает распределение реальных данных, причем этот факт используется в алгоритме, который назван градиентным неконкурентным нерассеивающимся. Кроме того, в 20-м году появился другой класс моделей, основанных на диффузионных процессах. Сначала генерируется шумовое изображение, а затем оно специальным образом расширяется, чтобы получилось изображение, похожее на реальное, как те, что были в обучающих выборках. Кроме того, в идеале изображение коррелирует с описанием, которое пользователь ввел. Эти результаты используют некоторые интересные факты и теорию вероятности, особенно в отношении второго подхода, основанного на диффузионных процессах. Эти факты были заложены теорией паронных процессов, разработанной Колмогоровым, известным математиком прошлого столетия. Вот собственно и три основные компоненты.
Я собираюсь сначала рассказать о диффузионных процессах, которые представляют собой первый подход к построению нериативных моделей. Второй подход — это оптимальный транспорт, который отличается от диффузионных процессов, но превосходит их математической строгостью и способностью достичь желаемого результата в различных ситуациях. Можно соединить эти два подхода с помощью моста Шелтингера, который также заслуживает внимания.
Диффузионный процесс в непрерывном времени — это просто преобразование переменной x в момент времени, которое можно записать более просто. Здесь x может быть многомерным и задается нелинейным уравнением, включающим коэффициент сноса. Кроме того, добавляется дополнительное движение, которое задает случайность. Существует начальное значение процесса, которое генерируется случайным образом, и затем траектория запускается из этой начальной точки.
Мы можем заинтересоваться свойствами такого случайного процесса. Например, если начальное распределение точки было сложным или даже представляло собой распределение некоторой сложной величины, такой как изображение, мы можем рассматривать изображение как реализацию случайно влеченной из неизвестного нам распределения реальных изображений.
«Предположим, что изображение реального мира является реализацией неизвестного нам распределения реальных изображений. Мы считаем, что существует некоторое распределение, которое описывает изображения в реальном мире, хотя мы не можем быть уверены в этом. Пусть у нас есть сложное начальное распределение для случайных процессов. Известно, что если мы запустим случайную траекторию из этого распределения, то при определенных условиях (не слишком ограничивающих) её предельное распределение будет стремиться к некоторому фиксированному гауссовскому распределению. То есть в каждый момент времени распределение значения в этой траектории будет сходиться к гауссовскому распределению.»
Этот факт, известный в теории марковских процессов в дискретном времени и в прерывистом случае, также применим к случайным процессам. Существует другой важный факт из теории случайных процессов: если случайный процесс в прямом времени удовлетворяет некоторому уравнению, то случайный процесс, определенный обратным временем, начинается с начального распределения, соответствующего предельному распределению прямого случайного процесса.
Если уравнение траектории такое, то оно сходится к предельному распределению, которое соответствует начальному распределению прямого процесса. Это интересный факт, но требует некоторых дополнительных предположений. Кроме того, необходимо знать плотность распределения прямого процесса в любой момент времени, потому что для запуска обратного процесса требуется знать градиент логарифма этой плотности. Если мы знаем это, то мы можем воспользоваться уравнением, обладающим определенным удивительным свойством, как показано на рисунке. Это также очень важный факт из теории случайных процессов. Почему это оказывается полезным?
Предположим, у нас есть некоторое начальное распределение, например, распределение векторов, каждый компонент которых соответствует пикселю изображения. Мы взяли arbitrarily одну случайную картинку из Интернета, как будто она была сгенерирована из этого распределения, которое нам неизвестно, но мы хотим иметь возможность моделировать его, т.е. генерировать из него наблюдения, похожие на реальные изображения. Мы запускаем траекторию случайного процесса из arbitrarily выбранной начальной точки. Что произойдет дальше?
Если все будет сделано правильно, траектория сходится к предельному распределению, например, гауссовому. Фактически, мы начинаем зашумлять изображение. После определенного количества шагов, где каждый пиксель изображения преобразуется случайным диффузионным процессом, мы получим изображение с пикселями, которые представляют собой гауссовский шум. Если мы можем записать уравнение обратного процесса для данного диффузионного процесса, то мы можем размыть изображение, т.е. взять arbitrarily случайное изображение и преобразовать его в объект из распределения, как будто оно было сгенерировано из начального распределения, которое соответствует распределению реальных изображений. Если мы точно знаем начальное распределение, то мы должны получить изображение, похожее на начальное, а не на шум. Вот как можно реализовать эту идею?
Конечно, для этого необходимо конкретное уравнение, которое удовлетворяет необходимому предельному свойству. Например, такими могут быть уравнения вида «капп», но в нашем случае будем использовать очень простое. В качестве коэффициента диффузии выступает некая функция брата, которая с течением определенного времени стремится к определенному значению с определенной скоростью. Таким образом, мы можем записать уравнение для обратного процесса. Основная сложность заключается в том, что мы не можем явно записать плотность распределения в этом процессе, поскольку оно зависит не только от текущего момента времени, но также от начального распределения, которое нам неизвестно и которое мы именно желаем бы моделировать.
Предположим, нам удалось сделать это с помощью нейросети, в частности, используя универсальный парокситатор. Мы можем ассимилировать градиент логарифма плотности распределения неким хитрым образом. Если нам это удалось сделать, мы получаем следующую систему: у нас есть процесс, который зашумляет изображение, т.е. мы можем применить диффузионный процесс к любой начальной картинке и получить в результате просто шум. Если мы построили такой зашумляющий процесс, его можно обратить, построив некоторую нейросеть, которая аппроксимирует градиент логарифма плотности процесса. Таким образом, мы можем легко размыть изображение
С помощью такого уравнения мы можем легко размыть изображение. Конечно, это уравнение записывается в дискретном времени, и мы вычисляем, как оно взаимодействует с arbitrarily выбранной картинкой, постепенно размывая ее и получая результат, похожий на те картинки, которые мы зашумляли для оценки градиента логарифма плотности распределения. Теперь осталось научить нейросеть размывать изображения таким же образом. На самом деле, все эти методы широко используются в теории случайных процессов.
Если у нас есть распределение траекторий случайного процесса на некотором отрезке для процесса, градиент логарифма плотности которого мы знаем точно, то мы можем оценить распределение траекторий процесса с помощью некоторого расстояния Кульбака-Лейблера между двумя траекториями, рассматриваемыми как случайные функции. Это расстояние задается определенным уравнением, которое включает математическое ожидание внутреннего произведения. В таком случае, что мы могли бы сделать?
Мы вычисляем этот интеграл с помощью модели авторегрессии, вместо интегрирования по времени. Затем мы подставляем значение этой величины, которая задается математическим ожиданием по траектории, во все уравнение и оптимизируем его по параметрам, чтобы обучить нейросеть размывать изображения. Проблема заключается в том, что мы обычно не можем выписать эту формулу явно. Но мы можем воспользоваться следующим трюком: разделим математическое ожидание на две части.
Мы ожидаем не по времени, а по картинкам из обучающей выборки. Мы аппроксимируем это ожидание усреднением по обучающей выборке. Затем мы явно разделяем ожидание на две части: ожидание по картинкам и ожидание по траектории. Мы подставляем оценку плотности логарифма распределения, которую можем вычислить явно для конкретной диффузионной модели, в формулу. Затем мы минимизируем по параметрам. Вот что еще можно сделать: мы можем оценивать все остальное по формуле Монте-Карло для конкретного диффузионного процесса
Здесь мы можем сгенерировать не только картинки, но и картинки, обусловленные текстом. Для этого нам нужно взять выборку пар «картинка-текстовое описание» и добавить в качестве параметра скор-функции некоторый вектор, представляющий условие на текст. Этот вектор получается с помощью вложения текста в некоторое пространство с помощью нейросети. Таким образом, мы можем управлять генерацией картинок с помощью текста.
Хорошо, давайте продолжим. Мы уже обсудили один из подходов к моделям деления. Теперь перейдем ко второму методу, основанному на теории оптимального транспорта. Идея следующая: была задача Монжа, затем Канторовича. В современной постановке задача формулируется так: есть две меры, и мы хотим построить такое отображение T, чтобы оно точно переводило одно распределение в другое. Я уже упоминал, что можно преобразовать любое распределение в любое другое в этом же пространстве, если применить достаточно сложное отображение. Так вот, наша цель — найти среди всех возможных отображений такое, которое минимально изменяет исходное распределение.
Леонид Витальевич Канторович был выдающимся математиком, который работал как в теории, так и на практике, решая множество важных прикладных задач. Он предложил теоретический подход к решению задачи, который оказался очень важным и полезным. Это по сути генеративно-состязательная сеть (ГАН), поскольку генеративные адверсариальные сети — это способ построения отображения, которое трансформирует простое распределение Гаусса в распределение изображений. Важно то, как устроен алгоритм оценки этого отображения и какой целевой функционал оптимизируется.
Теперь обобщим: мы строим генератор, который трансформирует одно распределение в другое, и оптимизируем функционал, который при этом естественно возникает. На самом деле мы не знаем исходные распределения точно; они представлены наборами точек, сгенерированных из этих распределений. Если мы построили такое отображение, можно для любой новой точки предсказать, какой точке она соответствует. Это позволяет трансформировать один домен в другой.
Теперь о классической задаче, также известной как слабый оптимальный транспорт. Если в классическом случае каждую точку одного распределения мы переносим в точку другого распределения так, что кажется, будто последняя была сгенерирована из второго распределения, то в случае слабого оптимального транспорта каждая точка переносится в окрестность, где существует условное распределение в зависимости от этой точки. Мы используем более общее описание функции стоимости, которое не просто учитывает квадрат разности, а зависит от способности порождать новые точки из условного распределения. И вот мы минимизируем этот функционал по всем возможным совместным распределения.
Это то, что называется транспортным планом. В качестве функционала ?C можно использовать квадратичный функционал, который учитывает разность между ?Y и генерированным ?Y из условного распределения при заданном ?X. Однако, если использовать только квадратичную функцию стоимости, это может привести к вырождению транспортного плана в дельта-функцию, то есть условное распределение будет порождать только одну конкретную точку для каждого фиксированного ?X, что нежелательно. Чтобы избежать этого, следует добавить регуляризацию, которая предотвращает вырождение условного распределения.
Такой подход позволяет создавать много разных условных точек ?Y для каждого ?X, используя штраф на дисперсию условного распределения. Это гарантирует, что условное распределение не будет вырожденным. Теперь возникает вопрос, как решать такую задачу оптимального транспорта. Очевидно, что нужно использовать нелинейные преобразования, если ранее мы использовали их для неявного представления распределений. Если раньше у нас было простое распределение, которое трансформировалось в сложное, то теперь ситуация немного сложнее.
Имеется начальная точка ?X, которую мы отображаем в точку ?Y. Однако ?Y не однозначен и как будто генерируется из распределения при фиксированном ?X. Чтобы учесть эту неоднозначность, мы можем генерировать случайные значения шума ?Z, например, из Гауссовского распределения, и за счёт этого дополнительного источника шума разные ?X пропускают этот шум через нелинейное преобразование, получая разные ?Y, как если бы они были сгенерированы из условного распределения.
Это неявный способ моделирования условного распределения, который может усовершенствовать любое условное распределение. Почему эта задача на самом деле важна на практике? Многие задачи анализа данных могут быть поставлены в непарной постановке. Например, мы хотим каждой фотографии сопоставить аниме-лицо, похожее на лицо человека на фотографии, но у нас нет пар «фотография — аниме-лицо». Мы не знаем, какое аниме-лицо на самом деле соответствует каждому человеческому лицу, но мы хотим достичь некоторой разумности в сопоставлении.
Для этого мы задаём функцию стоимости, которая сравнивает лицо реального человека с аниме-лицом, и решая оптимизационную задачу, мы строим такое отображение, которое любую точку из распределения реальных лиц отображает в аниме-лицо, которое похоже с точки зрения функции стоимости на реальное лицо. Это отображение в идеале должно быть эффективным, и предполагается, что меры ??μX и ??μY существуют в одном пространстве одной размерности.
Важно, что при определённых условиях можно достичь того, что отображение будет взаимнооднозначным. Если говорить об исходной задаче, то всегда существует решение. Эту задачу оптимизации можно переписать в двойственной форме, чтобы найти соответствующее отображение. Необходимо взять это отображение и другое преобразование, которое действует как дискриминатор, и оптимизировать данный целевой функционал, что выполняется довольно просто.
Это похоже на задачу, возникающую в генеративно-состязательных сетях (ГАНах), где также присутствует оптимизационная минимаксная задача. Основное отличие здесь заключается в том, что в случае ГАНов существует дополнительное ограничение, которого нет в рассматриваемом нами случае. Задача оптимизируется по параметрам двух моделей, и находится седловая точка. Интегралы в этой двойственной задаче оцениваются методами, предложенными Карлом Декартом.
На практике предположим, у нас есть картинки сумок, и мы хотим для каждой сумки сгенерировать обувь, похожую на структуру сумки. Поскольку из второго распределения при условии точки из первого можно сгенерировать множество различных образцов обуви, мы можем получить множество различных пар обуви для одной и той же сумки.
Примеры подтверждают, что если использовать различные метрики, такие как Receptive Field или другие подобные метрики, качество трансфера может быть таким же или даже лучше. В случае анимационных лиц мы видим, что в целом сохраняется определенная семантика — выражение лица, цветовая гамма, что достигается даже с использованием самых простых функций стоимости.
В этом контексте параметр гамма, о котором идет речь, имеет большое значение: чем больше гамма, тем больше дисперсия условного распределения, что влияет на результаты, которые мы получаем для заданного лица. Это можно использовать на практике, например, для трансформации поля ветра из одного домена, соответствующего климатической модели, в домен, соответствующий реальным измерениям. Это улучшает климатический прогноз, придавая ему свойства, близкие к реальным измерениям, что позволяет более точно оценивать феноменологические риски.
Перейдем к третьей части моего рассказа о мошеннингере, который включает задачу построения оптимального транспорта. Транспортное отображение строится с учетом некоторой функции стоимости, что позволяет генерировать условные ?Y, зафиксированные на ?X, при условии, что функция стоимости не квадратичная и включает регуляризацию для предотвращения вырождения транспортного плана. В качестве такой реализации я использовал дисперсию, но можно применять и другие подходы, например, энтропию этого распределения ΠΠ.
В случае использования энтропии, решение задачи слабого оптимального транспорта в многомерном случае становится практически невозможным, потому что оценка многомерной энтропии распределения ΠΠ в многомерном пространстве — это сложная и неблагодарная работа. Несмотря на то, что энтропия является часто используемым и теоретически привлекательным функционалом, применение его в непрерывных задачах оптимального транспорта, где распределение ?μ известно только выборочно, делает его использование нецелесообразным.
Тем не менее, можно решить задачу оптимального транспорта с энтропийной регуляризацией, просто для этого нужно действовать иначе.
Итак, это мост Шрёдингера. Существует задача, которая связывает дефиниционные процессы и оптимальный транспорт. Идея динамического моста Шрёдингера заключается в том, что он представляет собой стохастический процесс, управляемый стохастическим дифференциальным уравнением, который эволюционирует из одного распределения в другое. Мы требуем, чтобы начальное и конечное распределения точно совпадали, и при этом стремимся минимизировать квадрат сноса процесса, делая его траектории как можно более близкими к нулю.
Оказывается, что между решением задачи моста Шрёдингера и оптимального транспорта существует взаимно однозначное соответствие: если решить задачу моста Шрёдингера с определёнными распределениями, то совместное распределение начального и конечного состояний этого процесса будет являться оптимальным транспортным планом для задачи оптимального транспорта. Это интересный факт, показывающий, что вместо прямого решения одной сложной задачи, можно переформулировать её и решить альтернативную задачу моста Шрёдингера.
Как это работает на практике? Рассмотрим прикладную задачу: допустим, у нас есть изображения в плохом разрешении и мы хотим преобразовать их в изображения хорошего разрешения. Технически сложно сделать точные пары изображений одной сцены в разных разрешениях, поэтому традиционный регрессионный подход не применим. Вместо этого у нас есть множество непарных изображений, и мы хотим построить модель, которая «наделяет» изображение в плохом разрешении характеристиками изображения в хорошем разрешении.
Здесь на помощь приходит мост Шрёдингера: начиная с изображения в плохом разрешении и применяя оптимальный стохастический процесс, мы можем постепенно преобразовать его в изображение хорошего разрешения. Если параметр стохастичности ?=0ϵ=0, процесс является детерминированным, и мы получаем прямое преобразование. При ?=1ϵ=1, процесс включает стохастичность, что добавляет вариативность в генерируемые изображения, делая результаты более разнообразными, но похожими на исходное изображение.
Интересно наблюдать, как изменение параметра ?ϵ влияет на «температуру» преобразования: при увеличении ?ϵ стохастичность увеличивается, и конечное изображение может сильно отличаться от исходного, сохраняя при этом общие характеристики.
Эти теоретические разработки важны, поскольку они позволяют формулировать строгие задачи для построения инновационных моделей. Из этих постановок можно извлечь теоретические оценки, объясняющие, почему те или иные алгоритмы работают эффективно. В отличие от эмпирических подходов, таких как ГАНы, где теоретические оценки часто сложны или невозможны, мост Шрёдингера предоставляет возможность для строгой теоретической оценки и объединения нескольких подходов в единую конструкцию.
В заключение, мост Шрёдингера не только решает практические задачи, но и обеспечивает глубокое теоретическое понимание связей между различными областями математики и компьютерных наук.

The post Научно-технический вебинар «От СДУ до задачи Монжа-Канторовича и обратно: путь к ИИ?» first appeared on Компания НТР.

Научно-технический вебинар «Hardness of Learning AES with Gradient-Based Methods»

Alexandra Koroleva — Wed, 14 Feb 2024 08:38:26 +0000

Спикер о вебинаре:
We show the approximate pairwise orthogonality of a class of functions formed by a single AES output bit under the assumption that all of its round keys except the initial one are independent. This result implies the hardness of learning AES encryption (and decryption) with gradient-based methods. The proof relies on the Boas-Bellman type of inequality in inner-product spaces.

Презентация: https://drive.google.com/file/d/1RgWI1LIBoPqFS-Zu1a8xOXUeR1Ei1nXU/

Видеозапись: https://youtu.be/QBizdzGzFhk

Значит, это будем рассматривать, ну, такой типа в этап обучения с учителем у нас есть обучающая выборка, а здесь это в качестве примеров это изображение фруктов и это иксы, а игрики это у нас метки, то есть название фрукта и мы хотим такие пары и соху игреков скормить алгоритма обучения, которые должен нам дать некую функцию эф. и эта функция эф должна на вход принимать картинку и на выходе давать метку, да, вот мы ее называем косикатору. Вот в этом случае причем это небо какая функция. Но желательно, чтобы при применении на какой то новой картинке, которой не было в обучающей выборке, ответ, то есть метка, выдаваемая функции фальсификатором, была бы правильная. И вот процент правильности таких ответов на новый выборке это, соответственно, то, что мы называем точные сикации. Так вот в качестве вексов игреков. но у нас не обязательно должны быть картинки, там, метки, это могут быть, например, куски текста, то есть икса, это может быть предложение или кусок текста на одном языке. А, Игорек, вот в этой постановке такой задачи, которая типично для обработки естественного языка, это перевод на другой язык этого же текста. Ну и соответственно, если мы возьмем типовой алгоритм выучивание машинного перевода в конце мы получим не был модель которая также ожидается что при применении к новой к новому куску текст к новому предложению выдаст адекватный перевод ну вот а ты с машины переводом я так более менее был знаком когда только только начинал этот проект. ну, я, конечно, прокриптографии ничего нервно почти и. соответственно, я, я как размышлял я думал ну вот если если. если представить, что икс. ну, если представить, что мы никакой славянский язык не знаем, то икс для нас это некий какой то шифр, текст, а игорьк это вот то, что мы понимаем, хотя в данном слышь, конечно, мы и твой друг, понимаешь, Но если бы там было бы на каком то языке, который мы не знаем, мы не знаем, то для нас это было бы как некий чип, да? Вот и теперь мы переходим к симметричной криптографии симметричным крипто система. То есть вот у вас есть какой то, ну, так называемый исходный текст, хотя это не обязательно должен быть текст, это любая любая информация, любые данные, картинки там, видео, что угодно. Просто терминология такая, что это называется обычный пэнтекс. И вы хотите вот эту информацию передать свои подруги, соответственно, вы и ваша подруга должны как то договориться о секретном ключе, который знаете только вы и ваша подруга, и все, больше никто. И дальше вы применяете алгоритм шифрования, которые параметризуется ключом. Ну, то есть шифрование это что? Это некая функция, которая берет на вход вот это как икс, да? То есть исходный текст. Эта функция зависит от параметра ключа. То есть для разных ключей функция разных она выдает на выходе шифртекст, и вот этот шифр текста отправляется подруге, а подруга знает что. ну какой алгоритм расшифрования был использован. Причем шифрование здесь это взаимнооднозначное соответствие, то есть оно может быть обращено, то есть есть обратная функция, и если знать вот этот секретный ключ, что обратную функцию посчитать довольно лепо. И соответственно, она применяет обратную функцию, получает исходный текст, исходную информацию, и вот в этом как бы смысл симметричная крипт систем, то есть как именно вы, ваша подруга, договариваетесь о ключе. Ну, это как бы отдельная, отдельная демона есть, есть методы, как по незащищенному каналу вы можете обменяться секретным ключом. Так вот я что подумал. Я подумал, что вот если смотреть на эту часть, то есть зафиксировать ключ мы мы не знаем ключа, но, допустим, у нас есть возможность на генерировать кучу кучу вот таких пар шиппа текст и исплодный текст, то почему бы на это не смотреть как на задачу машинного переводе, да? То есть с какого то непонятного языка на понятный язык. То есть вот такое желание. Хорошо, давайте попробуем. То есть с генрим такие пары икс игрек. То есть как это делается? Мы берем какие то куски текста на напом языке шифруемых, используясь фиксированный ключ. Ну, понятно, что это тек на самом деле теперь уже воспринимается алгоритма шифрования просто как последовательно сбит и это долгобит он переводит данный последователь сбит в другую последовательность сбит, которая здесь в шестнадцатиричной системе записана. применяемый алгоритм обучения получаем как бы модель дешифрации, которая должна по новому шифротексту выдать, взяв на вход, но Шепертекс должна в идеале выдать адекватные соответствующий исходный текст, но ничего не получается, там выходит вообще мусор. Ну, теперь вопрос почему? Да, почему не получается? А давайте возьмем какой нибудь какой нибудь высокой информации, вот, скажем, текста предложения и посмотрим на его шифротекст. Шифротекст это последовательность бит, да? Но здесь в шестнадцатиричной системе записано Теперь возьмем вот в этом предложении маленькую эф заменим на за главную. и если бы это переводилось на какой то естественный язык человеческий, то, конечно, изменение в в в переводе были бы минималь. Да я сегодня попробовал Гугл траслей ставить, там вообще никаких изменений не происходит. Он понимает, что если в середине слова, в середине предложения слово за главный будка все равно его с маленькой буквы в переводе напишно. Ну так вот. А вот шифртексте там вообще абсолютно, казалось бы, не связанная последовательность битов выходит. Но на самом деле тут надо понимать что. Что, что Вот этот кусок, вот этот кусок это результат работы одной и той же функции. Ключ у нас зафиксирована. То есть получается, что ваши права это такая негладкая функция при малом изменении входа изменения на выходе, а не колоссальное, Ну, как бы в принципе вот это в этом есть с критографии. задача критографа такие функции строить, чтобы их было трудно обернуть. Вот это как бы в двух словах. почему, почему не получится выучить хороший алгоритм шифрова. Но теперь вот конкретно к этому главному гостю этой текущей презентации. Адванснкрипшен стендер, то есть это так называемый блочный шифер, он на вход берет сто двадцать восемь бит, на выходе также сто двадцать восемь бит. И ключ, секретный ключ, который параметризует а если он может быть сто двадцать, восемьдесят, девяносто два двести пятьдесят шесть. И получается, что разработан алгоритм, ну, как бы, ну как относительно недавно, ну и в принципе уже давненько двумя бельгийскими критографиями дамин ремонт. В девяносто восьмом году он пришел на смену так называемого тата инкрипшен стандарт дес потому что ну дес, оказалось что легко взламывается и вот там был объявлен конкурсы и скарлетт новую замену да, сегодня а если это самое распространенный алгоритм шифровании то есть вот сейчас мы сейчас мы здесь в зуме в трафик у нас с асом шифруется соответственно когда вы всрфите обмениваетесь почвыми сообщениями в отсапе везде все шифруется Есом, Но единственное как для бытовых нужд сто двадцать восемь бит ключа достаточно. Но когда дело доходит до секретно секретная форма, то надо Вот Агентство национальной безопасности штата, по моему, требует двести пятьдесят шесть бт, чтобы был ключ для шифрования материалов под грифом секрет. И суть такая, что Ну а если вообще то не базируется на какой то трудной математическая задача, как, например, система с открытым плечом арысей или дифи Хелмана, они базируются на каких то трудных матиматических задачах по типу того, что разложить целое число на простые множители это трудное или там дискретное логарифмирование это трудно Ну вот а а вот это а если он является эвристикой и как бы вроде как на какой то трудной математической задаче не базируется либо мы не знаем о существовании такой но в то же время самые лучшие атаки на ес они только вот на на эпсило лучше чем полный перебор ключа То есть непонятно его легко взломать не легко, ну, судя по существующим передовым попыткам, не так ли теперь подробнее что внутри этого А получается что ас он является частным случаем так называемый подстановочно перестановочной сети спеть Но эс сама по себе является частным случаем ки айтинг сайфа шифа с переменным ключом соответственно. я сначала расскажу про кейс потом как эспин является частным случаем кейси и как дальше а е специализирует. вот начинаем с кейси наход то есть это мы мы говорим про облачные шифры они все берут на вход некую последую бит и на выходе дадут последовательность сбит такого же размера то есть энбит. Значит, вначале применяется так называемый нулевой раунд, то есть берется ключ ну, мы сейчас будем для просто ты делать допущение что ключ он имеет такой же размер то есть тоже энбин и через исключающее или исключающее или он складывается с исходным текстом, с иной информацией. И дальше результатирующая последователь энбит проходит через перестановку, то есть это пи один это перестановка бит в результатирующей ретирующие от этой строки и дальше добавляется еще один ключ так называемый первый к это был нулевой и вот эта перестановка вместе с с первым ключом это первый раунд. Дальше эти раунды не чередуются, ну, точнее, повторяются то есть также применяется перестановка возможна другая и дальше с добавляется ключ ключ точно другой должен быть вот вот эти перестановки не взяв на разные они могут быть одни и те же. Мы вот таким образом, допустим, четыре раунда проходят и иди на выходе у нас эбитная строка и вот это объявляется шифртекст. То есть здесь каждая операция, она обратима. То здесь что нужно? Если мы хотим от шепотекста перейти к исплоному тексту, можно вот опять добавить этот же ключ, применить обратную перестановку и так далее и дойти до увиду словно тек теперь как как подстаноч перестаночная сеть специализирует этот шифр с переменным делается допущение о о форме о структуре вот этой перестан Перестановка небо какая? А вот какая то конкретная. причем как это делается? берется вот этот вот вход перестановки это энбит по прежнему эбит он нарезается дальше на на куски по побит в случае а это сто двадцать восемь а б это по. то есть у нас шестнадцать по идее так отпусков должно быть по восемь бег и соответственно вот этот каждый кусочек восьмибитный кусочек дается на вход некой нелинейной функции или лином отображении, которое на выходе также дает восемь бит. Вот здесь каждый такой эс бокс каждое такое преобразование, если оно на выходе дает восемь бит, и их таких кусков шестнадцать, и они дальше все склеиваются, и потом применяется линейное преобразование, но это имеется в виду линейное над полем, то есть конечное поле порядка два и соответственно ну что на выходе тоже была последователь цз нулей единичек то не ведома про санкции и дальше у нас. То есть это вот как сеть устроен, да? Ну, то есть это по прежнему келт найти сайфер, но с конкретной формой перестановки. Причем это форма перестановки одна и та же на всех раундах, только ключи меняются. Теперь как Ас дальше специализирует подстановочной перестановочная сеть Он просто говорит, что эс бокс вот это вот приобрезание эс оно должно быть вполне конкретным преобразованием а именно мы будем смотреть на восьми битный вход из бокса как на элемент конечного поля порядка два степени восемь. то есть у вас поле ну, конечно в нем два степени восемь элементов так называем поле голова и понятно что в этом поле для каждого не нулевого элемента у вас есть обратно и так вот этот обратный элемент это и есть взятие обратного элемента к к к к входу это есть бокса вс, ну там с точностью до линейного преобразования там еще дальше линейное преобразование, но сейчас мы это опустим если на вход подается ноль то поем так это у нас соответственно, ас, Понятно, что здесь все все обратимо и как бы если если знать. Ну а еще, наверное, стоит сказать, что ключи они выводятся тоже там есть так называемый планировщик ключей, то есть, вообще то, используется один ключ, из которого потом детерминировано, ну, то есть тоже через некую функцию получаются все остальные рандовые ключи. Вот и соответственно, если бы если знать ключ, то все обратные операции они выполняются, и можно по протекции восстановить исход. Так, есть какие то вопросы на данном?
[1315.24]: Коллеги, пожалуйста, вопросы есть юные? Есть чат. Можно поднять руку, и тогда я вам дам возможность говорить голосом. Я думаю, можно. А вот что пишут.
SPEAKER_03 [1334.0]: В хорошо, Окей. Теперь переходим к. Ну, еще пару слов, да? То есть если вот мы а е запишем, так как последовательность применения бокса потом линейного преображения добавление ключа, ну, вот такая структура получается, то есть чередуется нелинейность, линейность и так далее. А зачем нужно нелинейное преобразование? Чтобы спрятать, по сути, зависимость между ключом и шифротекстом. Потому что если бы не было вот этих эс боксов, если бы все было линейно, то там есть такие давно известные атаки типа дифференциальных криптонализов и линейных крепитанализов, которые по дельте между входами. То есть вы дождете два хода, вы знаете дельту между ходами, соответственно, вы смотрите на дельту между выходами. ну и таким образом вы можете понять как как ключ на это дело действует. Вот нос бокс он как раз таки нужен для того, чтобы вот эту зависимость спрятать, чтобы не так легко было по бумбара, ну, по паре входов и парень выходов понятия.
[1420.72]: Там как? Как? Ну, клюдь как устроена, по сути.
SPEAKER_03 [1432.36]: Если бы а, ну вот а линейное преобразование нужно для того чтобы вот как раз таки распространить изменения в одном бите входа на большое количество битов выхода Вот и ты такой пример допустим, на входе у нас, ну, если бы у нас все было в, видно если, один восемь было бы, скажем такой вход и мы прогоняем через блочный шифр получаем такой выход и потом меняем один бит буквально вот третий бит сенечки на нолик. Ну, мы ожидаем, что на выходе половина, примерно половина битов изменится это вот за счет не обозвать. Так, теперь почему а есть трудно выучить генными методами, в том числе глубоким обучением как какую бы глубокую не растили, какую бы широкую не рассеет не использовали бы. Проблема заключается именно в методе, базирующемся на градентах, то есть в генах проблем. Сначала мы вот такое понятие ведем вычислительная неразличимость, то есть как бы если, если досла, если грубо, то, скажем, если я попрошу вас попытаться найти отличие между этими картинками и дам вам какое то ограниченное количество времени, там пять секунд или десять секунд, то это трудно сделать, если там побольше бюджет. Ну, скажи, пять минут то он, наверное, в принципе можно. Я вот буквально перед презентации пытался найти, и вот здесь вот, скажем, есть возвезд дырка в дырка, но это, конечно, зависит от того, сколько есть времени на нахождение. да, это, это если грубо, да, если формально, то пусть у нас поку две функции вероятности. мы говорим о дискретных распределениях и покуда у нас две фунцигст. и пусть у нас есть алгоритм который выдает либо ну, либо один и его задача так называемый различитель, то есть его задача различать наблюдения сп от наблюденийску. то есть если у нас образец если икса вышел из распределения то, ожидаем что алгоритм волик а если иску то един, например. так вот два распределения по называются эпсилон близ эпсилон близкими вычислительно если если вот мы берем наблюдение сспм даем его находит алгоритм дэн и в единичку да, ну с какой то потому что и у нас выкидывается случайным образом исп. Теперь то же самое делаем для наблюдения и скул то есть выкида выбрать свои наблюдения из распределения ку даем его на вход д и он тоже дает единичку с какой то вероятность если разница между этими вероятностями она маленькая не больше я все то мы называем покусе близкими. но еще одно требование что должен быть какой то бюджет на на время вычисления время работы алгорит модель то есть делается общение что любого алгоритма с полиномамильной сложностью вот эти две вероятности эпсон близки. И тогда мы называем сами расправления по ику Эсл английскими вышли. Так, теперь вот что у нас известно про Аес Берем Аес берем на вход два исходных текста то есть это две энбит две ста двадцати восьми битные строчки вот икс экстрих это если вместе это двести пятьдесят шесть б мы их каждой по отдельности шифруем на ходе каким то ключом, и получается на выходе у нас тоже две сто двадцать восемь битной строчки, и если мы на них смотрим как вот последовательности двести пятьдесят шесть бит то вот эта последовательность двести пятьдесят шесть бит это почти что в кидание монетки двести пятьдесят шесть раз кидание сбалансированные монетки двести пятьдесят шесть раз, ну при, условии что ключик мы выброс которые случайно образ то есть вот терема она звучит так что пусть ка у нас случайный ключ эн битный ну эн это сто двадцать восемь с и у нас есть два исходных текста и штрих а они разные различные, мы их шифруем асом у которого шесть и ораундов. а один раз это, помните, это перестановка плюс добавление раундов встречается. Ну так вот шесть эраундов таких прогоняем, и вот у нас на выходе вот эти вот игорь игры штрих это вот вот это вот а от икс а с ак штрик. И тут важно, что к одной и тоже, то есть как случайные векторы эти два вектора независимых, потому что они оба абазируются на одном и том же случайно векторе, но и его авторы, и они доказали, что, что вот эта вот пара, то есть вот эти стот, сколько там двести пятьдесят шесть бит, которые здесь есть, они вот эпсилон. Эпсилон это штука не эпсилон близкий к ну, двести пятьдесят шесть раз побрасыванию, сбалансированный? Нет, но, конечно, вот эта вторая часть южриха, она должна отличаться от первое. То есть это не совсем прям чистые двести пятьдесят шесть случайно подбрасывание. Вторая часть она должна отличаться от первой? Ну да, почти что это почти что двести это случайность подбрасываниями. хотя на самом деле, конечно, тут максимум, на что мы могли бы рассчитывать, казалось бы, это поскольку у нас ключ случайный, то вот это первая часть, конечно, случайно, да, потому что ключик случайно. Вот то, что вторая часть, она почти что не зависит от первой, в этом весь прикол. Вот это эпсилона, но, конечно, для маленьких хэр не очень маленькая, но поскольку падает экспозициально поэту в принципе три довольно большом количестве раудов мы можем сделать его сколь угодно маленький. Вот это очень неоптимальная оценка потому, что в реальности А Ес использует там у тебя десять двенадцать раундов. А если вы попробуйте вот эту штуку сделать меньше, скажем один делить на два в степени сто двадцать восемь, то то там аар должно быть что то в районе три тысячи, что ли, ну очень много. Но нам главное на качественном уровне понимать, что происходит. Так вот, хорошо, у нас есть такая все случайная серьезность. Дальше Что? Дальше? Ну, давайте попробуем все таки выучить аеса а хотя бы один бит, то есть пусть первый бит, а если он единичка, то мы заведем такую функцию эф эфкс парметизованный клечон к если у ас на выходе ничка и и будет плюс один если на выходе вес ноль. Ну, в принципе можно было использовать один ноль, то есть просто сказать что мфк а икс то это просто первый бит Аес, но вот такая вот такое масштабирование ответа оно оно удобно в том плане, что от ожидания вот такой случайной величины икс это у нас какой то случайный шифртекст, какой то случайный исходный текст. То есть мы икс выбрасываем как последовательность, случайная последовательность из энбит ее это равномерное распределение. то есть вот это у нас булевый кубик, гипер кубик размерности энны, мы одну из его вершин случайным образом выбираем, и вот делается допущение, ну, не то что до общения, можно показать, что ожидание. ну. ну это просто потому, что половина вершин в этом купите будет минус один, другая половина плюс один размечена. вот и это по сути, метко мы хотим сейчас свести к супермаслива при этом дисперсия будет единичка это тоже не сложно показать. и почему это удобно? потому, что если мы теперь рассмотрим вот такое выражение, ну, по сути это скалярное произведение то. есть вы вы берете два разных ключика фиксированных, то есть в отличие от тюрем или предыдущий тут у нас включи фиксируются, а теперь вход рандомизирован, и теперь получается вы два еса, то есть вот это вот это результат работы а ес с ключиком к а это результат работы а е с крючком кашри. и вы берете первый бит здесь и первый бит вот у этого есть. и эти два бита просто перемножайте, и получается, что в среднем вот такая вот такое выражение в среднем оно очень маленькое, можно сделать его сгодно, ну как ни сколь угодно маленьким. то есть здесь это сто двадцать восемь. То есть вот эта часть она по себе маленькая, а этпсела использует достаточное количество раундов можно сделать сколько угодно маленький Вот теперь да, это, конечно, легко. Легко. Вот это легко показать, используя предыдущий результат. Если бы у нас вот эти функции в Кае в Каштри были бы чисто артагональный, то есть их нелетное произведение, задаваемое таким образом, было бы ровно моль. Вот тогда можно было бы использоваться результат шаля Шварца и авторов с две тысячи семнадцатого года, где доказано, что для любой такой системы любого такого класса функций всуд ортонормированной системы функция гридный спускок г ну методы обучения на основе кредитного спуска они приводят к не приведут к успех вот но у нас у нас не чистый ноль, соответственно нам мы не можем напрямую использоваться их результат. Хорошо, мы посмотрели что там в каком месте вот ушале шварцы используется и как он как вот это условие используется оно? Используется через не веселя которая оказывается в в линейных пространствах с со скалярным произведением можно в принципе обобщить вот то есть вот это вот получается это обобщенные нераство бесселя но имеет специальное название называется у был, ну не по типу ус суть такая выберете вот д д элементов вот в этом векторном ленином пространстве со скалярным произведением и еще один какой то телемент же теперь вы берете же и пройцируе на вот эти вот фиты потом берете с квадратой этих проектов складывайте, ну, то есть если если вот в школьной терминологии это это сум сумма квадратов катетов если бы у нас эдифд были бы армированы системы. да и вот сумма квадратов катетов она не превосходит в квадратке потянул за ну, с точностью до некого множителя, потому что у нас их один евд они нертонормированы. И вот за счет того, что здесь вылазит вот вот это вот попарное скалярное произведение между элементами внитожита и норма каждого элемента. Но если мы будем считать, что по норме не единичка, по сути, у нас это так и есть. Вот это дисперсия это как раз таки будет норма квадрат норм. Ну вот то то Вот этот ножитель он будет единичкой а. А вот это вот оно как раз и отражает насколько насколько близко эта система эф один эф дэк артонормированной системе и вот если он довольно близко картоном с ними, то, ну, максимум вот эти попарные произведения маленький. Ну и как бы в вырожденном случае если это прямо ортная вмена тема, то мы получаем вот именно не нравится бесселя, которая как раз таки используется в работе шале В Шварц. Но мы вместо неравество весели используем вот это вот неравенство. но при этом мы контролируем вот эту часть попарные произведения, потому что у нас есть вот этот результат, да? То есть мы за счет большого количества раундов всегда можем вот это попарное произведение, даже максимум, сделать сколь угодно близким к один, делить на два в Миде теперь у нас это есть, у нас есть вот это вот неравенство. И как мы будем выучивать, конечно, граде через глубокое, глубокое, неглубокое любое обучение, которое использует грозный спуск то есть вот эту функцию это у нас некий голден чурс который золотой стандарт который мы хотим выучить а выучивает мой был, конечно, в классе на другом в классе не растет вот аш это икс это это класс не рассеет какой то фиксированный архитектур любую уберите архитектуры вот это это все все все параметры этой нерос. Ну вот, соответственно, тут не рассеять, взяв на вход икс вот именно исходный текст она выдаст игрек игры игрек с крышкой Игры с крышкой мы, конечно, хотим сделать, чтобы было максимально близким к бенус один или кс один в зависимость адрекса как бы выучивать такую такую функцию суперс леник То есть мы нагнерируем кучу кучу разных весов разметных через заезд у нас есть он ключ зафиксировал возьмем ключ, зафиксируем, разметим все вот эти вот эксы плюсадими нассадился вот. Это наша наша обучающая выборка это обучающая выборка будем скармливается в волгоритм обучение. Что такое обучение? По сути это подгон подгон на нейросети к к обучающей выборке. Как это сделать? Ну, через империческую функцию риска то есть это это у нас экрический риск и ошибка обучения. То есть мы используем какую то гладкую гладкую в плане дифференцированную функцию эль, которая как раз таки отвечает за потерю, если наша нейросеть выдает вот такую вот такую метку, а на самом деле метка должна быть вот такая, да? И то есть вот как вот эту разницу между ними функция потерь должна отражать? То есть, ну, типовой пример это хадратичная функция потери. Но поскольку здесь классификация, то обычно используется кросс допусти. И вот соответственно мы все эти ошибки собираем на наших примерах усредняем это отношение имперической функцист и теперь мы вот функцию пересун цика будет минимизировать перекри минимум зашивалась и минимум этой функции объявляем параметры которые, минимизируют это как раз такие исковые параметры не расти которую мы считаем наилучшим образом подно на под на, Да, теперь вопрос как мы это дело как меня то есть вообще то вообще то можно.
SPEAKER_02 [2570.56]: Пойди на любой Ас, найти не рассеять, ну, там.
SPEAKER_03 [2578.48]: Определенной архитектуры, которая будет в точности выдавать, ну, тот ответ, который ес. Но все дело в том, что мы ищем ищем значение параметров генным спуском, как он работает. Ну, получается, мы на эту функцию мы хотим минимизировать вот эту вот су ллк почему ка что она зависит отключка, да, если мы вот как бы другой ключик сейчас возьмем, то функция в свою форму поменяет, потому что метки метки тоже поменяются ведь. Вот и соответственно, все вот эти вот разницы они то как работает кредитный способ. Мы берем сначала какую точку наугад ноль, потом делаем шаг в направлении, противоположным градиенту размер шага альфа сделали шаг, потом оказались новые точки, и в этой новой точке вычислили зановоградин и сделали шаг опять в противоположном направлении. и таким образом мы скатываемся в какой то локальный минимум то есть это такой стандарт де факто как как не расте сейчас обучается. Ну вот то есть тут тут важно что что, во первых, сама функция вот это имперические функции инкического риска она она она должна зависеть отключая потому что если. Если. Если мы берем разные ключи, а при этом функции не меняется, ну, тогда это странно, да? То есть тогда что предметки они одни и те же, но это не так метки они будут меняться в зависимости отключат, потому что мы говорим о первом бите а. и понятно, что для половины ключей первый бит будет мидс один для половины ключей первый вид быстро с час а. ну вот и в общем вот эта вот поверхность меняется, соответственно и гредиты это должны меняться. Да, вот вот мы бере как будто началь точно вот это ноль. и, скажем, у нас какой то ключик, но гент один, а если мы использовали бы при этом другой ключики такую же поверхность построили бы то кент совершенно другой должно. Так Вот теперь к ближе к на нашего результата ближе к концу мы используем тот факт почти штартагональности вот этих функций, которые являются первыми битами Аса. то есть это вот тот результат который на основе Лю Теперь берем Булас Беллман, Нера по типу У Беллмана все это берем, конечно, работу шале В шварца, там делаем модификации и получаем такой результат раздат следующее что оказы если мы будем, ну, вот случайным образом ключик берем и смотрим на дисперсию градиента функция потерь, имперская функция риска, то вот дисперсия вот этого градиента, она оказывает очень маленькая, то есть эпсилон мы всегда можем сделать сколь угодно маленький, взяв большое количество раунда поса вот это число вс по себе уже маленькая и здесь есть ну, да, некая, некая вот эта вот не констант функция от это зависишь она мажорирует вот среднеквадратичнаяму градиентно домой не расти но как считается то есть если мы делаем до общения что сама по себе вот эта функция от это она тоже ограничена, то есть не взрывается, то, по сути, у нас дисперсия кредита. А что мы подразвиваем под дисперсии? Это же гигде, это вектор. Случайно вектор получается здесь, потому что. Как случайно? Ну, вот под дисперсией этого случайного вектора мы имеем в виду в среднем как по норме этот градиент отклоняется от своего среднего значения, да? То есть вот вот это вот средний ген каждый градиент в зависимости от отключка когда, смотрим как, он сильно отклоняется от от среднего вот этого кредита а здесь усреднение тоже по ключику пока и просто вычисляем норму потратить вот вот это мы имеем в виду под дисперс, да? Ну и так вот вот это вот среднеквадратичное отклонение градиента от своего среднего значения оно оно очень мал. То есть получается по сути, что. Ну, то есть. Вот вот сами представьте, вот у вас есть случайная вечна, и у нее дисперсия маленькая, очень маленькая, да, там близка к нулю. Так это так это случайная величина, но она почти что не случайно, она почти что констант. И тут. тут вот тоже такой казус получается, что гардин почти что один и тот же всегда вот какой.
SPEAKER_02 [2914.56]: Бы вы ключ не брали? Гн всегда почти один и тот же.
SPEAKER_03 [2918.84]: Ну, соответственно, а как тогда градному способу учится если, гран всегда один и? вы вот получается если, мы этот результаты используем вместе с работой шамира Который, в принципе является продолжением работы шалю шва, так можно строго показать что почему гас полка безуспешен при выучивании даже одного бита а Ес только если, конечно, мы не позволим экспоненциальному количеству шабов гентного скуа. и получается что результат не зависит от от от того класса моделей параметрического класса модели, которую мы используем, это линейная регрессия или там глубокая не рассеять или не глубоко это неважно. Вся проблема в том, что сами гранты они всегда будут у вас в одну сторону посмотреть. если мы во всех этих рассуждениях заменим наезд на обратное есть то мы получаем что то есть мы сейчас пытались же, получается, выучить примешь праване, то есть по исходному тексту пытаться предсказать один бит шифртекста, да? Но все эти рассуждения можно сделать и для обратного Ес, И тогда мы получим, что, по по исход по шифор тексту мы один бит из слоного текста не можем выучить гдными методами запали ное время. Ну вот мы все таки попытались. Ну, понятно, что это тюрьма говорит, что они ничего не получится, но давайте попробуем все равно. То есть мы с Генри кучу кучу пара. то есть у нас будут на входе шифртексты, то есть мы какие то берем исходные тексты, шифруем асом с фиксированным ключом, и это у нас пусть будет, ну, вход, а на выходе в мерке мы используем первый бит бит исходного текста, ну, пытаемся выучить дешифрование. по сути, только один деше так формируемая выборку. Потом три архитектуры рассмотрели. это у нас количество нейронов на каждом слое. То есть понятно, первый слой, входной слой то сто двадцать восемь нейронов. И потом, вот, скажем, первая архитектура здесь на промежуточном слое две тысячи сорок восемь миллионов. и научение понятно, один у нас же мы же хотим делать предсказание одного бита вот ну и соответственно так обучаем эти неросети через стастический гранатный спуск ну И понятно что, ничего хорошего не получается на на тестовой выборке у нас не лучше, чем если бы мы подбрасывали монетку и таким образом предсказывали бы первый бит исходного текста. Если мы берем вот якобы самую успешную архитектуру вот первую которая две тысячи сорок восемь миронов а, посередине в которое более менее что то пыталась хотя бы а верхитнуть, потому что остальные даже переобучиться толком не могут, ну вот этот даже хотя бы попыталась что то запомнить на обучающие выборы. И если мы берем процируем вот эти вот репрезентации с промежуточного слоя на просто на плоскость, то есть используем две первые, две главные компоненты проецируем на плоское, то получаем что отрицательный и положительные примеры они не разделены тут, казалось бы, можно было возразить но типа сицировали очень многомерного пространства на на сегодня лишь двухмерное мы могли бы как бы утратить в структуру но если так подумать в пие это все равно линейная праца и если у вас классы были раздели и причем она же небо как прорицирует а сначала находит, ну, там первое главное компания это направление, вдоль которой дисперсия у вас максимальная, да? То есть это по сути, если представить, что вот эти два класса они были бы разделены в многомерном пространстве, то, вообще то при проекты на на плоской с они должны были остаться раздел разделенными. да, вот, ну вот мне мне не разделяется, не получается. Ну вот, теперь все, почти что уложился.

The post Научно-технический вебинар «Hardness of Learning AES with Gradient-Based Methods» first appeared on Компания НТР.

Научно-технический вебинар «Оценка неопределенности для глубоких нейронных сетей»

Alexandra Koroleva — Wed, 14 Feb 2024 08:21:59 +0000

Спикер о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценка на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.

Презентация: https://drive.google.com/file/d/1pKfX-AeEt4Nw8dzo3P9cAPe6I-voq-9y

Видеозапись: https://youtu.be/2gKejxGZvIA

Ну что ж, давайте начинать и к структура побегу. То есть сначала мы поговорим брат вообще, зачем нужны мирные суду. Я понимаю, что он скрестили большинства из вас это просто не стоит, но тем не менее пусть немножко вспомним, за одно обозначением поведем, а дальше поговорим зачем нужна собственная неопределенность и попробую дать какое то определение что такое неопределенности ей как снижать и в конце поговорим про методы как можно было бы при оценивать. Начнем с простого примера когда примерно все написать это вейная модель. значит, поговорим мы уже про сложные методы, которые позволяют для не рост все оценивать, и в конце немножко обсудим, что еще не сделано и что нам мешает это сделать. А, собственно, очень краткое введение в неродной сети. То есть мы предположим, что у нас есть некоторые а некоторая сдача машина обучения классическое. И в этом случае обычно у нас есть некоторые готовы представление объекта, то есть это некоторый возраст, пол это все. и мы строимстую модель, например, модель классической регрессии, где мы просто берем скалярное произведение представление на параметры модели и еще там все это прообразу сгму и чтобы у нас получилось корректная, вероятно, с конца а и вот как то так это устроено обучение если мы все обучили и моделька нормальные, нужны признаки есть, все хорошо работает, и в нероностях необходимости не возникает. Возникает позднее, когда мы смотрим на более сложные данные. Но, к примеру, возьмем какую нибудь картинку, и оказывается, что картинки у нас нет, никакого представления объекта по хорошему, у нас есть только эти изначальные описания набор пикселей, из которых довольно трудно лип какие то разумные по решающее дерево или фишку регрессия использовать для прогноза но чего нибудь сложно вам хотя бы и дженна кот либо собака на картинке, то скорее всего ничего хорошего не выйдет. Точка зрения качества. Поэтому обычные споры нервной сети, которая состоится с двух частей. Но тело сети и головы это компонента тела, она служит для того, чтобы из картинки сделать представление некоторый электор, который потом удобно использовать для того чтобы смочь простой модели пришли к польную задачу сдача построение представления это сдача построения отображения и сводной картинки был вектор который можно использовать простые модельки и собственно, часто говорят про универсальное представление сегодня говорить не будем просто посмотрим немножко потолка как обычно обучают нейронные сети и как не расти устроены то есть обычно, предполагаю что это не это некоторый набор преобразовании нашего слоного входа икс коли нашей модели мы берем первый слой при образовании га один с параметрам это один второй слой и так далее пока накатом слоям не получим полную полную модельку и которая дает представление которое очень большого набора при образовании в этом дала нам некоторые ветта никогда не получили представление то оказалось, что можно, например, высказывать класс объектов. у некоторых есть кот. Поэтому, наверное, мы хотим, чтобы вероятность скота была высокой и число справа от вероятности, потому что на картинке вот это конкретный объект этого типа. и мы хотим, чтобы наш прогноз прогноз вероятности были похоже на реальность и так мо организа обучение с в этом случае мы идем обратно и пытаемся поменять параметры так чтобы в итоге нашего сет по достаточно хорошо и предсказываем. формально можно сказать, что мы это распределением высказываем было похоже. но вот это вот вот распределение. Обычно других меток у нас нет, и одна единица настоящий класс. И, собственно, как мы обучаем? То есть представим, что у нас один параметр и вот это вот кривая, от которой сокращено на некоторое качество модели, и мы, собственно, и теруемся удаляем очень приятно адама и с и в итоге то на начального приближения получаем со звездой он локальный оптим, который дает высокое качество. На самом деле у нас изначально есть некоторая проблема в том, что мы делаем, а именно, как правило, наши метки. Они вообще никак не учитывают, что у нас может быть что то не вполне уверены. То есть когда он берет пример замечающие урки, мы считаем, что для него мы в точности знаем ту метку, которая у нас сидеть это кошка или собака. каких нибудь катасов у нас выборки обычно не бывает. Мы знаем, что половина кота пять пятьдесят процентов собак. И поэтому по молчанию, когда мы все это обучаем, то никакой адекватной пс у нас на самом деле нет. Мы очень плохо представляем чего то, о чем мы не видели он чаще горки, в частности мы не видели каких то город вероятностей, об этом нам трудно получить. И теперь давайте попробуем подумать уже более в терминах и в терминах неопреляности. Смотрит не определенность это самка то общее явление для людей для нейронных стей сам мы можем мало паранзировать. что то наши прогнозы не очень точны. То есть выходим пытается проанализировать погоду у нас две недели дальше нет, и мы даже можем сказать, насколько мы не уверены мы это недель когда мы не уверены аналогично с решениями покинуть инвестиции очень трудно предсказывать у нас сверхнизкой курсаций и там какие нибудь еще приложения. Это медицина тоже. Нам бы хотелось оценить, насколько мы уверены в том вагнозе, который оставил врач. Соответственно, у нас есть какая то несовершенная либо неполная информация. То есть в принципе правильный ответ про болезни нас съесть и про погоду через две недели у нас есть ответ. но в силу того, что информация несовершенно, которая доступна на решения правда, болезни погодно, оно тоже будет неточна. То есть у нас есть некоторый пробежит между тем, что мы знаем, и тем, что мы не знаем. Мы хотели бы как то все это думать. на самом деле это не продаст все. А про неронной сети. то есть нам бы хотелось аналогичное рассуждение и аналогичные идеи. а в контексте неронных сетей использовать то говорить правильно мы уверены не уверен пример, почему это не очень тревальная задача расправ в этом с. То есть у нас опять же есть моделька, которая обучалась на кошечка и собачках и вполне может определить, какая вероятность того, что игорь правильной единицы то есть у нас кошеч или то, что игорь круто с собачка на вероятные сшачки какая нибудь маленькая, но она показывает драха то, что должна выдавать модель. Непонятно, как все это определить или как бы опять же в контексте какой то реальной жизни нам вот это знание про прирост оказывается полезным. То есть первое естественная идея то есть которая, наверное, приход был тем, кто занимается как раз большими языками моделями это то что, галюцинации в нервных с тех про факт и про то что, он хочет с ггировать, это тоже вполне себе откладывается в том, что у нас есть какая то неопределленность, которую мы хотели бы как то конфицировать. В целом медицине тоже возникают проблемы университета, которая диагно ставить. То есть у нас две проверки права пробирки все нормально, мы взяли кровь, и она там достаточно много, достаточно понятно будет, когда мы будем анализировать, например, какая группа крови. И слева что то непонятное, а мы взяли мало материала, он не очень хороший, и по хорошему нам нужно это эксперимент переделать, чтобы даже правильно определить такой простой штук, как группа. Третье важное предложение неопределенности это активное обучение. То есть надо бы хотелось обучаться не только не на всех объектах, на самом деле пытаюсь обучаться эффективно, то есть взять как можно меньшего размера и обучиться на них. Поэтому мы сэкономим время на обучение и стоимость разметки. И кажется, что правильно как раз брать те примеры, которые модели максимально не уверены только у нас какие то привлекают сложности. Ну, например, мы хотели ассоциировать опять же котов и отвечать их от собак. Пример справа премьерный кот амершлевый это очень неявный кот, и, наверное, таких котов хорошо было бы побольше положить на шурку, что модель тоже поняла что существует и как, собственно, консировать? получается, что для Не Расст могли бы нанести пользу, ведя некоторую оценку уверенности модели ну или что то же самое один вел с неуверенностью неопределенности. В этом случае получается, что у нас есть более доверенный искусственный интеллект, который нам, наверное, будет более полезен, особенно в каких то критических областях. Но опять более формально это говорить то, что они хотят для регрессии, для фальсификации. То есть вот тга сверка, например, у нас одномерная функция с входом с выходом игрек и красной этой точки вычайщей банке и, соответственно мы хотели бы чтобы по прогноза вот головой но еще давали некоторые доверительные тела в каждом точке вот это вот закрашенные области встречи о том чтобы не не по модели выяснить, а именно про то, чтобы в точке порталу неверно или, например, целиком выдать спределение, которое нам нужно для классификации. Тоже в принципе все похожим образом устроено. Примерумерный два признака один, два и есть вот эти точки оранжевые, точки синяя мы хотим как то отличать, и получается, что где то посередине нужны не уверены. если мы поим в сторону углов, то мы должны быть уверены ли мы раньше о красном классе или мыс класс, в общем, там должна быть высокая вероятность, что объект принадлежит к симу классу, но и наоборот. То есть вот такое, что мы бы хотели сделать. При этом часто мы хотели бы взависимости в постановке задачи моделировать немножко разные неопределенность. и тут как раз показано, какая бывает неопределенность. Обычно говорят про сон неправилось данных и мода сотня модели. А первое это про то, что у нас есть какой то шум данный, который, по сути, мы никак устранить не можем. То есть мы, например, мере дней в длину и меньше чем деление оперене мы померить не можем никак. у нас там слаба была у меня на стеке на первом курсе которая раз брата и была по что он, собственно не прину мы так мы не уберем этот почности прибора, с которыми нам нужно будет начать. и тут слева примерно высокой данных справа низкая неправданны потому что с якушу у нас почти в у нас нет не а не модели это как раз в тех точках, тех интервалах, когда у нас вообще ничего нет у нас есть сне точки от нашегощающая выборка и соответственно торлак унс у нас вообще никаких сроков и на модель будет очень неверно в своем прогнозе. И соответственно, например, если мы говорим про активное обучение, туда интересно скорее точки, которых у нас высоко не принес моделью, потому что кажется, что если киточки две выборку то мы не принес модели уменьшен и в итоге все как модель улучшится, потому что она будет лучше знать от точки штаб они так плохими быть перестанут добавление точек со своим шелом как то мало гуляет на качество модели ну, разве что можно немножко перебралась на тюрку, но, наверное, это, мир учная вещь то есть больше кидать точек куда для нас побольше, ну, собственно можно то же самое придумать фальсификацию то где то у нас будет песок знали сокий шум, но эта картинка кажется, что это вообще какой то мусор в реальной жизни это как меня по середине вот это тоже как то собака. Ну, есть какие то сложные примеры, которые хорошо быку добавить и собственно качестве работы модели улучшить. и, собственно, давайте подумаем, как можно это задача решать. И думать мы будем на примере линейной модели. особенно что не происходит, полагаю, что у некоторых выборка данных, для которыми как дача регрессии то есть хотим некоторым эк остановить игрек начнется любой фсггресс с предполагаем конкретную форму в нашей модели то есть уберем склярное произведение кода на некоторый векторов давляем шум и это наш игорь, который мы наблюдаем что хорошо, что можно все это зафиксировать до некоторой степени это то случайно вместо боя с агрессия и соответственно. вот мы хотим, например, остро такую линейную модель в зависимости цены дома от его площади относ точки наблюдения и хотим что то вроде красный криво провести или подумать что то уже в направлении неточных оно взять распределение вот это и пост нас вы и что на самом деле с точки зрения Кимбаяс но подходит. Изначально у нас было какое то априодное распределение параметров по сути со средним ноль дисперсия с то есть по сути вот этот мешок ункции потому что каждое значение тектона соответствует функция и меш функций очень очень разных. Сверху как раз примеры функции из этого распределения. И соответственно, когда мы шпот наблюдаем, у нас получается постное распредление, которое обусловлены на эти сильние точки данные, и у нас все равно распределение, но гораздо более приятно. То есть вместо вот этого хаоса мы получаем достаточно порядочным на рассмотрение, которое учитывает как раз природно регрессии. можно вполне все это посчитать то можно посчитать кого на среднее и какая коационная матрица в параметра у нас вот не выписаны очень хорошо получается вот такое распределением получили про то, насколько наши крыва может плавать, и из этого мы можем получить ужетельное распределение то есть насколько у вас может быть плавать как раз в выход модели игрек. а мы не берем интеграл вот это распнем присоед и дальше не заодно это знаем, как у нас устроено. Игорь, уточни его распределения, потому что у нас сейчас есть некоторые вот это распределение нормальное распределение. Второе распределение тоже нормальное распределение с прошлого Аслан оказывается, что наград не репрессии мы взять можем, у нас получится тоже явная формула. вот такая формула и заданным в среднем в заданной дисперсии пусть это все очень хорошо сказал да, шикарно мы можем все умеем читать как раз вот эта дисперсия наценка неопре которая нам нужна и может на нее посмотреть. Посмотрим. давайте уберем лишним мы и получим что нибудь такое. То есть у нас на картину сначала посмотрим. То есть у нас там, где есть точки, как то неопределенно меньше наших прогнозах там где то нет нас не при серая зона одна това пять процентов она несколько побольше. то есть мы его на картинке приобим, что если сдано меньше окрестности точки то он с ней приносит побольше. Формальная формула тоже примерно про это же. то есть у нас есть какая то симма в квадрате, которая просто шоу дал которые которые везде даже на точки. Но и вторая часть насколько выкиданные которые некоторые не похоже на эти данные, которые есть Наберем новый икс читаем до него вот формула И вот так мы взяли сидели неопределенность явно оформился прямо на регрессии. и в целом для моделием тоже можно получать. ну в целом оказывается, что это не совсем то, что нам нужно. Ну, пример более сложные модели. Тут уже мы отправляем расправление на функции нелинейных нелинейных, а лучше опять же на картину посмотреть, что происходит и тоже получал при посте распреление. То есть какие наши идеи? Проток устроена функция постновления данных. То есть если данных мало три точки верхняя левая картинка с красными кривыми то получается что, у вас очень небольшой разобраться шатание у срена. если мы наблюдаем, то у нас начинается более строго выстроены и все функции которые мы скрес будем наблюдать условно данные и устроена лучше. И опять же мы можем нарисовать кривые примеры таких функций можно нарисовать интервал который, я вам уже написали. то есть это все еще нормально случай мы можем примерно посчитать, что нам нужно, но, конечно, на самом деле на территори несколько другое. То есть дней на репрессии, да, вот это вот ребрести процессов, мы все это можем сделать, но у нас на самом деле не вполне то, что мы хотим. Мы хотим для нерона седия то, что мы хотим оценивать напло для какой нибудь до вполне конкретных не для методов более простых язык сверч, нервно сливающий язык моделей везде хотим оценивать неопределенность, но пока не можем, потому что у нас получается все эти формы не ломаются, когда мы нагло берем, пытаемся баточнее не берутся. И на самом деле хотелось бы нам эффекты избежать то, что мы ищемся под фонарем, а найти что нибудь там где то нам нужно делать, потому что работают мы, конечно, побольше счастье с целью не. И можно сейчас мне как нибудь вопрос задать, какой то вопрос по первой части того, что я вам всем говорил.
: Коллеги, пожалуйста, вопросы. Но мне кажется, вопросы начнутся там, где мы к неродным сетям приблизимся.
: Ну давайте попробуем проверить ипоте.
: Вот есть вопрос. Алексей Трипецкий спрашивает а что, если просто дисперсии ответов посмотреть вместо интеграла?
: Формальность у нас фиксированная модель то у нас как бы не дисперсии. То есть если мы предсказываем дисперт, собственно, то, что мы делаем на самом деле, это и есть дисперсии ответа. То есть смотрите, что у нас произошло. Мы взяли этот интеграл, получали распределения этого распределения и среднее, и дисперсии, дисперсии. Мы считаем, что настолько неопределенности при этом оказывается, что если бы мы забыли про то, что у нас если не продлялась в этом дайте, у нас не очень интересная формула было бы, осталось бы просто симма в крае, ну, может, не совсем то, что нам бы хотелось. Вот, наверное, если я правильно понял вопрос, ответ примерно такой.
: Алексей спрашивают, имею в виду ответы ансамбля.
: А собственно просаблидальщиков поговорим так что это вопрос креп предвосхищает то, что будет дальше. Я думаю сейчас мы как раз до этого дойдем и обснимся сам хороший или плохо и, собственно, что как правильно воспользовать почему то с точки зрения теории тоже что тосно. Давайте дальше, если других нет ответов. То есть получается, что мы взяли басовские методы, басовское предположение под параметры и часов и получили вот такой штук. и, собственно, дальше опять будет смотреть на этот интеграл, который можно представить в двух видах. То есть у нас есть, по сути, непрах есть неопределенность выгреки параметры мы знаем, мы все это интегрируем получаем распрельнее игоряка в конкретной точке икс играл с местными сплениями, которые мы интегрируем по это остается только игр а смотрим нагло понимаем, что мы взять его не можем примерно во всех случаях крыли самых самых простых поэтому нам нужна некоторая все дальше и поговорим То есть берем использу сампсе, говорим, что мы умеем атакаты из наших, из нашего распределения и говорил, что можно взять так вот такой суммы, по сути заменив наши исходные распределении как это присловие поступления Мпк. Так я вызвал берическое распление, которое, по сути, бото функций в эти теттакаты, которые просплировали раст взял. И в целом, наверное, если у нас это будет много таких цпированных, то будем сходиться к нашему интеграу, и в целом наша оценка будет достаточно точна. При этом мы можем посмотреть на самом деле на три отдельные штуки. Я окажу, что нет особого времени рассказывать подробно про все. Можете мне поверить, что можно написать некоторые формулы и получить от общества неопласти для классификации примерно в таком виде. энтропия экс экспект пригибши мы берем на от ожидания патта то есть у нас на класса задач классификации, соответственно тп это вектор вероятной принадлежности каждому из класса можно посчитать мы от ожиданиям по набору ну вот это он нашим всем моделькам и потом нестерпи вот этого вот этого распреления полученной от это будет общая определенность а дальше мы можем, похоже, вам развести не принес данных то есть это меня сами ожидания и антропию то считаем интервью или окно вот это наберем в ожидании тропе и у меня модель то есть про модель неверны можно получить в раз что это называется болот. и опять же можно жить с этим ожиданиям и оценить помощью выборки из Кита. то есть это то же самое что он самый не получили то есть взяли ну ну довольно се образом то, что он сам это примерно то, что нам нужно. И давайте немножко поговорим про глубоки асабле и как мы можем делать их получше, особенно в контексте нашей задачи. Тест. Мы сказали, что если уката есть, то у нас задача в целом неплохорушается. Теперь вопрос в том, как нам взять вот эти токкаты. Тут есть три популяр варианта которых каждых есть некоторые свои преимущества первый. Вариант берем просто и запуска оптимизации мио С карас запускались с разных седов поэтому получаем достаточно разнообразной модели или для не раз сетта работает мы получаем обычно мы неплохо разнообразно модели второй вариант это вот это вот распление это просто вида как то опроценировать сможем а сонная выгода и получить какое то более просто распление с которым мы уже умеем работать и, брат самый интеграл, например, нормально. Ну, третий вариант это взяли какой нибудь семплирование и, собственно, мы чуть попозже посмотрим на картинка про это, но, собственно, вот.
: Тут у нас есть вопрос что вы думаете о меддах конформал придишин Они? Являются по, сути применение, в медине паретрической статистики порядковых ранговых статистик к оценке неопределенности также не параметрической.
: Кафо прише это очень интересный момент, который как раз в этой области тоже довольно активно используются последние годы но в целом они похожи в чем то на это все и даже больше похоже на то, что я буду говорить в конце когда мы от ансамбле уходим обратно в сторону одной модели, потому что он сам в это не очень эффективно и хоть степени нехорошо работает, но мне кажется, что методы которые более явно указываются потери они работают чуть чуть получше. То есть с точки зрения теории это все очень хорошо пригикшн Я Как то был даже на на конференции ездил про комфортный придикты, а там даже был впни, которое, наверное, знает автом видят. И как? Ну, как бы кажется, что пока это немножко не монстрим, кажется, что на практике это чуть чуть похоже работает. Но, впрочем, возможно, это я пытался преодолеть и тогда, чтобы наформ при некторов хорошо и собственно, смотреть только конференцию там тоже на пердиктор он не встречается чуть понег.
: Дмитрий Раков спрашивает вслед А что скажете насчет а Парксиацию лаплас Насколько работает на практике то что смотрел в публичном доступе все несколько упирается в лос функцию, с, которой мы обучаем модать, чтобы пригнить на практике.
: Тоже очень хороший вопрос. Вопрос в принципе можно сказать, что максима классы это некоторый вариант вационные выводы где мы заменяем наше севое распредление с мощным методомачных моментов на нормальное раскрыли. Понятно, что это нам все сильно обращает. Но как этой картинкой нам говорит о том, что возможно это упрощение через веру. Представь такую функцию потерь, точнее даже постную плотность. И собственно, что нам даст речь? Даст вокруг какой нибудь одной моды разбросанные точки, то есть вокруг модус это будет точно спортима целого год вот как нормальное аксмиров как бы не вполне хорошо. и, собственно, у нас есть еще метод, то есть вариант когда мы берем гипан смело пош мы сойдемся несколько раз разумы, но будет тоже неплохо только у нас будет все это может калишком уверены это, наверное, нужно, взять несколько похоже, и сокна есть подходы, которые пытаются брать спание вокруг этих точек, и в принципе у них неплохо получается. Но я бы сказал, что на практике вот таких глубоких на самом принципе неплохо работает лучше, чем вариционные подходы мультифак. Мне кажется что за ним немножко будущее это в принципе работы есть и так это все испольную, но, наверное, можно лучше. но в целом на самом деле вот когда мы завершают этот блок франсабан а хочется сказать, что в принципе это примерно что может быть для С то, что мы сейчас имеем дело для какие нибудь методы модели ари а с нервно сидел то есть приятно лучше с точки зрения качества с точки зрения непленности. Но если у нас Аслес катер то у нас все раздорож получается и обучение и френс и хранить нам нужно как раз больше модельми хочется понять, можно ли сделать все это немножко дешевле. И давайте посмотрим а, собственно, посмотрим, в чем идея а я вот вот этого подхода. ну, в общем то, все. Дмитрий. Я согласен с Вами. То есть там вопрос дон под Дмитрия как быть со ск все то что сбруи дорогой, я согласен. мне кажется, что тут нужно заняться пониманием того можно, ли это первый дешевить или по на то, что все будет как то так есть. к сожалению, мне кажется что до конца этого не решен задача, кажется, что направление выбрано правильно. но, собственно проэффективные методы они будут устроены довольно просто. То есть берет нашу кошку опять несчастную, но по другому мучаем и получаем некоторое представление это самого вектор и смотрим на наших классы плошка тишка, собачка взяли посчитали эль два расстояния между представлением отображения и центрами базировали на конрате взяли экспоненту и не оправиться это будет минимум по этим самым обратным состоянием, то есть насколько мы далеким ближайшего к нам центр класса в данном случае это класс кош и сам довольно хорошо. Причем авторы рисуют довольно красивые картинки, сравнивая с ассамблеей. с ассамблем. То есть у нас слева называемый глубокий он сам или справа модель брюк на основе вот этого расстояния. И оказывается, что, например, такая модель лучшая с точки зрения локальных свойств. то есть глубокий от сам не будет уверены даже там, где у нас точек нет если в достаточно далеки от действительности бандае тут то у нас желтая зона низкой неопределенности и высокомерности у нас у нас поведение получат то мы уверены это, конечно, некоторые модели примерно в целом переносится на многомерный случай и на не тоже. то есть это изначально то это было, конечно, всем тесным для не получать а другой вариант более в кинос как раз вот наша работа совместной с моим бывшим магистром Ромой Кайли С Паном, собственно, можно попробовать взять отдельную голову и научить ее предсказывать скейл предсказывать температуру для нашего объекта который будет в самом характеризовать настолько мы не уверены настолько мы должны приезжать на вероятность кроме пятимерным распределением и в целом мы можем довольно неплохо это все дело это нельзя. обучили сначала обычную нейронную сеть, да хочу мы говорим про метрик нет поэтому так важно и взяли еще потом обучили небольшую отдельную голову для из центра. и у нас есть кейс, который говорит насколько вы не уверены вот так получилось это миссия вполне работает тоже одной. Но вот пример того, как работает. Вот мы взяли топ десять процентов примеров, про которые наш ме слов вы не уверены взяли только десять процентов примеров для кто рассказал суверен нижний, верхний ряд, нижний ряд, соответственно, и видно, что вообще какие то непонятные призраки появляются на сборке. и понятно, что в деле не уверена, что это нарисован снизу вполне нормальные лица, с которыми удобно работать. то есть ну, все кажется, что модель с точки зрения такого счета адекватно таблице показывать не буду потому что он кажется, не доле звучит. Посмотреть можно? Посмотреть мы выиграли у всех, с кем вы сравнивались сравнивались адекватным подходом на тот момент. А вторая как бы то в чем проблема на самом деле за двух подходов Дюкали сказал Феса в том, что мы, как правило, берем какой то один слой, какую то одну размерность. Это на самом деле не вполне хорошо, потому что кажется, что информация по неопределенности, она должна храниться везде в наш С. И то, что на самом деле я сейчас некоторые способы подумать про то, как мы можем поймать Неп. Посмотри на сеть причем нефтивно. И тот подход, который, кажется, у нас работает, это подходы для своей рецепты гологи. Но про это я думаю, что сейчас не стоит. Расскажи просто просну уберем нашу. Вот у нас на самом деле даже не сверт сеточка а трансформер униристом натаном матрицы большим количестве, и мы считаем, сколько эти матрицы и как они устроены, что некоторые признаки матрис и некоторые признаки, которые характерт насколько матрасы но на друга не пахло по первое матроса, на вторую третью и так далее. в итоге собрали все это один большой вектор. Суть такое представление есть, и оказывается, что это представление, оно более кажется лучше ловят. Вообще, что у вас происходит? особенно контекст неуверенности модели табличка Покажу то, что сейчас получается. Мы взяли, сравнились с другими методами для языковых моделей взяли некоторую метрику, которая называется площадь от кривольки отвергания или отвержение и оказалось, что у нас самая большая площадь и при мы приближаемся к такому оракул. То есть больше часа площадь в принципе не может для выборов, а мы, в общем так, поближе, чем все остальные тоже это и марка.
: Да, у нас Дмитрий Раков опять задает вопрос Расскажите, пожалуйста, детально, насколько спектральная нормализация влияет и работает в подобных методах. Видел во многих работах, правда, терминист консетом. Идея с баркодами крута, я тоже про нее думаю. Это чем то близко к анализу активаций, но, кажется, подобные признаки проще анализировать.
: А, Дмитрий, спасибо. Действительно, про баркоды а тоже мне было интересно посмотреть как, они работают они как то работают а, в, общем так, как, мы доделаем надеюсь, что, подадим стал прошл про специально реализацию, она важна потому что, ну, то есть мотивация, которая обычно приводит, это то, что у нас есть некоторые увеличится. то есть у нас расстояние пространных представлений оно похоже на расстояние пространстве, и за счет спектральной нормализации там вот это все бериши получают. То есть у нас есть относительное разумное расстояние с точки зрения того, как у нас устроены объекты исхода пространствия, и это помогает. С другой стороны, мне кажется, что налючи какая то нормализация нужна, потому что помочь пространство представления оно устроено дом странным образом и так она становится устроена стоится более прядочно вот. и, наверное, на этом я буду заканчивать даже. То есть, мне кажется, остался один на один сайт, в котором много пункт один часом попробуйте пробуйи посмотреть на те методы, на которых все работает, и постоять на то, собственно, что нам нужно. И кажется, что можно какой то вариант синергия это у нас сделает. то есть в принципе городские процессы и продуцентами когда мы берем последний слой но, то возникает проблема с тем, что нам хочется все таки брать больше стоев. и ничего эффективного отдела не было. То есть формально есть, конечно, работы про глубокие галки процессы но как будто ее хорошей с точки зрения качества эффективности, оно, собственно, можно все равно стремиться к чему то похоже на ансамбле. при этом у нас возникает новый дискус дис, дискурс, кажется, это называется а про то, что на самом деле обычный язык модели, там все по другому устроены. С одной стороны, у нас есть ансамбль некоторое видят, потому что каждая голова это что то отдельное, как будто что то отдельное важное может смотреть на сколько они похоже не похожи. С другой стороны, обычная ассамблея должна тренировать и они крови и прочее. даже если это сделать он дает в меньшей степень какую то важную всякой неопределенности. То есть вот у нас передний край науки и, как во многих в других частях искусственный интеллекта это большая такая модель думать, думать, как для них оценивать. При особенно сложная задача, когда мы не просто классификации решаем, мы когда мы греем ответы на вопросы. ну, в общем то можно закончить на том, что еще бы теорию подтянуть немножко, как это можно считать, когда нет, но надеюсь, что я еще раз я смогу про это рассказать более подробно. вот как то как то так.
: Алексей Трепецкий спрашивает Они экспериментировали с колибровкой вероятности работает лето за распределением трейна.
: Колибровка работает вполне, то есть опять же все зависит от задачи. Но сам калибровка когда мы пройдем даже на трене, причем простая колибровка это просто температуру покручиваем она вполне нормально работает. То есть на практике, наверное, это будет некоторой степени достаточно, но я подозреваю, что прям с ней и тут как раз могут помочь какие нибудь там более сложно устроенные по модели вероятность есть направления, где они пытаются использовать на близящий глаз флоус такую генеративную модель, которая любое рассмотрение приводит на грубо и в целом это может помочь. Могли распределение в контексте вопроса получается? Ну, наверное, более сложно копировать, но пока каждый отст еще не успели.
: Так, коллеги, пожалуйста, еще вопросы, пока коллеги собираются. еще с вопросом у меня такой. А вот Олег спрашивает, а что лучше всего работает для оценки неопределенности, для задачи регрессии, а не классификации?
: Но я бы взял ну, либо ансамбли, либо в целом. Сейчас есть подходы если он хочет что то поешевле и отца не хочет застроить и мы опять же говорим про неронке то соло можно просто взять нейронку которую умеет предсказывали размеры горный или предсказывать дисперсии ск с нормальным распредлением там можно принять своего солнца янаю и обучить. Но по сути, наверное, я бы сказал, что это некоторые вообще не контильная регрессии для нейроны. Посмотрите, там есть некоторые набор интересных работ, который ростом интереса.
: Вот я бы даже продолжу вопрос Олега. Пусть у нас имеется модель регрессии, который работает на очень дорогих данных, то есть это такие производственные данные, получение каждой точки данных которых очень дорогое. Вопрос как нам узнать, сколько данных нам нужно в тестовой выборке, чтобы быть уверенным, что у нас дочная точность модели.
: Еще хороший вопрос, ну, как бы ответ, наверное, будет чуть похоже, потому что на самом деле все это будет очень специ зависит от задачи. На самом деле мы про это думали в контексте даже в диссе. момент есть проект теоретический результат легавских процессов взяли, проанализировали, как должно быть устроена выборка и сколько нам дочке должно быть, ну, собственно, ответ очень должности все зависит главное степунса которую, он так как зависит тоже там будет за ядраского процесса, то есть насколько она будет гладким. Поэтому, в общем то, нужно просто аккуратно смотреть. И опять же там можно еще немножко с другой стороны на самом деле. Ну, с другой точки зрения смотреть на это создать что тут на самом деле вопрос, который разделяет, он уже даже не проточен сп по интегра по всему домену, который нам интересен. И тут что можно сделать? Можно попробовать тоже явно оптимизировать это все. Есть критерий, который называют оптимальность. Для этого можно просто случайно, случайно только не бросать и по количеству там опять же даже порядок скорости необходимости будет зависеть это он.
: Ну как? случайно точки набросать невозможно, потому что это производственный процесс, и каждая точка это человека день работает для инженера на производстве.
: Как то, ну, как бы на практике я не видел примощь большой разницы между способами генерации главные эксперименты для допного планы эксперимента сложный хагоризма либо это смощью от рано верного заполнения нашего дизайна. А то есть тут нужно просто понять, каком регионе все это интересно, и там наброса достаточно полное количество точек, чтобы судить. Но тут, наверное, скорее вопрос в оценке ошибки. включить проци тоже это, мне кажется, про специфик обычный как и правильно устроить то есть, наверное, мы можем по.
: Может быть, Вы можете какие то ссылки на работы релевантные.
: Присво, я пришл. Напишите телеграмм. Я после доклада. Завтра, видимо.
: Пришли? Хорошо. спасибо. Так, коллеги, пожалуйста, еще вопросы. А вот у нас пропущенный вопрос. Пропущенный или нет? Теоретическое обоснова от Дмитрия Ракова вопрос, наверное, одновременно с Олегом задал.
: Смотрите, ну, в целом мы можем прямо то есть ну и, собственно, я этим работаю на деле а хоть сейчас про конститутивно думаю на сонач если верно сок на регрессии, то, по сути мы можем посмотреть, насколько та диспекция к зее может быть сильно отклоняться в реальной жизни от того, что у нас есть. Понятно, у нас есть некоторые спецификация неправильно с модели на модель на самом деле. Но если говорить про статистику, то получается, что мы обычно забиваем или рассматриваем больше по модели и то есть ансамбля на самом деле тоже обоснованно. То есть если все это посмотрите еще, раз то мы говорили что у нас есть сходимостьперического распределения интеграл интеграл по умолчанию это что то хорошее, ну, то есть это точная оценка расходования, то, что модель правильная. То есть на пальцах теоретически все это должно работать. на практике возникает некоторые сложности, потому что он стоит атаката изнашего распределения и суру довольно трудно и ваших а сам не будет, в общем то вопросы открыто еще есть атреминист концерт, да, смотрите. А тут тоже есть соображения. Да, Спасибо большое за уточнение. А то есть есть вот такого рода штуки делаем то в целом у нас все это свой ценно в первую очередь оценки неопности данных уточнение нечто средний зал пленности модели но в целом это вещь не самая плохая, потому что дочь похоже на то, что модели для нас с процессом а тут у нас и формально все вроде как дисперс мы оценили хорошо везде, и неформально у нас картинка довольно красивая получается. то есть он по точке есть неп побольше там, где точки нет у нас не просто не просто меньше а, точки есть у точек нет вашей причины не при погонщиком в такой постановке задачи вполне решена для как бы для афикации там, конечно, не по применимо но опять же силу того что мы хотим понимать про то в целом это хорошо не было плохо, но скорее хорошо для теории, поскольку конкретно хорошо уже будет задать модель сейчас. Спасибо. Вот у нас такая снистика сотнуть пани можно и нужно поменять.
: Хорошо, спасибо. Коллеги, еще вопрос вот до Дмитрия благодарность пишет алексей Спасибо за доклад и ответы было очень полезно. Ну, видимо, больше вопросов нету. большое. Спасибо. А есть комментарий, что в больших языковых моделях есть такая конструкция, называемая миксеров эксперт которая внутри себя содержит немножечко ансамбля вот. и это очень по архитектура, которая станет все более и более популярной, судя по многим признакам. поэтому, вероятно, залез во внутрь этой архитектуры можно что то еще интересное получить Отдумал, да? Хорошо. Спасибо всем участвовавшим. Еще раз напоминаю, что через неделю у нас семинар с Женизбеком Солбековым Из Пд университета про шифрова расшифровывание шифрования с помощью гентного спуска от. Всем спасибо. Спасибо, Алексеевич, До свидания.

The post Научно-технический вебинар «Оценка неопределенности для глубоких нейронных сетей» first appeared on Компания НТР.

Научно-технический вебинар «Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных»

Модератор Модераторов — Thu, 14 Dec 2023 08:40:55 +0000

Спикер о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.

Ссылка на регистрацию: https://ntrlab.zoom.us/webinar/register/2816215944077/WN_xrlj59cBRiCMM9HAM3ZJzA

Презентация: https://drive.google.com/file/d/16tBu_BBYmOeyuw62TU0AqzZDjPYdHkHX

Видеозапись: https://www.youtube.com/watch?v=RDylNfNofUo

Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР
Да, всем добрый день еще раз. Я Александр Коротин, руководитель и сельской группы в Сколковском институте науки и технологии и научный сотрудник института искусственного интеллекта. И сегодня я расскажу как раз про те методы, которые непосредственно я и очень многие из моих коллег разрабатываем, а именно это методы на основе так называемой теории оптимального транспорта для генеративного моделирования и преимущество. В своем докладе я буду фокусироваться на применение этих методов к так называемым задачам непарного обучения. Понятно, что, возможно, многие слушателям не знакомы с оптимальным транспортом с непарным обучением а. Вот по по ходу презентации я вот все эти термины аккуратно в виду поясню, что это такое, для чего оно нужно и почему это логично, скажем так, использовать в транспорт для построения конкретных генеративных моделей. Ну а начну я с того, что напомню просто зрителем, что же такое вообще генеративное моделирование и на какие, можно сказать, подклассы, задачи в нем обычно подразделяются? Вот обычно под генетивным моделированием, под построение моделей для синтеза искусственных данных. То есть, например, у нас есть какая то уже известная выборка данных, ну, например, вот будь то выборка лица знаменит и так далее, и мы хотим генерировать какие то новые данные, которые были бы похожи на данные, которые у нас имеются в обучающей выборке, например, за тем, чтобы аргументировать датасеты, то есть увеличивать размер выборок для последующего обучения каких то моделей распознавания или чего угодно. а поверх этих вот классическая задача генеративного моделирования такая самая простая задача генеративного уделлирования. Это, собственно, оно и есть генерация данных, которые похожи на уже имеющиеся данные и обычно под словом генеративное моделирование особенно последние лет, наверное, десять даже в принципе вот подрывают следующий подход к решению задачи генеративного моделирования, а именно предполагается, что данные, которые у нас есть, ну, например, лица людей это какая то выборка из какого то сложного многомерного, вероятно, самого распределения данных. И чтобы генерировать вот эти вот данные сложные, обычно делается как генерируются какие то простые данные, которые элементарно генерирует случайный шум с помощью случайного генератора. У каждого компьютере он есть. а дальше к этому случайному шуму применяется какая то сложная последовательность преобразований, описываемой обычной нейронной сетью, которая из этих простых объектов делают сложные объекты, то есть она может принимать на вход а простые объекты случайный шум и путем преобразовании генерирует из них сложные объекты из того распределения данных, которые нам нужно. Ну и, естественно, вопросы, как такую не рассеть обучить, чтобы она с этой задачей справлялась. Ну, в общем, вот эта задача, которая здесь описана как первый случай, классически называется задачей безусловной генерации. И за время существования генеративного моделирования, конечно, претерпело очень много всяких изменений. Надстройкой и вот эти все современные модели для генерации изображений типа там далее кондинский и так далее, они, конечно, внутри себя решают вот такую задачу на самом деле, но с дополнительными наворотами, а именно об условной модели и так далее. Вот другой класс моделей генеративных, которые обычно называют не столько даже генеративными моделями, сколько моделями перевода домена, это модели, в которых по одним данным нужно сгнировать другие данные, например, где такие задачи возникают. Но это все возможные. например, задачи обработки изображений, например, кларизация переносили сверхразрешение и так далее, да? То есть в этих задачах на вход генеративной модели поддается какой то объект, уже довольно сложный какой то объект, и нужно изменить характеристики этого объекта так, чтобы объект сначала лежал в одном домене и приобрел трибуты какого то другого домена. Вот и в контексте данной презентации мы будем говорить в основном о задаче генеративном длине второго типа, да, То есть когда по одному одному объекту уже в самом себе сложному не случайному шуму нужно сгнировать какой то другой более еще обычно еще более сложный объект. и такие задачи называются с задачами обычного перевода домена вот то есть сказать что для всех решений вот этих всех задачей и первые задачи, безусловно, генерации и задачи генерации типа данные в данные люди уже за наверное примерно десять лет такого активного развития области генеративного моделирования на придумывали уже очень много подходов, как решать эти задачи. Один из самых известных подходов это подходы на основе генеративного соседательного обучения, то, что называют ганны. Там есть еще вационные автокадировщики, и на самом деле сейчас один из самых популярных таких стоитовзарта то, что называется подходов, это подходы на основе дифузионных моделей дифузии, и эти подходы активно сейчас развиваются. Вот то, что то, о чем мы с вами сегодня будем говорить, это подходы на основе теории оптимального транспорта, и это на самом деле нечто, что по духу наиболее близко, наверное, к состязательному обучению то есть вот генеративным создатель неродным сетям но. В то же время у методов в тального транспорта есть очень такая важная взаимосвязь и дикузионными моделями через так называемые мосты шреддингера это такие специальные дифузии. Но вот этот аспект в презентации сегодняшний мы не будем затрагивать, вот и будем фокусироваться в основном на связи с созрательным обучением. Ну и давайте начинать собственное изложение самой презентации. Значит, для начала я, перед тем как рассказывать непосредственно о методах, естественно, поговорю о том, какие задачи эти методы будут решать. И, как я уже сказал, фокусироваться мы будем на задачах перевода домена. А что же это за задача перевода домена такие? Ну, несколько пример я уже привел, сейчас я вот еще раз по ним пройдусь чуть более конкретным. Как формулируется обычная такая классическая задача перевода домена? У нас есть две выборки данных икс и игрек икс из одного домена, игрек это данные из другого домена, и требуется построить некоторое по этим данным некоторое отображения. но обычно это не ровно сети, которое могло бы принимать на вход новые объекты и входного домена и преобразовывать их так, чтобы они становились объектами из второго домена вот и вот как раз вот это свойство возможность модели принимать на охот новые данные и обычно называется обобщаемостью в машинном обучении. И вот здесь на слайде внизу два таких довольно общих широким, я бы сказал, класса таких задач перевода домена. Первый класс это улучшение изображений, когда у нас один домен входной, то есть изображение икс это изображение, ну, допустим, в плохом качестве, в плохом разрешении, а изображение игрек это, соответственно, изображение в лучшем качестве, в более высоком разрешении. И от нейронной сети что требуется? Требуется уметь по картинке маленького разрешения генерировать соответствующую ей картинку в высоком разрешении. Второй аналогичный пример это перенос стиля или модальности между доменами. Здесь обычно домен это какие то, ну, допустим, изображения с какими то своими атрибутами. Ну, вот как показано в данном примере, первый входной домен это реалистичные фотографии людей, второй домен это фотографии, стилизованная под аниме. И что здесь требуется по входной картинке человека показывать? А как бы этот человек выглядел, будь он, ну, допустим, не мы героем? Вот это как бы два таких общих класса задач. Перевод доменной. Давайте чуть больше пройдемся по уже более конкретным практическим примерам, где такие задачи вообще возникают. Ну, начну я с задачи сверх разрешения. И здесь мне хотелось бы на самом деле такой довольно общийтари дать, что на самом деле сверхразрешения эта задача одна очень много где везде вокруг нас. ну, например, во многих смартфонах, наверное, где, то активно с семнадцатого восемнадцатого года стали появляться вся всякие технологии сверхразрешения, а именно цифровой зум. То есть компании в какой то момент поняли, что дальше наращивать камеру в телефоне это довольно дорого. А зачем наращивать как бы ну, новая железа, если можно, скажем так, дешевле за счет программной компоненты с цифровой сверхтре внутри телефонов. И действительно, сегодня как бы прогресс в части желез. это, конечно, не остановило камеры телефона все лучше и лучше. но и именно такая программная часть, связанная с технологиями сверхзрешения, она тоже постоянно улучшается. и, наверное, первопроходцами в этой сфере были там Гугл хуаве. У них в телефонах одних из первых появились вот эти технологии сового сверхразрешения. Естественно, всем пользователям хочется, чтобы картинка, которую он фотографирует на телефон, была в отличном качестве. И это можно достичь не только за счет хорошей камеры, но и за счет пост обработки с помощью нейронных сетей и методов сверх разрешения. И вот по факту решения задачи сверху отношений это является решением задачи перевода домена поскольку мы из картины к хотим найти отображения из картинок каких то, возможно, не самого хорошего качества, в картинке качество еще лучше. то есть другой домен. А с другой стороны, если мы говорим о, например, технологиях, связанных с видеоартами, и Вид Амд уже давно давно несколько лет имеют у себя технологии такие как элис и, диплернинг суперсемплинг и унд по, моему она, фс что, называется фасуперсплинг, который как бы во время игры в ту или иную игру, во первых, обычно повышают частоту кадров, то есть с более плавную картинку, а с другой стороны, еще могут повышать сверх разрешения. То есть к чему я это говорю? К тому, что на самом деле задача сверх разрешения всегда вокруг нас, даже если мы этого не замечаем. Конечно, есть и более какие то специфические приложения задач улучшения изображений в части сверх разрешения. ну, например, при анализ спутниковых данных, поскольку на спутниках снимки защиту камеры зачастую не самые лучшие по разным причинам. для того чтобы анализировать эти снимки, возникает задачи, связанные с повышением разрешений на этих снимках. Другим интересным примером задачам улучшения изображений является задача колоризации. когда у нас по входной картинке в черно белой нужно посмотреть, а как бы эта картинка выглядела в цвете. И вот это как раз еще один пример задача перевода домены. Когда у нас первый домены это черно белые картинки, второй домена цветы картинки и нам нужно построить не рассеть, которая бы осуществляла перенос между этими доменами. Я думаю, зачем казация нужна, ни у кого вопрос не возгает. Ну, потому что, например, есть очень много старых фильмов, которые, конечно, интересно было бы посмотреть уже о Современник и посмотреть их более в цвете, а вот там, например, активно эти технологии и используются. Вот. Ну, это что касается задач улучшения изображений. И вот если мы посмотрим на задачу улучшения изображений, которые обсуждались на предыдущих лайдах, у них можно заметить одну особенность. Но на самом деле входное изображение, входное изображение они были очень сильно похожи, То есть фактически входное изображение было какое то чуть чуть ухудшенный, скажем так, версии целевого изображения, которые мы хотим получить, и модель должна была так нарисовать, доправить какие то небольшие детали, чтобы улучшить это самое изображение. Обычно, когда говорят про задачи перевода домена, имеют в виду даже не только суперразрешения, сколько более общей задачи, в которых нужно осуществлять перенос домена между довольно таки сильно отличными друг от друга доменами. Ну, например, вот самый первый пример здесь сверку слева здесь по сегментации изображения нужно построить некоторую реалистичную картинку дороги с машинами соответственно в святоформе и так далее, которая я бы соответствовала этой сегментации. То есть фактически это задача обратная к задаче сегментации, и она уже сильно отличается от задач сверх разрешений и так далее, потому что здесь при переходе из одного домена в другой нужно уже очень много деталей добавить на картинку. И плюс сами объекты по себе они на самом деле имеют немножко разную структуру. но то в том в том плане, что здесь разметка по классам, а здесь уже какое то реальное значение ргб пикселя. Зачем вот такие задачи перевода домена вообще решать, да? То есть, ну, если мы решаем задачу справа налево, то есть по картинке получить сегментацию, это понятно. Задача сегментации нужно для распознавания объектов, для того чтобы, ну, например, беспилотный автомобиль, чтобы понимал, что вокруг него происходит. Обратная задача нужна немножко с похожими целями, но немножко с другими. Дело в том, что вообще большинство задач перевода домена, который не относятся к задачам улучшения изображений, они по какому то очень простому объекту, который легко получить даже без генеративных моделей, генировали какой то более сложный объект, который уже получить довольно тяжелое или дорого. Да и смысл решения задач перевода домена заключается в том, чтобы уметь по входному простому объекту генерирует какой то более сложный объект А зачем вот этот сложный объект будет нужен ну, например, спом на генерировать вот таких вот сегментаций можно очень легко даже какое то ручное правило банально там на питание написать как какие то более менее вменяемые вот такие сегментации генерировать. А если у нас будет модель, которая умеет под каким сегментации гнили сложные объекты, то есть реальную картинку дороги то мы сможем получить с генерировать искусственную выборку для решения задачи сегментации непосредственно да? То есть имея такой парный датасет искусстве с генерированной, мы можем использовать его для обучения методов для решения задачи игниации, поскольку у нас есть правильная маска того, как должна сементироваться вот эта картинка. То есть, иными словами, смысл решение многих задач перевода домена заключается в том, чтобы из простого объекта с ген какой то сложный, чтобы сэкономить ресурсы на получение вот этого самого сложного объекта а именно, например, вот, здесь справа снизу такой простой пример когда по скичу нужно с генерировать сложные изображения, то, есть, например там раскрашную сумку, ну, понятно что скетчи нарисовать сло тому же художнику совсем просто там раз, два, услуга три минуты, чтобы нарисовать вот такую сумку, и нужно потратить какое то время. Конечно, если будет модель Эль, которая будет уметь преобразовывать простые объекты, сложные, это просто будет экономить время, ну, например, тем же людям пользователям вот и. Да вообще вся вот эта тема с задачами перевода домена началась активно, наверное, с две тысячи семнадцатого года, и началась она с довольно таких игрушечных относительно предложений, я бы сказал, может быть, даже модельных. В каком смысле? А именно переносы стиля. Да? То есть вот у нас есть, например, картинка фотография. мы бы хотели посмотреть а как бы эта фотография выглядела, будь она картиной Ван Гога или К Сзана, или Мане, или вот у нас есть картинка, где нарисована лошадь а что, если бы это была не ложь? Зебра. Вот это, конечно, во многом модельные примеры перевода домена, которые не всегда мотивированы какими то реальными практическими задачами. Но вот вот эта статья, которая здесь, на нее ссылка, она, собственно, и во многом дала старт развитию вообще в целом методов перевода домена. И следует сказать, что есть вполне себе такие очень даже мотивной практикой исследования в этой области, а именно связанные с медициной. Например, вот, Ну, например, первый пример, который здесь приведен, это эрт мозга. Дело в том, что эмерт мозга делается, скажем так, в разных модальностях. то есть сканер фактически Мтс запускается с разными характеристиками, и вот в зависимости от того, с какими характеристиками сканер запущен, будут получаться разные снимки. Но смысл этих разных снимков в том, что в зависимости от того, в какой модалисти полученный симок, можно разглядеть те или иные дефекты головного мозга, ну там болезни, например, да и врачу, например, или даже банальный комната алгоритм машину обучения, который работает поверх вот соответственно этих снимков. Конечно, хотелось бы увидеть как мозг полу с главного мозга, полученный сразу во всех модальностях, чтобы была полная картина там у врача. Но очевидно, что во многих такого рода предложениях, чтобы получить все три скан во всех трех модельностях, но, условно говоря, нужно запускать сканер в три раза больше, что как бы банально, в три раза дороже, да и просто банально даже не всегда у всех пациентов есть снимки, во всех модальность, и здесь возникают естественные такие задачи перевода домена. А что, если бы у нас были только снимки в одной модальности, ну, например, ты один могли бы мы их нейроны сетью перенести в другую модальность, чтобы показать врачу как, головной мозг как с головного мозга выглядел бы в другой модели, чтобы соответственно врач мог определить какие то там другие дефекты, которые можно определить только по этой модальностям. Вот и такие медицинские приложения тоже отчасти очень сильно мотивируют развитие в области вот эти все переводы домены с помощью генети из моделей. И здесь нужно сказать, что на самом деле исследователи в этой области телесы на два типа это те, кто верит, что модели действительно могут как бы справляться с такими задачами, и те, кто скептики, те, кто считают, что, ну, как вот, условно говоря, вот у нас есть с ними в одной модальности, ну как мы можем из него извлечь то, что находится в другой маданности? Это тоже в принципе логично как бы аргумент вот. Но так или иначе исследования в области идут, и по крайней мере научной статьи в этой области, их все больше и больше появляется. Вот и, наверное, еще такой приведу выключение такой еще интересный пример, связанный с гестохимическим окрашиванием. Это тоже пример из медицины. Смысл здесь в том, что пациенту вводят некоторое вещество краситель в ткани, и как бы в зависимости от того, какое вещество ткань окрашивается, и соответственно дальше по этой ткани и покраски можно опять же судить о болезних, дефектах каней. И, естественно, здесь бывают разные красители, которые предназначены для того, чтобы отлавливать разные дефекты, а также бывают разные некрасители с точки зрения стоимости, дешевые, дорогие. И вот здесь возникают вполне естественные задачи а что, если бы мы использовали дешевые красители, получали бы как бы результаты? дальше этот результат с помощью технологии нейронных сетей глубинного обучения преобразовывали бы так, как будто этот результат получен более дорогим красителям. Вот то есть, подытоживая задача перевода домена, во многом все мотивированы либо тем, что мы по какому то простому объекту хотим получить какой то более сложный, который сложнее просто получить, либо у нас объекты просто из соответственно разных модальностей, и мы хотим один тот объект посмотреть в разных модальностях вот И да еще момент на самом деле вот сколтехе в центре прикладного и у нас сейчас также разрабатывается там библиотека так, называемая сай Мель ежи для прогнозирования всяких климатических рисков, связанных с лесными пожарами, загрязнения воздуха и так далее. вот и там одним из модули вот этой библиотеки как раз является и модуль повышения сверх разрешения вот этих самых климатических моделей. Дело в том, что есть такой физический симулятор Сип шесть, который позволяет им делать как бы прогноз погода, то есть он прогнозирует такую карту погоды на некоторый регион, ну, можно сказать, участок, к России и эту карту на самом деле трехмерный тензор, ее в принципе можно просто вализировать. Вот здесь, собственно, так и сделано как картинку. Это просто для понимания вот но у этого, во первых, это физический симулятор и его результаты. И вот результаты этого физического симулятора поддаются как входной признак на соответственно дальше моделям, которые осуществляют эти прогнозы лесных пожаров и так далее. Но у этого симулятора есть проблема Во первых, он физический симулятор, то есть он не в точности соответствует реальности, а во вторых, он делает прогноз на достаточно неплотные пространственные решетки. Поэтому вот одним из напрямодуле вот этой библиотеке является модуль, который использует некоторый реальный датасет реальных исторических данных о погоде, о климате для того чтобы сверх разрешать вот эти вот соответственно данные, получаемые с физического симулятора. Вот и это как раз задача перевода домена, которая в себя включает два компонента. С одной стороны, она сверх разрешает, с другой стороны, она уточняет данные в том плане, что статистики данных, которые получит физическим сенатором, они приводятся к статистикам реальных данных из реального мира. Вот. Ну и на этом я закончу водную часть, которая связана с предложением всех этих задач перевода домена. И давайте поговорим о том, какие задачи бывают с математической точки зрения. Обычно рассматривают две постановки этих задач задача парная и задача не парная. Значит, что такое парная задача перевода домена. Но это когда у нас есть выборка данных из одного домена, выборка данных из другого домена, и на самом деле у нас есть пары, то есть у нас есть пара объекта и ходовым доменом, и соответствующему объекты из выходного домена. Ну, это классическая задача обучения с учителем, когда у нас для каждого примера просто есть другой примеры, мы знаем, что мы из него хотим получить, что, конечно, значительно упрощает обучение моделей. С другой стороны, парные собирать обычно долго и дорого, и поэтому часто возникает непарная знать. То есть когда у нас просто две независимые выборки объектов из одного домена, из другого домена. И тем не менее нам нужно умудриться построить какое то осмысленное отображение между этими доменами. Ну, вот если мы говорим про парную задачу, тут тут на самом деле все просто. Поскольку у нас есть пары, это, как я уже сказал, обычно задача обучения с учителем, и ее можно буквально вот решать тем же способом, что и решается обычная задача регрессии. Мы берем там, не знаем, в какую то нейронную сеть и хотим сделать так, чтобы по объекту и центра изучающей выборки она генерировала соответствующему объекта. Игорь Кент Но это такой самый простой подход. Сейчас, конечно, над этим подходом миллион миллиона круток. Есть, в частности, и генеративной модели обусловленные, и дефузионные модели в частности, и так далее. Вот. То есть в принципе парная задача, она во многом довольно простая, и уже огромный чло способов и понимание, как ее решать, в области уже давно имеется. Но проблема в том, что парный датасет собирать, как я уже сказал, долго, дорого, а я засует просто нереально. Бывает такое даже да? Ну потому что даже если мы посмотрим вот этот модельный пример с преобразованием фотографии людей выниме, как нам собрать парный датасет. Но, видимо, логичный способ это просить художника стилизовать каждую фотографию руками, то есть как то перерисовывать это фотографию в аниме, что, понятно, долго, дорого и, в общем, очень непрактично, что и ограничивает прими всех вот этих парных методов. Поэтому часто на практике приходится рассматривать непарный сатап. это когда у нас есть две независимые выборки, то есть выборка реальная фотографии людей и выборка фотографии анимали. Но этот цветап очень сложный и довольно проблематичные. Почему? Потому что у нас мы не знаем для объекта входного как должен выглядеть объект и второй домен, куда мы его должны отобразить, что, вообще то говоря, доставляет на некоторые сложности. Ну, например, вот здесь вот справа на слайде что показано? Показ два возможных решения таких задачи непарного перевода домена, задача непарного обучения и, естественно, вот первое решение то здесь показано как который вот эту красную шапку переводят в зеленую не девушку, оно как бы бессмысленно, да, согласитесь, потому что оно не сохраняет как бы содержание входного изображения, и, естественно, на практике нужно искать какие то отображения, которые были бы осмысленны с точки зрения задач с точки зрения зада то есть это в основном за отображение отображений, которые сохраняют контент изображения, например, цвет форму волос и зависит от задачи. Вот поэтому, значит, что мы с вами сегодня будем делать вс оставшееся время я расскажу о том, как задачи непарный перевод домена решать с помощью так называемая теория оптимального транспорта, медального транспорта, но и тем, как это делать. Естественно, оптимальный транспорт это не естественный способ, не единственное, прошу прощения, способ прошить задачи. Люди уже придумывали огромное число методов для решения задач непарный перевод домена. Большинство из них базируются на генеративных издательных сетях. Сейчас в эту область начинают, скажем так, может быть, в последний год вникать проникать идифудионные модели потихонечку вот. Но у большинства методов есть большие проблемы, а именно что они во многом вс хорошо работают на практике. но их обучение обычно это некоторая сложная задача. И почему? Ну, потому что вот здесь приведен примерно слайде пример. Пример функции потерь одного из довольно известных методов юнит, который с помощью инкодеров декодеров осуществляет период обмена. И видно, что функция потерь, то есть целевой критерий, который оптимизируется на этапе обучения, он очень сложный, он состоит из огромного числа членов оптимизируется по шесть иных сетей и при этом здесь очень много гипер параметров вот эти лямда которые очень тяжело настраивает. То есть в принципе здесь, к сожалению, логика того, что мы выбрали какой то оптимальный наборгепер параметров и везде их пример не всегда работает, к сожалению. приходится при работе с новым доцтом опять тратить какое то время учительные ресурсы на то, чтобы найти вот эти параметры какие то. Вот это первое. А второе то, что вот эти методы, хотя они в принципе на практики и работают, они обычно не имеют никакого теоретического обоснования, да? То есть в принципе вот у нас, вот когда вот мы такую модель обучили, почему мы можем быть уверены, что у нас выручится именно вот такое осмысленное отображение, которое сохранит контент, а не вот такое отображение? К сожалению, гарантии, в общем случае, нет. Вот поэтому мы сейчас поговорим с вами как раз о том, что же такое оптимальный транспорт, какие гарантии дает он и как с помощью него учить вот эти вот модели для непарного переноса домена. Ну, для начала давайте я в виду формальную математическую постановку задачи оптимальной транспорте. что это такое? Представить, что у нас есть два вероятно, расплений по ику. можно считать, что это просто какие то две горы массы суммарной массы один ка. вот и мы хотим перенести вот эту массу одного распени в другой, вероятно, вспени. То есть, условно говоря, мы хотим взять лопату и начать переносить массу из одной горы в другую. Вопрос как это сделать? Понятно что и давайте скажем, что мы хотим найти некоторое отображение те которое, переносит массу пф масуку. Но очевидно, что таких тобжений может существовать много, да, То есть мы можем переносить массу как то попрямы, можем там как то крест накрест словно говоря и так далее и вот и вгете естестве, вопрос о том, а как сделать так, чтобы оптимально перенести эту массу, то есть чтобы на перенос этой массы затратить в некотором смысле наименьшую энергию при переносе массы? Ну, потому что понятно, что как бы напрягаться никто не хочет, а хочется быстрее закончить работу. в слов говоря может так это мотивировать вот и с математической точки зрения. Поэтому обычно ставится так называемая задача оптимального транспорта. То есть мы говорим, что для того, чтобы перенести точку икс из одного распределения в точку игрик, ну ты икс как там в другом распении, мы будем платить некоторую цену, транспортную цену. то есть мы сколько нам будет стоить перенести массу из этой точки в эту точку? Ну, например, эта цена может быть просто расстояние между этими точками. Или вот обычно берут квадрат расстояние и мотивируют тем, что как бы не знаю, чем дальше нести, тем больше ты устаешь и тем как бы затрать мне это все.
Вот вот тут Александр нас спрашивает этот перенос массы чем то похож на метрик вассерштайна В.
Язык да это в точности метрика Штайна, это частный случай метрики вообще метрики оптимально транспорт. Сейчас я расскажу об этом. Смотрите, задача оптимального транспорта стоит из двух вещей. Первое. Мы хотим найти оптимальное отображение, которое переносит одну гору мас в другую, то есть те тесс и звездой что это что такое это оптимальное отображение Это оптимальное отображение должно минимизировать некоторые критерий критерии работы по переносу из массы из в другое. Как эта работа определяется? Ну, мы говорим, что мы платим закажет перенос каждой точки икс точку ты от икс, ну какую то сумму и берем просто средние по всей нашей массе, по распредеию, которую мы должны перенести. Вот и мы ищем минимум вот этого критерия по всем отображениям, которые переносят массу из пвку, и соответственно оптимальное отображение, которое доставляет здесь минимум. Оно называется оптимальным транспортом от вооружения и обозначается через тесса звездой. А вот эта самая цена, которую нам нужно затратить, чтобы перенести массу одного в другое, называется оптимальной транспортной ценой. И метрика Вассерштейна это частный случай. Вот это общие функции стоимости оптимального транспорта. а именно, ну, например, классически метрика, что и на один, например, которая, наверное, то же самое популярная в области генеративное моделирование тоже встречается в модели как вы все штанган и так далее. Это значит, когда у нас цена это просто расстояние между двумя точками. Ну, собственно, все, да? вот то есть это меткоеш это просто частный случай оптимальной транспортной сцены, вот и все. Да, и нужно сказать, что вот это самое оптимальное транспортное отображение, которое приносит массу из распения в другое, оно, обще говоря, сильно зависит от функции цены. В каких то случаях оптимальным будет ну, вот, наверное, то, которое показано здесь слева, такое интуитивное оптимальное, как, как и надо переносить, чтобы не затрачивать энергии много, а в каких то случаях при каких то функциях стоимости вот и это может оказаться оптимальным. То есть вот это оптимальная транспортная стоимость естественным образом зависит от функции цены здесь расследует.
Да, еще здесь подразумевается, что оба распределении они в одном.
Пространстве они на самом деле нет, формулировка общая. то есть они могут быть и в разных пространствах. А просто в чем сложность с разными пространствами? В том, чтобы определить функцию стоимости, если мы на одном пространстве. Ну, понятно, но это какое то расстояние там, да? А если у нас разные пространства, как мы сравниваем, условно говоря, одномерный объекты, двумерный объект это не тривиально, но это можно определить. То есть в принципе задача оптимальный транспорт может рассматриваться между любыми размерностями. Сложность именно в том, как ее поставить, как определить функцию, стоимость. Спасибо. Вот здесь что мне следует сказать пару слов таких, что на самом деле задача оптимального транспорта она называется задача монжа потому что французский математик там по, моему то ли семнадцатый то ли на стыки по моему семнадцатого и восемнадцатого века ее предложил и вот он как раз интересовался перенос перенос массы, например, оптимальном. а потом в двадцатом веке Леонид Конторович это наш советский ученый, математики экономист, он, вообще говоря, эту задачу в некотором смысле переоткрыл. То есть вот есть такая задача Конторовича, это некоторое такое математически осмысленное расширение задача Монжа. И вот дело в том, что вот оптимальный перенос массы, он очень связан с, как сказать, с оптимальным распределением ресурсов, да? То есть, например, у вас есть, например, заводы, условно говоря, вот есть потребители, вам нужно как то оптимально распределить товар с заводов к потребителям, и это как раз частный случай задачи оптимального транспорта. И вот как раз наш советский математик Литта еще активно занимался проработкой этой задачи. И фактически огромная часть современной теори оптимального транспорта, которая вот сейчас люди используют в геративных моделях, в других приложениях и так далее, это все базируется на результатах, во многом который получил, значит, Кович там, в середине двадцатого века.
Вот тут Павел как раз про перенос масса нам пишет в чате. На днях как раз перекидывал гору снега на пять метров. Проще всего было бросать, не задумываясь о точности. То есть прощего было делать перенос рандомизированным обратно разобрать бы не получилось. Бывает ли такое свойство в функциях потери?
Обратно разобрать бы не получилось, нося в виду. Не совсем понимаю, что имеется в виду под обратно разобрать то есть в обратную сторону за.
В том же порядке. Сложить снег обратно.
Но, по моему, в принципе получилось бы, если мы берем каждую частичку масса снега как маленькую маленькую читичку, да, то, предполагаем что они не сливаются ничего, то, наверное, можно в принципе, но это потребует очень больших усилий вот и это немножко тяжело. Вот. А касательно того, что вот оптимально перенести, оптимально и не оптимально надо переносить там тот же снег, словно говоря да, ну, конечно, когда мы работаем в контексте во дворе снег раскидывать, то здесь, наверное, действительно проще, не думая, это сделать. Но если мы говорим о каких то больших масштабах не представляете потребители там пятьсот потребителей, двадцать заводов, да и вам нужно товар распределить, то, естественно, здесь очевидная экономическая выгода сделать это эффективнее, да? То есть здесь уже как бы люди задумаются о том, как это сделать правильно, как сделать эффективнее. Но вот мы с вами говорим это в контексте оптима генеративных моделей и перенос домена. Давайте посмотрим, зачем здесь нужна это оптимальность. Вот что. Вот мы иначе чего задача перевода домена, непарного перевода домена. То есть у нас есть объекты, мы хотим преобразовать объекты сводами на другой. Но при этом важное свойство, что мы хотели? Мы хотели бы, чтобы входной объект не сильно изменился при переносе его второй домен, то есть чтобы контент этого объекта сохранился. А вот с другой стороны. То есть мы хотим две вещи. Первое чтобы мы объекты из одного домена в другой переехал. второй чтобы объект сохранился контент. то есть минимальным образом изменился объект, скажем так. А вот теперь давайте посмотрим на задачу оптимального транспорта и заметим, что, вообще то это примерно о том же, только у нас здесь как бы не домены, а распределение вероятностные. Мы хотим перенести массу каждую точку из одного вероятно стараний в другой вероятно распление таким образом, чтобы минимизировать изменение вот этого объекта, да? То есть транспортная цена должна быть наименьшей, то есть икс должен быть наиболее похож на те с точки зрения функций цены, которую мы выберем для конкретная задача вот. Ну и на этой почве, вообще говоря, задачи перевода домена люди и стали рассматривать как задача оптимального транспорта во многом и применять эти методы оптимального транспорта для того, чтобы решать задачу переноса домена. А вот здесь возник естественный вопрос а как вообще то есть вот здесь у нас какие то распределения озе выборки, как эти вообще? Ну, это немножко разные постановки. Как вообще вот эти задачи связаны друг с другом на таком формальном математическом уровне? На самом деле связать их можно следующим образом. Появляется так называемая задача непрерывного оптимального транспорта. Что мы делаем? У нас иде выборки икс игрек, а мы предполагаем, что эти выборки задача перевода домена это какие то случайные независимые выборки из двухраспределения поку, то есть распределение данных распределения вторых. И мы хотим, имея лишь в выборе дан, построить оптимальное отображение транспортное, но не между выборами, которые у нас есть, не между данными данными, а между распределениями, из которых приходят эти данные. И вот эта задача и называется непрерывная задача оптимального транспорта. Ее на самом деле ни в коем случае не надо путать дискретной задачи оптимального транспорт, когда мы просто выборки хотим поставить. И вот именно эта задача в контексте перевода домена в последнее время очень активно используется, и по крайней мере исследования в этой области идут довольно активно. И мы сегодня с вами и восставшееся время и договорим о том, как же решать эту задачу помощью оптимального транспорта. Ну и вот что нужно сказать. А ну, на самом деле скажу я одну вещь, что в принципе вот задать постановки задачи оптимального транспорта, а именно вот формулировке монж, который я привел, она очень плохая с математической точки зрения, потому что мы что здесь мы ищем транспортное отображение это какая то детерминирована функция, но оно, вообще говоря, не всегда даже существует. Почему? Ну, потому что пристав, что у нас входное распреде дельта распределение, а значит, выходное распределение, какое то там неправное распределение. Ну, такой просто частный случай детерминированное преобразование. Если мы применяем к дельта распределения, мы все равно одну точку получаем как мы не хотим, как бы мы не хотели. Поэтому здесь вообще не существует транспортах отображений между такими двумя распределениями. Вот поэтому задача Монжа, она сама по себе очень такая теоретически плохая. И именно поэтому вот как раз Леонид Конторович, наш советский математик, он как раз предложил как все эти проблемы и справились. И вот возникла так называем формулировка задача оптимального транспорта. По Конторовичу. Вот в контексте данной презентации я не буду ее рассказывать, что вы не перегружать деталями. Вот кому интересно пожалуйста, посчитайте статью, я дальше буду показывать конкретные ссылки, где это можно посмотреть вот. Но нужно иметь в виду, что в принципе задача он же у нее есть теоретические проблемы, но это как бы на практике это не проблема, скажем так. Вот и зачем суть? Суть в том, что решать задачу оптимального транспорта довольно сложно. Ну давайте мы посмотрим на эту задачу монджа еще раз. что это такое? это поиск транспортного отображения между двумя распределениями п ику и мелизация функции транспортной стоимости этого самого отображения. И здесь как бы две проблемы возникают у нас вот эти сами распределения данных пэйку они неизвестны у нас есть только выборки из них дата с собственно на. Это первое. А второе то, что эта задача в ограничениях, да, то есть мы должны оптимизировать по множеству отображений из одного распределения в другое, кто тоже, вообще говоря, очень нет и реально. Вот поэтому во многом современные впечатлительный метод оптимального транспорта на основе нерона сетей, они построены на решении так называемой двойственной задачи оптимального транспорта. И вот эту самую двойственность как раз и предложил Леонид Конторович. Собственно, как бы результаты там, условно говоря, в шестидесят семьдесят летней давности математические, которые были вообще в контексте других вещей получены сегодня заиграли немножко новыми красками и применяются для решения задач генерации. А именно что доказал Леонид Конторович в одной из постановок, здесь уже такая немножко модифицирована современная версия что для того чтобы найти оптимальную транспортную стоимость между двумя распределениями можно, решить вот так на дости на задачу а двойственная задача это сум максимизация суммы двух интегралов двух функций они называются потенциалами контора и интеграл уберутся по входному расплению и по выходному распределению. И эти две функции они связаны некоторым граничным условием которого здесь написано через о плюс так называемый который говорит не что иное как, вот вот этот вот условий то есть для всех точки и игрек должно было быть выполнены вот это условия вот и как бы в чем плюс на самом деле двости на задачу оказывается, решать проще. но на первый взгляд это не очевидно. Почему? Потому что вот здесь есть какое то нереальное ограничение, да и здесь оно есть, да как бы от него тоже ничего не избавились. Да еще и объект, который интересует нас, то есть оптимально трация это отображение, ну, он исчез отсюда. Так вот, оказывается, что есть так называемая полудвойственная постановка задачи, которая выводится из вот этой самой двойственном постановка задачи, которая более удобно осущестлитной точки зрения для вот этих вот для решения задачи перевод домена. И что это такое? Ну, я буквально в двух словах объясню, что вот у нас есть двойственная задача, которая максимизация суммы двух отыграла в ограничениях. А давайте мы что сделаем? Давайте мы зафиксируем одну из этих функций из потенциалов в контореща и проведем оптимизацию по другой функции же вот у нас максимизация вот этого функционала. Как его максимизировать? Ну, условно говоря, у нас максимально в ограничениях ограничение сверху. Ну, естественный способ это упереть максимально в эти ограничения сверху, да, потому что мы таким образом будем только увеличивать вот этот целевое значение нашего критерия. Ну вот оказывается, что это наивысшее допустимое значение. оно легко оценивася, ну не легко оцениваться, оно может быть явно математически выписано как так называемая трансформация вот этой второй функции цнсформации есть не что иное, как вот это максимальное упирание в ограничения. И на этой почве вот двойственную задачу можно переписать как задачу максимизации по одному потенциалу конторовича при условии, что другой потенциал выражается через него. явно просто, как некоторые записана вот здесь функция. Вот и окей. Теперь что нам отдает? как мы теперь наконец найдем оптимальный транспорт отображения между распределениями? Ну вот сразу что идея, которую я сейчас дальше расскажу вс оставшееся время, это идея, которая появилась в принципе во многих статьях довольно таки параллельно. Вот первое, вот идея, где я ее встречал, это вообще статья девятнадцатого года от человека, который там экономика занимается, которая вообще парнеронной сети не знает, но у него там эта идея, скажем так, не завелась ни в каком виде, там ни масштабирована ничего. И вот статья, насколько я знаю, так до сих пор живт на архиве нигде не опубликовано. вот плюс там похоже идеи на то что я расскажу что сегодня они возникали где то еще вот тоже в девятнадцатом году вот в немножко в других контекстах. а вот первое реально масштабный алгоритма удалось получить параллельно вот, с одной стороны, мне и моим коллегам из Сколтеха из Аири, с другой стороны, была там еще группа, по моему, из университета Джорджии, что я ошибалась которая тоже примерно в то же время удалось получить похожие результаты. Вот и собственно. Ну, давайте обсудим, что же за результаты. Ну вот мы хотим что решить? Мы хотим решить задачу оптимальная транспорта имея лишь выборки из этих рассмотрений пойку. Как я уже сказал, в прямой постановке задача решать сложно, поскольку у нас есть только выборки и у нас есть какое то не тривиальное ограничение. а с другой стороны, в двойственной форме, во второй форме, которую мы получили, этого ограничения уже нету. То есть это задача оптимизации без ограничений, что как бы заведомо подсказывает нам, что мы можем вставить сюда там не рассетку и спокойно оптимизировать это вот этот функционал по параметрам не расседки. Но есть две сложности. Первое то, что вот этот член, который с цнсформацией, сам по себе представляет некоторую задачу оптимизации и вычислить его не так то просто. Это первая проблема. Вторая проблема то, что мы чтоотим найти мы хотим найти транспортное отображение то оно синим обозначено по ходу презентации, а вот в этом функционале его нигде нет, здесь только красная. Вот эта двойственная перемена потенциал кровича. Что делать? Ну, вот можно доказать такой факт? Я вот здесь это, ну, не стал оформлять как теорему просто для простоты, что на самом деле задачу оптимального транспорта можно переформулировать как задачу поиска седловой точки некоторого функционала который написано что это за функционалы откуда он берется давайте? Сначала посмотрим, кто, здесь по оптимизируется. Это функционал оптимизируется по двум параметрам по потенциалу конторовича вот та самая двойственная переменная и транспортом отображения, то есть та самая прямая перемена то, что нас не интересует вот что что это функционал. На самом деле этот функционал есть не что иное, как некоторая третья двойственная форма, она называется полудвойственной формой, поскольку она содержит как бы и прямую переменную, и двойную перемену т и выводится из двойственной задачи той самой второй, который я показывал, а именно вот этот. Внутренняя задача минимизации есть ничто иное, как просто расписывание вот этой самой цнсформации более менее по определению и цнсформации, и амортизация операции, так называемые амортизация. То есть когда мы хотим найти минимум задача, но мы хотим этот минимум предсказывать нейронной сеткой, то есть это как бы по факту некоторые функции. Но на практике рон сеть которая пытается найти минимум в задачи о поиске цнсформации, то есть вот вот вот этой задачи, то есть найти тот самый игре, который достигает минимум вот эта цнсформация. Если мы его нашли, то мы можем и посчитать вот это все слагаемое тенсформацией функции. Вот и теоретически доказуемо, что значение этого функционала оптимальное, минимаксное, точнее, максиминное. Оно соответствует транспортной цене между двумя веротельствами распределениями п ику, то есть тем, откуда мы хотим отобразить и куда мы хотим отобразить. Но у этого функционала есть и другой полезной свойства, а именно можно доказать при некоторых дополнительных предположениях. Обращаю внимание, что если мы нашли какую то оптимальную пару со звездой тесса звездой то тесса звездой это оптимальное транспортное отображение между по игу. Иными словами, мы должны решить вот этот функционал каким то образом проптимизировать, и тогда мы найдем оптимальное транспортное отображение. Вот детальный математические подробности можно как раз посмотреть в статьях, на которые я ссылался. Еще раз я презентацию расшарю. Вот и вопрос, как это на практике решать? Ну, на практике это решается, естественно, точно также, как это решается во многих подходах глубинного обучения. У нас оптимизация по двум функциям Фт потенциал контор и транспортное отображение. Ну, по функциям мы оптимизировать не умеем, зато умеем оптимизировать по нейронным сетям. Давайте мы подставим нейронные сети в качестве этих функций и будем вести оптимизацию по их параметрам по параметрам это и огненных сетей, ну как это обычно, чтобы оценить эти интегралы. Как мы это можем сделать? Ну, у нас есть выборки из распределения поеку из входного и выходного, но это значит, что мы можем просто оценить заменить интеграл на его оценку мэта монтекала по всему до сту или повыборкин из этого дацита. Вот. Ну и как это оптимизировать оптимизирует это такие вещи обычно стохастическими гентными методами. То есть вот у нас здесь максимизация по одной группе переменных, минимизация по другой группе переменах. Ну, мы вот эту вот функцию потерь делаем гредетный шаг подъема по одной переменной и несколько кредитных шагов спуска по другой переменной. Это очень похоже на методы генеративно состязательного обучения генеративные то что ганны да, Но, значит, здесь, есть такое довольно забавное и отличие, которое еще и в наухе даже на самом деле люди до конца не осознали. Заключается она в том, что как бы роли от нейронных сетей генератора и дискриминатора они как бы местами сменены. То есть по факту генератор т который наш транспортом, он как бы является состязательным к дискриминатору, поскольку он является решением внутренняя задача, а не наоборот, как это обычно бывает в геративном срательном обучении вот. Ну и алгорит написа здесь на слайде. Это, собственно, просто бальмен, то, что я говорил уже. Мы просто берем семплируем выборки из распни с другого несмещенно оцениваем функцию потерь для потенциала делом кредитный подъем по функции потерь поминус функции потерь да, и соответственно делаем гетный спуск по другой группе переменных. И вот здесь забавное такое отличие от тех же генотинцы с Пион сей еще есть в том, что обычно там делается один гарный шаг обновление генератора, и там много дискриминатора, а здесь вот получается наоборот делать как один греетный шаг обновление вот этого потенциала и конторовича, который играет некоторую роль криминатора, а и много грязных шагов по генератору, что в принципе соответствует как бы самой постановке задачи что у нас генератор транспортное отображение является решение внутренней задать вот ну и заключение презентации я покажу несколько картин как это работает все вот и в основном это будут непосредственные же и статей. и это обычная задача какие то типа перевода домена между изображениями, то есть стилизации изображения и так далее. Вот и в качестве транспортной цены я всегда буду использовать крачичную функцию стоимости, которая просто попик сравнивает входное и выходное изображение. Здесь сразу такой комментарий, что, да, это не всегда самая оптимальная транспортная стоимость, и более того, из компьютерное зрениеизвестно, что защиту использования такой функции стоимости ведет к, скажем так, плохим результатом генерации и так далее. но вот внезапно не в методах оптимального транспорта. то есть метода оптимального транспорта скточисной функции стоимости попих на картинках работают вполне себе осознанно вот. Ну и здесь я сильно не буду останавливаться просто скажу что, естественно, в задачах непарного обучения обучения производится на обучающие выборки не парные, и тестирование проводится на отложенных выборах. То есть в принципе так правильно дела с точки зрения всех канонов машину обучения, но, к сожалению, не всегда так люди делают даже в научных статьях. И тестирование обычно проводится с помощью опять же непарных метрик, которые сравнивают с генерированным множество с действительно множеством. И вот одна из таких метрик это общеизвестный фреш инсепшн дистанс здесь в виду того, что. Ну, это общеизвестный метрика. Вот здесь и ссылки есть. Я, наверное, останавливаться на этом не буду, и поскольку у нас время.
У нас еще есть несколько вопросов. Вот вопрос в чате. Я вижу здесь не маленькую проблему то, что цена функция, которая является гипер параметром. Да, это правда. Если это правда, то как подбирать это гипер параметр?
Ну, смотрите, здесь это очень хороший, очень сложный вопрос, потому что в принципе это должно зависеть от задачи. То есть что что такое ц Цэ как я здесь показывал уже это некоторые некоторые как бы наше априорное знание о задаче, то есть которое нам говорит примерно какая точка какой ближе, и как бы некоторые наши априорное знание, что куда отображать вот во всех задачах, которые я буду показывать там. Вот эта функция простая Льва, потому что в задачах переноса стиля зачастую она вполне себе является осмысленной и подходящей, как мы сейчас увидим, с другой стороны, для каких то более общих задач. Как выбираете эту функцию, это. ну, я просто не смогу даже ответить, потому что это сложный вопрос, сильно зависит от пятки задачи. Возможно, в каких то случаях эту функцию можно обучать специально, зная какие то предварительные знания, задачи, ну, например, используя какие то методы контраст флернинга или еще что то, а потом запускать с этой функции стоимости оптимальный транспорт.
А Арсений Бож спрашивает какие архитектуры не расти берутся для оптимизации По.
Параметрам при арсении это самое используется стандартной артетуры из области то есть в качестве генератора как бы транспортное отображение используется юнэ ну одна из его модификации более менее не самые свежие словно говоря мы когда делали, по моему условно говоряского три позитории семнадцатого года, у которого там десять тысяч звездочек на гитхабе и в общем он юнет он изначально это для сегментации какой то использовался, а в качестве эльф то есть потенциал конторовича или же дискриминаторы используется просто какой то резнет это, условно говоря, какой то резнет из какого то ганна взятый просто и все как дискриминатор вот. Но в принципе да, можно использовать что то более эдванст, но вот лично на этапе публикации статьи и так далее до этого руки просто не дошли у нас.
Да и Россия уже спрашивает, какие масштабы не расти и по сравнению с Масштабами дотс это сколько параметров сети отвечает скольким элементом выборки с достаточно сложной структурой каждого элемента.
Ну, вот это, конечно, такой сложный вопрос, я сходу не могу сказать. Я могу только вот что сделать могу на самом деле на статью по моей статью потому что у нас в статье там не улпт транспорт вот в этой статье которая здесь зеле вылин там есть прямо апендикса, в котором указанное количество параметров нейронных сетей и там же размеры да сетов есть, и там есть сравнение вот этих количества параметров по сравнению с другими стандартными методами из области этого непарного перевода домена. Я сходу, к сожалению, не помню, сколько там, но могу сказать еще один такой момент, что что мы заметили вот и экспериментируя этим, что в случае оптимального транспорта архитектура дискриминатора должна быть значительно мощнее, чем вот это в ганнах обычно есть.
Тут кто то неуловимо знакомый мне пишет, были картинки результатов или нет. Я чего то пропустил? И Егор Гребков. Привет, Егор. Если способ решать транспортную задачу не полностью анп стиля, а имея примеры, подсказки, что то вроде пошли сдавать.
Ленин Да, да, вот есть сейчас у нас есть такая работа, она припринта вот сейчас на рецензии жид называется Нюрал Оптим транспорт Ус Дженерл Кост Фанкшенс. Там вот как раз мы показываем, как можно как бы дополнительную априорную информацию о задаче добавлять в, ну, влос для обучения, скажем так.
Аше Александр. Спасибо. Вроде бы пока кончились вопросы.
Угу. Да ну вот, собственно, я уже так на самом деле у нас, по моему, нача планировался. Все, я вот так затянул вот. ну долго, давайте я еще минут десять тогда уже картинки покажу им картинки, коли спрашивали. Вот это все в основном изначально тестировалось на задачи перевода домена и стилизации. Вот и что здесь показано на всех картин, которые я показывать буду, это элементы тесовые выборки, то есть на первой строчке, которую модель на этапе обучения не видела, да, и это как бы тесты элементы, а вторая строчка это то, что модель с генерировала по входному элементу из тестовой выборки, которые подаются на ход. И вот здесь, вот как раз в этих примерах, очень хорошо видны свойства оптимальности отображения с точки зрения попиксель два, стоимость, которая здесь использовалась, а именно что отображения старается наемшим образом сохранить контент изображения, наилучшим образом, прошу прощения, контента изображения. И вот здесь, например, переносит домену, он сохраняет какую то атрибутику, ну, вот прям бабочка, которая заколка здесь, она здесь осталась, и у нее девушки там, да, рука вот это и так далее, здесь какая то заколка, яичница осталась здесь, там цвета сохранились, здесь вот по датасетту сумок генерируются новые доцтый ботинок как бы объекты ботинок и переносится текстура и это как раз и есть а трибутика оптимальности. Ну, вот здесь больше всяких разных примеров есть и что нужно учитывать, что, конечно, оптимальное отображение они во многих случаях хорошо работают, но не всегда. Во первых, это прям, ну, как у любой модели, есть какие то огрехи там, артефакты. вот здесь, например, артефакт как будто здесь как бы тектура вообще буквально банально плохо наложилось, назовем это так. Вот здесь, например, стура не перенеслась, но это связано с тем, что дисбалансные дата сты. То есть, ну, грубо говоря, если у вас там в одном доц все сини сумки, а в другом синий и красный, и вы отображаете там синий, синий, красный, то, конечно, у нас часть объектов станет красными, в общем.
Голубой. Обуви.
Не было? ну да, там, ну, то есть был какой дисбаланс и в принципе если интересный дисбаланс можно лечить есть всякие там методы не сбалансированного оптимального транспорта и так далее то есть есть расширение, ну это уже как бы за рамками текущей презентации вот внизу в пример как по доцу природа генерируются церкви до церкви то есть задача в принципе нарисовать как бы церковь в поверх картинки природы, которая дана. И вот есть всякие забавные примеры, когда, например, сноубордист лежит, и вот тут на фоне рисуется какая то церковь, а он остается на переднем плане, или вот как здесь слева машина не с машиной попыткой съединяет какую то церковь и так далее. То есть вот за счет вот этой попих сильной близости льва, которая с помощью оптимальной транспорта и достигается входное изображение, оно похоже на входе. и на самом деле вот есть какие то такие экстремальные, ну, вообще совсем, наверное, части бестолковые но забавные примеры когда, по дот с этого анималист можно генерировать ботинки, ботинки, которые еще и зачастую похожи там, ну, подсвет и так далее насколько можно сходить о схожести там, значит, они мои лица и ботинка. Да, это так просто для проверки, что такого рода методы в принципе и в экстремальных случаях работ. Ну и в заключение сказать, что, конечно, транспорт не единственный способ решения задач перевод домены. и здесь такое много такое маленькое сравнение в статье там гораздо больше с таким классическим методом называется циклизский гн. И вот в отличие от сиклического гана оптимальный транспорт защиту позволяет сохранить схожестью входного и входного объекта дефолтный как ванильный, как это обычно называется, циклический ган зачастую этого не делает, ну, то есть примерно на защиту бывает вообще как бы случайный выход по ходу генерируют. Да, в принципе в моделях типа Сайган можно стимулировать вот эту похожесть, но там возникают дополнительные гипер параметры, которые надо настраивать и так далее, и так далее. А вот с другой стороны оптимальной транспорте вот эта простая функция потерь, стоящий из трех слагаемых, и там как бы нету гипер параметров, кроме, возможно, как было замечено, функции транспортной стоимости. Ну вот давайте уже заключение, собственно, с чего мы сегодня поговорили о методах понимального транспорта для решения задач генеративного моделирования, а именно мы говорили о их применении для задач непарного обучения. И в принципе методы они довольны такие теоретические, обоснованные с точки точки зрения, что сейчас все больше и больше статей начинает выходить, которые какие то теоретические свойства этих методов исследуют. И это гораздо проще, чем у тех же генеративных издательных мирных сетей. Потому что вот как бы задача, она основана на такой богатый математической теории оптимального трансферт. да, ее проще анализировать. есть куча приемов трюков о том, как теоретически он всего этого дела приводить вот и вообще говоря, эти методы, они сейчас очень активно расширяются. С помощью оптимального транспорта можно делать генерацию по одному объекту сразу нескольких объектов из тагетных из таргетного домена. и это как вот кому интересно в той же стате, которую зелено было выдленно можете посчитать оптимальный транспорт также при ним и к парным задачам. на самом деле вот это результаты, которые у нас, по моему, даже не опубликованы еще нигде на картинке на большом разрешении то есть когда у нас есть пол полные пары целые экс игрикой нужно обучить модель перевода домена на парных данных в принципе это с помощь оптимального транспорта путем некоторых таких модификаций тоже достигается и сто и сказать, что оптимальный транспорт можно применять и для задач, безусловно, г, то есть генерации. Ну вот той самой первой задачей которую я начал президацию, когда мы по случайному шуму хотим генерировать какой то сложный объект, картинку. И вот недавняя статья по моему, она сейчас на нее на конференции не у рыб какие то вот, собственно, корейские ученые показали, что в принципе за счет оптимального транспорта можно достигать качество сравнимого с обычными генеративными созидательными сети сетями и в каких то моментах сравним из дефузми. но Почему я вот всю эту свой презентацию устроил вокруг и настоящий перевода домена? Да потому что в задачах перевода домена в принципе дифузии те же самые которые как бы стоит узарт задача обычной генерации они еще мало добрались да, Вот, и именно в задачах непарного перевода домена зачастую нужна какая то осмысленность в генерации, да, то есть объект выходной должен быть похожных в одной и так далее. а в задачах безусловной генераций, когда мы шума где данные этого не нужно там вот применим весь этот арсенал дефузионных моделей а вот задачах непарного обучения к, сожалению пока, с этим все сложно вот. Но есть уже ряд работы который такое мне делать. собственно, если, кому интересно весь кот он вот на гитхабе есть в разных репозиториях, можете заходить. там на самом деле есть даже как бы семинары, то есть вот такие джу петра на буки, которым можно прорешать все вот эти вот методы, закодить, посмотреть, как оно работает, на каких то игрушеных примерах, в том числе чтобы просто проще было, быстрее. Спасибо за внимание.

The post Научно-технический вебинар «Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных» first appeared on Компания НТР.

Научно-технический вебинар «Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками»

Модератор Модераторов — Mon, 04 Dec 2023 09:19:33 +0000

Спикер о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.

Дополнительные материалы:
Real-Time Object Navigation With Deep Neural Networks and Hierarchical Reinforcement Learning
Hierarchical Landmark Policy Optimization for Visual Indoor Navigation
Skill Fusion in Hybrid Robotic Framework for Visual Object Goal Navigation

Презентация: https://drive.google.com/file/d/1iOq-UN_BlchyJW9y12LVIRkBym7-hUt0/view?usp=sharing

Видеозапись: https://www.youtube.com/watch?v=KGBDU2O8jMk

The post Научно-технический вебинар «Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками» first appeared on Компания НТР.

Научно-технический вебинар «Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2»

Модератор Модераторов — Thu, 05 Oct 2023 05:46:08 +0000

Спикер о вебинаре:
Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень ошибок на тестовой части одного из популярных академических датасетов (например, Librispeech или CommonVoice), но качество этой же модели на реальных данных в ходе эксплуатации существенно отличается в худшую сторону.
В своём докладе я попробую охарактеризовать проблему устойчивости нейросетевых алгоритмов распознавания речи и рассмотреть подходы к её решению в рамках парадигмы минимизации инвариантного риска (invariant risk minimization). Отдельное внимание я уделю вопросу о том, что в рамках данной парадигмы может являться средой (environment) для алгоритма распознавания речи и как автоматизировать разметку обучающих речевых корпусов по средам.

Презентация: https://drive.google.com/file/d/1ytqpSsSwc8VZv7R8TYnYGsTspisGYfLE/view?usp=sharing
Видеозапись: https://youtu.be/aoSzMt1bh5M

SPEAKER_00 [0.96]: Меня зовут Иван, я работаю в Новосибирском государственном университете и занимаюсь распознаванием речи в целом. Я заинтересовался проблемой распознавания речи достаточно давно в две тысячи пятом году, когда я еще учился в Донецком национальном техническом университете. там же я поступила аспирантуру остался преподавать и занимался вопросами, связанными с распознаванием речи на базе нечеткой логики, на базе нейронных сетей, на базе ансамблей нейронных сетей для повышения устойчивости. Потом я перешел войти индустрию работал в разных компаниях влаги в датамонстрах, в московском фистехе в хоэе. Ну из двадцать второго года я окончательно вернулся обратно в академическую сферу и сейчас с рекома полностью работаю в университете преподаю курсы по диплинингу занимаюсь исследованиями в виду некоторые Не окр да для индустриальных партнеров университета но и занимались консульственными. Проектами я люблю Понсорс. Во первых, упонсорс сам по себе это дело хорошее. Во вторых, опенсорс важный в науке, потому что в компьютерных науках, в любых науках воспроизводимость эксперимента важна, в компьютерных науках воспроизводимость может обеспечиваться открытыми данными и открытым кодом. И вот мы как то с ребятами с моей командой решили попробовать сделать штуку, которая может помогать людям журналистам, всяким пребым социологам и прочим специалистам, которые составляют интервью обрабатывать в записи интервью. К этому я подошел достаточно давно, еще когда я сотрудничал с Театром старый дом они делали документальную пьесы в жанре вербатим а этот жанр предполагает тесное взаимодействие с реальными живыми персонажами с фиксацию их рассказов о жизни и составление сценария на основе именно живых рассказов живых людей. Тогда мы предложили свои услуги по распознаваниюще по транскрибированию. вроде бы получилось. Но когда Фонд содействия инновациям предложил конкурс коды искусственный интеллект поддержка, грантовая поддержка открытых систем искусственного интеллекта, мы воспользовались этой возможность для того, чтобы довести нашу систему до ума. И эта система автоматического снографирования интервью как важным элементом который ключевым элементом который является распознавание речи и преобразование речи в тек что здесь есть компоненты и пик порешили другие анализ текстов ил питематика. распознавание является весьма аварным. Более того, потом я тесно общаюсь с моими коллегами, которые защищает диссертации, а работа в академической сфере, как правило, подрубить защиту каких то диссертаций, кандидатских и докторских. Я понял их боль, а их боль во многом связано с кучей документальной рутины, с тем, что люди, после того, как выступят на дисете, готовят кучу документов для Вк, включая стенограмму. Вот стенограмма всего выступления на дис на Совете, включая не только выступление докладчика, но и реплики из зала реплики член диссоветов, выступления оппонентов в тому подобные вещи это достаточно долгое и мучительно. Я вот решила сделать отдельную штуку писец назвала это забавный писец, которая записывает речь диссертанта, речь всех участников и образуют их субтитры. Казалось бы, дело неплохое, благородное, более того, некоторые же диссертанты попробовать этот писец. Но я столкнулся с внезапной проблемой. То есть как внезапной? Не совсем внезапной. Проблема известная, но для меня была внезапно, что она так выпукла встанет с в реальной жизни. Здесь я показывании реальные примеры защиты, я показываю некоторые модельные примеры. Например, если мы попросим писец распознать, когда один человек рассказывает анекдот в другом анекдот как что будет, если. Представьте, что если программисты доделывают другой проект Лего Скотт Известный анекдот почесав голову, вы выгребаете хлам из комнат, да, делаете лаборатории, сдаете объекты ученым, но через пять минут они выбегают с криком утечкой дотого газа. Начало анекдота система писец распознал более менее нормально, с небольшими ошибками по часа в голову, казалось по часам на голову. но знаки пунктации опустим, это определенная боль. он не поставил знаки пунктов необходимые, но тем не менее, кажется, качество распознавания является приемлем. Анекдоты он распознает отлично. Давайте дальше Возьмем другой пример уже не рассказанный анекдот, а некий а у него подкаст с подлодка, и это мой подкаст, я там рассказывал про распознавание речи. кажется, что все красиво, но если вы внимательно посмотрите, вы немножко задачитесь субтитры отдают легким безумием. И действительно, если мы посмотрим более внимательно, то здесь уже наблюдается достаточно большая масса ошибок. Например, внезапно еще такой важный для снижения стоимости распознала я говорю для лицензирования. Я, вообще говоря, здесь рассказывал про разные аспекты лицензирования от речевых корпусов на русском языке я говорю что вот опан ст хороший корпус, но он с ограниченной лицензией не позволяющего коммерческого использования а вот сбердавайсь с голос позволяет. В результате система очень странно галлюцинировала она пыталась распознать то то с точки зрения языка более менее адекватно, но с достаточно серьезными ошибками объект недоступен до построения у нас не доступен для построения сбердвайся голос как голосовые связки распознала этому подобные вещи. Много ошибок, казалось бы, и в первом случае, когда люди рассказывали анекдот друг другу, и во втором случае, когда один человек выступал с рассказом для другого человека. о распознавании речи. это достаточно сложная тема распознавание речи в речи диктора много спецстрминов содержится. То есть достаточно сложная тема для распознавания. Как кажется, что и в одном случае, и в другом должно быть либо много ошибок, либо мало ошибок, но разница есть на самом деле. Я маленькую предоткрою завесу тайны. В первом случае, когда мы рассказывали анекдот, это мои студенты взяли специально нашли анекдоты и зачитывали анекдоты друг к другу для создания неких тестовых сигналов, которые нужны были для проверки всего попали спикер, сепарейшен, распознавание речи и так далее. то есть это родных спич это спич такая же как, например, вангазыч не спечь только на русском как в русской рашин либреспич есть такой дтсет не такой известный как голос или комман вос не есть тот же командойс, который краусорсингом создан. там тоже либо спич, по сути дела, и для модели либо аудио рейтинг спич речь гиктора по бумажке, условно говоря, является родной, это данные из, грубо говоря, одной и той же генеральной совокупности. А когда мы начинаем распознавать реальную живую речь, которая строится не по бумажке, модель начинает ломаться. Основная проблема, ключевая проблема такого поведения это с двух данных, то есть когда модель распознает речь примерно такую же, на которой она обучалась, а обучалась модель на открытых дотасетах, таких как ком вс голос упомянутый мной в подкасте Рашин ли Приспич это прямо откровенные аудиокниги роли Приспич. Естественно, на похожих доменах, когда человек что то надиктовывает, она будет работать хорошо, но когда происходит в данных распределение наших речевых признаков, другие модель начинает ломаться. а какие другие? Здесь он нарисовал такую картинку, что у нас есть разные распни одной какой то фичи одного признака. но на самом деле проблема сдвига данных проблема дом залежам распознавание речи она достаточно острые. источником двига данных могут быть как как акустика это шумы шумы разных типов, так, и лингвистика это другое синтаксическое построение фразы, другая лексика и тому подобные вещи. Так, я прошу прости, тут вопросы возникли. Взаимодест иностранными языками пока еще нет, не взаимодействует. Пока он работает только на русском. В планах поддержка английского. Вот какие инструменты исполь для записи речи на телефон диктовали использование студийное оборудования ни в коем случае мы не использовались единые оборудование мы пытались записать максимально реалистично то есть использовали либо телефон либо либо микрофон обычного ноутбука, чтобы условия записи были максимально реалистичны, чтобы минимизировать вот эту ситуацию с двига данных. Когда мы записистируемся на идеально чистых данных в реальности это писец будет эксплуатироваться в условиях записи в каком то диссовете дай бог, чтобы там был приличный микрофон студиных условиях речи быть не может поэтому тестировалась записывалась, тестировалась на простых акустических устройствах надеюсь. Я, ответила вкус и Так, поехали дальше. итак, проблема с данных это это боль. и я начал думать а как же можно попробовать решить проблему с двигаданных как вообще ее умные люди ученые решают В литературе проблема замечена не одним иной, это проблема насчитывает давнюю исследовательскую историю. И вот мне на глаза попалась одна из статей в прямомбуле которые исследователи авторы рассказали забавную историю это не про речь, это про компьютерное зрение компьютерное зрение датасет это типа мне сифа это подобные штуки это как дрозофилы для глубокого обучения обычно какие то новые теоретические методы обучения новые подходы к повышению рабастности тестиру на компьютерном зрении потому что с этой простые они понятны они не очень большие в то же время достаточно интересно особенно сифа простой сифар посложения. Так вот ученые решили сделать систему компьютернозрения, которая отличала коров верблюдов. Ну, что такое корова все знают, Да, коровы такое животное с рогами на четырех ногах, говорит му поется на травке, вот она у меня нарисована. А верблюд это такое животное, тоже млекопитающее, тоже на четырех ногах, но у него два горба, рогов нет, и оно города придется сквозь барханы. Итак, была подготовлена обучающая выборка. Обучили модель, получили высоко качестве начинают тестировать, дают на вход корову на пляже. Система уверена классифицирует коров на пляже это верблюд, это однозначный верблюд, потому что крова, которая на траве, а если на песке, то это верблю. Модель научилась выделять ложные корреляции между признаков описанием объекта и целевой переменной, которую необходимо прогнозировать. В данном случае целевая перемена это метка класса, у нее было много коров на травя, много вербудов на песке и модели вместо того чтобы выделить какие то инвариантные корреляции между признаками и целевой переменной и таркетом, которые описывают некие сущностные характеристики объекты, они научились система научилась выделять ложные корреляции охотятся инвариантной ложной не хочется. И вот, вообще говоря, как модель обычно обучается? Обычно, когда мы используем обучение с учителем, мы реализуем так называемую концепцию минимизации имперического риска. Это известная концепция. у нас есть какой то датасет там у нас есть некая генеральная совокупность примеров, есть ответы учителя на ней. мы берем за это генеральная свободность, некоторую выборку обучающую, размеченную, естественно. Мы же говорим о супервайзелен. и мы пытаемся минимизировать некое ожидание нашей функции правдоподобия по выборке в надежде что, будет хорошо так же хорошо на всей генеральной совокупности. Во первых, не всегда бывает хорошо проблема повар фитинг, проблема переобучения, она существует, с ней борется, она существует. Во вторых, если мы говорим о том, что у нас есть разные среды, соответственно, мы должны понимать, что у нас есть, условно говоря, разные генеральные совокупности. Такой подход точно в такой ситуации работать не будет. И вот в две тысячи девятнадцатом году вот эти ребята Мартин Ржовский тогда еще аспирант, его научный руководитель известный в мире депленнинга чувак Леон Ботл И еще с авторы Е я решил фотографии двух главных авторов привести героик надо знать лицо вот они предложили принципиально новый подход, как они считали принципиально новый подход аллаверды к минимизации имперического риска. Минимизация инвариантного риск. В чем там идея? В том, что, предположим, у нас в обучающей выборке есть не только примеры и их разметка, а у нас есть еще некоторая информация о среде, об энвайро среде. вот наша среда, вот я ее специально отвел инвариант то есть откуда были примеры, взятые, например, в случае с кормитраблюдами, это, например, мы знаем. Мы откуда то знаем, что обучающие выборки вот эти коровы это коровы на травье, а вот коровы коровы на песке вот те третьи коровы групп по коров это коровы в зоопарке. Наконец то у нас даже есть коровы в космосе, то есть из разных свет то же самое вот верблюда на пеке, верблюда на траве, траве тоже в запарке, и верблюд в космосе. То есть у нас есть, например, четыре среды обучающие выборки, и у нас есть информация в явном виде об этих следах, методанные для примера обучающей выборки. И в таком случае мы формулируем наш риск как риск по разным средам, то есть примерно то же самое, только по разным средам. И наша цель минимизировать не имперический риск, а сделать рабастную модель, которая бы минимизировала риск по любой из сред, который у нас есть здесь максимум среди по рискам среди сред. И вот этот максимум мы минимизируем. То есть здесь как раз такая робастная минимизация идет. Концептуальная идея простая дайте мне точку опоры, я сдвину землю. Как там говорил древний грек Здесь дайте мне информацию о среде и построен вариантный классификатор. Концептуально это выглядит просто, но авторы анализируют ряд подходов к решению такой инвариантной задачи и задачи построения вариант классификатора, прошу простить, и говорят, что разные подходы не подходят, если мы просто сделаем больше данных. Есть такая концепция чтобы решить проблему аутов дистрибьюшен проблема С двигадана. Давайте мы просто больше данных на Вм и в надежде на то, что мы всеми данными звучающие выборки покрыли все возможные ситуации. Новых неизвестных сред у нас нет. Но это очень наивный подход, который не работает. Новые исследования всегда будут, и на них будут об данных можно попробовать напрямую применить тот формул построить просто как валидироваться с учетом того, что у нас обучающие выборки есть разные среды и какой то арабашный варидшинулась оценивать по средам максимум по всем средам, насколько он будет минималь минизировать максимум все напрямую. но это возможно именно на этапе эволюции. Как построить функцию потерь до такого, но не совсем понятно. Можно разные подходы сделать, но авторы говорят, что самый лучший подход это подход к вариантом нез риска. Тут они немножечко ударяются в философию, как они говорят как они отвечают, что набор всех сред содержит все возможные экспериментальные условия, все возможные в духе модального реализма и возможных миров, где мы могли бы рассмотреть, например, среду инвариантов, который мы выключаем Солнце. Здесь отсылка к модальному реализма. Такая концепция философская в Сша в двадцатом веке была развита. То есть предполагается, что наш мир не единственные миры есть разные, но объекты и причина следственной связи Калзали они в разных, во всех мирах они, в общем то, устойчивый. Я сейчас в эту философию удаваться не буду, но авторы, кстати говоря, написали большую статью, где они философские аспекты проблемы рассматривают. Но речь о том, что корова под днем корова, вот ночью корова по в космосе, коа хоть на Земле корова. Важно, что у нее есть некие вариантные фичи. И мы в процессе рассуждений строили некие причинно следственные связи каузальной зависимости между тем что если четыре ноги, если рога есть короткая мощная шея, если там вымя, то это корова а остальные вещи в свет, освещенность, космос, звезды, трава это все не влияет и. Математические авторы предложили построить в следующую штуку. То есть здесь у нас есть это наша фикая некое робастное представление, робастное устойчивое к изменению среды представления и некий классификатор в этом представлении, которое реализует устойчив рабасную безлунных классификацию. Собственно, левая слагаемая, по сути дела, это стандартная минимизация имперического риска по средам, по всем возможным средам, которые у нас есть в обучающие выборки. А правая слагаемая это как раз способ построения такого вот этого представления фи, которая была бы максимально инвариантно для одних и тех же классов, но в разных средах. То есть как можно меньше изменений в этом представлении было для одного класса, но в разных следах можно больше изменений было для одной и той же среды, но для разных классов. Я сейчас опять таки в математику подробно вдаваться не буду. Я всех желающих отсылаю вот этой чудесной статье. Более того, эта статья не единственная, эта статья была первой ласточкой, которая открыла целую научную дискуссию на эту тему были публикации инвариантно вариантом называется риска Потом. последователи авторов немножко покритиковали сказали, что на самом деле вот эта вот фи это не обеспечивает инвариантность, потому что при большом числе сред у нас наступает переобучение то есть на инвариантное представление независимые от среды обрасттиться на обучающие среды и насти получается у нас в среду мало мы это все схлопывается в обычную минимизацию имперического риска. Потом другие следователи написали в двадцать втором году, по моему, статью Байся На Инвари дзейшн, где предложили добавить байсовские подходы, которые обеспечивают все таки робастность наша Фи на январиантное представление становится устойчивым. Вот там есть статьи, которые предлагают применить все это экспериментировалось на кошечках, то есть на картинках на компьютер вижен. Есть статьи, которые предлагают применить вариант рисков на специальные домены например на Элпи на языковые модели. Вот есть интересная статья Энд Январь Антонович модс статья на одной из сельских конференций там рассматривали модели трансформеров типа роберта И дилберт Как можно внести вариантность на этапе про трейнинга для Задачи Мандич Модал Вот но тем не менее общая концепция вот такая. ну еще минутка программирования. То есть что у нас тут реализуется в качестве инвариантности, если на по точен по сути дела, у нас есть некие некарная сеточка, ну, например многослойный персептронная элпи, который решает какую то задачу как задачу капитонного зрения. есть у нас некая икс это у нас информация о признаках трейн энф это у нас информация о средах, есть некие мбэдинги среды мы следующим образом преобразуем представление распление вероятности, точнее, распление логитов, которая вощает пертро. Например, десять. если у нас десять классов классификаций нанести, я считаю негатив, лук и крихт, да? А рассчитываем вот это вот пеналти, вот наша, вот эта вот слагаемая, которая справа, штраф за неинвариантность нашего инвариантного представления и соответствует. То есть вот эта вот левая часть ее не привел, это просто краснотерпийная функция потерь. то есть, точнее, я ее привел, вот она трейнмен негативой квакли, правая часть тнпнел потом мы определенным образом суммируем с неким гипер параметрам лянда, которые тоже нужно подобрать нуля плюс бесконечности на самом деле может изменяться. вот плюс еще мы накладываем штраф за сложность весов. то есть это тоже один из важных компонентов. здесь не показан в нежных компонентов реализации программ реализации но и автор я уже сказал, тестировали на компьютерном зрении на минист минист приказансет он может казаться с одинмножко устаревший, потому что на нем на обычном маниште уже пробивают девяносто девять процентов практически любые нейронной сети. Но авторы сделали хит трюк они взяли непростой манист они взяли так называемый колор министр раскрашенный. То есть они взяли попытались обмануть бедную нейронную сеть в обучающей выборки. У нас единички были одного цвета, а нолики были другого света. То есть это необычно. Еще на белом цветной амист моделька, точно так же, как корова на траве, верблюд на песке. Да здесь все единички одного цвета, норки другого цвета, а на тесте внезапно поменяли цвета. Вот тот цвет, который был нолика на трейне, оказался у ежев всех на тесте, а тот свет, который был у нолика, голубенький у единички на трне оказался нолика на тест и решили проверить насколько инвайн ирн и рэпер незарешен классический способ обучения а. январин не классический вариантный способ обучения. Так вот если мы обычные многословные перси трон обучаем на просто минимизировать негатив флок лайкер клд на задаче фальсификации, то получается на трейне весьма круто восемьдесят шесть процентов опять таки не смотрите на эти цифры я знаю, что на самом деле девяносто девять процентов вот круто нам нести но тем это просто модельный пример будет автор восемьдесят шесть процентов. Но при этом когда мы меняем свет моделька выучила что свет от фичер, а это ложная корреляция на самом деле фичи являются геометрические контуры цифры мы деградируем леко меньше пятнадцати процентов точно с места выборки в том же в то же время когда мы используем января снизейшн, мы не достигаем таких впечатляющих результатов. На трейне у нас точность поменьше, но на тесте у нас получается просто пропустить, просто супер, просто супер. У нас сейчас один момент технический. Так, качество качество шестьдесят шесть процентов просто плашка зума мешала я ее убрал чтобы вы танечку и так все отлично в компьютерном зрении по крайней мере концепции минимизация на риска работает, если мы пытаемся обмануть модельку сказал что свет от фича минимизация январята в рисках позволяет эту ложную корреляцию между классом цифры и цветом игнорировать обычное нервно сеть обучаемые, обычным образом к этому к этому не способна она выделяет ложный крест не вариант. Но что касается распознавания речи что у нас, что такое распознавание речи, какая природа входного объекта там, естественно, понятно растровая матрица яркости пикселей. Соответственно, если у нас свет есть, то это три разные акции что у речи есть и какие модели там применяется, и, что самое главное, является средой. Так вопрос возник. Раскраска цифры припирает, отличается статная аргументация датасетта. Ну да, отличается. Стандартаться датасетта это всякие сдвиги, повороты, зашумление. Здесь у нас принципиально другой процесс. То есть мы цифры раскрашивают, причем в один и тот же цвет мы раскрашиваем единички в голубой, например, в другой цвет один и тот же, в бордовой мы раскрашиваем нолики. Никаких аументаций дополнительных мы не накладываем. Когда мы стандартно ауацию делаем, мы из одинаковых распределения шумов семплируем шуммы для аменации и для одного класса, и для другого класса. А здесь мы поступаем по хитрам здесь мы для одного класса один, подскажи, не делают. то есть один цвет добавляю для другого класса другой цвет то есть это нестандартная аргументация вот надеюсь что, я ответил на вопрос так. Вот мы обманываем бедную не рассееточку. Ну давайте поговорим о речи что кочевой сигнал когда мы говорим о распознавании речи то ли сигнал он посложнее будет, чем сигнал компьютерного зрения. Чем расстроена матрица? У нас есть некая силограмма сигнала. Обычно, когда мы говорим о сигналах, мы используем разложение в ряд фурье, например. быстрое прозвание фурье это дело быстрее, но это возможно только для периодических сигнала. Сигнал очевидно, не периодически мы видим реальный сигнал из дота смит ангазичного. Но если мы возьмем наш сигнал, нарежем на маленькие кусочки, например, по двадцать пять мили секунд по двадцать двадцать пять мили секунд, как здесь нарисовано, то если мы присмотримся, то в этом каждом таком кусочке мы можем считать сигнальчик почти периодически применять к нему быстро приблизание фурье получать спект сигнала на каждом кусочке слева сверху сигнал справа снизу его спектр но и ответственным образом такие кусочки идут в доле сигнала. В каждом кусочке спектра получается такая чудесная красивая спектрограмма здесь уже спекрама для сигнала датасет. Голос, сдавайся. Голос поставь на Тв Канал Европа плюс Тв. Мы видим, что здесь по оси, и это время по оси игрек частоты о яркости. свет здесь показывает амплитуду сигнала в какой то мин времени на какой то часто те чем краснее, чем высшая энергия сигнала, чем синее, тем ниже энергия сигналам. Притуный спектр у нас такой получается, ну, можно спекты мощности считать, мы от фазовой части избавляемся и получается такой аспекта и определяющая особенностью речи является то как распление энергии по частотам сигнала меня и сходом времени еще один вопрос вариант среди можно пояснить то просто случае. Например, мы имеем зависимость Игорек икс плюс распределение с параметрами ноль, один, которого мы заранее не знаем. Нам найти две стрельбы в первый икс одна доса трой от единицы до двух мы обучаем модель в виде аксфакс считаются вариантами к среде какие? Нет. Если у нас, предположим, на обучающей выборке была икс от нуля до единицы и мы обучили модель минимизировала, допустим, масье менск аэрор модель получила точный а потом поем на вход в тестовой выборке икс отъединиться до двух. Если мы предполагаем, что у нас функция периодическая, то есть от единства до двух у нас должна быть та же, у нас должен быть такой же игорь, как от нуля до единицы, то предполагается, что да, наша модель стала вано если она адекватный и прогнозирует либо не периодическая, например, там есть определенный тренд, например параболический тренд. Модель нашла что это арабола на основе обучающей выборки где икс у нас множество обучающие выборка была изя позорна один и дальше она построила адекватную модель, которая распространяется и на их единица до двух, и даже на их от двух до трех. А если модель, допустим, решила, что это линейная зависимость не праболическая, и то она не оказалась на вариантной. Я думаю, что можно еще лучший пример привести. Допустим, у нас есть какая то среда, в которой мы наблюдаем сенусит, допустим, игорь кравняется, допустим, синус икс мы обучили модель но у нас есть другая среда где тоже есть периодическая зависимость и грека текса, но при этом у нас идк равен два сидосакс такая среда она это повлияла. И вот если мы сделаем модель, которая бы смогла адекватно прогнозировать синусоидальную зависимость игорь Сикс независимо от того игорь кронос с игорь синус ск и три сину стык, то такая модель может являться инвариантной. То есть вот я бы так пояснил ответ на этот вопрос есть какие то ложные корреляции например, какой то параметр определяет параметр с на сальной зависимости которая определяет претуду, а есть инвариантные корреляции, что у нас в принципе есть периодическая зависимость похожая на синус с некоторым шумом который вызван на колеаторной неопределенности. Да, вот, соответственно, вот в этом суть вариантности. То есть мы пытаемся найти промодировать, что эта синусоида в любой ситуации синус это независимо от того какая там сейчас там прилетуда. И по крайней мере, я для себя вариантность определяю именно так. Надеюсь, и на этот вопрос ответил. Ну, вернемся к нашим баранам, в смысле к нашим решим сигналом, что такой вариантность применительно к картинкам. Мы попробовали разобраться. Мы должны какие то геометрические контры выделять низов, а цвет на это не обращать внимание. Что такое вероятность, в общем случае, мы тоже вроде как немножко обсудили, а что такое инвариант исполнитель кречи.
SPEAKER_01 [1993.2]: У вас. У нас есть еще один вопрос. Вижу, увидел.
SPEAKER_00 [1996.28]: Что такое? Почему не двадцать пять мили секунд? Ой, это древняя история, еще с восемьдесятых годов идет, все так делают. Двадцать двадцать пять миль секунд это кусочек сигнала, на котором можно увидеть какие то проявления австране мы. С одной стороны, он достаточно длинный для того, чтобы можно было построить адекватный спектр с нормальной разрешающей способностью по частоте. С другой стороны, он достаточно короткий для того, чтобы короткие фанеры типа всякие взрывных согласных и так далее себя проявились. Если мы возьмем длинный отрезок сто мили секунд двести милли секунд, то на нем будут хорошо видны только вокализованные согласные, а особенно ударные гласные. если Мы возьмем сильно короткий фрагмент, то на нем ничего не будет видно а за секунд это имперические подобранные участие которые соответствуют более менее с самым коротким фаом обычно делают так были попытки подобрать оптимальный интервал причем дин динический оптимальный торвал зависимости от тех критерия вот здесь несут автопросов предложил сумму квадратов наблюдений, пока не произойдет некоторые заданные фиктивный порог а люди предлагали смотреть на частоту основного тона и на период основного тона и длинного окна кратно период основного тона. То есть для высоких голосов у нас получается маленький период и маленькое окно, а для голосов низкочастой большой период и большие окна. Но это оказалось вычистить накладно и на самом деле ничего толкового не давала, никакого особого просто не давала. Поэтому все сейчас восемьдесятых годов, как я уже сказал повелось это двадцать или двадцать пять мили секунд, при этом шаг окна идет десять миллисекунд. Сейчас в последних подходах, когда у нас энн нейроносит десять двадцать секунд, то есть некоторое перекрытие наблюдается пятнадцать пять пятнадцать секунд то есть они не краями соприкасаются с перекрытием элит Я Ответил надеюсь, на вопрос поехали? Дальше и. Так вот у нас так хочу спрограмма как во первых, как мы ее распознаем, какими методами можем мы распознавать? во вторых, что здесь может являться средой, как здесь может обмануться нейронная сеть? Я сразу пропускаю весь исторический пласт исследования по распознавании речи. и у нас классические подходы к нейрона к распознавании речи были сразу Перехожу к современным нтун подходам на базе глубоких нейронных сетей это прежде всего в ту век но сейчас уже есть и всякие такие навороченные штуки типа кто всех трансформеров для речь, там висперы прочие вещи, но я предпочитаю более простые и надежные трансформер кодеры и вы в ту век такой классический пример трансфером кодера, точнее смешанная модель у нас есть килограмма сигнала здесь вот этого спектограмма не считается вместо непосредственно на расчет спик смочь быстрого приблизания фурье а это посудило свертка сигнала синусоидами. Здесь используются обучаемые свертки, а сверху накидывается трансформер кодер с многоголочным внимания. Ну вот обычаем и свертки наши, я на них подробно останавливаться не буду. По сути дела, обучаемая свертка может быть эквивалентно с точки зрения представления спектральному преобразованию, получение спектрамов спектограмма это человек и читаемая штука а вот я пробовал визуализировать выходы из этой сверточной части во века здесь ничего не читаемо. На самом деле модели это даже лучше такое способ представление даже более интерпретирую модель машинного обучения, чем спектрограмма, потому что здесь свертки обычаяные. Вот эта часть. эта часть обучается вместе со всей моделью в целом. Так и про рейтинга сами представления квантизуется. Я поясню почему. Антизованные представления нужны для того, чтобы потом вот эта вот трансформерная часть предучалась построению неких контекстных речевых представлений, контекстных, таких, которые могут реализовывать ассоциативную память, то есть восстанавливать пропуски ошибки в данных по контексту. Но это стандартная задача масла. Если кто у нас тут есть любитель бортов и всяких других пишных штук, то вы помните мы пропускаем какое то слово или несколько слов в тексте и учим мы дали ее восстановить. И здесь мы пропускаем какой то фрагмент в дискредитизованном представлении и учим модель его восстанавливать. Соответственно, вот наша функция потерь для восстановление категоризированного представления замаскирована рычевого фрагмента. Но при этом, поскольку вот эта часть обучаемая, то нам нужно, чтобы представления были максимально разнообразными, чтобы они не схлопывались в какую то одну, две три категории, что максимально все категории были задействованы примерно две группы по триста категорий, потому что с некими квази фаелами дополнительная функция потерь накладывается контрастивный лос сопоставительная функция потерь на то чтобы вот эти квазифа некуда в книге максимально были разнообразны. и таким образом модель предущается модель предобущается сразу муж на большом время данных. В частности, в век иксср языка независимая модель предобучалась примерно на пятидесяти тысяч часов речи на разных языках, записанные в разных условиях. Это ребята из Фейсбука постарались молодцы. Вф век для английской речи тоже обучалась на большом объеме английской речи разнообразной. и потом нам остается только дообучить эту модель по сети село сети силос фактических формах но вы вификации форма кроснотропийная функции потерь для классов классификации того что у нас сложный объект для распознавания если когда мы распознаем картинки у нас просто картинка это статический объект некоторый фиксированного размера для каждой картинки у нас один из н класса то здесь речь динический объект по времени он меняется и у нас речь одной длинной она нужна это все слопнуть в цепочку букв цепочку бук в другой длинный короче, как правило, чем цепочка спектров, цепочка от этих представлений с кодовой книги с выходом с фердош. И здесь, по сути дела, мы используем смесь категориальная просто интропии и динамического программирования для того чтобы максимизировать функции протоподобия, ну максимизирует продоподобие по всем возможным гипотезам все возможные гипотезы декодирование Проверять это накладно, это просто нереально поэтому использовать и программирования для того чтобы эффективно найти вычислить все возможные пути декодирования ты опять таки подробно рассказы станавливаться я не буду, у меня здесь внизу есть ссылкой для тех, кто хочет немножко погрузиться в подробности сети силоса чудесный пример даже сами машками есть. В общем, как я уже сказала, концептуально нужно понимать, что это посудило также к антропийная функция потерь которая призвана минимизировать кронтропию либо Минимизировать огф максимизировать грецию продоподобия, что одно и то же. Митимизация функции наподобие минимизация хронотропии это то же самое по всем возможным гипотим декодировании чтобы эффективно вычислительно пройтись по всем возможным кадром использовать динамическое программирование но и так обучили модель считаем качество если в случае компьютерного зрения качество считать очень просто это может быть юроссии точность, но банальный процент правильно угаданных картинок либо, если у нас тест не, сбалансированный а мы более продвинутые досанцист можно использовать афонин. Скоро то опять таки речь сложный объект, здесь нужно использовать специальные меры качества Существенно того что талонная фраза и распознанная фраза могут быть не одинаковые длины состоит из не одинаковое количества слов в числители здесь у нас используется сумма ставокза и удалений минимальная сумма став замена удаление необходимое для того, чтобы привести талонную цепочку распознанной, как в том анекдоте, что слово пиво это слово хлеб написано с ошибками как здесь счислители считают ошибки экономным образом с помощью динического программирования а именно рассмешным знаменатель число оттокинов слов или букв или черт фаем в талоны фраз. Так вопрос презентацию можно будет получить? Да, конечно, можно будет получить презентацию, безусловно. Более того, я помимо презентации выложил еще дополнительные материалы, которые у меня в презентации нету там ссылки на открытый код и на открытые модельки, о которых я сейчас буду говорить вот. ну.
SPEAKER_01 [2538.56]: Все можно будет получить, Иван добавлю что, мы видео презентацию которую иван реаст нам и дополнительные материалы опубликуем и у себя на сайте и в канале вабинаров по нейронным сетям вот, ну и возможно, где то еще. Так что когда это все появится, мы сделаем почтовую и рассылка о том, что это появилось.
SPEAKER_00 [2573.4]: Спасибо, Николай. Спасибо. Ну, в общем, вроде бы мы разобрались, как строить модель распознавания речи И чем принципиально построение модели распознавания речи отличается от модели распознавания изображений? Динамичностью принципиально отличается. Ну и сейчас трансформеры является более эффктивным механизмом для построения таких моделей. Плюс еще есть в компьютерном зрении и мажет модельщик потения номон использует то здесь в распознавании речи используется село Сувозить Ленинг на неразмеченных вещевых корпусах, которые искусственным образом зашумляется, То есть там пропуски данных моделируются, и модели учатся их восстанавливать, при этом сохраняя максимальное разнообразие спич поземлейших представлений. Потом мы обучаем уже эту модель на небольшое размеченное обучающие выборки. Казалось бы, в такой постановке проблем не должно быть, поскольку модель обучается неоднократно а сначала притреница на большом датасете, а потом фатнице до обучается на маленьком размечен до сети. Кажется, что разнообразие всех возможных условий разнообразия всех возможных примеров речевых семпл из разных светов должно обеспечиваться на этапе про трейнинга есть такое мнение и тогда когда мы фантюни модель обучаем я прошу простить замен про трейне фантюник трейне предварительное обучение фнин тонкая настройка или до обучения модели на нужном нам дота на садом датасете так Вот про трейнинг у нас на очень разнообразных данных реализуется на большом объеме. Пантюнин на маленьком объеме целевых данных. Кажется, что среда не должна представлять собой проблему, однако оставляет, что может быть средой распознавание речи в компьютерном зрении, сд может быть, например, цвет. А что здесь Очевидно, что вы все сталкивались, когда вы общаетесь друг с другом, когда вы стоите рядом и разговариваете, вы прекрасно друг друга понимаете. а когда вы звоните друг другу по телефону, особенно если кто то из собеседников идет по улице, дует сильный ветер или где нибудь вагоне электрички шум, то вы своего собеседника, который в таких жестких условиях находятся, вы его, наверное, плохо слышите. Акустическая среда это один из источников сдвигадам, это один из возможных типов энвайро. То есть, во первых, уровень шума. Уровень шума это соотношение сигнал шум выражена в дице белых, то есть это логарифма отношение энергии полезного сигнала речи энергии шума умноженная лагорив по основанию десять на десять это традиционно считается в децибелах уровень семна шула когда у нас там пятнадцать дел двадцать пятьдесят десношение сигнал шум это очень классный сигнал чем высшие отношения сигнал шум, тем лучше, то есть тем больше энергия сигнала носитель энергия шума. и это очень хорошая запись. Если у нас, например, нольде то есть значит, что уровень полезного сигнала такой же уровень шума это очень грязный сигнал это один источник другой источник лингвистическая всегда может быть инваринглистиканвари, то есть лексика и сиксис высказываний. Что здесь имеется в виду? Одно дело, когда мы, вот как я в самом начале. Возвращаясь к самому первому примеру. Когда я привел, как работает писец, привел работу, что в одном случае он распознал хорошо, в другом плохо. Распыл хорошо, когда человек, когда человек аккуратно зачитывал, предложил ему текст а плохо он распознал и начала спонтанна и для письменного текста, и как соответственно для родиных спичка человек защиту письменный текст характерны более сложные синтаксические конструкции, характерно более плавная аккуратная речь для спонтанного высказывание характер какие то оговорки, характерное нарушение синдекса с характерно некоторая аграматичность. То есть когда мы можем в стиле мастераоды говорит, допустим, речь распознавания работает правильно, то в таком духе то есть слова путаются и для русского языка это еще более характерно чем для для языков типа английского с более строгим синтексисом это тоже может эффектить. Качество распознавания речи тоже может быть сдвигом данных. То есть, с одной стороны, это рейтинг спич, с другой стороны, это спонтанная речь на уровне втового общения, с третьей стороны, это могут быть какие то парламентские выступления с определенным типом лексики и на грани спонтанности и бумажки. люди заранее отрабатывают выступление, но тем не менее говорят транспонтанно. Это могут быть какие то команды, голосовые команды кудвайсом это еще один тип лингвистической среды. и это все необходимо как то моделировать. Давайте попробуем разобраться, как мы это можем уделлировать. С акустической средой, сакустической средой все может быть чуть проще. Если у нас есть речевые корпуса, то мы можем взять искусственным образом накладывать разные типы шумов, например, микшировать полезный сигнал и сигнал шума с разным уровнем сигнал шум. Таким образом мы моделируем разную акустическую среду. Лингвистическая всегда все сложнее. Теоретически. Теоретически можно представить эксперимент на полностью синтетических данных, где мы с помощью определенного генератора генерируем высказывание из одной среды, из другой и третий, а потом с помощью синтеза речи озвучил эти высказывания. Таким образом мы можем достичь как то промоделировать изменение лингвистической среды но это достаточно сложно, накладно, интересно с одной стороны с, другой стороны это, сложно и, не факт что, син синтез речи не будет еще дополнительным сдвигам. да, потому что синтезированная речь, реальная речь, все таки они разные по своим характеристикам. Здесь уже акустическая среда играет роль. поэтому разные типы лингвистических с можно промоделировать разными до пасетами. счастью для русского языка есть ряд собранных корпусов, среди которых стоит отметить, например, до, Голос Домен крау И фарфилд. Здесь голос это до это сбердевайзис, в котором моделируется взаимодействия пользователя и умных устройств сбера всяких салют, афина и так далее. Крауфрофилд это скорее про акустику, не про лингвистику. То есть крауд это высокое качество сигнала с высоким уровнем громкости, записанные сигналы непосредственно у микрофона а фарфил домен это запись на микрофоны умного дывайса с разного расстояния три метра, пять метров, семь метров и так далее но но высказывание примерно похожее салют сколько тенге будет в ста российских рублях Или Афина поставь меня Европа плюс твитом или там подобные штуки. То есть вот такого рода фразы это один домен можно считать одной средой комман Воис ру это тоже краусорсинговый датасет, но в котором лексика другая. Там много записей как бы парламентских заседаний типа позвольте поговорить представитель Австралии за ее заявлением такого фразки дипломатические свар убиваясь это спонтанная речь которую, компания на на семантики целое семей сау по сделал рудава С Руди Букс Ру тупы и трудывась с интересным тем, что там, с одной стороны, достаточно низкокачественная запись то есть а что хорошо в акустическом смысле модерируется невысокое качество записи это интересно, полезно. С другой стороны, там не очень хорошее качество разметки и спонтанная речь. То есть люди говорили как бог надо же положить при этом с матами, собственной лексикой, с аграматичностью. То есть это максимально су, максимально приближена к реальной разговорной речи. Тем и ценен этот дтсет раньше не приспичит то максимально ридных спич максимально спич и воксфордширу это еще один видных спич это по исторический первый нормальный открытый датасет для русской речи, которая в свое время Николай Шурем собирался по принципу коросорсинга тоже там фрагменты из аэлиты Алексея Толстого, надиктованные разными добровольцами, но это тоже можно считать специфической средой. Итак, давайте попробуем посмотреть на результат экспериментов. Я здесь привожу два результата экспериментов Империигрыз и Наваринзейшей. Для экспериментов я взял не самую лучшую модель распознавания речи я взял не в ту век ссср Не веве кладч я взял небольшую в век бэйс, которая весит примерно триста мегават, и она была изначально предопущена для английской речи, и я ее тюнил уже на русской речи. Обратите внимание на постановку эксперимента. Это было сделано сознательно. Это не баг, это фича для того, чтобы ускорить проведение экспериментов и попробовать понять. Попробуй исключить влияние трейнинга на распознавание. То есть если бы я маллингвал в тувек использовал, то велика вероятность того, что туда бы протекли какие то русские датасеты. и вполне возможно, что какие то высказывания как то кустическую, лингвистическую, свистической следов истические следы попали бы для потения. Я хотела максимальная лабораторно чистая эксперимент провести поэтому во век у меня английский был и весьма мал и триста мегабайт я с него стартовал и вот этот вот фантюнинг сталбес и империи Фантюнин по классическому подходу мы просто сидеть и силос используем мы ни о чем не думаем января пресим женщины мы специальным образом модифицируем функцию потери, где у нас добавляется слагаемая свечающая за вариантность нашего промежуточного представления. Фильм как вопрос возник.
SPEAKER_01 [3213.52]: Да? Тут вопрос у Олега Седухина.
SPEAKER_00 [3216.68]: Вот вопрос отличный вопрос, я специально ответ на него светом подсветил. Зелененькие строки это датасетты, которые участвовали в экспериментах по обучению. а так еще вопрос есть Сла. Давайте отвечу на один вопрос. зеленые строки это дтс, которые были в обучении, то есть это комон висру это голос и раша не приспичи. Естественно, я тестировался на тестовый выбор, обучался на обучающий. То есть понятное дело, что здесь оценки не на обучение, но тем не менее зеленые были в строение, а желтые это вообще новые данные, которые в троне не было. Это в принципе другая среда. И здесь результаты немножечко как бы противоречила, насколько хорошо произошла адаптация, а насколько хорошо модель оказалась нано в смысле лингистической среды в целом кажется, что модель по ирм инварианты сменязейши показывает себя хорошо на всех датасетах на тестовых частях сетов. при этом особенно хорошо, особенно большой прирост качество наблюдается на воксфорджру, то есть на сайте который в принципе отсутствие обучающей выборки не трен части его не было никаких частей а так жена форфил домени на плохом качестве когда у нас уровень сигнала слишком низкий выдерж заметил но есть обескураживающая строка для Сварудывайся. Результаты января Андрийской Мизей и Империи Мезени примерно одинаковые может быть чуточку чуточку лучшая империя кловисзейшей, но при этом ошибки достаточно большие и там, и там порядка сорока процентов верт рейд. С чем это может быть связано? Это может быть связано с тем, что на самом деле сдавайс хорошего во всех отношениях, кроме разметки, разметка там была сделана весьма приблизительная, не по принципу диктата, а по принципу изложения, то есть приблизительно что сказано. И часто во многих ситуациях результаты разметки реальная анотация Трунатейшнс отличали от того, что на самом деле было сказано то есть там всякие оговорки междути убирались а, это сильно влияет на опустить составляющую процесса распознавания. соответственно. одинаково плах плох себя показали обе модели и января и империи зашили потому что сами данные оказались шумкой по крайней мере я это объясняю так и анализ ошибок, который я провел. посмотрел примеры из Дотс эта свара убивайся, к сожалению, их в презентации не привел, но я хочу их прикрепить к дополнительным материалы на которых Николай говорил что нибудь разосланы. Там весьма любопытная картина. Там действительно наибольший уровень ошибок связан в ситуации, когда модель распознала вроде бы правильно, но ей засчитали ошибку из за того, что анотация недословная, а приблизительная. То есть могу себя успокоить и вас тоже успокоить, что все таки инвай Антарис немизейшен работает. Так вопрос возник. На вопрос Олега я уже ответил. а тут вопрос еще дополнительный был результаты не на комических датасетах на реальных например, телефон, кажется, вы в туве будет поло работать даже после фантюнинга если фантюн на малом датасете моя коллега прокомментировала что, на фантин на телефоне оказался весьма хороша на телефоне На самом деле на самом деле проблема была не в телефоне. Мы фантюнили на реальных записях колцентра автодилеров. то есть люди обраща ходили на сайт автодилера оставляли заявку и специалисты кол центра перезванивали этим людям а потом беседовали вы там интересовались какой нибудь чанган там что то покрето лада веста и там подобные вещи. Там основная проблема была специфическая специфических терминах, автомобильных терминах это название марок автомобилей, это всякие штуки, связанные с адресами геодомна, там подобные вещи. В принципе действительно тюнинг на десяти примерно десяти часах такой модели позволил получить более рабастную штуку. При более рабастную уреня ошибок снизился примерно с семидесяти процентов гтура рейд до двадцати пяти двадцати девяти процентов гартура рейда. Кроме того, помимо телефонии мы также сейчас проводим эксперименты для домена голосовых команд в условиях сильных шумов там тоже инвариант рискнемзейши работает там мы, правда, чуть более сложный эксперименты делали мы не в век использовали непосредственно мы дилировали большую модель В В тубек маленькой моделью на базе маленькая нейронной сети типа Конформ. И в такой ситуации тоже и рэм в сравнении с обычным империи с немзейшиным дал существенный прирост, правда я не могу сказать что это прямо реально серебряная пуля была использованию самой функции потерь в рамках парадигмашин обеспечивало лучшее качество. Но важно было, что в обучающей выборке присутствовала та все таки среда, которая потом предполагалась на этапе эксплуатации. среда в смысле лингвистическом. То есть важный момент в лимуристическом смысле, потому что если мы говорим о кустическом смысле, то январи Андрис немизейшен обеспечивает весьма эффективную адаптацию под изменениякустической среды. Здесь проводились эксперименты с синтетическими данными, то есть мы взяли аугментатор. Мой коллега Данила разработал специальный комментатора, который способен аугментировать зашл микшировать полезность сигнал с разными типами шумов. Пять типов шумов это речь, подобные шумы, то есть фонова речь это музыкальные шум, фоновая музыка это шумы домашних животных мяу, мяу, гавгав, кукареку и тому подобные вещи, это ревербационные шумы, связанные с опушкой помещения сложной формы. И наконец, это бытовые шумы, что дверь, работа кондиционера, работа стиральной машинки и так далее. Пришлось повозиться для того чтобы собрать талонные образцы таких шумов. Мы базиры основывались на ряде открытых сетов типов и саудиотегингсет две тысячи девятнадцатого года ряд других датасетов. некоторые вещи сами записывали, но в целом получилось достаточно интересный аргументатор. И вот когда мы с этим помощью этого аргумента можем аргументировать сигналы с разным уровнем сигнал шум ноль, пять, десять, если, ноль то человек может что то услышать особенно если де белл для шумов домашних животных или для музыкальных шумов речь на уровне такого шума различается даже если уровень шума сопоставим с уровнем речи если там речи подобный шум то, конечно же с уровнем нобел аша получается но уже пятница бел человек слух различает, при этом модель, обученная на аументированных данных, которые были в трейне, все равно теряет, теряет в качестве распознавания на тесте. причем тем сильнее ошибка возникает, сильнее уровень шума, то есть чем ниже соотношение сигнал шум. я. когда занимал значил и заниматься исследованием в области января мезейшен, мне некоторые коллеги говорили а зачем ты это делаешь? Ведь на самом деле давайте мы просто больше данных в обучающую рыбку зальем. Если нам нужно определен тип шов, давайте мы поместим обучающий выбор обучим стандартом вампиров на риск немзейшей и будет профит. Я говорил нет, у нас есть опять вопрос так, у нас сразу два вопроса есть Вопрос да, судя по таблице и рм да просто на индам данна. Тогда, может быть, взять эти группы разделить каждую еще на пять группы комната свойства, например пощего, может быть, еще сильнее улучшить метрику? Это хорошая мысль действительно, но, к сожалению у, меня не было информацией с почти во всех дота сетах там полно только в комисе была информация о поле говорящего втсетах. Такой информации не было в наших костных доносах, которые мы делаем для распознавания велосовых команд для заказчика мы эту информацию учитываем, что есть такое предположение, что полговорящего как среда всегда связано с особенностями. именно говорение это прежде всего влияет на основного тона, с одной стороны. То есть женские голоса более высокий, у них чисто снотона более высокая и тем причи тоже может быть индивидуален у женщин и у мужчины может в определенной степени отличаться. И больше всего, конечно, отличается шанатона. он может тоже повлиять. Да, безусловно, это можно. Мы подобного рода эксперименты не проводили, мы проводили другие эксперименты, мы пробовали. И опять таки мы больше не про акустику здесь, а про лингвистику. Мы пробовали рассматривать в качестве среды тему высказывания. То есть мы брали лабсе лэндвич агностик бр сэнсом бедин с их помощью генерировали мбэдинг виктора для аннотаций потом мы их кастризова либо с помощью дбска например, чтобы, выделить какие то основные не на многообразия в данных, либо с помощью обычного Кэминс для того чтобы просто более менее равномерную постаризацию сделать, и рассматривали вот эти вот метки кластеров как некие темы и темы высказывания могли быть средой такой подход действительно помогал. Я сейчас эти эксперименты пока опубликовать не готов, это будет позже готово, потому что эксперименты продолжается, но предварительно результаты показывают, что да, если мы дополнительно рассматриваем тему высказывания как инвайн, как среду, это может помочь. В тех экспериментах, которые я здесь показываю, я считал обобщенно, что каждый дотсет на свою тему каждый су с индивидуальными своими собственными лексиконическими характеристиками. Но если у нас такого нету если у нас большой датасет или мы наоборот, хотим в каждом из за более дробно выделялись среды то, да так можно на счет рм группам полученным рангом с притом типа стадии. это прекрасное замечание. мы этого не делали, но это замечание согласен его нужно его по хорошему имеет смысл реализовать как дополнительно бэшин стать. то есть да, действительно, влияет ли осмысленное выделение среды среда как торпус, среда как тема на устойчивость, на результаты модели по с тем как если мы среду будем убирать случайным образом, это хороший экспериментом стоит провести.
SPEAKER_01 [3918.08]: И у меня тоже есть вопрос. Вопрос такой. У вас в системе распознавания речь есть языковая модель как отдельная сущность и присутствует? И если есть, то как оно с этим см соотносится?
SPEAKER_00 [3934.84]: Вот здесь вот эти результаты, что в этой таблички, что, простите, заканчивается? Что предыдущие таблички это результаты получены принципиально без языковых моделей, то здесь мы показывали результаты. В нашей модели, безусловно, есть, во первых, трехграмная элмка для русского языка. Во вторых, если мы говорим о песе, который я там демонстрировал в самом начале, там еще дополнительный корректор, обучаемый корректор ошибок на базе пять сектор сектор трансформер типа индикодер, который изначально обучался для разных задач, связанных с днм текста с машинным переводом этому подобные вещи с профразом а мы его приспособили для преобразования гипотезы о высказывании распознанная система распознан речи с ошибками в эталонную гипотезу без ошибок то. Есть там двух уровневая языковая модель обычная инграммная статистическая пса обучаемый корректор ошибок на базе трансформеры. Но эти эксперименты, которые здесь представлены, опять таки я старался моя цель была максимальная чистые эксперименты провести без влияния дополнительных моделей то здесь не представлено именно без языковых морей. А так то у нас да, безусловно, если мода используется.
SPEAKER_01 [4011.04]: Как продолжение вопроса а как протащить идею с Инв ин Взши до языковых моделей?
SPEAKER_00 [4027.8]: Хороший вопрос. Здесь я не задумывался на эту тему. Если мы говорим о энграммных языковых моделях. Я задумался. я задумался на эту тему. Если мы говорим об обучаем корректор ошибок у нас один из ключевых элементов того же писа или там диалогера является обучаемых электора ошибок пять это сек усек трансформер. Здесь такая модель, с одной стороны, является мощной, и она действительно может корректировать ошибки типа фонетических ошибок корова там когда там через пол а записано какие то ошибки, связанные с лишним проделами наоборот, что обычно в криче модель все схлопнула без пробела в один текст. Коп может такие вещи корректировать, но он, во первых может галиционировать потому что всех всех расформ, во вторых, для него тоже есть проблема с двигаданных. но здесь проблема с двигадана останется по другому. Здесь, скорее нужно рассматривать две среды среда, когда акустическая модель распознала хорошо и корректировать не нужно ничего либо корректировать нужно мало и среда инвариант когда кустическая модель распознала плохо то, здесь мы планируем сейчас эксперимент для до обучения языковой модели на стероидах типа ты пять обучаемых корректор ошибок. Ситуация у нас есть две среды, когда ему нужно мало исправлять, когда им нужно многое исправлять. Кроме того, в литературе опять таки для языковых моделей, для языковых моделей как классических статистических, так и для модели типа трансформер кодеры и в целом трансформированной модели рассматривается длина текста как среда, как источник свига данных, то есть модель, протрненная на коротких текстах, она будет более склонна во всем видеть короткие тексты, с длинные тексты идет тоже быть источник света. То есть тоже может быть проблемой? Может быть проблемой и это как раз мы сейчас готовим серию экспериментов, которые позволяют проверить, насколько январи неистов хороша для языковых моделей, причем как для классических трансформер геров, так и для сект у всех моделей применительно к распознаванию речи и без отст на распознавания речи когда у нас длина текста или других от текста являются январина средой вот как то там какие у меня обычны кем.

The post Научно-технический вебинар «Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2» first appeared on Компания НТР.

Научно-технический вебинар «Глубокое обучение для моделирования и реконструкции 3D форм»

Модератор Модераторов — Thu, 24 Aug 2023 05:50:31 +0000

Спикер о вебинаре:
В докладе я расскажу об одной из важнейших для компьютерного зрения задач – моделирование и реконструкция 3D объектов. Действительно, современные приложения в области компьютерной графики и анимации, построения сцен для виртуальной и дополненной реальности и робототехники были бы невозможными без точных алгоритмов анализа и моделирования трехмерных изображений, учитывающих геометрию сцены. Вы узнаете об основных этапах, которые необходимо пройти при реконструкции 3D объектов, и о том, какие методы на этих этапах можно использовать, а также о том, какие данные для этого требуются и каким образом их можно собирать.

Дополнительные материалы:
— Oleg Voynov, Gleb Bobrovskikh, Pavel Karpyshev, Saveliy Galochkin, Andrei-Timotei Ardelean, Arseniy Bozhenko, Ekaterina Karmanova, Pavel Kopanev, Yaroslav Labutin-Rymsho, Ruslan Rakhimov, Aleksandr Safin, Valerii Serpiva, Alexey Artemov, Evgeny Burnaev, Dzmitry Tsetserukou, Denis Zorin. Multi-sensor large-scale dataset for multi-view 3D reconstruction. CVPR, 2023. https://arxiv.org/abs/2203.06111
— Andreea Dogaru, Andrei Timotei Ardelean, Savva Ignatyev, Evgeny Burnaev, Egor Zakharov. Sphere-Guided Training of Neural Implicit Surfaces. CVPR, 2023. https://arxiv.org/abs/2209.15511
— Ruslan Rakhimov, Andrei-Timotei Ardelean, Victor Lempitsky, Evgeny Burnaev. NPBG++: Accelerating Neural Point-Based Graphics. CVPR, 2022. https://arxiv.org/abs/2203.13318
— Albert Matveev, Alexey Artemov, Ruslan Rakhimov, Gleb Bobrovskikh, Daniele Panozzo, Denis Zorin, Evgeny Burnaev. DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes. ACM Transactions on Graphics (TOG), Siggraph, 2022. https://arxiv.org/abs/2011.15081

Презентация: https://drive.google.com/file/d/1k56dXPUMVN0O_syGgv5WM7hnscfwasih/view?usp=sharing
Видеозапись: https://youtu.be/rTz5gLaFMJY

Генеративное удаление как таковое развивалось довольно давно, но в 2014 году появился новый подход на основе ГАНов (Генеративных adversarial networks) — это сверточные нейронные сети, которые берут на вход какой-то вектор шума или шумовую матрицу. Если правильно настроить параметры такой сверточной сети, на выходе можно получить изображения высокого разрешения, например, лиц людей, которые не существуют. Эта техника эксплуатирует факт, что если у нас есть простое распределение, например, равномерное гауссово, то нелинейным отображением его можно преобразовать в arbitrarily сложное многомерное распределение. Вопрос заключается в том, как это сделать.

То есть, мы можем не знать вид плотности распределения рэпле, но мы можем сгенерировать неявное представление этой плотности, которая проявляется в данном случае. Распределение данных, генерируемых ею, напоминает распределение реальных данных, причем этот факт используется в алгоритме, который назван градиентным неконкурентным нерассеивающимся. Кроме того, в 20-м году появился другой класс моделей, основанных на диффузионных процессах. Сначала генерируется шумовое изображение, а затем оно специальным образом расширяется, чтобы получилось изображение, похожее на реальное, как те, что были в обучающих выборках. Кроме того, в идеале изображение коррелирует с описанием, которое пользователь ввел. Эти результаты используют некоторые интересные факты и теорию вероятности, особенно в отношении второго подхода, основанного на диффузионных процессах. Эти факты были заложены теорией паронных процессов, разработанной Колмогоровым, известным математиком прошлого столетия. Вот собственно и три основные компоненты.

Я собираюсь сначала рассказать о диффузионных процессах, которые представляют собой первый подход к построению нериативных моделей. Второй подход — это оптимальный транспорт, который отличается от диффузионных процессов, но превосходит их математической строгостью и способностью достичь желаемого результата в различных ситуациях. Можно соединить эти два подхода с помощью моста Шелтингера, который также заслуживает внимания.

Диффузионный процесс в непрерывном времени — это просто преобразование переменной x в момент времени, которое можно записать более просто. Здесь x может быть многомерным и задается нелинейным уравнением, включающим коэффициент сноса. Кроме того, добавляется дополнительное движение, которое задает случайность. Существует начальное значение процесса, которое генерируется случайным образом, и затем траектория запускается из этой начальной точки.

Мы можем заинтересоваться свойствами такого случайного процесса. Например, если начальное распределение точки было сложным или даже представляло собой распределение некоторой сложной величины, такой как изображение, мы можем рассматривать изображение как реализацию случайно влеченной из неизвестного нам распределения реальных изображений.

«Предположим, что изображение реального мира является реализацией неизвестного нам распределения реальных изображений. Мы считаем, что существует некоторое распределение, которое описывает изображения в реальном мире, хотя мы не можем быть уверены в этом. Пусть у нас есть сложное начальное распределение для случайных процессов. Известно, что если мы запустим случайную траекторию из этого распределения, то при определенных условиях (не слишком ограничивающих) её предельное распределение будет стремиться к некоторому фиксированному гауссовскому распределению. То есть в каждый момент времени распределение значения в этой траектории будет сходиться к гауссовскому распределению.»

Этот факт, известный в теории марковских процессов в дискретном времени и в прерывистом случае, также применим к случайным процессам. Существует другой важный факт из теории случайных процессов: если случайный процесс в прямом времени удовлетворяет некоторому уравнению, то случайный процесс, определенный обратным временем, начинается с начального распределения, соответствующего предельному распределению прямого случайного процесса.

Если уравнение траектории такое, то оно сходится к предельному распределению, которое соответствует начальному распределению прямого процесса. Это интересный факт, но требует некоторых дополнительных предположений. Кроме того, необходимо знать плотность распределения прямого процесса в любой момент времени, потому что для запуска обратного процесса требуется знать градиент логарифма этой плотности. Если мы знаем это, то мы можем воспользоваться уравнением, обладающим определенным удивительным свойством, как показано на рисунке. Это также очень важный факт из теории случайных процессов. Почему это оказывается полезным?

Предположим, у нас есть некоторое начальное распределение, например, распределение векторов, каждый компонент которых соответствует пикселю изображения. Мы взяли arbitrarily одну случайную картинку из Интернета, как будто она была сгенерирована из этого распределения, которое нам неизвестно, но мы хотим иметь возможность моделировать его, т.е. генерировать из него наблюдения, похожие на реальные изображения. Мы запускаем траекторию случайного процесса из arbitrarily выбранной начальной точки. Что произойдет дальше?

Если все будет сделано правильно, траектория сходится к предельному распределению, например, гауссовому. Фактически, мы начинаем зашумлять изображение. После определенного количества шагов, где каждый пиксель изображения преобразуется случайным диффузионным процессом, мы получим изображение с пикселями, которые представляют собой гауссовский шум. Если мы можем записать уравнение обратного процесса для данного диффузионного процесса, то мы можем размыть изображение, т.е. взять arbitrarily случайное изображение и преобразовать его в объект из распределения, как будто оно было сгенерировано из начального распределения, которое соответствует распределению реальных изображений. Если мы точно знаем начальное распределение, то мы должны получить изображение, похожее на начальное, а не на шум. Вот как можно реализовать эту идею?

Конечно, для этого необходимо конкретное уравнение, которое удовлетворяет необходимому предельному свойству. Например, такими могут быть уравнения вида «капп», но в нашем случае будем использовать очень простое. В качестве коэффициента диффузии выступает некая функция брата, которая с течением определенного времени стремится к определенному значению с определенной скоростью. Таким образом, мы можем записать уравнение для обратного процесса. Основная сложность заключается в том, что мы не можем явно записать плотность распределения в этом процессе, поскольку оно зависит не только от текущего момента времени, но также от начального распределения, которое нам неизвестно и которое мы именно желаем бы моделировать.

Предположим, нам удалось сделать это с помощью нейросети, в частности, используя универсальный парокситатор. Мы можем ассимилировать градиент логарифма плотности распределения неким хитрым образом. Если нам это удалось сделать, мы получаем следующую систему: у нас есть процесс, который зашумляет изображение, т.е. мы можем применить диффузионный процесс к любой начальной картинке и получить в результате просто шум. Если мы построили такой зашумляющий процесс, его можно обратить, построив некоторую нейросеть, которая аппроксимирует градиент логарифма плотности процесса. Таким образом, мы можем легко размыть изображение

С помощью такого уравнения мы можем легко размыть изображение. Конечно, это уравнение записывается в дискретном времени, и мы вычисляем, как оно взаимодействует с arbitrarily выбранной картинкой, постепенно размывая ее и получая результат, похожий на те картинки, которые мы зашумляли для оценки градиента логарифма плотности распределения. Теперь осталось научить нейросеть размывать изображения таким же образом. На самом деле, все эти методы широко используются в теории случайных процессов.

Если у нас есть распределение траекторий случайного процесса на некотором отрезке для процесса, градиент логарифма плотности которого мы знаем точно, то мы можем оценить распределение траекторий процесса с помощью некоторого расстояния Кульбака-Лейблера между двумя траекториями, рассматриваемыми как случайные функции. Это расстояние задается определенным уравнением, которое включает математическое ожидание внутреннего произведения. В таком случае, что мы могли бы сделать?

Мы вычисляем этот интеграл с помощью модели авторегрессии, вместо интегрирования по времени. Затем мы подставляем значение этой величины, которая задается математическим ожиданием по траектории, во все уравнение и оптимизируем его по параметрам, чтобы обучить нейросеть размывать изображения. Проблема заключается в том, что мы обычно не можем выписать эту формулу явно. Но мы можем воспользоваться следующим трюком: разделим математическое ожидание на две части.

Мы ожидаем не по времени, а по картинкам из обучающей выборки. Мы аппроксимируем это ожидание усреднением по обучающей выборке. Затем мы явно разделяем ожидание на две части: ожидание по картинкам и ожидание по траектории. Мы подставляем оценку плотности логарифма распределения, которую можем вычислить явно для конкретной диффузионной модели, в формулу. Затем мы минимизируем по параметрам. Вот что еще можно сделать: мы можем оценивать все остальное по формуле Монте-Карло для конкретного диффузионного процесса

Здесь мы можем сгенерировать не только картинки, но и картинки, обусловленные текстом. Для этого нам нужно взять выборку пар «картинка-текстовое описание» и добавить в качестве параметра скор-функции некоторый вектор, представляющий условие на текст. Этот вектор получается с помощью вложения текста в некоторое пространство с помощью нейросети. Таким образом, мы можем управлять генерацией картинок с помощью текста.
—
Хорошо, давайте продолжим. Мы уже обсудили один из подходов к моделям деления. Теперь перейдем ко второму методу, основанному на теории оптимального транспорта. Идея следующая: была задача Монжа, затем Канторовича. В современной постановке задача формулируется так: есть две меры, и мы хотим построить такое отображение T, чтобы оно точно переводило одно распределение в другое. Я уже упоминал, что можно преобразовать любое распределение в любое другое в этом же пространстве, если применить достаточно сложное отображение. Так вот, наша цель — найти среди всех возможных отображений такое, которое минимально изменяет исходное распределение.

Леонид Витальевич Канторович был выдающимся математиком, который работал как в теории, так и на практике, решая множество важных прикладных задач. Он предложил теоретический подход к решению задачи, который оказался очень важным и полезным. Это по сути генеративно-состязательная сеть (ГАН), поскольку генеративные адверсариальные сети — это способ построения отображения, которое трансформирует простое распределение Гаусса в распределение изображений. Важно то, как устроен алгоритм оценки этого отображения и какой целевой функционал оптимизируется.

Теперь обобщим: мы строим генератор, который трансформирует одно распределение в другое, и оптимизируем функционал, который при этом естественно возникает. На самом деле мы не знаем исходные распределения точно; они представлены наборами точек, сгенерированных из этих распределений. Если мы построили такое отображение, можно для любой новой точки предсказать, какой точке она соответствует. Это позволяет трансформировать один домен в другой.

Теперь о классической задаче, также известной как слабый оптимальный транспорт. Если в классическом случае каждую точку одного распределения мы переносим в точку другого распределения так, что кажется, будто последняя была сгенерирована из второго распределения, то в случае слабого оптимального транспорта каждая точка переносится в окрестность, где существует условное распределение в зависимости от этой точки. Мы используем более общее описание функции стоимости, которое не просто учитывает квадрат разности, а зависит от способности порождать новые точки из условного распределения. И вот мы минимизируем этот функционал по всем возможным совместным распределения.
Это то, что называется транспортным планом. В качестве функционала ?C можно использовать квадратичный функционал, который учитывает разность между ?Y и генерированным ?Y из условного распределения при заданном ?X. Однако, если использовать только квадратичную функцию стоимости, это может привести к вырождению транспортного плана в дельта-функцию, то есть условное распределение будет порождать только одну конкретную точку для каждого фиксированного ?X, что нежелательно. Чтобы избежать этого, следует добавить регуляризацию, которая предотвращает вырождение условного распределения.
Такой подход позволяет создавать много разных условных точек ?Y для каждого ?X, используя штраф на дисперсию условного распределения. Это гарантирует, что условное распределение не будет вырожденным. Теперь возникает вопрос, как решать такую задачу оптимального транспорта. Очевидно, что нужно использовать нелинейные преобразования, если ранее мы использовали их для неявного представления распределений. Если раньше у нас было простое распределение, которое трансформировалось в сложное, то теперь ситуация немного сложнее.
Имеется начальная точка ?X, которую мы отображаем в точку ?Y. Однако ?Y не однозначен и как будто генерируется из распределения при фиксированном ?X. Чтобы учесть эту неоднозначность, мы можем генерировать случайные значения шума ?Z, например, из Гауссовского распределения, и за счёт этого дополнительного источника шума разные ?X пропускают этот шум через нелинейное преобразование, получая разные ?Y, как если бы они были сгенерированы из условного распределения.
Это неявный способ моделирования условного распределения, который может усовершенствовать любое условное распределение. Почему эта задача на самом деле важна на практике? Многие задачи анализа данных могут быть поставлены в непарной постановке. Например, мы хотим каждой фотографии сопоставить аниме-лицо, похожее на лицо человека на фотографии, но у нас нет пар «фотография — аниме-лицо». Мы не знаем, какое аниме-лицо на самом деле соответствует каждому человеческому лицу, но мы хотим достичь некоторой разумности в сопоставлении.
Для этого мы задаём функцию стоимости, которая сравнивает лицо реального человека с аниме-лицом, и решая оптимизационную задачу, мы строим такое отображение, которое любую точку из распределения реальных лиц отображает в аниме-лицо, которое похоже с точки зрения функции стоимости на реальное лицо. Это отображение в идеале должно быть эффективным, и предполагается, что меры ??μX и ??μY существуют в одном пространстве одной размерности.
Важно, что при определённых условиях можно достичь того, что отображение будет взаимнооднозначным. Если говорить об исходной задаче, то всегда существует решение. Эту задачу оптимизации можно переписать в двойственной форме, чтобы найти соответствующее отображение. Необходимо взять это отображение и другое преобразование, которое действует как дискриминатор, и оптимизировать данный целевой функционал, что выполняется довольно просто.
Это похоже на задачу, возникающую в генеративно-состязательных сетях (ГАНах), где также присутствует оптимизационная минимаксная задача. Основное отличие здесь заключается в том, что в случае ГАНов существует дополнительное ограничение, которого нет в рассматриваемом нами случае. Задача оптимизируется по параметрам двух моделей, и находится седловая точка. Интегралы в этой двойственной задаче оцениваются методами, предложенными Карлом Декартом.
На практике предположим, у нас есть картинки сумок, и мы хотим для каждой сумки сгенерировать обувь, похожую на структуру сумки. Поскольку из второго распределения при условии точки из первого можно сгенерировать множество различных образцов обуви, мы можем получить множество различных пар обуви для одной и той же сумки.
Примеры подтверждают, что если использовать различные метрики, такие как Receptive Field или другие подобные метрики, качество трансфера может быть таким же или даже лучше. В случае анимационных лиц мы видим, что в целом сохраняется определенная семантика — выражение лица, цветовая гамма, что достигается даже с использованием самых простых функций стоимости.
В этом контексте параметр гамма, о котором идет речь, имеет большое значение: чем больше гамма, тем больше дисперсия условного распределения, что влияет на результаты, которые мы получаем для заданного лица. Это можно использовать на практике, например, для трансформации поля ветра из одного домена, соответствующего климатической модели, в домен, соответствующий реальным измерениям. Это улучшает климатический прогноз, придавая ему свойства, близкие к реальным измерениям, что позволяет более точно оценивать феноменологические риски.
Перейдем к третьей части моего рассказа о мошеннингере, который включает задачу построения оптимального транспорта. Транспортное отображение строится с учетом некоторой функции стоимости, что позволяет генерировать условные ?Y, зафиксированные на ?X, при условии, что функция стоимости не квадратичная и включает регуляризацию для предотвращения вырождения транспортного плана. В качестве такой реализации я использовал дисперсию, но можно применять и другие подходы, например, энтропию этого распределения ΠΠ.
В случае использования энтропии, решение задачи слабого оптимального транспорта в многомерном случае становится практически невозможным, потому что оценка многомерной энтропии распределения ΠΠ в многомерном пространстве — это сложная и неблагодарная работа. Несмотря на то, что энтропия является часто используемым и теоретически привлекательным функционалом, применение его в непрерывных задачах оптимального транспорта, где распределение ?μ известно только выборочно, делает его использование нецелесообразным.
Тем не менее, можно решить задачу оптимального транспорта с энтропийной регуляризацией, просто для этого нужно действовать иначе.

Давайте проясним и улучшим структуру и ясность изложения текста:
________________________________________
Итак, это мост Шрёдингера. Существует задача, которая связывает дефиниционные процессы и оптимальный транспорт. Идея динамического моста Шрёдингера заключается в том, что он представляет собой стохастический процесс, управляемый стохастическим дифференциальным уравнением, который эволюционирует из одного распределения в другое. Мы требуем, чтобы начальное и конечное распределения точно совпадали, и при этом стремимся минимизировать квадрат сноса процесса, делая его траектории как можно более близкими к нулю.
Оказывается, что между решением задачи моста Шрёдингера и оптимального транспорта существует взаимно однозначное соответствие: если решить задачу моста Шрёдингера с определёнными распределениями, то совместное распределение начального и конечного состояний этого процесса будет являться оптимальным транспортным планом для задачи оптимального транспорта. Это интересный факт, показывающий, что вместо прямого решения одной сложной задачи, можно переформулировать её и решить альтернативную задачу моста Шрёдингера.
Как это работает на практике? Рассмотрим прикладную задачу: допустим, у нас есть изображения в плохом разрешении и мы хотим преобразовать их в изображения хорошего разрешения. Технически сложно сделать точные пары изображений одной сцены в разных разрешениях, поэтому традиционный регрессионный подход не применим. Вместо этого у нас есть множество непарных изображений, и мы хотим построить модель, которая «наделяет» изображение в плохом разрешении характеристиками изображения в хорошем разрешении.
Здесь на помощь приходит мост Шрёдингера: начиная с изображения в плохом разрешении и применяя оптимальный стохастический процесс, мы можем постепенно преобразовать его в изображение хорошего разрешения. Если параметр стохастичности ?=0ϵ=0, процесс является детерминированным, и мы получаем прямое преобразование. При ?=1ϵ=1, процесс включает стохастичность, что добавляет вариативность в генерируемые изображения, делая результаты более разнообразными, но похожими на исходное изображение.
Интересно наблюдать, как изменение параметра ?ϵ влияет на «температуру» преобразования: при увеличении ?ϵ стохастичность увеличивается, и конечное изображение может сильно отличаться от исходного, сохраняя при этом общие характеристики.
Эти теоретические разработки важны, поскольку они позволяют формулировать строгие задачи для построения инновационных моделей. Из этих постановок можно извлечь теоретические оценки, объясняющие, почему те или иные алгоритмы работают эффективно. В отличие от эмпирических подходов, таких как ГАНы, где теоретические оценки часто сложны или невозможны, мост Шрёдингера предоставляет возможность для строгой теоретической оценки и объединения нескольких подходов в единую конструкцию.
В заключение, мост Шрёдингера не только решает практические задачи, но и обеспечивает глубокое теоретическое понимание связей между различными областями математики и компьютерных наук.

The post Научно-технический вебинар «Глубокое обучение для моделирования и реконструкции 3D форм» first appeared on Компания НТР.

Научно-технический вебинар «Мета-автоматическое машинное обучение с помощью графовых нейронных сетей»

Модератор Модераторов — Wed, 28 Jun 2023 03:51:11 +0000

Спикер о вебинаре:
В докладе освещаются подходы к автоматизации построения пайплайнов автоматического машинного обучения на основе нейронных сетей, графовых моделей и обучения с подкреплением. Рассматриваются эксперименты по обоснованию возможности применения предложенных методов, а также возникающие при этом проблемы. Кроме того, представляется библиотека MetaFEDOT с открытым исходным кодом и описываются реализованные в рамках ее решения.

Презентация: https://drive.google.com/file/d/1JPEPfqW-L3aGqAd6sg2EnGP3OinztcUG/view?usp=sharing
Видеозапись: https://youtu.be/joW4nvidm74

The post Научно-технический вебинар «Мета-автоматическое машинное обучение с помощью графовых нейронных сетей» first appeared on Компания НТР.

Научно-технический вебинар «Генеративные модели в науке и индустрии»

Модератор Модераторов — Wed, 21 Jun 2023 07:57:44 +0000

Спикер о вебинаре:
Генеративные модели являются одной из передовых областей в машинном обучении. Они в первую очередь ассоциируются с изображениями и получили общемировую популярность благодаря сетям для генерации изображений по текстовому описанию: Dall-E, Imagen, Stable Diffusion, и Midjourney.
Но в этом докладе мы не будем говорить про картинки, а обсудим применения в естественных науках и индустриальных приложениях.
Мы рассмотрим как генеративно-состязательные сети помогают ускорить симуляцию откликов в детекторах экспериментов физики высоких энергий; как нормализационные потоки могут использоваться для поиска Новой физики на Большом адронном коллайдере; как они помогают астрономам изучать сверхновые и решать обратные задачи по реконструкции параметров солнечной атмосферы и некоторые другие приложения. В заключение рассмотрим несколько примеров из индустрии, где генеративные модели используются для моделирования поведения сложных установок и систем.

Презентация: https://drive.google.com/file/d/1YZVwXt7d3PZFYNfyux8xLIyN5Y8j-MD4/view?usp=sharing
Видеозапись: https://youtu.be/_C_aNbydfe0

Расшифровка вебинара:

Меня зовут Михаил Гущин, я старший научный сотрудник лаборатории методов анализа больших данных факультета компьютерных наук Высшей школы экономики. И сегодня на этом вебинаре я бы хотел обсудить с вами генеративные модели, а именно их применение в науке и индустрии.
Итак, мы сегодня будем говорить про генеративные модели и то, как их уже применяют в других местах и как именно их применяют. Когда мы говорим про генеративные модели, то прежде всего мы ассоциируем их с моделями по генерации изображений, по их текстовому описанию.
Например, нейронная сеть DALL-E от OpenAI, DALL-E-2. Мы можем вспомнить примеры недавние от СБЕР, которые выпустил Kandinsky, который тоже умеет генерировать красивые картинки. Также, это уже тренд, наверное, последних полугода, с генеративным искусственным интеллектом у нас еще также ассоциируется chat-GPT.
Gpt3, который там умеет чуть ли не все. И очень много где, во многих местах, где вы можете услышать про генеративные модели, в основном будут говорить про вот эти две темы. Про то, как генерируем картинки, про то, как генерируем тексты. Иногда можно встретить про то, как генеративная модель используются для генерации звука.
Даже у нас в России есть коллективы, которые занимаются именно этой задачей. Она тоже является одной из таких популярных. Но в этом докладе я хочу поговорить про другие темы, которые зачастую не раскрываются на вебинарах, семинарах и лекциях. Я не буду сегодня говорить про картинки, про генерацию картинок совсем.
Я не буду говорить про генерацию текстов тоже совсем. И про звук тоже не буду говорить. Я сегодня познакомлю вас с несколькими примерами из естественных наук, из астрономии, из астрофизики, из физики высоких энергий, где генеративные модели уже используются прямо сейчас. Используются активно, можно сказать, в продакшне, как говорится, и помогают уже ученым совершать научные открытия.
Также, уже ближе к концу доклада, мы немного поговорим про то, где генеративные модели могут применяться в индустриальных задачах. И вообще, в целом, какие задачи мы можем решать с помощью генеративных моделей.
И в самом-самом конце я вам покажу такую маленькую демонстрацию того, как вы можете попробовать применить генеративные модели для решения своих задач у себя компании, в университете, прямо сегодня, то есть взять какую-то простую генеративную модель и решить свою задачу и посмотреть, понравится вам или нет.
Прежде чем я перейду к конкретным примерам, я хочу просто кратко напомнить, какие бывают генеративные модели, просто чтобы напомнить. Если вы знаете про все эти генеративные модели, здорово, значит, вам будет легко понимать все, что будет происходить дальше.
Если вы с ними не знакомы, то не переживайте, у нас такой научно-популярный сегодня доклад, вам тоже будет все понятно. Если выделять так вот в целом и грубо, то можно выделить 4 основных типа генеративных моделей, которые вот сейчас наиболее популярны. Первый тип это вариационные автокодировщики. Они, пожалуй, появились раньше всех. По-моему, первая статья в 2012 году была опубликована.
Типичная архитектура вариационного кодировщика состоит из кодировщика и декодировщика, который сжимает наши данные в какое-то скрытое пространство z, кодирует его, и декодировщик его декодирует обратно. И мы хотим, чтобы x» был максимально близок к x. При этом они будут чуть-чуть отличаться, но так, чтобы распределения их совпадали. Потом, следуя хронологии, появились ганы, генеративно-состязательные сети.
Они состоят уже из двух сетей, генератора, который из шума генерирует нам новые наблюдения, и дискриминатора, который проверяет, насколько сгенерированные объекты похожи на реальные. Дискриминатор — это фактически обычный классификатор. И вот, пожалуй, наверное, с ганов начался вот этот бум, потому что ганы показали отличное качество генерации изображений и до сих пор улучшают.
Затем появились нарезумпционные потоки, которые учат обратимое преобразование наших данных в какой-то шум, в какое-то скрытое представление с известным нам распределением.
И зная это преобразование, по обратному преобразованию мы можем из шума нагенерировать новые объекты, которые будут похожи на наши изначальные даты. И вот совсем новая тема — это диффузионные модели. Они тоже состоят… они чем-то похожи на нормализующие потоки. Ну, конечно, математика чуть-чуть другая. Сейчас диффузионные модели считаются лучшими моделями в плане качества генерации изображений.
Посмотрим, что будет дальше, сохранят ли они первенство либо найдется какая-нибудь еще модель. Если вы не знакомы с генеративными моделями, то важно понимать про них следующее, что генеративные модели принимают на вход выборку данных и учат явное либо неявное распределение, которым описываются эти данные.
И затем из этого распределения они могут сэмплировать новые объекты, которые будут похожи на оригинальные данные, но не совпадать с ними точно. И таким образом мы можем нагенерировать любой объем вот этих синтетических данных. И вот этим мы будем пользоваться дальше. И первую группу примеров, которые я хочу раскрыть, это астрономия.
В астрономии есть несколько задач, несколько таких направлений, где генеративные модели активно используются. И первая из таких задач — это реконструкция параметров солнечной атмосферы. То есть есть телескоп, который наблюдает за нашим солнцем. Эти телескопы обычно небольшие, потому что света от солнца достаточно. И они просто наблюдают, снимают поток света от солнца и записывают спектры, которые они получили.
Эти спектры, их еще называют профилями СТОКСа. И когда мы наблюдаем за солнцем, фактически делаем снимок, фотографию, то для каждого пикселя вот этой фотографии у нас есть вот таких четыре профиля стокса, которые описывают все процессы, происходящие внутри, которые доступны для наблюдения.
И задача заключается в том, чтобы по этим профилям восстановить параметры того, что происходит на поверхности самого Солнца, в его атмосфере. Что это за параметры прежде всего это магнитное поле его величина его направление также это температура, например, да и некоторые другие параметры всего их 11 штук и это решают обычными
автокодировщиками архитектура похожа на юнет сеть то есть на вход мы понимаем для каждого пикселя мы принимаем профиль стокса, а на выходе мы получаем картинку с 11 каналами, где каждый канал отвечает за какой-то один параметр. И здесь приведены, например, 9 таких картинок. То есть это реально фотографии поверхности Солнца. Где здесь можно применять генеративные модели?
Оказывается, что эту же задачу можно решать не обычными юнет-архитектурами, а можно решать с помощью генеративных моделей. В частности, можно взять нормализующий поток, как авторы этой статьи. На вход потоку передают все те же профили стокса, а на выходе они также предсказывают значение 11 параметров.
Но теперь, поскольку это генеративная модель, они для каждого пикселя могут сгенерировать множество значений этих параметров и тем самым восстановить распределение возможных значений каждого параметра в данном конкретном пикселе.
И вот здесь как раз представлено, оранжевым — это распределение, которое получили с помощью нейронной сети, коричневым — это распределение, которое получается из Монда-Карло симуляции для проверки, а точка — это то реальное значение, которое получается. Мы видим, что нейронные сети с высокой точностью восстанавливают подобное распределение. Здесь как раз представлены картинки.
Вот здесь, например, это температура на поверхности, Вот здесь температура на поверхности, а вот это как раз неопределенность, а вот этой определенной температуры, которую мы получили с помощью генеративной модели. Еще одна тема, очень популярная в последние годы, это гравитационные волны. Кратко, что это такое, напомню.
Мы все с вами знаем, что есть электромагнитные волны, с помощью которых это то, как распространяется свет. И было предсказано теоретически, что гравитация тоже может распространяться волнами. Но еще 10 лет назад этот эффект не был измерен экспериментально. Теория была, а эксперимента не было. И ученые уже на протяжении многих десятков лет пытаются как раз поймать вот эти гравитационные волны.
И у них это получилось относительно недавно, всего несколько лет назад. Как они это делали? Предполагается, что… То есть мы наблюдаем за тяжелыми объектами в космосе, это обычно парные черные дыры.
То есть два массивных объекта, которые вращаются вокруг общего центра масс, и во время такого вращения они как раз и спускают гравитационные волны, которые доходят до нас. И мы их будем ловить следующим способом. Мы знаем, что поскольку гравитация меняется, то меняется сила тяжести, можно сказать, и вот этот эффект мы можем промерить. Для этого был собран ЛИГО, такой детектор, который состоит из двух перпендикулярных колен.
В каждом колене стоят лазеры, которые интерферируют друг с другом на мишене. Идея в следующем, что когда до нас доходит гравитационная волна, то каждое из этих колен деформируется чуть-чуть по-разному.
В результате набегает разность фаз между лазерными лучами, и мы видим смещение интерфекционной картины. И вот наблюдая за этим смещением, мы получаем вот такой сигнал, который изображен вот здесь, на этой картинке. И что этот сигнал нам говорит? Он говорит, что, когда массивные тела вращаются более-менее с постоянным периодом, мы наблюдаем какой-то периодический сигнал.
По мере их сближения, частота колебаний увеличивается, и в момент, когда эти два массивных тела коллапсируют, то есть сливаются в одно, мы наблюдаем как раз такой всплеск гравитационных волн, и затем, когда они уже слились полностью, образовали один объект, гравитационная волна полностью исчезает.
И именно за наблюдение вот такого сигнала, за возможность его наблюдения была дана Нобелевская периода, где здесь использовались генеративные модели. Они как раз используются для того, чтобы восстанавливать параметры двойных черных дыр по сигналу, который
мы наблюдаем Земли, и для того, чтобы находить не только это значение, но и оценивать распределение невозможных значений этих параметров, чтобы оценить довелительный интервал. Что здесь происходило? Они тоже брали либо сверточные условные автокодировщики, либо нормализующие потоки. На вход подавали сигнал, который они наблюдают с земли.
Синим как раз показан реальный сигнал, который они наблюдают вместе с шумами. И на выходе генеративной модели они как раз получают распределение возможных значений и параметров черной дыры. Таких параметров пять, например, это масса одной черной дыры, масса другой черной дыры в солнечных массах, затем время, когда они сливаются и другие какие-то параметры.
Всего 5. Каждый имеет свою физическую природу. И здесь мы тоже видим, что если мы сравниваем нейронную сеть и симуляцию честную физическую, то мы видим отличное совпадение, то есть мы видим, что генеративные модели действительно могут учить распределение такой сложной природы.
И на сегодняшний момент, кстати, мы уже наблюдаем очень много таких парных черных дыр, здесь приведена иллюстрация того, что мы уже пронаблюдали, и для каждой такой пары мы уже знаем ее свойства с каким-то доверительный материал, конечно же.
Еще одна задача из астрономии — это классификация сверхновых. Все мы с вами видели вот такие красивые картинки из телескопа Хаббла, и еще более красочные и детальные с телескопа Джеймса Уэбба, и на самом деле все вот
эти красивые картинки, многие из них, они соответствуют какой-то сверхновой звезде, то есть взрыву сверхновой. И оказывается, что есть разные типы сверхновых. Они обычно отличаются по химическому составу в спектре их излучения, а также они отличаются по тому, как именно они образовывались, как именно они взрывались.
Например, есть сверхновые, которые образовались в результате термоядерного взрыва, их еще называют 1А. А есть много сверхновых, которые образовались в результате сжатия ядра, то есть часть звезды сжалась внутрь, и за счет высвобожденной энергии внешняя оболочка разлетается.
Это уже другие типы сверхновых, их тоже бывает много. И дальше их уже можно внутри отличать по химическому составу. Есть кремнии, в спектре нету, есть гелии, либо нету, линии широкие, либо узкие и так далее. Но различать по химическому составу это долго и дорого. Их еще можно различать с помощью кривых блеска, так называемых.
Это когда у вас есть телескоп, и вы просто наблюдаете за звездой и записываете, сколько света до вас доходит, и строите зависимость от времени. Сверхновые имеют свойство менять свою светимость в зависимости от времени. И вот эта зависимость называется кривой блеска. И вот оказывается, что по форме этих кривых мы тоже можем отличить типы.
Здесь представлены как раз кривые блеска для совершенно разных типов сверхновых. Современные телескопы наблюдают миллионы звезд каждую ночь, и нужно уметь идентифицировать их типы на ходу, очень быстро.
Для этого используются алгоритмы машинного обучения, то есть это задача классификации, и общий pipeline выглядит следующим образом. У вас есть кривые блеска для одной какой-то звезды в разных спектрах, в разных фильтрах. Здесь, например, изображено шесть фильтров, то есть шесть таких вот кривых.
Наблюдения могут быть нерегулярными, потому что погода может быть плохая, телескоп может сломаться, либо телескоп просто смотрит в другую часть неба в эту ночь. И для модели машинного обучения это не очень хорошо, поэтому обычно сначала вот эти наблюдения как-то аппроксимируют либо аугментируют, то есть с помощью какой-то модели,
фитируют какую-то модель и получают какое-то непрерывное представление кривой блеска затем вот это непрерывное представление мы можем трансформировать в нужный нам формат данных в зависимости от метода который мы используем например мы можем получить картинку одномерную картинку с шестью фильтрами и затем использовать сверточные сети для того чтобы решить задачу классификации определить тип сверкнул
Так вот, оказывается, что качество вот этой классификации очень сильно зависит от того, как именно мы интерполировали, аппроксимировали наши кривые блеска. И до недавнего момента State of the Art здесь были гауссовские процессы. То есть мы просто брали наблюдения и фитировали гаусским процессом все, что у нас есть.
Вот такой результат мы можем получить, если мы возьмем вот такую кривую блеска из двух фильтров. И вот в этой работе было показано, что оказывается мы можем это делать не только с гаусскими процессами, мы можем это делать с помощью небольших нейронных сетей. Повторюсь, что здесь вот каждая нейронная сеть будет опучаться только на одной кривой блеска, то есть данных на самом деле мало.
Но, тем не менее, нейронные сети отлично с этим справляются, в том числе отлично с этим справляются генеративные модели. Они могут выучить не только среднее значение наблюдаемых величин, но также могут предсказать неопределенность или погрешность измерений в каждой точке.
И по скорости, кстати, некоторые нейронные сети будут даже быстрее гаусских процессов. Это еще один пример, где генеративные модели машинного обучения используются в астрономии. Дальше я бы хотел еще рассказать про пару примеров из физики высоких энергий.
Для начала кратко, что такое физика высоких энергий и что там вообще происходит, что она изучает. Я буду сегодня рассказывать про эксперименты LHCb. Это один из четырех экспериментов на Большом Адронном Коллайдере на границе Франции и Швейцарии.
Наша лаборатория является членом этой коллаборации. И физика высоких энергий, если кратко, она занимается изучением стандартной модели. А стандартная модель описывает то, из чего состоит все в этой вселенной. То есть вся стандартная модель изображена на самом деле вот в этой табличке.
Что-то очень похоже на таблицу Менделеева, но только самых элементарных частиц. С некоторыми из них вы уже знакомы, например, электрон или фотон. Но есть еще другие элементарные частицы, из которых состоят протоны, нейтроны и так далее. За открытие последней такой частицы, за открытие бозона Хиггса, дали Нобелевскую премию, по-моему, в 2012 году как раз.
Это то, ради чего большой адронный коллайдер и строился. Как происходит изучение? По большому адронному коллайдеру движутся навстречу два протонных пучка, один и второй. Когда они сталкиваются, а сталкиваются они в центре экспериментов LHCb, Atlas, ELLIS и CMS, то в процессе столкновения возникает множество других частиц, которые в свою очередь распадаются на другие частицы.
И вот ученые записывают все эти распады, все образовавшиеся частицы, восстанавливают их распады, и по этим распадам они делают выводы о том, какая физика вообще есть, по какой физике происходят эти распады, и какие есть вообще элементарные частицы.
Вот здесь приведен пример одного из детекторов, который работает на одном из экспериментов. Это детектор Atlas. Он имеет высоту примерно 25 метров и длину 44 метра. Вот здесь для сравнения изображены фигурки людей.
Вот здесь и вот здесь внизу. Чтобы представить масштабы вот этих установок. Которые по сути являются таким большим фотоаппаратом, который фотографирует элементарные частицы, которые распадаются и образуются в результате столкновений протонов.
Он состоит из многих частей, нам сейчас не очень важно понимать, что каждая часть делает, но нам важно понимать что когда протоны сталкиваются и образуются вот эти частицы вторичные, то они пролетают через различные сенсоры вот этого детектора, и мы записываем как раз вот эти отклики сенсоров. Здесь линиями как раз на этой схеме изображены частицы, а разноцветными квадратиками показаны отклики различных сенсоров этого детектора.
Так, у нас вопрос в чате. А зачем пересказывать по колебаниям распределение значений, если их можно померять эмпирически? Ведь мы это как-то получили для обучающего выборки. Да, Николай, большое спасибо за вопрос. Поскольку мы уже проехали эту тему, давайте я тогда отвечу на него уже после доклада, хорошо?
Чтобы не возвращаться, возвращаясь к детектору, то есть мы записываем вот эти отклики сенсоров и по ним мы восстанавливаем все вот эти частицы их распады как происходит как происходит поиск новой физике.
Вот есть стандартная модель, которая описывает всю физику, которую мы знаем. В том числе она описывает все возможные распады всех частиц, которые мы знаем. И вот если мы попытаемся построить распределение параметров частиц, то в каком-то пространстве, то многомерном, то окажется, что здесь пример картинки.
Многомерное пространство, мы смотрим на проекцию по массе частиц, здесь m — это масса искомой частицы, например, новый, то окажется, что красное распределение — это все частицы, все распады, которые описываются известной нам физикой, то есть известной нам стандартной моделью.
Но может произойти так, что в каком-то регионе у нас реальных наблюдений из эксперимента, из детектора может оказаться чуть-чуть больше, чем нам говорит стандартная модель. И вот это отклонение и есть новая физика. Синенький бамп, горбик, он отвечает как раз за новую физику.
И если очень грубо говорить, то ученые занимаются тем, что они занимаются поиском таких регионов, где реальные наблюдения не сходятся с прогнозом стандартной модели. Как только они это находят, они объявляют о новом научном открытии, и мы с вами все равнимся. Как здесь можно использовать генеративные модели? Мы предполагаем, что в этом регионе есть новая физика, то есть есть отклонение от стандартной модели.
К сожалению, мы вот это красное распределение с вами не знаем. Мы его можем оценить, но мы его не знаем точно. То есть у нас нет разделения на синий и красный. Но мы, например, знаем, что вот мы можем предполагать, что вот в этом регионе, вот здесь и вот здесь по краям новой физики мы не ожидаем.
Поэтому мы можем выучить генеративную модель, которая выучит нам распределение, вот это красное распределение. Затем с помощью обученной модели мы интерполируем это красное распределение в интересующий нас регион, сигнальный регион так называемый. И затем мы сравним то, что дает нам генеративная модель, с тем, что мы реально наблюдаем на детекторе.
И если мы наблюдаем отклонения, значит, мы нашли новую физику. Примерно такой подход сейчас исследуют физики, он пока еще на стадии исследования, он не работает в PRODE, в PRODE работают другие методы, но это один из таких перспективных подходов. Еще одна задача, которая используется уже практически в продакшене, то есть используется в реальных научных исследованиях, это быстрая симуляция.
В чем она состоит? Если мы возьмем различные типы частиц и посмотрим, как они проходят через различные сенсоры детектора, то мы увидим следующую картинку.
Например, давайте возьмем электрон красненький. Он проходит через первый ряд сенсоров, оставляет свои отклики, доходит до электромагнитного колориметра и полностью поглощается. При этом в колориметре образуется какой-то ливень частиц, который мы тоже регистрируем.
Если мы посмотрим на нейтрон, то трекер проходит, не задевая его, потому что он нейтральный, он проходит электромагнитный калориметр, но полностью поглощается адронным калориметром. Тоже образуется ливень, который мы регистрируем. Для того, чтобы делать научные исследования для того, чтобы как-то оценивать, что нам выдает, для того,
чтобы оценивать красное распределение стандартной модели, нам требуется подробная физическая симуляция всех физических процессов, которые мы знаем, и всего детектора. Мы честно моделируем пролет каждой частицы через каждый сенсор, честно записываем все отклики, честно это все сохраняем и потом уже делаем какие-то дальнейшие выводы в дальнейших шагах анализа.
Этот процесс очень трудоемкий, он требует большого количества вычислительных ресурсов. И возникло предположение, что, наверное, с помощью генеративных моделей мы можем ускорить эту симуляцию, то есть мы можем взять реальный физический симулятор, нагенерировать какую-то выборку и на этой выборке обучить генеративную модель, которая будет решать эту же задачу, но только в сотни раз быстрее. Так оно и получилось. Как это было? Как общая архитектура всех таких генеративных моделей в этой задаче. Есть нейронная сеть, которую мы называем генератор, которая на вход принимает параметры, входящих в сенсор частиц.
Это параметры заряд частицы, плюс либо минус, либо ноль, импульс этой частицы, то есть три компонента импульса, направление и величина. Тип этой частицы, то есть что это? Это был электрон, это был протон, это был фотон, нейтрон, каон, какое-то количество этих типов.
И вот по этим параметрам нам нужно, вот эта нейронная сеть генерирует нам отклик, то есть возможный отклик колориметра. Эти отклики можно представить в виде вот таких вот картинок, то есть это вот этот ливень как бы в поперечном разрезе. Затем мы берем вот эти синтетические отклики и сравниваем их с реальными, то что нам выдала настоящая сложная физическая, но медленная симуляция.
Мы сравниваем с помощью другой нейронной сети, которая называется дискриминатор, и которая говорит нам, насколько синтетические отклики похожи на реальные. Мы обучаем обе эти сети до тех пор, пока синтетика не станет похожей на реальность.
Это получается уже неплохо, и с каждым разом получается все лучше и лучше. Здесь представлены примеры. Верхняя строчка — это как раз примеры подробной физической симуляции, которая называется Gen4. А внизу представлены результаты нейронной сети. Мы видим визуально, что отклики очень похожи, но нейронная сеть делает это в сотни раз быстрее.
Если проводить какие-то дополнительные тесты, например, сравнивать распределение по каким-то статистикам, которые мы можем получить из откликов, то в целом мы видим, что распределения тоже совпадают, но в некоторых случаях есть небольшие отклонения, с которыми сейчас пытаются бороться, И на текущий момент, на сегодняшний день есть работы, где вот этих отклонений уже практически нет.
В многих экспериментах, например. Так тут вопрос, а зачем нам симуляции, у нас же есть реальные данные, разве нет? Да, есть. Но вот реальные данные, они содержат в себе как известную нам физику, так и новую физику. А симуляция нам дает только известную нам физику.
И вот сравнивая известную физику и известную плюс новую, мы можем найти разность и можем сказать, что вот мы нашли вот эту новую физику. Если бы у нас не было симуляции, то мы бы не смогли разделить то, что мы уже знаем, от того, чего мы еще не знаем. И, соответственно, ничего бы мы открыть не смогли бы.
Вот если очень кратко, и на самом деле, вот быстрая симуляция откликов, не только колориметров, но и других сенсоров, других датчиков, детекторов, это очень такая горячая тема именно в физике высоких энергий на Большом адронном коллайдере и не только в других странах тоже, поскольку она действительно помогает экономить очень много вычислительных ресурсов и соответственно очень много денег. Для сравнения, только за электричество для большого адронного коллайдера ЦЕРН платит порядка 100 млн евро в год.
И это электричество в том числе уходит на вычислительные центры для того, чтобы считать симуляции. А симуляции составляют примерно 20% от всех ресурсов. Представьте, что нейронные сети, даже если вам в 10 раз все позволяют ускорить, вы уже экономите десятки миллионов евро в год просто на нейронных сетях.
И вот подобные примеры, подобные приложения мы можем найти не только в каких-то других естественных науках, в других экспериментах, но также и в индустрии, поскольку что в астрономии, что в физике высоких энергий, нам приходится иметь дело с какими-то большими датчиками, с большими детекторами, которые очень сложно устроены. И примерно то же самое есть в крупных компаниях.
И я здесь расскажу один из наших недавних проектов. Это как раз моделирование производительности систем хранения данных. Мы взяли реальную систему хранения, которая состояла из различных дисков. Это HDD диски, это SSD диски, которые организованы в пулы хранения под RAID, с различными RAID схемами.
Также в системе хранения есть кэш, который позволяет ускорить операции чтения и записи наиболее популярных кусков информации, ну и конечно же есть контроллеры хранения, то есть это какие-то процессоры, которые, собственно, обрабатывают все вот эти запросы.
Наша задача заключалась в том, чтобы по параметрам внешней нагрузки и по параметрам конфигурации нашей системы хранения предсказать, сколько информации в секунду наша система сможет записывать или читать, и с какой задержкой у нас будет происходить каждый запрос. Эту задачу мы решали тоже с помощью генеративных моделей, так называемых условно-генеративных моделей. На самом деле все, что я рассказывал выше, это тоже условно-генеративная модель.
На вход мы подавали нашей модели параметры нагрузки, то есть, например, размер блока, доля операции чтения и записи, размер очереди, с которым мы подаем нашу нагрузку, количество потоков параллельных, через которые мы эту нагрузку тоже подаем, также подавали некоторые параметры
конфигурации, такие как rate-схема, которая задается двумя числами, k плюс m, 8 плюс 2, например, или 4 плюс 1 и сколько у нас дисков в общем было в пулах. И на выходе мы просим предсказать нашу генеративную модель распределения параметров производительности для вот каждого входа.
Производительность мы измеряли в количестве операции, input-output операции в секунду и задержку, среднюю задержку одной такой операции. Вот здесь на картиночке как раз приведены примеры таких распределений для каких-то входных параметров. Синеньким здесь показано то, что мы реально измерили на нашей системе, а оранжевыми крестиками показано то, что предсказывает наша модель.
При этом это прогнозы для тех параметров, которые модель не видела в обучающей выборке, то честный честный тест на неизвестных значениях. Если подробно вот тут еще приведен я привел два примера уже с деталями того что именно было подано на вход.
Первый пример — это распределение параметров производительности для HDDPU, а второй пример для SSDPU, то есть уже другие диски с другой физикой внутри, и здесь приведены входные параметры. То есть мы подали вот такие входные параметры на вход нашей сети и получили такие распределения. Мы тоже видим здесь, что прогнозы хорошо согласуются с реальными наблюдениями.
То есть это работает, и работает хорошо. И мы можем оценить не только среднюю производительность, но мы можем также оценить то, как эта производительность может меняться, то есть разброс вот этой производительности, потому что это всегда какой-то стокхастичный процесс. У нас все всегда меняется, что-то меняется внутри дисков, что-то меняется в нашей логике софтверной внутри. Это все сказывается на итоговой производительности, и все это нейронная сеть генеративная может выучить напрямую из данных.
Нам думать про все физические процессы внутри абсолютно не нужно. И в конце я бы немного хотел поговорить с вами о том, где в целом мы можем использовать генеративные модели и как именно.
Все примеры, которые я показал здесь, они из естественных наук, из каких-то избранных индустриальных приложений, и возможно, не все из вас занимаются похожими проектами, потому что у каждого есть свои проекты, они уникальны по постановке задачи, по данным и вообще по методам решения.
Так вот, оказывается, что если мы посмотрим на все вот эти примеры выше и попытаемся обобщить, то оказывается, что мы можем применять генеративные модели в тех же задачах, где мы применяем обычные нейронные сети либо обычные классические модели машинного обучения, например, CatBoost, XGBoost и так далее.
То есть мы можем с помощью генеративных моделей решать задачи в регрессии, только в этом случае мы будем получать в качестве прогноза не только среднее значение y, которое мы хотим предсказать, но мы сможем также получать доберительные интервалы или погрешности вот этих прогнозов, потому что генеративная сеть выучит нам прям распределение этих y, а не только их среднее значение.
С таким же успехом мы можем применять для решения задачи классификации, и тоже генеративная модель сможет нам выдать неопределенность нашего прогноза. Мы можем использовать для поиска аномалий, как это было сделано, например, в физике высоких энергий.
Мы учим распределение нормальных данных, и все, что плохо описывается этим распределением, мы можем списать на аномалии либо на какие-то новые наблюдения в наших данных. Да, у нас вопрос, разве обычные классификаторы не имеют некий конфиденц тоже? Ну, скажем так, обычные классификаторы, ну прям обычные, которые мы учим где-нибудь на курсах, они из коробки не умеют.
Для того, чтобы вы получили какой-то конфиденц, вам нужно либо добавлять какую-то голову, то есть условно, чтобы нейронная сеть предсказывала вам еще и сигму. И вы обычно тогда считаете, что y распределен по нормальному закону, с каким-то средним μ и с какой-то σ. Но гарантии того, что у вас действительно все распределено по нормальному закону, у вас нет. А генеративная модель не требует этого предположения.
Если нормальный закон, здорово, значит обучимся быстро. Если это какое-то очень сложное распределение с длинными хвостами, ну ладно, чуть-чуть больше эпох нам нужно будет, чтобы выучить этот длинный хвост, но мы его сами выучим. И от data-scientist, от ML-инженера не потребуется никаких действий для этого. Генеративная модель сама выучит нужное распределение, сама все сделает за вас.
Да есть конечно другие методы как можно получить неопределенность там например с помощью dropout или с помощью ансамблевых методов да можно, но в зависимости от того какой вы метод выберите у вас у вас будет немножечко другой смысл вот этой неопределенности и более того те же самые методы вы можете применить и генеративную модель там тоже может быть dropout там тоже можно делать ансамбли, но генеративная модель выдает вам прям целое распределение ваших игреков для заданного икса, а не только одну точную оценку.

The post Научно-технический вебинар «Генеративные модели в науке и индустрии» first appeared on Компания НТР.