Методы | Компания НТР

Научно-технический вебинар «Расстояние Выготского: подход к оценке схожести интеллектуальных задач»

Alexandra Koroleva — Thu, 07 Mar 2024 08:17:23 +0000

Спикер о вебинаре:
Оценка моделей играет значительную роль в современной обработке естественного языка. Большинство современных тестов NLP состоят из произвольных наборов задач, которые не гарантируют какого-либо потенциала обобщения для модели при применении модели вне набора тестов и не пытаются минимизировать потребление ресурсов, необходимых для оценки модели. Мы обсудим теоретический инструмент и практический алгоритм для вычисления сходства между заданиями, который мы называем «расстоянием Выготского». Основная идея этого показателя сходства заключается в том, что он основан на относительных результатах «учеников» на выбранном задании, а не на свойствах самой задачи. Если две задачи близки друг к другу с точки зрения расстояния Выготского, модели, как правило, имеют сходную относительную успеваемость по ним. Таким образом, зная расстояние Выготского между задачами, можно значительно сократить количество оценочных заданий при сохранении высокого качества валидации. Эксперименты с различными бенчмарками, включая GLUE, SuperCLUE, CLUE и RussianSuperGLUE, демонстрируют, что подавляющее большинство бенчмарков NLP могут быть как минимум на 40% меньше по объему включенных задач. Также расстояние Выготского может быть использовано для валидации новых задач и бенчмарков, тем самым расширяя потенциал обобщения будущих моделей.

Презентация: https://drive.google.com/file/d/1iOq-UN_BlchyJW9y12LVIRkBym7-hUt0

Видеозапись: https://youtu.be/x65EYl-ynBY

Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР

В данной работе мы рассмотрим теорию «Расстояние Выготского: подход к оценке схожести интеллектуальных задач». Основное внимание уделяется изучению методов анализа и оценки, которые позволяют оценивать и сравнивать интеллектуальные задачи на основе их схожести.

Спасибо большое, во первых, за приглашение. Спасибо, Николай, и спасибо, что нашли время, присоединились. Меня зовут Иван, я профессор с недавних пор в Высшей технической школе в городе Вусбург. Германия это такое небольшой университетский город между Мюнхеном и Франкфортом, и мы здесь строим центр искусственного интеллекта. Я занимаюсь генеративными языковыми моделями,, до этого я занимался ими в лаборатории естественного языка, которую запустил в Петербургской высшей школе экономики. И это работа, которую мы начали, когда я работал в вышке вместе с моим студентом Максимом Сурковым, который сейчас продолжает развивать наши совместные работы в своей аспирантуре. Да, мы говорим про расстояние Выготского или Выготского, я, к своему стыду, не знаю, куда правильно ставить ударение, но так или иначе расскажу, кто это и почему мы хотим счастьем назвать это самое расстояние. Давайте по порядку Начнем с вот такого график, который мы в другой нашей работе с моим с автоми леша Тихонов назвали Кембрийский взрыв моделей. Вот если вы находитесь в Томске, то вы знаете, что Западно-Сибирская равнина крайне интересно с точки зрения археологии, потому что в ней можно найти много представителей флоры и фауны, которые жили на самое равнение много много много лет назад. И Кембрийский взрыв видовой это то, что археологи называют моментом, когда на Земле сложились сами благоприятные условия для жизни и внезапно видов стало очень очень много. Грубо говоря, процесс формирования новых видов не останавливался, а процесс вымирания существенно замедлился. В связи с этим видов стало много, видовое разнообразие резко подросло. Вот мы сейчас с вами живем в эпоху ким близкого взрыва, такого маленького кембрийского взрыва и больших языковых моделей. И к самому слову большие модели к словосочетанием большие языковой модели есть много вопросов, и мы чуть попозже в этом докладе про них говорим. Но вот это график из нашей статьи, которую мы в принципе обсуждаю, как оценивают качество работы больших языковых моделей. И мы показываем новые собственной модели опубликованной на Hugging Face за месяцы 2022 и 2023 года а синеньким помеченные модели на базе ламы красной модели на базе электай, сером все остальные. И вы видите, что процесс экспоненциален. Статью у нас взяли в августу двадцать третьего поэтому с тех формы туда не смотрели, но я полагаю, что сейчас этот столбик уже выходит за пределы славя, потому что за очень у нас появилось несколько моделей на базе Мистраль с открытыми весами. буквально на этой неделе Гугл опубликовал свои веса всем языковой модели на базе архитектуры CMU Distil такие как мамба рвкв опубликованы тоже были в позднею осенью в начале зимы. соответственно это экспонциальный пост количество модель он продолжается, а это количество статей, говорящих про то, как измерять качество этих самых языковых моделей. И очевидно, что сейчас в целом Элпие как дисциплина научная находится в жесточайшем кризисе, потому что мы видим много новых инструментов, мы видим много новых результатов, и мы совершенно не понимаем, как на самом деле убедиться, что предложенный результат действительно значимо лучше, чем предыдущие. И прежде чем я поговорю, просто невыгодка. Мне кажется, что это как раз статья, которая возможно позволить нам немного систематизировать вот этот самый экспенциальный рост модели. И вот прежде чем поговорить про суть нашего результата, давайте просто поговорим про то, как большие языковые модели разбивались и как их оценивали. Да, важно понимать, что у нас нет определения, что такое большая языковая модель, но интуитивно мы понимаем, что за последние пять лет понимание, что такое большая оно менялось, да, То есть, условно говоря, в две тысячи семнадцатом году вышла статья шен Зол, и в которой предложили архитектуру трансформер. на следующий год с год с небольшим вышла статья Берта, и Берт стал такой, ну, в общем, базовой штукой. И на то момент, когда Берт выходил, для некоторых исследователей из академии Берт учить с нуля оказалось неподъемной задачей. Но с тех пор закон Мура, который говорит, что количество вычислительных мечтастей, доступных нам, будет расти экспедиционная экспедиционально привел к тому, что какие то модели, которые с большими такими же не кажется и сейчас, наверное, конвенционально все, что больше, чем джип Гпт три, три, три, пять это большая модель, все, что меньше точка три, точка пять это маленькая модель, более того, примерно такую же. а такое же определение больших и маленьких модель зафиксировали европейские законодатели в принятом документе, который регулирует собственно эти самые большие и головой модели. Они говорят, что если у вас больше чем три с половиной гигафлопс на вычисление потрачено был большая модель, и это примерно соответствует пяти три пять, которые уже считается большой по этой законодательной инициативе. а все остальное, что меньше, оно как бы под нее не подпадает. При этом до появления пяти три жизнь была устроена довольно просто были бенчмарке бенчмарков было много, но они помещались на один слайд. Вот, собственно, самое главное в марк вы здесь видите. я думаю, большинство слышали или видели. мы можем устроить голосование, не знаю, есть у нас такой интерактивный инструмент голосования или нет, но может поставить плюсик, если, к примеру, знаете, что такое глюд или суперглю. Вот если у нас есть чат и можно в нем что нибудь написать. Я не знаю, есть ли у нас возможность. Николай, у нас есть возможность устроить голосование и проверить, как люди знают, межбанке. : Поднимите руку, если вы знаете, что такое глю. Суперглю Вот метя поднял руку, отлично какое то количество не подняли. : Так, три человека в курсе. Давайте тогда я, судя по скорости, с которой люди. понимают. други, видимо есть некоторые. Вопросы. Ну, смотрите вот что такое в принципе бенчмарк? Бенчмарк это какой то набор задачек, который предлагается модель выполнить глю это дженер лэнгвич андестендинг в люишем грил ю и это был бенчмар, предложенный в восемнадцатом году людьми из Нью Йорка. он содержал в себе несколько подзадач. Эти подзадачи были ответ на вопросы, ответ на вопросы когда у вас есть выборы из четырех вариантов ответа или ответ на вопросы, когда вы, допустим, есть текст по тексту задан вопрос нужно, чтобы модель ответила сама сгенерировала ответ задачи связанной суммаризацией. К примеру вот есть большой текст, вот есть задача написать саморе большого текста и иногда даже есть человеком написанная саме. И можно бы сравнить, насколько ваша модель близко суммузует похожее на человека. Вот, пожалуй, очень интересный бенчмарк, про который я советовала бы посчитать, это схема винограда. Виноград это такой американский ученый украинского происхождения, который и предложил в какой то момент более операционализованную альтернативу тесту Тюринга. Вот давайте мы будем развивать умение поднимать руки. давайте спросим кто знает, что такое тостюринга поднимите руки так те же на манеже. А нет, побольше Дарья подняла. раньше даже не понимал. Так, ну, слушайте, а что ж вы. А, ну вот, вот вот вот. все. все квалифицированное большинство знает, что это стерлинга. Спасибо. Давайте расскажем для тех, кто спит. Как это? Давайте проверим, они живы вообще. А если вы не знаете, что такое эта Стюринга, вы поднимите руку есть люди, которые не знают, что это сюнга, или просто остальные спят. А вот Николай честный человек. Николай, объясним, что такое то стена? : В общем, очень коротко то Сюринга была такая базовая идея, что если модель в чате общается с вами, я сильно упрощаю. Тюринг мыслил в терминах записочек. В его времена была такая слоная игра, когда мужчины и женщины уходили в соседнюю комнату и остальные участники вечеринки отправляли туда записочки, и по ответам должны были догадаться, кто им отвечает мужчины или женщины, а соответственно тех, кто ушли в другую комнату. У них была задача ну, как бы один отвечал честно, а другой или другая, соответственно пытались прикинуться, что они там, не знаю, ушел не ср Реджинальд и его кузина, и они оба пытаются косплеить кузину Сырбель. А мы с вами должны по ответам понять, кто настоящий сэр Реджиналь. Так то кузина. Вот там Тюрин предложил заменить соответственно одного из участников игры на компьютер и сказал, что если мы с вами не можем понять по ответам компьютер с нами говорит человек значит, компьютер разум это его статья в журнале Майнд журнале Королевского философского общества, которое до сих пор является самым цитируемой статьи в этом журнале по философии, что довольно забавно. Вот а схема винограда, предложенная виноградом, это альтернатива. Это тут Юринга, он говорит Смотрите, довольно часто, когда мы говорим про интеллект, нам на самом деле важно, понимает ли модель, как устроен мир. И вот я предлагаю вам такое простое предложение, по которому можно понять, понимает модель, как устроен мир, или нет. Предложение такое Я не мог засунуть гитару в чемодан нет, гитару я не мог засунуть в бас в чемодан, потому что он был слишком больш Модель спрашиваем кто был большой басс или чемодан И человек он понимает что в предложении я не мог снуть бас в чемодан, потому что он был слишком большой, слишком большой был басс, потому что если бы чемодан был слишком большой, то как раз легко у него бас гитара поместилась, а вот модель может не понимать, и наоборот можно такую же схему построить такую я не мог заснуть бас в чемодан, потому что он был слишком маленький, и тогда ответ уже чемодан, а не бас. То есть чтобы правильно разрешить с кема винограда, модель должна понимать какие то соотношения между двумя объектами или субъектами, упомянутыми в тексте. Это такой интересный упрощенный варианте статьюллинга, который не очень известен, но при этом, мне кажется, классно, в общем вот эти бенчмарки представлять себя такую коллекцию заданий разного толка, и на них можно было хорошо работать, потому что модели были примерно в два раза хуже людей, иногда на тридцать процентов, иногда на пятьдесят хуже людей, и соответственно было довольно хорошо видно, как мы прогрессируем по этим маркам. Но все изменилось появлением джи пяти три, потому что в этот момент по всем этим бичмакам мы стали получать, а иногда и выше качество. То есть, условно говоря, если раньше люди работали там, отвечали на вопросы по тексту лучше, чем модель, теперь модель стали отвечают лучше, чем люди. и это привело к следующей волне бенчмарков, которые были построены по такому же принципу, но стали сложнее и больше. И попытка здесь была сказать смотрите, да, мы понимаем, что на тех старых бфмаках нашей модели работают почти так же, как люди. но вот у нас есть новые бенчмарки, они значительно сложнее, и на них уже можно увидеть, что по прежнему модели не справляется. Тут на самом деле возникло много проблем. Вот пример смартом три век Юэй. Проблема в том, что это вопросы по некоторым фактам. Может быть, вы играли есть такая игра тривиодра, она была довольно популярна в разного рода социальных медиа социальная казуальная игра, в которой можно самому играть можно с друзьями когда вам на скорость задают какие то факты такие в формате своей игры не знаю в, каком году было не была основана москва или или какова длина волге и вы начинаете вопросы отвечаете ну, и в, общем не, трудно понять, что не так много людей хорошо отвечают на такого рода запросы. И оказалось, что та же самая Дже пяти три и особенно чат Дже пяти на вот такие бчмарки отвечают очень хорошо частично потому что эти бенчмарки были опубликованы в сети попали в кому крол, который собирался для обучения чаджи пяти и, оказалось что вся втором смысле модель знает это тебе не в парке просто наизусть и даже просто оценив ее на о том, как она хорошо отвечает на эти вопросы, довольно сложно убедиться что эти ответы вот эти оценки они верны для новых вопросов которые тебе шмаки не попали. А после чатжи пяти наступила нынешняя эра, когда стало совсем хорошо в том смысле, что модели стали большими, начинают пяти четыре и вот пяти четыре она, к примеру, проходит так называемый тест Джимат или там тест Эсад это разного рода тест, на которых тестируют американских выпускников школ для поступления в университеты, и вот она их проходит лучшие медианного ученика. Вот давайте осознаем это. И это не потому, что медианный ученик в Сша очень плохо, хотя, конечно, он не чита медианному ученику в Томске, я уверен, но тем не менее это потому, что модели стали действительно хорош в таком широком спектре задач, и примерно понятно стало, что обойтись какой то одной моделью, в смысле одним бенчмарком, который достаточно большой, очень сложно, но люди все равно продолжают стараться, придумывают новые бенчмарки, придумывают какие то способы оценки. И сейчас картинка выглядит примерно так мы берем много много много разных бчмаков, оцениваем на ней модель и дальше пытаемся как то усреднить при помощи какого нибудь рейтинга элла рейтинга или мы берем и прям людьми собираем оценки работы модели для разных ситуаций так, чтобы модель гарантирован костилровлась на данных, которые никогда не видела. Есть еще такой третий способ, который совсем оккультный, когда мы пытаемся сделать модель, которая бы моделировал оценку человеком. Я сейчас не буду вдаваться в детали, но так или иначе сам этот факт того, что у нас бичмарк становится очень много, они становятся узко специальными очень разными, и возникает масса вопросов протока агрегировать вот этот факт. он толкнул нас на мысль, что неплохо бы было придумать некоторый инструмент, который бы позволил нам различать бенчмарки между собой. потому что, если посмотреть на разные задания, на которых модели оцениваются достаточно быстро, возник ощущение, что как бы не все бенчмарки одинаково полезны. Есть какие то задания, которые явно очень простые, и не очень понятно, почему мы до сих пор их используем для оценки работы модели и что нам эта оценка говорит. А есть, допустим, задания, глядя на которые кажется, что если Мадрес справляется с этим заданием, то, наверное, есть тем более простым она тоже справится, да, в общем, у нас возникла задача. Вопрос скорее, как мы можем систематизировать имеющийся вот этот зоопарк бенчмарков? При этом надо понимать, что вокруг парка есть очень много проблем. Во первых, вот как я сказала, они просто проливаются в ком крол и дальше модели лучивают наизусть дальше их очень много и разные новые бенчмарки. Когда человек публикует новый бенчмарк, говорит вот я сделал, не знаю, новый набор заданий для того, чтобы проверить, насколько хорошо модель отвечает на вопросы по медицине. Ну, он же как бы, скорее всего, медик или работает вместе с медиками. Он собрал каких то реальных данных вокруг медицины, собрал каких то ответов, как ты их разметил, но он вообще никак не проверил, как этот бенчмарк относится со всем остальным, что уже есть опубликованная. Дальше. Оказывается, что в некоторых темах у нас бенчмарков многое но в то же самое, не знаю, в ответах на вопросы по школьной программе бечмарков много. Почему, как вы думаете, есть люка? Вот поднимите руку с гипотеза, почему по медицине бенчмарков мало, а по ответу на школьную программу много. Поднимите друга Есть гипотеза Андрея, есть гипотеза остальных, нету интуиции. Ну смотрите, давайте я вам расскажу, как устроен реальный мир. Школьные учебники это паблик ноледж, это паблик домен. Почти все школьные учебники опубликованы без копирайта, и на основании их любо дорого собирать бенчмарки. А кроме того, школьное знание это знание, которое обладает большое количество людей. Поэтому вы можете проверить качество вашего бенчмарка при помощи разного рода платформы для крау сбора данных. А вот медицина это часто сильно коммерциализованная область, в которой крутятся миллиарды долларов. И несмотря на то, что вроде как все понимают, что от того, что будет больше открытых данных, это будет лучше работать в системе диагностики, лучше работать системой персолизации лечения. Проблема в том, что очень многие медицинские организации не заинтересованы в публикации данных, потому что беспокоятся, ну, потому что они не очень понимают, как работают искусственный интеллект, я не очень понимают, как в принципе работают технологии. Поэтому они думают, что от того, что они опубликуют свои данные и в конечном итоге, значит, не знаю, диагностов нужно меньше. они не понимают, что на самом деле в мире живет там десять миллиардов человек, И в идеале мы могли бы построить персонализованную диагностику и персонализованные решения для всех десяти миллиардов. И нам для этого нужны все имеющиеся у нас диагносты и еще в десять раз больше которых просто взять не откуда именно для этого и нужен и Вот и поэтому в разных областях ситуация скрудными данными устроены по разному, и, в частности, в некоторых властях очень мало открытых да. Ну и дальше как бы есть всякие штуки, связанные просто с существительными сложностями. То есть представьте, что вы взяли новую модель вы сожгли и так кучу компьютер, для того, чтобы обучить, а теперь вам нужно показать, что она лучше других моделей, и для этого вам нужно в идеале ее потестировать нам примерно всех бичмарках, которые есть. Это довольно долгая и утомительная задача, и ученый может себе позволить, наверное, потратить это время. а вот если бы в индустрии работаете и, не знаю, вы работаете в каком нибудь банке, хотите обновить ваш отбота вам бы как бы хотелось как то быстро оценить лучшую модель для ваших задач, чем предыдущая, или нет? прогнать ее на каком то небольшом количестве бенчмарков и понять, что она работает. И вот в современном мире хорошего способа сделать это быстро, к сожалению, нет. Ну и вообще, если вам интересно прогуливейше почитать подробнее вот ссылка на Прилин Приприн вышел на вкшопе Джем в прошлом году этот дженерейшен модул по, моему модулинг в общем это бакшоп джим При гемоп, который посвящен как раз сбор бенчмарков для генеративных моделей Башоп очень медленно просиде до сих пор не вышли. поэтому вот есть ссылкой на преприн на архиве но этот препринят он проходил рею и там. в общем, можете почитать дальше про то, как вообще все устроено валюции. Но теперь, когда мы поняли, в чем суть проблемы, что значит бенчмарки растут как грибы после дождя, так как отличается хорошие от плохих непонятно, как их себе стиматизировать непонятно. и главное, совершенно непонятно, какова предсказательная сила течь марков, которые у нас есть. потому что вы же в идеале хотите убедиться, что, ваша модель будет работать на новых задачах не совершенно непонятно от того, что вы ее на десяти, допустим, бечмарках оценили или на пятнадцать. Вот вы как бы значительно увеличили оценку того, что на новых данных вашей модель будет хорошо работать, или незначительно? Вот на все эти вопросы у нас нет хороших ответов, и, собственно, мы предлагаем некоторую метрику. Сравнение бенчмарков мы предлагаем назвать в честь такого советского психолога Выготского, который предложил идею, которая, собственно, он заметил. он занимался когнитивной психологией. У нас есть два таких столпактивной психологи, которые работали в Советском Союзе Это Лурия и Выгодки, они даже вместе работали. И вот Выгодки я обратил внимание на интересный феномен если ребенок разговаривать со взрослыми, то взрослые разговаривать с ребенком на более сложном языке, чем язык, на котором разговаривает ребенок. Взрослый дает ребенку более сложные задачи, чем те, которые ребенок может делать уже сейчас сам. То есть, грубо говоря, дети с детьми разговаривают на более простом языке, взрослые взрослыми на более сложно, а вот взрослые с детьми разговаривать на языке, который проще, чем тот язык, на котором они разгова взрослыми, но сложнее, чем тот язык, на котором дети разговаривать друг с другом. И он, собственно, вел это представил понятие то, что в английском называется зона прокс деблат, это как бы некоторая разница между тем, что ребенок может делать сам, и тем, что ребенок может делать при помощи инструментов или других людей, которые знают больше, то есть групп. говоря, вместе с учителем или вместе с какими то инструктором вы можете сделать чуть больше, чем сами по себе. И вот этот подход в принципе к оценке ну и вообще выгодске он он очень много думал именно про то как оценивать успех или не успех образовательного образовательной программы что такое образовательный результат, и постоянно выступал за то, что нужно оценивать в терминах ученика, а не в терминах единой какой то программы. Ну, грубо говоря, если у вас есть человек, которому явно есть сильная предосположенность к математики, довольно странно оценивать его результаты на основании такой же контроль, на основании которой вы оцениваете человека с задержкой в развитии. Да, наверное, если человек задержка в развитии решил на двадцать процентов больше примеров из вашей контрольные, чем месяц назад, то вы, наверное, достигли более впечатляющего образовательного результата с этим человеком, чем если у вас на двадцать процентов больше решил человек, который я не знаю луриак с российской олимпиадематике. И собственно, вот эта идея оценивать качество обучения, опираясь на учеников, а не на их результаты, нам оказалось интересной, и мы подумали, что надо ее применить к бенчмаркам, и ввели понятие расстояние Выготского. И, в общем, базовые идеи здесь написана Мы обычно используем бенчмарки для того, чтобы оценить модели, и на каждом бенчмарке оно представьте у вас есть задачка, не знаю, ответ на вопросы, и у вас есть процент ответов, которые каждая модель дала. Пусть у вас есть десять моделей тогда вот этот рейтинг модели на задачки. А это какая то перестановка из десяти позиций на первом месте модель номер три, на втором месте модель номер два, на третьем месте модель номер шесть и так далее. да, и у вас есть, допустим, задачка Б, и на этой задачки у вас, к примеру, задачи суммаризации текстов и какая то метрика, по которой вы эти модели спорите, и у вас соответственно, новая перестановка из за тех же десяти моделей, но на задач Кб. И обычно мы мыслим про бенчмарки в терминах, что если моя модель выше на всех задачах унчмарка, чем другая модель, то, значит, эта модель лучше. Мы решили посмотреть на задачи внутри бенчмарка в термин рейтингов. Ведь на самом деле если у меня задача и задача б, и ранжирование моделей на каждой задаче одинаковая, то в некотором смысле мне неважно знать результаты модели на второй задаче, если я знаю их на первый. Представим себе, что вот у меня есть ранжирование на задачу ответа на вопросы и поэтому оранжированию на первом месте модельным один, на втором номер два, на третьем номер три и так далее. а дальше у меня есть задача суризации и на нейранжирован ровно такое же. И интуитивно понятно, что в некотором смысле получается, что несмотря на то, что для нас эти задачи выглядят как разные, одна задача ответов на вопросы, а другая задача сумаризации. Для модели в некотором смысле задача одинаковые, потому что модели не меняют своего относительного положения в рейтинге на этих задачах. И собственно, мы предложили вести метрику расстояние Выготского как просто количество перестановок, которые нужно сделать, чтобы получить из рейтинга на одной задачей рейтинг на другой. То есть представим себе, что у нас есть очень простая ситуация. Пусть у нас будет две задачи задача один и задача два. и соответственно задача один у нас модели а б а и б с на первом месте модель анна втором модель цен на третьем б это, соответственно ранжирование пи а здесь у нас А бц это оранжеров сига. И вот идея ровно в том, что для того, чтобы получить из писигма, нам нужно сделать одну перестановку, и тогда у нас получится ранжирование соответственно дальше. Если количество перестановок нормировать, то мы получаем число, которое будет в интервале от нуля до единицы и в нуле у нас будет ситуация, когда у нас не нужны вообще никакие перестановки, у нас есть транжирование, а цена одной задачи и абц на другой, и нам не нужно вообще ничего делать. А в единице у нас будет ситуация, когда у нас в одной задаче Абц, а в другой задаче соответственно а, к примеру и для того чтобы сейчас нет цб так, и соответственно, чтобы из одной из получить другую, нам нужно сделать аж четыре перестановки, иначе оранжирование не совпадают. То есть, грубо говоря, задача номер один в случае, когда расстояние Выготского один, она максимально отличается от задачи номера. Вот давайте в этом месте сделаем небольшую паузу, и вы поднимите руку, если вы поняли, о чем речь. : Потому что. потому что это. это. это ордер, сет. нам важно, кто на первом месте, кто на последнем. Нет, ну вот мы не можем, мы не можем представлять, мы не можем представлять с конца в начало за один ход. это как бы строка. То есть мы не можем, нам надо переставки делать, меняет вкус. : Так? Именно так. Ну, вы логика в этом на самом деле такая, что поскольку это ранжирование на рейтинге когда мы сменяем, ну вот представим, что у нас есть четыре модели и мы хотим переставить местами вот эту и вот эту, вторую. Четвертый на самом деле означает, что нам нужно и третью переставить местами с четвертый, потому что после того, как мы переставили здесь у нас взаимная то есть, грубо говоря, у нас если мы переставим а в начало а вниз, то у нас изменится относительное положение б по отношению к обоим моделям. Да, и нам это надо учитывать. Давайте все таки вопрос про руки. Вот вы поняли, что происходит. То есть смотрите, у нас есть ранжирование моделей, и мы говорим вот у нас иранжирование оно порядочное, от самый хороший, самый плохой. и мы говорим, что две задачи идентичны в терминах расстояние выгодского то есть расстояние ними ноль, если оранжирование одинаковое, а есть зараживание максимально отличается. так что нам нужно делать много перестановок для того, чтобы из одного получить другое, то тогда мы говорим, что эти две задачи максимально далеки друг от друга. вся на состояние Выготского, да? Ну, к примеру, представим себе школьные предметы. Представься школьные предметы и скажем, что у вас есть математика и музыка, к примеру. Это, кстати, довольно интересная аналогия, потому что корреляция Пирсона изначально была предложена Пирсона в статье, в которой он изучал работу. Леонид, вижу, у Вас вопрос, отвечу у него закончу комментарии. Пирсон в своей работе, в которой вел к реляцию Пирсона, он вообще ее вел для того, чтобы найти то, что он называл коэффициентом интеллекта. Он обнаружил, что ученики, у которых хорошие оценки в школе по разным предметам, у них хорошие оценки по другим не знаю, говорит, высокая оценка полатыни у вас в англист высокая оценка и по муски тоже высокая оценка и и так далее. И были предметы, которые были слабо корреливы друг с другом, например, физическая культура, да? вот если у вас высокая оценка по английском и по музыке, это совершенно не гарантирует, что будет высокая оценка по фехтованию. Дело было в девятнадцатом веке, тогда были такие предметы, а с другой стороны, были какие то предметы, которые сильно коррелировали. к примеру, о том то, что мы сейчас называем вербальный интеллект, то есть знание языков или абстрактное мышление. Вот прям выделялись там вот эти компоненты достаточно хорошо. И вот мы мыслим в этих же терминах. Мы говорим, что если у нас есть две задачи, на которых школьники показывают сопоставимый сравнительный рейтинг, то в нашем случае школьники это языковые модели, то тогда как эти две задачи в некотором смысле похоже, и неважно, как они выглядят для нас. Может быть, для нас они кажутся разными, но для вот этих самых обучаемых они похожи и наоборот. Теперь можно ответить на вопрос Леонида. Леонид. Защий вопрос в такой оценке мечпарков предполагается. Что, модели на разных вич вичмарках ведут себя одинаково даже я су через средние агрегаты по классу моделей. Я не до конца понял вопросы, потому что мне кажется, во первых, он сформулирован как утверждение. Ну, давайте я прокомментирую. Смотрите, мы не агрегируем по классу модели, мы подходим в экспериментах. Я дальше про чуть подробнее скажу. Мы говорим вот у нас есть, не знаю, пейперс всуд это такой веб сайт, на котором собранный открытый результат тестирования разных модели на разных бить в марках, и мы показываем, как это работает, на примере конкретных межпарках и конкретного набора моделей. Пусть у нас есть десять моделей, которые на восьми задачах с бенчмарка как то работает. Я сейчас вам покажу, как это выглядит. А вот у нас есть бенчмарк галю в этом бечмарке есть некоторое количество задач и задач в этом бечмарке каждый тип задачи он отмечен точкой на этом граф граф это это минимальное дерево из граф который получается, когда мы рисуем в расстояние Выготского для глюк, значит, и соответственно у нас здесь сеньким отмечены задачи на понимание естественного языка, а зеленым отмеченные задачки, которые требуют просто оценки качества классификатора в терминах точности Черным это задача пара фраза бежим задачи сентиа. Но при этом если мы посмотрим на вот эту спян три то есть то мы видим, что в некотором смысле оказывается, что рт и мнлы, хотя вроде как они себя оппозиционируют как и то и другая задача нашел Франции они находятся друг от друга довольно далеко, а то есть схожесть между ними невысока, и не знаю, наоборот, там какие то задачки находятся довольно близко, хотя мы думали иначе. Соответственно, идея вот в чем чтобы мы взяли порядка дюжины модели, которые все результаты которых опубликованы на меч марки глю и исходя из предложенной выше формулы посчитали расстояние выгодского Взяли дальше порождающее дерево получившего, ск и вот от врождающее дерево. Оно показывает нам структуру Бенчмарка и показывает похожесть заданий друг на друга внутри этого парка. И мы видим, что многие задания довольно похожи. То есть есть задание, которое далеко друг от друга. Мы, по сути, не обозначаем ребрами задания, которые далеко друг от друга, но есть задачи, которые сравнительно похожи. И если вы посмотрите на эту траекторию, просумируйте ребра от внд рт, то вы на самом деле получите примерное значение ребра между в и рт, которое было, и мы его убрали, поскольку это порождающее дерево. То есть в некотором смысле мы можем померить расстояние от каждого бечмарка любой другой бенчмарка в нашем в нашей коллекции а просто просуммировав значение ребер на кратчайшем пути от одной задачи до другой. и это довольно удобно само по себе, и оно показывает некоторые неочевидное она вещи. Ну, к примеру, вот оно показывает, что задачи, которые вам кажутся с задачами начин могут быть как очень похожи друг на друга вот здесь так, и очень далеки друг от друга. Так вопрос в чате. Выбор модели как раз определяет то, насколько хорошо мы можем оценить. Да, совершенно верно, Леонид, Это собственный вопрос, который можно поисследовать, насколько устойчиво это штука к выбору модели. Мы на текущий момент пользуясь открытыми данными в том, что есть на Ппс Вск. И понятное дело, что когда модель мало, а стабильность такого рода оценки ниже. Однако в случае с языковыми моделями мы видим, возвращаясь к тому первому слайду. Кембрийский взрыв. Мы видим, что модель на самом деле тысячи скоро будут, и кажется, что в дальнейшем вопрос о стабильности отпадет, потому что модели очень много, и хорошим тоном является оценкой модели на достаточно большом количестве популярных гончмарков. Поэтому вот эта статистика по мере развития и публикации все большего количества языковых модели, она, кажется, будет становиться все более и более стабильной с этой точки зрения до другой. Давайте посмотрим пример Суперглю это следующий бенчмарк поверок Блю, которые сделали через год. в нем чуть больше задачи, они немного другие, а он, соответственно, немного другую структуру имеет. Но снова мы видим интересные вещи, то есть мы видим, что некоторые вот здесь как бы другая кодовая схема, здесь, соответственно, есть ответы на вопросы. Здесь уже начал мужчин в одном месте находится, и он довольно похож. но мы видим, что кэй здесь, оказывается, местами похоже друг на друга, местами не похоже. То есть у нас есть две кеи компоненты, которые мы, как люди, обе записали в коше. Ленски сказали, что они похожи, судя по тому, как модели на них проформят, и разные. Леонид, можно ли при такой оценке выискивать, на каких слах марки похожи и можно использовать только один из парок и отличаются и тогда найти можно использовать вымеч марка. Леонид, Вы молодец. Если бы Вы придумали эту идею год назад, то мы бы с вами написали статью. Но мы придумали идею с Максом, и, собственно, я сейчас про это как раз и покажу. Вот смотрите, это наша оценка попсу. мы прокачали датасет всех бенишмаков и статьей это соответственно, плотность размеров бенчмарков с точки зрения количества задач у них большинство обещ марков содержит себе две три задачи есть какие то бег парки больше пяти. Есть небольшое качество бечмарков действительно сложных и интересных, в которых десять пятнадцать задач мы на них сосредоточились это вот там суперглю, это плэйн геймс и так далее. вот это соответственно, распределение тем по которым бенфмарк опубликованный пеперс самое большое собственно, компьютерное зрения потом язык и вот игровой бенчмарк тоже достаточно большой интересный какое то количество на современных рядов и на разного рода методологические штуки, но это на самом деле такой синкретический раздел Попс сказал я бы не обращал на него внимания. но при этом вы видите, что, допустим, вещи, связанные с компьютерным кодом или с медициной, но они их мало, и тут не очень интересно что то делать в плане компрешено. А вот дальше мы сделали вот что. Мы взяли и разбили суперблю на публичной и частной лидерборды. То есть мы взяли два задания Булаки и Копа и сказали, что давайте вот они будут публичными и мультиверсии будут закрытыми, и давайте попробуем проверить, можем ли мы по публичному скору предсказать закрытый скот. Это примерно то же самое, что предлагают ли они. То есть я вам напомню, что булатю он находится вот здесь, а копа находится вот тут, они довольно далеко друг от друга. И соответственно, взяв открытыми задачки на концах порождающего дерева, мы рассчитываем, что мы сможем предсказать, что то, что, грубо говоря, между этими задачками лежит, то есть с и мультисии. И это действительно оказывается так. Мы чуть больше, чуть чуть позже покажу, как работает вот эта сжатия бенчмарков, покажу еще одно распределение. Возвращаясь вопрос Леонида, на который я уже ответил. Он предвосхитил в этом смысле мой рассказ. Действительно, стабильность оценки зависит количество модели, которые мы можем оценивать. Мода количество модели это девять моделей, которые на одном и том же бчмаки посчитанные для тех больших бчмак, которые смотрели там как бы, ну там порядка десяти модели было соответственно, нас это вполне устраивало, и, собственно, мы видим основные эпч марки для которых мы Делали вот клюв это китайский китайский бехмарк понимал языка он самый маленький российский чуть побольше суперглю еще побольше просто глю, на нем очень много моделей. И соответственно, вот что получается в термина компрессии это три разных классификатора, которые дают девяносто пять процентный интервал оценки точности с которыми мы можем предсказать скор на закрытой части бенчмарка в зависимости от того, насколько сильно мы сжимаем. И, собственно, вы видите, что если сжимать бечмар где то на сорок шестьдесят процентов, то можно с очень высокой точностью. То есть там свис в этом смысле дает сам большую точность и соответственно самую маленькую абсолютную ошибку. Вот как бы просто методом викторов опорных можно взять классификатор, который по шестидесяти процентам бичмака предсказывает скор на оставка сорока или, наоборот, и неплохо работает. То есть, грубо говоря, можно выкинуть больше половины меч марка и с точностью восемьдесят процентов предсказать результаты модели на выкинутой части бчмак. И это как бы очень важный финальный результат, который мы показали, и то, что как выкинуть часть бч парка, и то, что в зависимости от задачи мы можем ошибаться от пяти до двадцати процентных пунктов в абсолютном споре модели, что, кстати, само по себе суперзабавана, потому что сама методология до этого момента она вся была основана только на относительном положении моделей на бичмаке и вообще никак не учитывала абсолютной величиной того, как модели перформ. И в сухом остатке получается, что при помощи Выгодский единственность можно делать несколько вещей. Во первых, расстояние Выготского Позволяет вам представить бенчмарк В виде порождающего дерева которое, позволяет вам увидеть насколько, схожи или различные задачи внутри бич марка. Во вторых, вы можете выбрать после того как такое порождающее дерево построили некоторый набор задач, по которым вы можете там по сорока процентам мечмака предсказать достаточно высоко на результаты модели на оставшихся в шестидесяти процентов. И самое главное на самом деле, на что я надеюсь и за что очень хочется радовать это, чтобы, когда человек публикует новый меч марк он брал предыдущий бечмарк, относительно которого он утверждает, что он улучшается. То есть почти всегда люди публикуют новый бичмарк, не знаю про ответы на вопросы, и говорят мы делаем это потому что тот бечмарк ответ на вопросы протух и на нем модели работают так же как люди. Вот хочется, чтобы с появлением расстоянии Выготского как методологического инструмента люди теперь правильно учмак брали оценивали на нем десяток моделик из тех моделей, которые, у них есть скоро на предыдущем мечь марке и говорили смотрите, ребята, вот мы оценили расстояние Выготского между новым бенчмарком и старым довольно большое. Это означает, что новый бенчмарк действительно повышает наши шансы на то, что модель вот как бы генерализуется и ее обещающий потенциал растет, потому что мы включили этот бенчмарк в наш набор задачных, которых мы считаем качество работы модели. Ну, все, я все, что хотел, рассказал. Я думаю, что можно перейти к вопросам и дискуссии. Пока в ней участвовал только Николай Леонид. : Вы знаете, я тут у меня два комментария. Во первых, я с некоторой иронией отношусь к желанию Шмидхубер утверждать, что, он все придумал хотя уважаю безмерно ряд в работу, но мне кажется, что все таки есть какой то кодекс научной чести. и мне кажется, мне представляется, что он почему то его нарушает, я уж не знаю почему, но это говорит с мое личное оценочное суждение. Кто я такой, чтобы судить Шмидхубера? Ему и без моего мнения отлично. Повторых. Мне кажется, что есть общая тенденция, с которой я лично борюсь, и всем моим русскоязычным коллегам советую присоединиться к этой битве. Это на самом деле как куда более важная, мне кажется, часть развития мирового такого культурного пространства. Это то, что вообще наука предполагает, то, что вы развиваетесь внутри некоторой интеллектуальной традиции. И вот эта пресловутая фраза Ньютона, что я стоял на плечах гигантов, а до этого не знаю, исламские ученые которые придумали формулировку так сказал такой как как было на самом деле, знает только Аллах, а до этого еще древние греки в принципе придумали ссылаться на документы друг друга. Это вот идея того, что мы находимся внутри некоторые интеллектуальной традиции и ее развиваем. И мне кажется, что, к моему сожалению, многие русскоязычные ученые не обращает достаточно внимания на тот интеллектуальный потенциал, который русскоязычная культурная традиция несет. И всегда, когда можно популяризовать какие то достижения русских ученых прошлого веков, и я стараюсь это делать. К примеру, мой любимый пример это мы все знаем, кто такая Да Лавлась, мы все знаем, кто такой Чарс Бегаш, ну, может быть, многие знают как некоторого первого автора концепции компьютера, как первого программиста. Но у нас был такой Николай Корсаков, который в тысяча восемьсот тридцать втором году написал записку на создание инсуальной машины, попал в Русскую академию наук, и он предлагал в отличие от Бебеджи, который хотел паровой вычислитель. Корсаков предлагал делать вычислитель, в котором информация кодировала с размерами Брука. Он предлагал у брука три размера плюс вес это четыре переменные. и он, значит, пытался так вводить данные в некоторую машину, которая при помощи весов должна была производить вычисление, на что получила ответ от господина Остроградского, что господин Корсаков потратил много ума, чтобы люди могли обходиться без ума. Идея, конечно, прикольно типа, но делать мы ничего не будем. Вот то есть вот такой есть персонаж, забытый многими. Я вот очень топлю, чтобы Вышкинский Центр искусственного интеллекта, который в Петербурге, возможно, появятся, назвали в честь Корского ровно в рамках этой же идеи, что давайте как бы находить людей из нашей интеллектуальной традиции и помнить о том, что они сделали классные штуки. : Да, я бы тоже предлагал побиться в какой то момент Википедии за то, чтобы это была двойная инфляция, это алгоритма но. : Мы, да? Ну, во первых, там, в статье есть еще другие картиночки, там есть, по моему, картинка для ран супруглю. А если нет, можно мне написать письмо, я пришлю, она у меня где то есть, может быть, мы просто ее не публиковали, я сейчас не вспомню. Во вторых, мы сейчас делаем более интересную штучку. Мы хотим попробовать посмотреть, можно ли такую же штуку применять к школьным материалом, ск говоря метрика, ей все равно, кто обучающийся, и нам интересно попробовать генерализировать эту штуку и посмотреть, можно ли ее в принципе для педагогического дизайна использовать. : Понимаю, это мы просто так в статье предлагаем так назвать эту метрику мы ее придумали и хотим назвать честь российского советского исследователя ну. так, бывает когда, в. : Делаете новый результаты вы можете как то назвать? Это один из бонусов занятий наукой, и я советую им пользоваться, если результат хороший, и пользуйтесь на здоровье. Можно таким, да? Важно сказать, что эту статью у нас взяли на коллинг, то есть в июне, в мае, будет в турне конференции по вычислительной энгвистике, и мы там будем рассказывать. Она попала в основную часть конференции, то есть тоже пока есть Приприн, просидев в июне, но статью накольник уже взяли Можно ли таким способом сравнивать не только по ансамблю модели, но и модели ансамблюсов, модели пантов люди сравнивают уже давно, и там много такого сделано, и это как раз, ну, там есть много интересных результатов. Там немного другая логика, потому что довольно странно ранжировать датасетты относительно друг друга. Поэтому там обычно идут какие то усреднения, агрегации, их много разных, и про это как раз есть много разные прикольные математики. Поэтому я бы не советовал пользоваться этой методикой, я бы советовал именно этой методикой пользоваться. когда у вас есть задачи, на которых у вас есть оранжирование того, как работают на них модели или другие ученики. Это может быть не только, мы полагаем, что это может быть любой интеллектуальный агент. не обязательно модель, не обязательно языковая модель. Но будет ли запись публично это. : Нам нечего скрывать, мы ученые. Разница между жильцом и ученым в том, что жилец сохраняет знания, а ученый распространяет. Это смена парадигм лет пять назад случилось. : Но прежде чем откладится, и кратко резюмирую видимо, нету. Спасибо большое за приглашение. Я надеюсь, что было интересно. и если у вас есть какие то дополнительные вопросы у Николая и у организаторов этого мероприятия есть мои контакты, можно написать мне письмо и задать вопросы. : Хорошего вечера.

The post Научно-технический вебинар «Расстояние Выготского: подход к оценке схожести интеллектуальных задач» first appeared on Компания НТР.

Научно-технический вебинар «Оценка неопределенности для глубоких нейронных сетей»

Alexandra Koroleva — Wed, 14 Feb 2024 08:21:59 +0000

Спикер о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценка на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.

Презентация: https://drive.google.com/file/d/1pKfX-AeEt4Nw8dzo3P9cAPe6I-voq-9y

Видеозапись: https://youtu.be/2gKejxGZvIA

Ну что ж, давайте начинать и к структура побегу. То есть сначала мы поговорим брат вообще, зачем нужны мирные суду. Я понимаю, что он скрестили большинства из вас это просто не стоит, но тем не менее пусть немножко вспомним, за одно обозначением поведем, а дальше поговорим зачем нужна собственная неопределенность и попробую дать какое то определение что такое неопределенности ей как снижать и в конце поговорим про методы как можно было бы при оценивать. Начнем с простого примера когда примерно все написать это вейная модель. значит, поговорим мы уже про сложные методы, которые позволяют для не рост все оценивать, и в конце немножко обсудим, что еще не сделано и что нам мешает это сделать. А, собственно, очень краткое введение в неродной сети. То есть мы предположим, что у нас есть некоторые а некоторая сдача машина обучения классическое. И в этом случае обычно у нас есть некоторые готовы представление объекта, то есть это некоторый возраст, пол это все. и мы строимстую модель, например, модель классической регрессии, где мы просто берем скалярное произведение представление на параметры модели и еще там все это прообразу сгму и чтобы у нас получилось корректная, вероятно, с конца а и вот как то так это устроено обучение если мы все обучили и моделька нормальные, нужны признаки есть, все хорошо работает, и в нероностях необходимости не возникает. Возникает позднее, когда мы смотрим на более сложные данные. Но, к примеру, возьмем какую нибудь картинку, и оказывается, что картинки у нас нет, никакого представления объекта по хорошему, у нас есть только эти изначальные описания набор пикселей, из которых довольно трудно лип какие то разумные по решающее дерево или фишку регрессия использовать для прогноза но чего нибудь сложно вам хотя бы и дженна кот либо собака на картинке, то скорее всего ничего хорошего не выйдет. Точка зрения качества. Поэтому обычные споры нервной сети, которая состоится с двух частей. Но тело сети и головы это компонента тела, она служит для того, чтобы из картинки сделать представление некоторый электор, который потом удобно использовать для того чтобы смочь простой модели пришли к польную задачу сдача построение представления это сдача построения отображения и сводной картинки был вектор который можно использовать простые модельки и собственно, часто говорят про универсальное представление сегодня говорить не будем просто посмотрим немножко потолка как обычно обучают нейронные сети и как не расти устроены то есть обычно, предполагаю что это не это некоторый набор преобразовании нашего слоного входа икс коли нашей модели мы берем первый слой при образовании га один с параметрам это один второй слой и так далее пока накатом слоям не получим полную полную модельку и которая дает представление которое очень большого набора при образовании в этом дала нам некоторые ветта никогда не получили представление то оказалось, что можно, например, высказывать класс объектов. у некоторых есть кот. Поэтому, наверное, мы хотим, чтобы вероятность скота была высокой и число справа от вероятности, потому что на картинке вот это конкретный объект этого типа. и мы хотим, чтобы наш прогноз прогноз вероятности были похоже на реальность и так мо организа обучение с в этом случае мы идем обратно и пытаемся поменять параметры так чтобы в итоге нашего сет по достаточно хорошо и предсказываем. формально можно сказать, что мы это распределением высказываем было похоже. но вот это вот вот распределение. Обычно других меток у нас нет, и одна единица настоящий класс. И, собственно, как мы обучаем? То есть представим, что у нас один параметр и вот это вот кривая, от которой сокращено на некоторое качество модели, и мы, собственно, и теруемся удаляем очень приятно адама и с и в итоге то на начального приближения получаем со звездой он локальный оптим, который дает высокое качество. На самом деле у нас изначально есть некоторая проблема в том, что мы делаем, а именно, как правило, наши метки. Они вообще никак не учитывают, что у нас может быть что то не вполне уверены. То есть когда он берет пример замечающие урки, мы считаем, что для него мы в точности знаем ту метку, которая у нас сидеть это кошка или собака. каких нибудь катасов у нас выборки обычно не бывает. Мы знаем, что половина кота пять пятьдесят процентов собак. И поэтому по молчанию, когда мы все это обучаем, то никакой адекватной пс у нас на самом деле нет. Мы очень плохо представляем чего то, о чем мы не видели он чаще горки, в частности мы не видели каких то город вероятностей, об этом нам трудно получить. И теперь давайте попробуем подумать уже более в терминах и в терминах неопреляности. Смотрит не определенность это самка то общее явление для людей для нейронных стей сам мы можем мало паранзировать. что то наши прогнозы не очень точны. То есть выходим пытается проанализировать погоду у нас две недели дальше нет, и мы даже можем сказать, насколько мы не уверены мы это недель когда мы не уверены аналогично с решениями покинуть инвестиции очень трудно предсказывать у нас сверхнизкой курсаций и там какие нибудь еще приложения. Это медицина тоже. Нам бы хотелось оценить, насколько мы уверены в том вагнозе, который оставил врач. Соответственно, у нас есть какая то несовершенная либо неполная информация. То есть в принципе правильный ответ про болезни нас съесть и про погоду через две недели у нас есть ответ. но в силу того, что информация несовершенно, которая доступна на решения правда, болезни погодно, оно тоже будет неточна. То есть у нас есть некоторый пробежит между тем, что мы знаем, и тем, что мы не знаем. Мы хотели бы как то все это думать. на самом деле это не продаст все. А про неронной сети. то есть нам бы хотелось аналогичное рассуждение и аналогичные идеи. а в контексте неронных сетей использовать то говорить правильно мы уверены не уверен пример, почему это не очень тревальная задача расправ в этом с. То есть у нас опять же есть моделька, которая обучалась на кошечка и собачках и вполне может определить, какая вероятность того, что игорь правильной единицы то есть у нас кошеч или то, что игорь круто с собачка на вероятные сшачки какая нибудь маленькая, но она показывает драха то, что должна выдавать модель. Непонятно, как все это определить или как бы опять же в контексте какой то реальной жизни нам вот это знание про прирост оказывается полезным. То есть первое естественная идея то есть которая, наверное, приход был тем, кто занимается как раз большими языками моделями это то что, галюцинации в нервных с тех про факт и про то что, он хочет с ггировать, это тоже вполне себе откладывается в том, что у нас есть какая то неопределленность, которую мы хотели бы как то конфицировать. В целом медицине тоже возникают проблемы университета, которая диагно ставить. То есть у нас две проверки права пробирки все нормально, мы взяли кровь, и она там достаточно много, достаточно понятно будет, когда мы будем анализировать, например, какая группа крови. И слева что то непонятное, а мы взяли мало материала, он не очень хороший, и по хорошему нам нужно это эксперимент переделать, чтобы даже правильно определить такой простой штук, как группа. Третье важное предложение неопределенности это активное обучение. То есть надо бы хотелось обучаться не только не на всех объектах, на самом деле пытаюсь обучаться эффективно, то есть взять как можно меньшего размера и обучиться на них. Поэтому мы сэкономим время на обучение и стоимость разметки. И кажется, что правильно как раз брать те примеры, которые модели максимально не уверены только у нас какие то привлекают сложности. Ну, например, мы хотели ассоциировать опять же котов и отвечать их от собак. Пример справа премьерный кот амершлевый это очень неявный кот, и, наверное, таких котов хорошо было бы побольше положить на шурку, что модель тоже поняла что существует и как, собственно, консировать? получается, что для Не Расст могли бы нанести пользу, ведя некоторую оценку уверенности модели ну или что то же самое один вел с неуверенностью неопределенности. В этом случае получается, что у нас есть более доверенный искусственный интеллект, который нам, наверное, будет более полезен, особенно в каких то критических областях. Но опять более формально это говорить то, что они хотят для регрессии, для фальсификации. То есть вот тга сверка, например, у нас одномерная функция с входом с выходом игрек и красной этой точки вычайщей банке и, соответственно мы хотели бы чтобы по прогноза вот головой но еще давали некоторые доверительные тела в каждом точке вот это вот закрашенные области встречи о том чтобы не не по модели выяснить, а именно про то, чтобы в точке порталу неверно или, например, целиком выдать спределение, которое нам нужно для классификации. Тоже в принципе все похожим образом устроено. Примерумерный два признака один, два и есть вот эти точки оранжевые, точки синяя мы хотим как то отличать, и получается, что где то посередине нужны не уверены. если мы поим в сторону углов, то мы должны быть уверены ли мы раньше о красном классе или мыс класс, в общем, там должна быть высокая вероятность, что объект принадлежит к симу классу, но и наоборот. То есть вот такое, что мы бы хотели сделать. При этом часто мы хотели бы взависимости в постановке задачи моделировать немножко разные неопределенность. и тут как раз показано, какая бывает неопределенность. Обычно говорят про сон неправилось данных и мода сотня модели. А первое это про то, что у нас есть какой то шум данный, который, по сути, мы никак устранить не можем. То есть мы, например, мере дней в длину и меньше чем деление оперене мы померить не можем никак. у нас там слаба была у меня на стеке на первом курсе которая раз брата и была по что он, собственно не прину мы так мы не уберем этот почности прибора, с которыми нам нужно будет начать. и тут слева примерно высокой данных справа низкая неправданны потому что с якушу у нас почти в у нас нет не а не модели это как раз в тех точках, тех интервалах, когда у нас вообще ничего нет у нас есть сне точки от нашегощающая выборка и соответственно торлак унс у нас вообще никаких сроков и на модель будет очень неверно в своем прогнозе. И соответственно, например, если мы говорим про активное обучение, туда интересно скорее точки, которых у нас высоко не принес моделью, потому что кажется, что если киточки две выборку то мы не принес модели уменьшен и в итоге все как модель улучшится, потому что она будет лучше знать от точки штаб они так плохими быть перестанут добавление точек со своим шелом как то мало гуляет на качество модели ну, разве что можно немножко перебралась на тюрку, но, наверное, это, мир учная вещь то есть больше кидать точек куда для нас побольше, ну, собственно можно то же самое придумать фальсификацию то где то у нас будет песок знали сокий шум, но эта картинка кажется, что это вообще какой то мусор в реальной жизни это как меня по середине вот это тоже как то собака. Ну, есть какие то сложные примеры, которые хорошо быку добавить и собственно качестве работы модели улучшить. и, собственно, давайте подумаем, как можно это задача решать. И думать мы будем на примере линейной модели. особенно что не происходит, полагаю, что у некоторых выборка данных, для которыми как дача регрессии то есть хотим некоторым эк остановить игрек начнется любой фсггресс с предполагаем конкретную форму в нашей модели то есть уберем склярное произведение кода на некоторый векторов давляем шум и это наш игорь, который мы наблюдаем что хорошо, что можно все это зафиксировать до некоторой степени это то случайно вместо боя с агрессия и соответственно. вот мы хотим, например, остро такую линейную модель в зависимости цены дома от его площади относ точки наблюдения и хотим что то вроде красный криво провести или подумать что то уже в направлении неточных оно взять распределение вот это и пост нас вы и что на самом деле с точки зрения Кимбаяс но подходит. Изначально у нас было какое то априодное распределение параметров по сути со средним ноль дисперсия с то есть по сути вот этот мешок ункции потому что каждое значение тектона соответствует функция и меш функций очень очень разных. Сверху как раз примеры функции из этого распределения. И соответственно, когда мы шпот наблюдаем, у нас получается постное распредление, которое обусловлены на эти сильние точки данные, и у нас все равно распределение, но гораздо более приятно. То есть вместо вот этого хаоса мы получаем достаточно порядочным на рассмотрение, которое учитывает как раз природно регрессии. можно вполне все это посчитать то можно посчитать кого на среднее и какая коационная матрица в параметра у нас вот не выписаны очень хорошо получается вот такое распределением получили про то, насколько наши крыва может плавать, и из этого мы можем получить ужетельное распределение то есть насколько у вас может быть плавать как раз в выход модели игрек. а мы не берем интеграл вот это распнем присоед и дальше не заодно это знаем, как у нас устроено. Игорь, уточни его распределения, потому что у нас сейчас есть некоторые вот это распределение нормальное распределение. Второе распределение тоже нормальное распределение с прошлого Аслан оказывается, что наград не репрессии мы взять можем, у нас получится тоже явная формула. вот такая формула и заданным в среднем в заданной дисперсии пусть это все очень хорошо сказал да, шикарно мы можем все умеем читать как раз вот эта дисперсия наценка неопре которая нам нужна и может на нее посмотреть. Посмотрим. давайте уберем лишним мы и получим что нибудь такое. То есть у нас на картину сначала посмотрим. То есть у нас там, где есть точки, как то неопределенно меньше наших прогнозах там где то нет нас не при серая зона одна това пять процентов она несколько побольше. то есть мы его на картинке приобим, что если сдано меньше окрестности точки то он с ней приносит побольше. Формальная формула тоже примерно про это же. то есть у нас есть какая то симма в квадрате, которая просто шоу дал которые которые везде даже на точки. Но и вторая часть насколько выкиданные которые некоторые не похоже на эти данные, которые есть Наберем новый икс читаем до него вот формула И вот так мы взяли сидели неопределенность явно оформился прямо на регрессии. и в целом для моделием тоже можно получать. ну в целом оказывается, что это не совсем то, что нам нужно. Ну, пример более сложные модели. Тут уже мы отправляем расправление на функции нелинейных нелинейных, а лучше опять же на картину посмотреть, что происходит и тоже получал при посте распреление. То есть какие наши идеи? Проток устроена функция постновления данных. То есть если данных мало три точки верхняя левая картинка с красными кривыми то получается что, у вас очень небольшой разобраться шатание у срена. если мы наблюдаем, то у нас начинается более строго выстроены и все функции которые мы скрес будем наблюдать условно данные и устроена лучше. И опять же мы можем нарисовать кривые примеры таких функций можно нарисовать интервал который, я вам уже написали. то есть это все еще нормально случай мы можем примерно посчитать, что нам нужно, но, конечно, на самом деле на территори несколько другое. То есть дней на репрессии, да, вот это вот ребрести процессов, мы все это можем сделать, но у нас на самом деле не вполне то, что мы хотим. Мы хотим для нерона седия то, что мы хотим оценивать напло для какой нибудь до вполне конкретных не для методов более простых язык сверч, нервно сливающий язык моделей везде хотим оценивать неопределенность, но пока не можем, потому что у нас получается все эти формы не ломаются, когда мы нагло берем, пытаемся баточнее не берутся. И на самом деле хотелось бы нам эффекты избежать то, что мы ищемся под фонарем, а найти что нибудь там где то нам нужно делать, потому что работают мы, конечно, побольше счастье с целью не. И можно сейчас мне как нибудь вопрос задать, какой то вопрос по первой части того, что я вам всем говорил.
: Коллеги, пожалуйста, вопросы. Но мне кажется, вопросы начнутся там, где мы к неродным сетям приблизимся.
: Ну давайте попробуем проверить ипоте.
: Вот есть вопрос. Алексей Трипецкий спрашивает а что, если просто дисперсии ответов посмотреть вместо интеграла?
: Формальность у нас фиксированная модель то у нас как бы не дисперсии. То есть если мы предсказываем дисперт, собственно, то, что мы делаем на самом деле, это и есть дисперсии ответа. То есть смотрите, что у нас произошло. Мы взяли этот интеграл, получали распределения этого распределения и среднее, и дисперсии, дисперсии. Мы считаем, что настолько неопределенности при этом оказывается, что если бы мы забыли про то, что у нас если не продлялась в этом дайте, у нас не очень интересная формула было бы, осталось бы просто симма в крае, ну, может, не совсем то, что нам бы хотелось. Вот, наверное, если я правильно понял вопрос, ответ примерно такой.
: Алексей спрашивают, имею в виду ответы ансамбля.
: А собственно просаблидальщиков поговорим так что это вопрос креп предвосхищает то, что будет дальше. Я думаю сейчас мы как раз до этого дойдем и обснимся сам хороший или плохо и, собственно, что как правильно воспользовать почему то с точки зрения теории тоже что тосно. Давайте дальше, если других нет ответов. То есть получается, что мы взяли басовские методы, басовское предположение под параметры и часов и получили вот такой штук. и, собственно, дальше опять будет смотреть на этот интеграл, который можно представить в двух видах. То есть у нас есть, по сути, непрах есть неопределенность выгреки параметры мы знаем, мы все это интегрируем получаем распрельнее игоряка в конкретной точке икс играл с местными сплениями, которые мы интегрируем по это остается только игр а смотрим нагло понимаем, что мы взять его не можем примерно во всех случаях крыли самых самых простых поэтому нам нужна некоторая все дальше и поговорим То есть берем использу сампсе, говорим, что мы умеем атакаты из наших, из нашего распределения и говорил, что можно взять так вот такой суммы, по сути заменив наши исходные распределении как это присловие поступления Мпк. Так я вызвал берическое распление, которое, по сути, бото функций в эти теттакаты, которые просплировали раст взял. И в целом, наверное, если у нас это будет много таких цпированных, то будем сходиться к нашему интеграу, и в целом наша оценка будет достаточно точна. При этом мы можем посмотреть на самом деле на три отдельные штуки. Я окажу, что нет особого времени рассказывать подробно про все. Можете мне поверить, что можно написать некоторые формулы и получить от общества неопласти для классификации примерно в таком виде. энтропия экс экспект пригибши мы берем на от ожидания патта то есть у нас на класса задач классификации, соответственно тп это вектор вероятной принадлежности каждому из класса можно посчитать мы от ожиданиям по набору ну вот это он нашим всем моделькам и потом нестерпи вот этого вот этого распреления полученной от это будет общая определенность а дальше мы можем, похоже, вам развести не принес данных то есть это меня сами ожидания и антропию то считаем интервью или окно вот это наберем в ожидании тропе и у меня модель то есть про модель неверны можно получить в раз что это называется болот. и опять же можно жить с этим ожиданиям и оценить помощью выборки из Кита. то есть это то же самое что он самый не получили то есть взяли ну ну довольно се образом то, что он сам это примерно то, что нам нужно. И давайте немножко поговорим про глубоки асабле и как мы можем делать их получше, особенно в контексте нашей задачи. Тест. Мы сказали, что если уката есть, то у нас задача в целом неплохорушается. Теперь вопрос в том, как нам взять вот эти токкаты. Тут есть три популяр варианта которых каждых есть некоторые свои преимущества первый. Вариант берем просто и запуска оптимизации мио С карас запускались с разных седов поэтому получаем достаточно разнообразной модели или для не раз сетта работает мы получаем обычно мы неплохо разнообразно модели второй вариант это вот это вот распление это просто вида как то опроценировать сможем а сонная выгода и получить какое то более просто распление с которым мы уже умеем работать и, брат самый интеграл, например, нормально. Ну, третий вариант это взяли какой нибудь семплирование и, собственно, мы чуть попозже посмотрим на картинка про это, но, собственно, вот.
: Тут у нас есть вопрос что вы думаете о меддах конформал придишин Они? Являются по, сути применение, в медине паретрической статистики порядковых ранговых статистик к оценке неопределенности также не параметрической.
: Кафо прише это очень интересный момент, который как раз в этой области тоже довольно активно используются последние годы но в целом они похожи в чем то на это все и даже больше похоже на то, что я буду говорить в конце когда мы от ансамбле уходим обратно в сторону одной модели, потому что он сам в это не очень эффективно и хоть степени нехорошо работает, но мне кажется, что методы которые более явно указываются потери они работают чуть чуть получше. То есть с точки зрения теории это все очень хорошо пригикшн Я Как то был даже на на конференции ездил про комфортный придикты, а там даже был впни, которое, наверное, знает автом видят. И как? Ну, как бы кажется, что пока это немножко не монстрим, кажется, что на практике это чуть чуть похоже работает. Но, впрочем, возможно, это я пытался преодолеть и тогда, чтобы наформ при некторов хорошо и собственно, смотреть только конференцию там тоже на пердиктор он не встречается чуть понег.
: Дмитрий Раков спрашивает вслед А что скажете насчет а Парксиацию лаплас Насколько работает на практике то что смотрел в публичном доступе все несколько упирается в лос функцию, с, которой мы обучаем модать, чтобы пригнить на практике.
: Тоже очень хороший вопрос. Вопрос в принципе можно сказать, что максима классы это некоторый вариант вационные выводы где мы заменяем наше севое распредление с мощным методомачных моментов на нормальное раскрыли. Понятно, что это нам все сильно обращает. Но как этой картинкой нам говорит о том, что возможно это упрощение через веру. Представь такую функцию потерь, точнее даже постную плотность. И собственно, что нам даст речь? Даст вокруг какой нибудь одной моды разбросанные точки, то есть вокруг модус это будет точно спортима целого год вот как нормальное аксмиров как бы не вполне хорошо. и, собственно, у нас есть еще метод, то есть вариант когда мы берем гипан смело пош мы сойдемся несколько раз разумы, но будет тоже неплохо только у нас будет все это может калишком уверены это, наверное, нужно, взять несколько похоже, и сокна есть подходы, которые пытаются брать спание вокруг этих точек, и в принципе у них неплохо получается. Но я бы сказал, что на практике вот таких глубоких на самом принципе неплохо работает лучше, чем вариционные подходы мультифак. Мне кажется что за ним немножко будущее это в принципе работы есть и так это все испольную, но, наверное, можно лучше. но в целом на самом деле вот когда мы завершают этот блок франсабан а хочется сказать, что в принципе это примерно что может быть для С то, что мы сейчас имеем дело для какие нибудь методы модели ари а с нервно сидел то есть приятно лучше с точки зрения качества с точки зрения непленности. Но если у нас Аслес катер то у нас все раздорож получается и обучение и френс и хранить нам нужно как раз больше модельми хочется понять, можно ли сделать все это немножко дешевле. И давайте посмотрим а, собственно, посмотрим, в чем идея а я вот вот этого подхода. ну, в общем то, все. Дмитрий. Я согласен с Вами. То есть там вопрос дон под Дмитрия как быть со ск все то что сбруи дорогой, я согласен. мне кажется, что тут нужно заняться пониманием того можно, ли это первый дешевить или по на то, что все будет как то так есть. к сожалению, мне кажется что до конца этого не решен задача, кажется, что направление выбрано правильно. но, собственно проэффективные методы они будут устроены довольно просто. То есть берет нашу кошку опять несчастную, но по другому мучаем и получаем некоторое представление это самого вектор и смотрим на наших классы плошка тишка, собачка взяли посчитали эль два расстояния между представлением отображения и центрами базировали на конрате взяли экспоненту и не оправиться это будет минимум по этим самым обратным состоянием, то есть насколько мы далеким ближайшего к нам центр класса в данном случае это класс кош и сам довольно хорошо. Причем авторы рисуют довольно красивые картинки, сравнивая с ассамблеей. с ассамблем. То есть у нас слева называемый глубокий он сам или справа модель брюк на основе вот этого расстояния. И оказывается, что, например, такая модель лучшая с точки зрения локальных свойств. то есть глубокий от сам не будет уверены даже там, где у нас точек нет если в достаточно далеки от действительности бандае тут то у нас желтая зона низкой неопределенности и высокомерности у нас у нас поведение получат то мы уверены это, конечно, некоторые модели примерно в целом переносится на многомерный случай и на не тоже. то есть это изначально то это было, конечно, всем тесным для не получать а другой вариант более в кинос как раз вот наша работа совместной с моим бывшим магистром Ромой Кайли С Паном, собственно, можно попробовать взять отдельную голову и научить ее предсказывать скейл предсказывать температуру для нашего объекта который будет в самом характеризовать настолько мы не уверены настолько мы должны приезжать на вероятность кроме пятимерным распределением и в целом мы можем довольно неплохо это все дело это нельзя. обучили сначала обычную нейронную сеть, да хочу мы говорим про метрик нет поэтому так важно и взяли еще потом обучили небольшую отдельную голову для из центра. и у нас есть кейс, который говорит насколько вы не уверены вот так получилось это миссия вполне работает тоже одной. Но вот пример того, как работает. Вот мы взяли топ десять процентов примеров, про которые наш ме слов вы не уверены взяли только десять процентов примеров для кто рассказал суверен нижний, верхний ряд, нижний ряд, соответственно, и видно, что вообще какие то непонятные призраки появляются на сборке. и понятно, что в деле не уверена, что это нарисован снизу вполне нормальные лица, с которыми удобно работать. то есть ну, все кажется, что модель с точки зрения такого счета адекватно таблице показывать не буду потому что он кажется, не доле звучит. Посмотреть можно? Посмотреть мы выиграли у всех, с кем вы сравнивались сравнивались адекватным подходом на тот момент. А вторая как бы то в чем проблема на самом деле за двух подходов Дюкали сказал Феса в том, что мы, как правило, берем какой то один слой, какую то одну размерность. Это на самом деле не вполне хорошо, потому что кажется, что информация по неопределенности, она должна храниться везде в наш С. И то, что на самом деле я сейчас некоторые способы подумать про то, как мы можем поймать Неп. Посмотри на сеть причем нефтивно. И тот подход, который, кажется, у нас работает, это подходы для своей рецепты гологи. Но про это я думаю, что сейчас не стоит. Расскажи просто просну уберем нашу. Вот у нас на самом деле даже не сверт сеточка а трансформер униристом натаном матрицы большим количестве, и мы считаем, сколько эти матрицы и как они устроены, что некоторые признаки матрис и некоторые признаки, которые характерт насколько матрасы но на друга не пахло по первое матроса, на вторую третью и так далее. в итоге собрали все это один большой вектор. Суть такое представление есть, и оказывается, что это представление, оно более кажется лучше ловят. Вообще, что у вас происходит? особенно контекст неуверенности модели табличка Покажу то, что сейчас получается. Мы взяли, сравнились с другими методами для языковых моделей взяли некоторую метрику, которая называется площадь от кривольки отвергания или отвержение и оказалось, что у нас самая большая площадь и при мы приближаемся к такому оракул. То есть больше часа площадь в принципе не может для выборов, а мы, в общем так, поближе, чем все остальные тоже это и марка.
: Да, у нас Дмитрий Раков опять задает вопрос Расскажите, пожалуйста, детально, насколько спектральная нормализация влияет и работает в подобных методах. Видел во многих работах, правда, терминист консетом. Идея с баркодами крута, я тоже про нее думаю. Это чем то близко к анализу активаций, но, кажется, подобные признаки проще анализировать.
: А, Дмитрий, спасибо. Действительно, про баркоды а тоже мне было интересно посмотреть как, они работают они как то работают а, в, общем так, как, мы доделаем надеюсь, что, подадим стал прошл про специально реализацию, она важна потому что, ну, то есть мотивация, которая обычно приводит, это то, что у нас есть некоторые увеличится. то есть у нас расстояние пространных представлений оно похоже на расстояние пространстве, и за счет спектральной нормализации там вот это все бериши получают. То есть у нас есть относительное разумное расстояние с точки зрения того, как у нас устроены объекты исхода пространствия, и это помогает. С другой стороны, мне кажется, что налючи какая то нормализация нужна, потому что помочь пространство представления оно устроено дом странным образом и так она становится устроена стоится более прядочно вот. и, наверное, на этом я буду заканчивать даже. То есть, мне кажется, остался один на один сайт, в котором много пункт один часом попробуйте пробуйи посмотреть на те методы, на которых все работает, и постоять на то, собственно, что нам нужно. И кажется, что можно какой то вариант синергия это у нас сделает. то есть в принципе городские процессы и продуцентами когда мы берем последний слой но, то возникает проблема с тем, что нам хочется все таки брать больше стоев. и ничего эффективного отдела не было. То есть формально есть, конечно, работы про глубокие галки процессы но как будто ее хорошей с точки зрения качества эффективности, оно, собственно, можно все равно стремиться к чему то похоже на ансамбле. при этом у нас возникает новый дискус дис, дискурс, кажется, это называется а про то, что на самом деле обычный язык модели, там все по другому устроены. С одной стороны, у нас есть ансамбль некоторое видят, потому что каждая голова это что то отдельное, как будто что то отдельное важное может смотреть на сколько они похоже не похожи. С другой стороны, обычная ассамблея должна тренировать и они крови и прочее. даже если это сделать он дает в меньшей степень какую то важную всякой неопределенности. То есть вот у нас передний край науки и, как во многих в других частях искусственный интеллекта это большая такая модель думать, думать, как для них оценивать. При особенно сложная задача, когда мы не просто классификации решаем, мы когда мы греем ответы на вопросы. ну, в общем то можно закончить на том, что еще бы теорию подтянуть немножко, как это можно считать, когда нет, но надеюсь, что я еще раз я смогу про это рассказать более подробно. вот как то как то так.
: Алексей Трепецкий спрашивает Они экспериментировали с колибровкой вероятности работает лето за распределением трейна.
: Колибровка работает вполне, то есть опять же все зависит от задачи. Но сам калибровка когда мы пройдем даже на трене, причем простая колибровка это просто температуру покручиваем она вполне нормально работает. То есть на практике, наверное, это будет некоторой степени достаточно, но я подозреваю, что прям с ней и тут как раз могут помочь какие нибудь там более сложно устроенные по модели вероятность есть направления, где они пытаются использовать на близящий глаз флоус такую генеративную модель, которая любое рассмотрение приводит на грубо и в целом это может помочь. Могли распределение в контексте вопроса получается? Ну, наверное, более сложно копировать, но пока каждый отст еще не успели.
: Так, коллеги, пожалуйста, еще вопросы, пока коллеги собираются. еще с вопросом у меня такой. А вот Олег спрашивает, а что лучше всего работает для оценки неопределенности, для задачи регрессии, а не классификации?
: Но я бы взял ну, либо ансамбли, либо в целом. Сейчас есть подходы если он хочет что то поешевле и отца не хочет застроить и мы опять же говорим про неронке то соло можно просто взять нейронку которую умеет предсказывали размеры горный или предсказывать дисперсии ск с нормальным распредлением там можно принять своего солнца янаю и обучить. Но по сути, наверное, я бы сказал, что это некоторые вообще не контильная регрессии для нейроны. Посмотрите, там есть некоторые набор интересных работ, который ростом интереса.
: Вот я бы даже продолжу вопрос Олега. Пусть у нас имеется модель регрессии, который работает на очень дорогих данных, то есть это такие производственные данные, получение каждой точки данных которых очень дорогое. Вопрос как нам узнать, сколько данных нам нужно в тестовой выборке, чтобы быть уверенным, что у нас дочная точность модели.
: Еще хороший вопрос, ну, как бы ответ, наверное, будет чуть похоже, потому что на самом деле все это будет очень специ зависит от задачи. На самом деле мы про это думали в контексте даже в диссе. момент есть проект теоретический результат легавских процессов взяли, проанализировали, как должно быть устроена выборка и сколько нам дочке должно быть, ну, собственно, ответ очень должности все зависит главное степунса которую, он так как зависит тоже там будет за ядраского процесса, то есть насколько она будет гладким. Поэтому, в общем то, нужно просто аккуратно смотреть. И опять же там можно еще немножко с другой стороны на самом деле. Ну, с другой точки зрения смотреть на это создать что тут на самом деле вопрос, который разделяет, он уже даже не проточен сп по интегра по всему домену, который нам интересен. И тут что можно сделать? Можно попробовать тоже явно оптимизировать это все. Есть критерий, который называют оптимальность. Для этого можно просто случайно, случайно только не бросать и по количеству там опять же даже порядок скорости необходимости будет зависеть это он.
: Ну как? случайно точки набросать невозможно, потому что это производственный процесс, и каждая точка это человека день работает для инженера на производстве.
: Как то, ну, как бы на практике я не видел примощь большой разницы между способами генерации главные эксперименты для допного планы эксперимента сложный хагоризма либо это смощью от рано верного заполнения нашего дизайна. А то есть тут нужно просто понять, каком регионе все это интересно, и там наброса достаточно полное количество точек, чтобы судить. Но тут, наверное, скорее вопрос в оценке ошибки. включить проци тоже это, мне кажется, про специфик обычный как и правильно устроить то есть, наверное, мы можем по.
: Может быть, Вы можете какие то ссылки на работы релевантные.
: Присво, я пришл. Напишите телеграмм. Я после доклада. Завтра, видимо.
: Пришли? Хорошо. спасибо. Так, коллеги, пожалуйста, еще вопросы. А вот у нас пропущенный вопрос. Пропущенный или нет? Теоретическое обоснова от Дмитрия Ракова вопрос, наверное, одновременно с Олегом задал.
: Смотрите, ну, в целом мы можем прямо то есть ну и, собственно, я этим работаю на деле а хоть сейчас про конститутивно думаю на сонач если верно сок на регрессии, то, по сути мы можем посмотреть, насколько та диспекция к зее может быть сильно отклоняться в реальной жизни от того, что у нас есть. Понятно, у нас есть некоторые спецификация неправильно с модели на модель на самом деле. Но если говорить про статистику, то получается, что мы обычно забиваем или рассматриваем больше по модели и то есть ансамбля на самом деле тоже обоснованно. То есть если все это посмотрите еще, раз то мы говорили что у нас есть сходимостьперического распределения интеграл интеграл по умолчанию это что то хорошее, ну, то есть это точная оценка расходования, то, что модель правильная. То есть на пальцах теоретически все это должно работать. на практике возникает некоторые сложности, потому что он стоит атаката изнашего распределения и суру довольно трудно и ваших а сам не будет, в общем то вопросы открыто еще есть атреминист концерт, да, смотрите. А тут тоже есть соображения. Да, Спасибо большое за уточнение. А то есть есть вот такого рода штуки делаем то в целом у нас все это свой ценно в первую очередь оценки неопности данных уточнение нечто средний зал пленности модели но в целом это вещь не самая плохая, потому что дочь похоже на то, что модели для нас с процессом а тут у нас и формально все вроде как дисперс мы оценили хорошо везде, и неформально у нас картинка довольно красивая получается. то есть он по точке есть неп побольше там, где точки нет у нас не просто не просто меньше а, точки есть у точек нет вашей причины не при погонщиком в такой постановке задачи вполне решена для как бы для афикации там, конечно, не по применимо но опять же силу того что мы хотим понимать про то в целом это хорошо не было плохо, но скорее хорошо для теории, поскольку конкретно хорошо уже будет задать модель сейчас. Спасибо. Вот у нас такая снистика сотнуть пани можно и нужно поменять.
: Хорошо, спасибо. Коллеги, еще вопрос вот до Дмитрия благодарность пишет алексей Спасибо за доклад и ответы было очень полезно. Ну, видимо, больше вопросов нету. большое. Спасибо. А есть комментарий, что в больших языковых моделях есть такая конструкция, называемая миксеров эксперт которая внутри себя содержит немножечко ансамбля вот. и это очень по архитектура, которая станет все более и более популярной, судя по многим признакам. поэтому, вероятно, залез во внутрь этой архитектуры можно что то еще интересное получить Отдумал, да? Хорошо. Спасибо всем участвовавшим. Еще раз напоминаю, что через неделю у нас семинар с Женизбеком Солбековым Из Пд университета про шифрова расшифровывание шифрования с помощью гентного спуска от. Всем спасибо. Спасибо, Алексеевич, До свидания.

The post Научно-технический вебинар «Оценка неопределенности для глубоких нейронных сетей» first appeared on Компания НТР.

Научно-технический вебинар «Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных»

Модератор Модераторов — Thu, 14 Dec 2023 08:40:55 +0000

Спикер о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.

Ссылка на регистрацию: https://ntrlab.zoom.us/webinar/register/2816215944077/WN_xrlj59cBRiCMM9HAM3ZJzA

Презентация: https://drive.google.com/file/d/16tBu_BBYmOeyuw62TU0AqzZDjPYdHkHX

Видеозапись: https://www.youtube.com/watch?v=RDylNfNofUo

Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР
Да, всем добрый день еще раз. Я Александр Коротин, руководитель и сельской группы в Сколковском институте науки и технологии и научный сотрудник института искусственного интеллекта. И сегодня я расскажу как раз про те методы, которые непосредственно я и очень многие из моих коллег разрабатываем, а именно это методы на основе так называемой теории оптимального транспорта для генеративного моделирования и преимущество. В своем докладе я буду фокусироваться на применение этих методов к так называемым задачам непарного обучения. Понятно, что, возможно, многие слушателям не знакомы с оптимальным транспортом с непарным обучением а. Вот по по ходу презентации я вот все эти термины аккуратно в виду поясню, что это такое, для чего оно нужно и почему это логично, скажем так, использовать в транспорт для построения конкретных генеративных моделей. Ну а начну я с того, что напомню просто зрителем, что же такое вообще генеративное моделирование и на какие, можно сказать, подклассы, задачи в нем обычно подразделяются? Вот обычно под генетивным моделированием, под построение моделей для синтеза искусственных данных. То есть, например, у нас есть какая то уже известная выборка данных, ну, например, вот будь то выборка лица знаменит и так далее, и мы хотим генерировать какие то новые данные, которые были бы похожи на данные, которые у нас имеются в обучающей выборке, например, за тем, чтобы аргументировать датасеты, то есть увеличивать размер выборок для последующего обучения каких то моделей распознавания или чего угодно. а поверх этих вот классическая задача генеративного моделирования такая самая простая задача генеративного уделлирования. Это, собственно, оно и есть генерация данных, которые похожи на уже имеющиеся данные и обычно под словом генеративное моделирование особенно последние лет, наверное, десять даже в принципе вот подрывают следующий подход к решению задачи генеративного моделирования, а именно предполагается, что данные, которые у нас есть, ну, например, лица людей это какая то выборка из какого то сложного многомерного, вероятно, самого распределения данных. И чтобы генерировать вот эти вот данные сложные, обычно делается как генерируются какие то простые данные, которые элементарно генерирует случайный шум с помощью случайного генератора. У каждого компьютере он есть. а дальше к этому случайному шуму применяется какая то сложная последовательность преобразований, описываемой обычной нейронной сетью, которая из этих простых объектов делают сложные объекты, то есть она может принимать на вход а простые объекты случайный шум и путем преобразовании генерирует из них сложные объекты из того распределения данных, которые нам нужно. Ну и, естественно, вопросы, как такую не рассеть обучить, чтобы она с этой задачей справлялась. Ну, в общем, вот эта задача, которая здесь описана как первый случай, классически называется задачей безусловной генерации. И за время существования генеративного моделирования, конечно, претерпело очень много всяких изменений. Надстройкой и вот эти все современные модели для генерации изображений типа там далее кондинский и так далее, они, конечно, внутри себя решают вот такую задачу на самом деле, но с дополнительными наворотами, а именно об условной модели и так далее. Вот другой класс моделей генеративных, которые обычно называют не столько даже генеративными моделями, сколько моделями перевода домена, это модели, в которых по одним данным нужно сгнировать другие данные, например, где такие задачи возникают. Но это все возможные. например, задачи обработки изображений, например, кларизация переносили сверхразрешение и так далее, да? То есть в этих задачах на вход генеративной модели поддается какой то объект, уже довольно сложный какой то объект, и нужно изменить характеристики этого объекта так, чтобы объект сначала лежал в одном домене и приобрел трибуты какого то другого домена. Вот и в контексте данной презентации мы будем говорить в основном о задаче генеративном длине второго типа, да, То есть когда по одному одному объекту уже в самом себе сложному не случайному шуму нужно сгнировать какой то другой более еще обычно еще более сложный объект. и такие задачи называются с задачами обычного перевода домена вот то есть сказать что для всех решений вот этих всех задачей и первые задачи, безусловно, генерации и задачи генерации типа данные в данные люди уже за наверное примерно десять лет такого активного развития области генеративного моделирования на придумывали уже очень много подходов, как решать эти задачи. Один из самых известных подходов это подходы на основе генеративного соседательного обучения, то, что называют ганны. Там есть еще вационные автокадировщики, и на самом деле сейчас один из самых популярных таких стоитовзарта то, что называется подходов, это подходы на основе дифузионных моделей дифузии, и эти подходы активно сейчас развиваются. Вот то, что то, о чем мы с вами сегодня будем говорить, это подходы на основе теории оптимального транспорта, и это на самом деле нечто, что по духу наиболее близко, наверное, к состязательному обучению то есть вот генеративным создатель неродным сетям но. В то же время у методов в тального транспорта есть очень такая важная взаимосвязь и дикузионными моделями через так называемые мосты шреддингера это такие специальные дифузии. Но вот этот аспект в презентации сегодняшний мы не будем затрагивать, вот и будем фокусироваться в основном на связи с созрательным обучением. Ну и давайте начинать собственное изложение самой презентации. Значит, для начала я, перед тем как рассказывать непосредственно о методах, естественно, поговорю о том, какие задачи эти методы будут решать. И, как я уже сказал, фокусироваться мы будем на задачах перевода домена. А что же это за задача перевода домена такие? Ну, несколько пример я уже привел, сейчас я вот еще раз по ним пройдусь чуть более конкретным. Как формулируется обычная такая классическая задача перевода домена? У нас есть две выборки данных икс и игрек икс из одного домена, игрек это данные из другого домена, и требуется построить некоторое по этим данным некоторое отображения. но обычно это не ровно сети, которое могло бы принимать на вход новые объекты и входного домена и преобразовывать их так, чтобы они становились объектами из второго домена вот и вот как раз вот это свойство возможность модели принимать на охот новые данные и обычно называется обобщаемостью в машинном обучении. И вот здесь на слайде внизу два таких довольно общих широким, я бы сказал, класса таких задач перевода домена. Первый класс это улучшение изображений, когда у нас один домен входной, то есть изображение икс это изображение, ну, допустим, в плохом качестве, в плохом разрешении, а изображение игрек это, соответственно, изображение в лучшем качестве, в более высоком разрешении. И от нейронной сети что требуется? Требуется уметь по картинке маленького разрешения генерировать соответствующую ей картинку в высоком разрешении. Второй аналогичный пример это перенос стиля или модальности между доменами. Здесь обычно домен это какие то, ну, допустим, изображения с какими то своими атрибутами. Ну, вот как показано в данном примере, первый входной домен это реалистичные фотографии людей, второй домен это фотографии, стилизованная под аниме. И что здесь требуется по входной картинке человека показывать? А как бы этот человек выглядел, будь он, ну, допустим, не мы героем? Вот это как бы два таких общих класса задач. Перевод доменной. Давайте чуть больше пройдемся по уже более конкретным практическим примерам, где такие задачи вообще возникают. Ну, начну я с задачи сверх разрешения. И здесь мне хотелось бы на самом деле такой довольно общийтари дать, что на самом деле сверхразрешения эта задача одна очень много где везде вокруг нас. ну, например, во многих смартфонах, наверное, где, то активно с семнадцатого восемнадцатого года стали появляться вся всякие технологии сверхразрешения, а именно цифровой зум. То есть компании в какой то момент поняли, что дальше наращивать камеру в телефоне это довольно дорого. А зачем наращивать как бы ну, новая железа, если можно, скажем так, дешевле за счет программной компоненты с цифровой сверхтре внутри телефонов. И действительно, сегодня как бы прогресс в части желез. это, конечно, не остановило камеры телефона все лучше и лучше. но и именно такая программная часть, связанная с технологиями сверхзрешения, она тоже постоянно улучшается. и, наверное, первопроходцами в этой сфере были там Гугл хуаве. У них в телефонах одних из первых появились вот эти технологии сового сверхразрешения. Естественно, всем пользователям хочется, чтобы картинка, которую он фотографирует на телефон, была в отличном качестве. И это можно достичь не только за счет хорошей камеры, но и за счет пост обработки с помощью нейронных сетей и методов сверх разрешения. И вот по факту решения задачи сверху отношений это является решением задачи перевода домена поскольку мы из картины к хотим найти отображения из картинок каких то, возможно, не самого хорошего качества, в картинке качество еще лучше. то есть другой домен. А с другой стороны, если мы говорим о, например, технологиях, связанных с видеоартами, и Вид Амд уже давно давно несколько лет имеют у себя технологии такие как элис и, диплернинг суперсемплинг и унд по, моему она, фс что, называется фасуперсплинг, который как бы во время игры в ту или иную игру, во первых, обычно повышают частоту кадров, то есть с более плавную картинку, а с другой стороны, еще могут повышать сверх разрешения. То есть к чему я это говорю? К тому, что на самом деле задача сверх разрешения всегда вокруг нас, даже если мы этого не замечаем. Конечно, есть и более какие то специфические приложения задач улучшения изображений в части сверх разрешения. ну, например, при анализ спутниковых данных, поскольку на спутниках снимки защиту камеры зачастую не самые лучшие по разным причинам. для того чтобы анализировать эти снимки, возникает задачи, связанные с повышением разрешений на этих снимках. Другим интересным примером задачам улучшения изображений является задача колоризации. когда у нас по входной картинке в черно белой нужно посмотреть, а как бы эта картинка выглядела в цвете. И вот это как раз еще один пример задача перевода домены. Когда у нас первый домены это черно белые картинки, второй домена цветы картинки и нам нужно построить не рассеть, которая бы осуществляла перенос между этими доменами. Я думаю, зачем казация нужна, ни у кого вопрос не возгает. Ну, потому что, например, есть очень много старых фильмов, которые, конечно, интересно было бы посмотреть уже о Современник и посмотреть их более в цвете, а вот там, например, активно эти технологии и используются. Вот. Ну, это что касается задач улучшения изображений. И вот если мы посмотрим на задачу улучшения изображений, которые обсуждались на предыдущих лайдах, у них можно заметить одну особенность. Но на самом деле входное изображение, входное изображение они были очень сильно похожи, То есть фактически входное изображение было какое то чуть чуть ухудшенный, скажем так, версии целевого изображения, которые мы хотим получить, и модель должна была так нарисовать, доправить какие то небольшие детали, чтобы улучшить это самое изображение. Обычно, когда говорят про задачи перевода домена, имеют в виду даже не только суперразрешения, сколько более общей задачи, в которых нужно осуществлять перенос домена между довольно таки сильно отличными друг от друга доменами. Ну, например, вот самый первый пример здесь сверку слева здесь по сегментации изображения нужно построить некоторую реалистичную картинку дороги с машинами соответственно в святоформе и так далее, которая я бы соответствовала этой сегментации. То есть фактически это задача обратная к задаче сегментации, и она уже сильно отличается от задач сверх разрешений и так далее, потому что здесь при переходе из одного домена в другой нужно уже очень много деталей добавить на картинку. И плюс сами объекты по себе они на самом деле имеют немножко разную структуру. но то в том в том плане, что здесь разметка по классам, а здесь уже какое то реальное значение ргб пикселя. Зачем вот такие задачи перевода домена вообще решать, да? То есть, ну, если мы решаем задачу справа налево, то есть по картинке получить сегментацию, это понятно. Задача сегментации нужно для распознавания объектов, для того чтобы, ну, например, беспилотный автомобиль, чтобы понимал, что вокруг него происходит. Обратная задача нужна немножко с похожими целями, но немножко с другими. Дело в том, что вообще большинство задач перевода домена, который не относятся к задачам улучшения изображений, они по какому то очень простому объекту, который легко получить даже без генеративных моделей, генировали какой то более сложный объект, который уже получить довольно тяжелое или дорого. Да и смысл решения задач перевода домена заключается в том, чтобы уметь по входному простому объекту генерирует какой то более сложный объект А зачем вот этот сложный объект будет нужен ну, например, спом на генерировать вот таких вот сегментаций можно очень легко даже какое то ручное правило банально там на питание написать как какие то более менее вменяемые вот такие сегментации генерировать. А если у нас будет модель, которая умеет под каким сегментации гнили сложные объекты, то есть реальную картинку дороги то мы сможем получить с генерировать искусственную выборку для решения задачи сегментации непосредственно да? То есть имея такой парный датасет искусстве с генерированной, мы можем использовать его для обучения методов для решения задачи игниации, поскольку у нас есть правильная маска того, как должна сементироваться вот эта картинка. То есть, иными словами, смысл решение многих задач перевода домена заключается в том, чтобы из простого объекта с ген какой то сложный, чтобы сэкономить ресурсы на получение вот этого самого сложного объекта а именно, например, вот, здесь справа снизу такой простой пример когда по скичу нужно с генерировать сложные изображения, то, есть, например там раскрашную сумку, ну, понятно что скетчи нарисовать сло тому же художнику совсем просто там раз, два, услуга три минуты, чтобы нарисовать вот такую сумку, и нужно потратить какое то время. Конечно, если будет модель Эль, которая будет уметь преобразовывать простые объекты, сложные, это просто будет экономить время, ну, например, тем же людям пользователям вот и. Да вообще вся вот эта тема с задачами перевода домена началась активно, наверное, с две тысячи семнадцатого года, и началась она с довольно таких игрушечных относительно предложений, я бы сказал, может быть, даже модельных. В каком смысле? А именно переносы стиля. Да? То есть вот у нас есть, например, картинка фотография. мы бы хотели посмотреть а как бы эта фотография выглядела, будь она картиной Ван Гога или К Сзана, или Мане, или вот у нас есть картинка, где нарисована лошадь а что, если бы это была не ложь? Зебра. Вот это, конечно, во многом модельные примеры перевода домена, которые не всегда мотивированы какими то реальными практическими задачами. Но вот вот эта статья, которая здесь, на нее ссылка, она, собственно, и во многом дала старт развитию вообще в целом методов перевода домена. И следует сказать, что есть вполне себе такие очень даже мотивной практикой исследования в этой области, а именно связанные с медициной. Например, вот, Ну, например, первый пример, который здесь приведен, это эрт мозга. Дело в том, что эмерт мозга делается, скажем так, в разных модальностях. то есть сканер фактически Мтс запускается с разными характеристиками, и вот в зависимости от того, с какими характеристиками сканер запущен, будут получаться разные снимки. Но смысл этих разных снимков в том, что в зависимости от того, в какой модалисти полученный симок, можно разглядеть те или иные дефекты головного мозга, ну там болезни, например, да и врачу, например, или даже банальный комната алгоритм машину обучения, который работает поверх вот соответственно этих снимков. Конечно, хотелось бы увидеть как мозг полу с главного мозга, полученный сразу во всех модальностях, чтобы была полная картина там у врача. Но очевидно, что во многих такого рода предложениях, чтобы получить все три скан во всех трех модельностях, но, условно говоря, нужно запускать сканер в три раза больше, что как бы банально, в три раза дороже, да и просто банально даже не всегда у всех пациентов есть снимки, во всех модальность, и здесь возникают естественные такие задачи перевода домена. А что, если бы у нас были только снимки в одной модальности, ну, например, ты один могли бы мы их нейроны сетью перенести в другую модальность, чтобы показать врачу как, головной мозг как с головного мозга выглядел бы в другой модели, чтобы соответственно врач мог определить какие то там другие дефекты, которые можно определить только по этой модальностям. Вот и такие медицинские приложения тоже отчасти очень сильно мотивируют развитие в области вот эти все переводы домены с помощью генети из моделей. И здесь нужно сказать, что на самом деле исследователи в этой области телесы на два типа это те, кто верит, что модели действительно могут как бы справляться с такими задачами, и те, кто скептики, те, кто считают, что, ну, как вот, условно говоря, вот у нас есть с ними в одной модальности, ну как мы можем из него извлечь то, что находится в другой маданности? Это тоже в принципе логично как бы аргумент вот. Но так или иначе исследования в области идут, и по крайней мере научной статьи в этой области, их все больше и больше появляется. Вот и, наверное, еще такой приведу выключение такой еще интересный пример, связанный с гестохимическим окрашиванием. Это тоже пример из медицины. Смысл здесь в том, что пациенту вводят некоторое вещество краситель в ткани, и как бы в зависимости от того, какое вещество ткань окрашивается, и соответственно дальше по этой ткани и покраски можно опять же судить о болезних, дефектах каней. И, естественно, здесь бывают разные красители, которые предназначены для того, чтобы отлавливать разные дефекты, а также бывают разные некрасители с точки зрения стоимости, дешевые, дорогие. И вот здесь возникают вполне естественные задачи а что, если бы мы использовали дешевые красители, получали бы как бы результаты? дальше этот результат с помощью технологии нейронных сетей глубинного обучения преобразовывали бы так, как будто этот результат получен более дорогим красителям. Вот то есть, подытоживая задача перевода домена, во многом все мотивированы либо тем, что мы по какому то простому объекту хотим получить какой то более сложный, который сложнее просто получить, либо у нас объекты просто из соответственно разных модальностей, и мы хотим один тот объект посмотреть в разных модальностях вот И да еще момент на самом деле вот сколтехе в центре прикладного и у нас сейчас также разрабатывается там библиотека так, называемая сай Мель ежи для прогнозирования всяких климатических рисков, связанных с лесными пожарами, загрязнения воздуха и так далее. вот и там одним из модули вот этой библиотеки как раз является и модуль повышения сверх разрешения вот этих самых климатических моделей. Дело в том, что есть такой физический симулятор Сип шесть, который позволяет им делать как бы прогноз погода, то есть он прогнозирует такую карту погоды на некоторый регион, ну, можно сказать, участок, к России и эту карту на самом деле трехмерный тензор, ее в принципе можно просто вализировать. Вот здесь, собственно, так и сделано как картинку. Это просто для понимания вот но у этого, во первых, это физический симулятор и его результаты. И вот результаты этого физического симулятора поддаются как входной признак на соответственно дальше моделям, которые осуществляют эти прогнозы лесных пожаров и так далее. Но у этого симулятора есть проблема Во первых, он физический симулятор, то есть он не в точности соответствует реальности, а во вторых, он делает прогноз на достаточно неплотные пространственные решетки. Поэтому вот одним из напрямодуле вот этой библиотеке является модуль, который использует некоторый реальный датасет реальных исторических данных о погоде, о климате для того чтобы сверх разрешать вот эти вот соответственно данные, получаемые с физического симулятора. Вот и это как раз задача перевода домена, которая в себя включает два компонента. С одной стороны, она сверх разрешает, с другой стороны, она уточняет данные в том плане, что статистики данных, которые получит физическим сенатором, они приводятся к статистикам реальных данных из реального мира. Вот. Ну и на этом я закончу водную часть, которая связана с предложением всех этих задач перевода домена. И давайте поговорим о том, какие задачи бывают с математической точки зрения. Обычно рассматривают две постановки этих задач задача парная и задача не парная. Значит, что такое парная задача перевода домена. Но это когда у нас есть выборка данных из одного домена, выборка данных из другого домена, и на самом деле у нас есть пары, то есть у нас есть пара объекта и ходовым доменом, и соответствующему объекты из выходного домена. Ну, это классическая задача обучения с учителем, когда у нас для каждого примера просто есть другой примеры, мы знаем, что мы из него хотим получить, что, конечно, значительно упрощает обучение моделей. С другой стороны, парные собирать обычно долго и дорого, и поэтому часто возникает непарная знать. То есть когда у нас просто две независимые выборки объектов из одного домена, из другого домена. И тем не менее нам нужно умудриться построить какое то осмысленное отображение между этими доменами. Ну, вот если мы говорим про парную задачу, тут тут на самом деле все просто. Поскольку у нас есть пары, это, как я уже сказал, обычно задача обучения с учителем, и ее можно буквально вот решать тем же способом, что и решается обычная задача регрессии. Мы берем там, не знаем, в какую то нейронную сеть и хотим сделать так, чтобы по объекту и центра изучающей выборки она генерировала соответствующему объекта. Игорь Кент Но это такой самый простой подход. Сейчас, конечно, над этим подходом миллион миллиона круток. Есть, в частности, и генеративной модели обусловленные, и дефузионные модели в частности, и так далее. Вот. То есть в принципе парная задача, она во многом довольно простая, и уже огромный чло способов и понимание, как ее решать, в области уже давно имеется. Но проблема в том, что парный датасет собирать, как я уже сказал, долго, дорого, а я засует просто нереально. Бывает такое даже да? Ну потому что даже если мы посмотрим вот этот модельный пример с преобразованием фотографии людей выниме, как нам собрать парный датасет. Но, видимо, логичный способ это просить художника стилизовать каждую фотографию руками, то есть как то перерисовывать это фотографию в аниме, что, понятно, долго, дорого и, в общем, очень непрактично, что и ограничивает прими всех вот этих парных методов. Поэтому часто на практике приходится рассматривать непарный сатап. это когда у нас есть две независимые выборки, то есть выборка реальная фотографии людей и выборка фотографии анимали. Но этот цветап очень сложный и довольно проблематичные. Почему? Потому что у нас мы не знаем для объекта входного как должен выглядеть объект и второй домен, куда мы его должны отобразить, что, вообще то говоря, доставляет на некоторые сложности. Ну, например, вот здесь вот справа на слайде что показано? Показ два возможных решения таких задачи непарного перевода домена, задача непарного обучения и, естественно, вот первое решение то здесь показано как который вот эту красную шапку переводят в зеленую не девушку, оно как бы бессмысленно, да, согласитесь, потому что оно не сохраняет как бы содержание входного изображения, и, естественно, на практике нужно искать какие то отображения, которые были бы осмысленны с точки зрения задач с точки зрения зада то есть это в основном за отображение отображений, которые сохраняют контент изображения, например, цвет форму волос и зависит от задачи. Вот поэтому, значит, что мы с вами сегодня будем делать вс оставшееся время я расскажу о том, как задачи непарный перевод домена решать с помощью так называемая теория оптимального транспорта, медального транспорта, но и тем, как это делать. Естественно, оптимальный транспорт это не естественный способ, не единственное, прошу прощения, способ прошить задачи. Люди уже придумывали огромное число методов для решения задач непарный перевод домена. Большинство из них базируются на генеративных издательных сетях. Сейчас в эту область начинают, скажем так, может быть, в последний год вникать проникать идифудионные модели потихонечку вот. Но у большинства методов есть большие проблемы, а именно что они во многом вс хорошо работают на практике. но их обучение обычно это некоторая сложная задача. И почему? Ну, потому что вот здесь приведен примерно слайде пример. Пример функции потерь одного из довольно известных методов юнит, который с помощью инкодеров декодеров осуществляет период обмена. И видно, что функция потерь, то есть целевой критерий, который оптимизируется на этапе обучения, он очень сложный, он состоит из огромного числа членов оптимизируется по шесть иных сетей и при этом здесь очень много гипер параметров вот эти лямда которые очень тяжело настраивает. То есть в принципе здесь, к сожалению, логика того, что мы выбрали какой то оптимальный наборгепер параметров и везде их пример не всегда работает, к сожалению. приходится при работе с новым доцтом опять тратить какое то время учительные ресурсы на то, чтобы найти вот эти параметры какие то. Вот это первое. А второе то, что вот эти методы, хотя они в принципе на практики и работают, они обычно не имеют никакого теоретического обоснования, да? То есть в принципе вот у нас, вот когда вот мы такую модель обучили, почему мы можем быть уверены, что у нас выручится именно вот такое осмысленное отображение, которое сохранит контент, а не вот такое отображение? К сожалению, гарантии, в общем случае, нет. Вот поэтому мы сейчас поговорим с вами как раз о том, что же такое оптимальный транспорт, какие гарантии дает он и как с помощью него учить вот эти вот модели для непарного переноса домена. Ну, для начала давайте я в виду формальную математическую постановку задачи оптимальной транспорте. что это такое? Представить, что у нас есть два вероятно, расплений по ику. можно считать, что это просто какие то две горы массы суммарной массы один ка. вот и мы хотим перенести вот эту массу одного распени в другой, вероятно, вспени. То есть, условно говоря, мы хотим взять лопату и начать переносить массу из одной горы в другую. Вопрос как это сделать? Понятно что и давайте скажем, что мы хотим найти некоторое отображение те которое, переносит массу пф масуку. Но очевидно, что таких тобжений может существовать много, да, То есть мы можем переносить массу как то попрямы, можем там как то крест накрест словно говоря и так далее и вот и вгете естестве, вопрос о том, а как сделать так, чтобы оптимально перенести эту массу, то есть чтобы на перенос этой массы затратить в некотором смысле наименьшую энергию при переносе массы? Ну, потому что понятно, что как бы напрягаться никто не хочет, а хочется быстрее закончить работу. в слов говоря может так это мотивировать вот и с математической точки зрения. Поэтому обычно ставится так называемая задача оптимального транспорта. То есть мы говорим, что для того, чтобы перенести точку икс из одного распределения в точку игрик, ну ты икс как там в другом распении, мы будем платить некоторую цену, транспортную цену. то есть мы сколько нам будет стоить перенести массу из этой точки в эту точку? Ну, например, эта цена может быть просто расстояние между этими точками. Или вот обычно берут квадрат расстояние и мотивируют тем, что как бы не знаю, чем дальше нести, тем больше ты устаешь и тем как бы затрать мне это все.
Вот вот тут Александр нас спрашивает этот перенос массы чем то похож на метрик вассерштайна В.
Язык да это в точности метрика Штайна, это частный случай метрики вообще метрики оптимально транспорт. Сейчас я расскажу об этом. Смотрите, задача оптимального транспорта стоит из двух вещей. Первое. Мы хотим найти оптимальное отображение, которое переносит одну гору мас в другую, то есть те тесс и звездой что это что такое это оптимальное отображение Это оптимальное отображение должно минимизировать некоторые критерий критерии работы по переносу из массы из в другое. Как эта работа определяется? Ну, мы говорим, что мы платим закажет перенос каждой точки икс точку ты от икс, ну какую то сумму и берем просто средние по всей нашей массе, по распредеию, которую мы должны перенести. Вот и мы ищем минимум вот этого критерия по всем отображениям, которые переносят массу из пвку, и соответственно оптимальное отображение, которое доставляет здесь минимум. Оно называется оптимальным транспортом от вооружения и обозначается через тесса звездой. А вот эта самая цена, которую нам нужно затратить, чтобы перенести массу одного в другое, называется оптимальной транспортной ценой. И метрика Вассерштейна это частный случай. Вот это общие функции стоимости оптимального транспорта. а именно, ну, например, классически метрика, что и на один, например, которая, наверное, то же самое популярная в области генеративное моделирование тоже встречается в модели как вы все штанган и так далее. Это значит, когда у нас цена это просто расстояние между двумя точками. Ну, собственно, все, да? вот то есть это меткоеш это просто частный случай оптимальной транспортной сцены, вот и все. Да, и нужно сказать, что вот это самое оптимальное транспортное отображение, которое приносит массу из распения в другое, оно, обще говоря, сильно зависит от функции цены. В каких то случаях оптимальным будет ну, вот, наверное, то, которое показано здесь слева, такое интуитивное оптимальное, как, как и надо переносить, чтобы не затрачивать энергии много, а в каких то случаях при каких то функциях стоимости вот и это может оказаться оптимальным. То есть вот это оптимальная транспортная стоимость естественным образом зависит от функции цены здесь расследует.
Да, еще здесь подразумевается, что оба распределении они в одном.
Пространстве они на самом деле нет, формулировка общая. то есть они могут быть и в разных пространствах. А просто в чем сложность с разными пространствами? В том, чтобы определить функцию стоимости, если мы на одном пространстве. Ну, понятно, но это какое то расстояние там, да? А если у нас разные пространства, как мы сравниваем, условно говоря, одномерный объекты, двумерный объект это не тривиально, но это можно определить. То есть в принципе задача оптимальный транспорт может рассматриваться между любыми размерностями. Сложность именно в том, как ее поставить, как определить функцию, стоимость. Спасибо. Вот здесь что мне следует сказать пару слов таких, что на самом деле задача оптимального транспорта она называется задача монжа потому что французский математик там по, моему то ли семнадцатый то ли на стыки по моему семнадцатого и восемнадцатого века ее предложил и вот он как раз интересовался перенос перенос массы, например, оптимальном. а потом в двадцатом веке Леонид Конторович это наш советский ученый, математики экономист, он, вообще говоря, эту задачу в некотором смысле переоткрыл. То есть вот есть такая задача Конторовича, это некоторое такое математически осмысленное расширение задача Монжа. И вот дело в том, что вот оптимальный перенос массы, он очень связан с, как сказать, с оптимальным распределением ресурсов, да? То есть, например, у вас есть, например, заводы, условно говоря, вот есть потребители, вам нужно как то оптимально распределить товар с заводов к потребителям, и это как раз частный случай задачи оптимального транспорта. И вот как раз наш советский математик Литта еще активно занимался проработкой этой задачи. И фактически огромная часть современной теори оптимального транспорта, которая вот сейчас люди используют в геративных моделях, в других приложениях и так далее, это все базируется на результатах, во многом который получил, значит, Кович там, в середине двадцатого века.
Вот тут Павел как раз про перенос масса нам пишет в чате. На днях как раз перекидывал гору снега на пять метров. Проще всего было бросать, не задумываясь о точности. То есть прощего было делать перенос рандомизированным обратно разобрать бы не получилось. Бывает ли такое свойство в функциях потери?
Обратно разобрать бы не получилось, нося в виду. Не совсем понимаю, что имеется в виду под обратно разобрать то есть в обратную сторону за.
В том же порядке. Сложить снег обратно.
Но, по моему, в принципе получилось бы, если мы берем каждую частичку масса снега как маленькую маленькую читичку, да, то, предполагаем что они не сливаются ничего, то, наверное, можно в принципе, но это потребует очень больших усилий вот и это немножко тяжело. Вот. А касательно того, что вот оптимально перенести, оптимально и не оптимально надо переносить там тот же снег, словно говоря да, ну, конечно, когда мы работаем в контексте во дворе снег раскидывать, то здесь, наверное, действительно проще, не думая, это сделать. Но если мы говорим о каких то больших масштабах не представляете потребители там пятьсот потребителей, двадцать заводов, да и вам нужно товар распределить, то, естественно, здесь очевидная экономическая выгода сделать это эффективнее, да? То есть здесь уже как бы люди задумаются о том, как это сделать правильно, как сделать эффективнее. Но вот мы с вами говорим это в контексте оптима генеративных моделей и перенос домена. Давайте посмотрим, зачем здесь нужна это оптимальность. Вот что. Вот мы иначе чего задача перевода домена, непарного перевода домена. То есть у нас есть объекты, мы хотим преобразовать объекты сводами на другой. Но при этом важное свойство, что мы хотели? Мы хотели бы, чтобы входной объект не сильно изменился при переносе его второй домен, то есть чтобы контент этого объекта сохранился. А вот с другой стороны. То есть мы хотим две вещи. Первое чтобы мы объекты из одного домена в другой переехал. второй чтобы объект сохранился контент. то есть минимальным образом изменился объект, скажем так. А вот теперь давайте посмотрим на задачу оптимального транспорта и заметим, что, вообще то это примерно о том же, только у нас здесь как бы не домены, а распределение вероятностные. Мы хотим перенести массу каждую точку из одного вероятно стараний в другой вероятно распление таким образом, чтобы минимизировать изменение вот этого объекта, да? То есть транспортная цена должна быть наименьшей, то есть икс должен быть наиболее похож на те с точки зрения функций цены, которую мы выберем для конкретная задача вот. Ну и на этой почве, вообще говоря, задачи перевода домена люди и стали рассматривать как задача оптимального транспорта во многом и применять эти методы оптимального транспорта для того, чтобы решать задачу переноса домена. А вот здесь возник естественный вопрос а как вообще то есть вот здесь у нас какие то распределения озе выборки, как эти вообще? Ну, это немножко разные постановки. Как вообще вот эти задачи связаны друг с другом на таком формальном математическом уровне? На самом деле связать их можно следующим образом. Появляется так называемая задача непрерывного оптимального транспорта. Что мы делаем? У нас иде выборки икс игрек, а мы предполагаем, что эти выборки задача перевода домена это какие то случайные независимые выборки из двухраспределения поку, то есть распределение данных распределения вторых. И мы хотим, имея лишь в выборе дан, построить оптимальное отображение транспортное, но не между выборами, которые у нас есть, не между данными данными, а между распределениями, из которых приходят эти данные. И вот эта задача и называется непрерывная задача оптимального транспорта. Ее на самом деле ни в коем случае не надо путать дискретной задачи оптимального транспорт, когда мы просто выборки хотим поставить. И вот именно эта задача в контексте перевода домена в последнее время очень активно используется, и по крайней мере исследования в этой области идут довольно активно. И мы сегодня с вами и восставшееся время и договорим о том, как же решать эту задачу помощью оптимального транспорта. Ну и вот что нужно сказать. А ну, на самом деле скажу я одну вещь, что в принципе вот задать постановки задачи оптимального транспорта, а именно вот формулировке монж, который я привел, она очень плохая с математической точки зрения, потому что мы что здесь мы ищем транспортное отображение это какая то детерминирована функция, но оно, вообще говоря, не всегда даже существует. Почему? Ну, потому что пристав, что у нас входное распреде дельта распределение, а значит, выходное распределение, какое то там неправное распределение. Ну, такой просто частный случай детерминированное преобразование. Если мы применяем к дельта распределения, мы все равно одну точку получаем как мы не хотим, как бы мы не хотели. Поэтому здесь вообще не существует транспортах отображений между такими двумя распределениями. Вот поэтому задача Монжа, она сама по себе очень такая теоретически плохая. И именно поэтому вот как раз Леонид Конторович, наш советский математик, он как раз предложил как все эти проблемы и справились. И вот возникла так называем формулировка задача оптимального транспорта. По Конторовичу. Вот в контексте данной презентации я не буду ее рассказывать, что вы не перегружать деталями. Вот кому интересно пожалуйста, посчитайте статью, я дальше буду показывать конкретные ссылки, где это можно посмотреть вот. Но нужно иметь в виду, что в принципе задача он же у нее есть теоретические проблемы, но это как бы на практике это не проблема, скажем так. Вот и зачем суть? Суть в том, что решать задачу оптимального транспорта довольно сложно. Ну давайте мы посмотрим на эту задачу монджа еще раз. что это такое? это поиск транспортного отображения между двумя распределениями п ику и мелизация функции транспортной стоимости этого самого отображения. И здесь как бы две проблемы возникают у нас вот эти сами распределения данных пэйку они неизвестны у нас есть только выборки из них дата с собственно на. Это первое. А второе то, что эта задача в ограничениях, да, то есть мы должны оптимизировать по множеству отображений из одного распределения в другое, кто тоже, вообще говоря, очень нет и реально. Вот поэтому во многом современные впечатлительный метод оптимального транспорта на основе нерона сетей, они построены на решении так называемой двойственной задачи оптимального транспорта. И вот эту самую двойственность как раз и предложил Леонид Конторович. Собственно, как бы результаты там, условно говоря, в шестидесят семьдесят летней давности математические, которые были вообще в контексте других вещей получены сегодня заиграли немножко новыми красками и применяются для решения задач генерации. А именно что доказал Леонид Конторович в одной из постановок, здесь уже такая немножко модифицирована современная версия что для того чтобы найти оптимальную транспортную стоимость между двумя распределениями можно, решить вот так на дости на задачу а двойственная задача это сум максимизация суммы двух интегралов двух функций они называются потенциалами контора и интеграл уберутся по входному расплению и по выходному распределению. И эти две функции они связаны некоторым граничным условием которого здесь написано через о плюс так называемый который говорит не что иное как, вот вот этот вот условий то есть для всех точки и игрек должно было быть выполнены вот это условия вот и как бы в чем плюс на самом деле двости на задачу оказывается, решать проще. но на первый взгляд это не очевидно. Почему? Потому что вот здесь есть какое то нереальное ограничение, да и здесь оно есть, да как бы от него тоже ничего не избавились. Да еще и объект, который интересует нас, то есть оптимально трация это отображение, ну, он исчез отсюда. Так вот, оказывается, что есть так называемая полудвойственная постановка задачи, которая выводится из вот этой самой двойственном постановка задачи, которая более удобно осущестлитной точки зрения для вот этих вот для решения задачи перевод домена. И что это такое? Ну, я буквально в двух словах объясню, что вот у нас есть двойственная задача, которая максимизация суммы двух отыграла в ограничениях. А давайте мы что сделаем? Давайте мы зафиксируем одну из этих функций из потенциалов в контореща и проведем оптимизацию по другой функции же вот у нас максимизация вот этого функционала. Как его максимизировать? Ну, условно говоря, у нас максимально в ограничениях ограничение сверху. Ну, естественный способ это упереть максимально в эти ограничения сверху, да, потому что мы таким образом будем только увеличивать вот этот целевое значение нашего критерия. Ну вот оказывается, что это наивысшее допустимое значение. оно легко оценивася, ну не легко оцениваться, оно может быть явно математически выписано как так называемая трансформация вот этой второй функции цнсформации есть не что иное, как вот это максимальное упирание в ограничения. И на этой почве вот двойственную задачу можно переписать как задачу максимизации по одному потенциалу конторовича при условии, что другой потенциал выражается через него. явно просто, как некоторые записана вот здесь функция. Вот и окей. Теперь что нам отдает? как мы теперь наконец найдем оптимальный транспорт отображения между распределениями? Ну вот сразу что идея, которую я сейчас дальше расскажу вс оставшееся время, это идея, которая появилась в принципе во многих статьях довольно таки параллельно. Вот первое, вот идея, где я ее встречал, это вообще статья девятнадцатого года от человека, который там экономика занимается, которая вообще парнеронной сети не знает, но у него там эта идея, скажем так, не завелась ни в каком виде, там ни масштабирована ничего. И вот статья, насколько я знаю, так до сих пор живт на архиве нигде не опубликовано. вот плюс там похоже идеи на то что я расскажу что сегодня они возникали где то еще вот тоже в девятнадцатом году вот в немножко в других контекстах. а вот первое реально масштабный алгоритма удалось получить параллельно вот, с одной стороны, мне и моим коллегам из Сколтеха из Аири, с другой стороны, была там еще группа, по моему, из университета Джорджии, что я ошибалась которая тоже примерно в то же время удалось получить похожие результаты. Вот и собственно. Ну, давайте обсудим, что же за результаты. Ну вот мы хотим что решить? Мы хотим решить задачу оптимальная транспорта имея лишь выборки из этих рассмотрений пойку. Как я уже сказал, в прямой постановке задача решать сложно, поскольку у нас есть только выборки и у нас есть какое то не тривиальное ограничение. а с другой стороны, в двойственной форме, во второй форме, которую мы получили, этого ограничения уже нету. То есть это задача оптимизации без ограничений, что как бы заведомо подсказывает нам, что мы можем вставить сюда там не рассетку и спокойно оптимизировать это вот этот функционал по параметрам не расседки. Но есть две сложности. Первое то, что вот этот член, который с цнсформацией, сам по себе представляет некоторую задачу оптимизации и вычислить его не так то просто. Это первая проблема. Вторая проблема то, что мы чтоотим найти мы хотим найти транспортное отображение то оно синим обозначено по ходу презентации, а вот в этом функционале его нигде нет, здесь только красная. Вот эта двойственная перемена потенциал кровича. Что делать? Ну, вот можно доказать такой факт? Я вот здесь это, ну, не стал оформлять как теорему просто для простоты, что на самом деле задачу оптимального транспорта можно переформулировать как задачу поиска седловой точки некоторого функционала который написано что это за функционалы откуда он берется давайте? Сначала посмотрим, кто, здесь по оптимизируется. Это функционал оптимизируется по двум параметрам по потенциалу конторовича вот та самая двойственная переменная и транспортом отображения, то есть та самая прямая перемена то, что нас не интересует вот что что это функционал. На самом деле этот функционал есть не что иное, как некоторая третья двойственная форма, она называется полудвойственной формой, поскольку она содержит как бы и прямую переменную, и двойную перемену т и выводится из двойственной задачи той самой второй, который я показывал, а именно вот этот. Внутренняя задача минимизации есть ничто иное, как просто расписывание вот этой самой цнсформации более менее по определению и цнсформации, и амортизация операции, так называемые амортизация. То есть когда мы хотим найти минимум задача, но мы хотим этот минимум предсказывать нейронной сеткой, то есть это как бы по факту некоторые функции. Но на практике рон сеть которая пытается найти минимум в задачи о поиске цнсформации, то есть вот вот вот этой задачи, то есть найти тот самый игре, который достигает минимум вот эта цнсформация. Если мы его нашли, то мы можем и посчитать вот это все слагаемое тенсформацией функции. Вот и теоретически доказуемо, что значение этого функционала оптимальное, минимаксное, точнее, максиминное. Оно соответствует транспортной цене между двумя веротельствами распределениями п ику, то есть тем, откуда мы хотим отобразить и куда мы хотим отобразить. Но у этого функционала есть и другой полезной свойства, а именно можно доказать при некоторых дополнительных предположениях. Обращаю внимание, что если мы нашли какую то оптимальную пару со звездой тесса звездой то тесса звездой это оптимальное транспортное отображение между по игу. Иными словами, мы должны решить вот этот функционал каким то образом проптимизировать, и тогда мы найдем оптимальное транспортное отображение. Вот детальный математические подробности можно как раз посмотреть в статьях, на которые я ссылался. Еще раз я презентацию расшарю. Вот и вопрос, как это на практике решать? Ну, на практике это решается, естественно, точно также, как это решается во многих подходах глубинного обучения. У нас оптимизация по двум функциям Фт потенциал контор и транспортное отображение. Ну, по функциям мы оптимизировать не умеем, зато умеем оптимизировать по нейронным сетям. Давайте мы подставим нейронные сети в качестве этих функций и будем вести оптимизацию по их параметрам по параметрам это и огненных сетей, ну как это обычно, чтобы оценить эти интегралы. Как мы это можем сделать? Ну, у нас есть выборки из распределения поеку из входного и выходного, но это значит, что мы можем просто оценить заменить интеграл на его оценку мэта монтекала по всему до сту или повыборкин из этого дацита. Вот. Ну и как это оптимизировать оптимизирует это такие вещи обычно стохастическими гентными методами. То есть вот у нас здесь максимизация по одной группе переменных, минимизация по другой группе переменах. Ну, мы вот эту вот функцию потерь делаем гредетный шаг подъема по одной переменной и несколько кредитных шагов спуска по другой переменной. Это очень похоже на методы генеративно состязательного обучения генеративные то что ганны да, Но, значит, здесь, есть такое довольно забавное и отличие, которое еще и в наухе даже на самом деле люди до конца не осознали. Заключается она в том, что как бы роли от нейронных сетей генератора и дискриминатора они как бы местами сменены. То есть по факту генератор т который наш транспортом, он как бы является состязательным к дискриминатору, поскольку он является решением внутренняя задача, а не наоборот, как это обычно бывает в геративном срательном обучении вот. Ну и алгорит написа здесь на слайде. Это, собственно, просто бальмен, то, что я говорил уже. Мы просто берем семплируем выборки из распни с другого несмещенно оцениваем функцию потерь для потенциала делом кредитный подъем по функции потерь поминус функции потерь да, и соответственно делаем гетный спуск по другой группе переменных. И вот здесь забавное такое отличие от тех же генотинцы с Пион сей еще есть в том, что обычно там делается один гарный шаг обновление генератора, и там много дискриминатора, а здесь вот получается наоборот делать как один греетный шаг обновление вот этого потенциала и конторовича, который играет некоторую роль криминатора, а и много грязных шагов по генератору, что в принципе соответствует как бы самой постановке задачи что у нас генератор транспортное отображение является решение внутренней задать вот ну и заключение презентации я покажу несколько картин как это работает все вот и в основном это будут непосредственные же и статей. и это обычная задача какие то типа перевода домена между изображениями, то есть стилизации изображения и так далее. Вот и в качестве транспортной цены я всегда буду использовать крачичную функцию стоимости, которая просто попик сравнивает входное и выходное изображение. Здесь сразу такой комментарий, что, да, это не всегда самая оптимальная транспортная стоимость, и более того, из компьютерное зрениеизвестно, что защиту использования такой функции стоимости ведет к, скажем так, плохим результатом генерации и так далее. но вот внезапно не в методах оптимального транспорта. то есть метода оптимального транспорта скточисной функции стоимости попих на картинках работают вполне себе осознанно вот. Ну и здесь я сильно не буду останавливаться просто скажу что, естественно, в задачах непарного обучения обучения производится на обучающие выборки не парные, и тестирование проводится на отложенных выборах. То есть в принципе так правильно дела с точки зрения всех канонов машину обучения, но, к сожалению, не всегда так люди делают даже в научных статьях. И тестирование обычно проводится с помощью опять же непарных метрик, которые сравнивают с генерированным множество с действительно множеством. И вот одна из таких метрик это общеизвестный фреш инсепшн дистанс здесь в виду того, что. Ну, это общеизвестный метрика. Вот здесь и ссылки есть. Я, наверное, останавливаться на этом не буду, и поскольку у нас время.
У нас еще есть несколько вопросов. Вот вопрос в чате. Я вижу здесь не маленькую проблему то, что цена функция, которая является гипер параметром. Да, это правда. Если это правда, то как подбирать это гипер параметр?
Ну, смотрите, здесь это очень хороший, очень сложный вопрос, потому что в принципе это должно зависеть от задачи. То есть что что такое ц Цэ как я здесь показывал уже это некоторые некоторые как бы наше априорное знание о задаче, то есть которое нам говорит примерно какая точка какой ближе, и как бы некоторые наши априорное знание, что куда отображать вот во всех задачах, которые я буду показывать там. Вот эта функция простая Льва, потому что в задачах переноса стиля зачастую она вполне себе является осмысленной и подходящей, как мы сейчас увидим, с другой стороны, для каких то более общих задач. Как выбираете эту функцию, это. ну, я просто не смогу даже ответить, потому что это сложный вопрос, сильно зависит от пятки задачи. Возможно, в каких то случаях эту функцию можно обучать специально, зная какие то предварительные знания, задачи, ну, например, используя какие то методы контраст флернинга или еще что то, а потом запускать с этой функции стоимости оптимальный транспорт.
А Арсений Бож спрашивает какие архитектуры не расти берутся для оптимизации По.
Параметрам при арсении это самое используется стандартной артетуры из области то есть в качестве генератора как бы транспортное отображение используется юнэ ну одна из его модификации более менее не самые свежие словно говоря мы когда делали, по моему условно говоряского три позитории семнадцатого года, у которого там десять тысяч звездочек на гитхабе и в общем он юнет он изначально это для сегментации какой то использовался, а в качестве эльф то есть потенциал конторовича или же дискриминаторы используется просто какой то резнет это, условно говоря, какой то резнет из какого то ганна взятый просто и все как дискриминатор вот. Но в принципе да, можно использовать что то более эдванст, но вот лично на этапе публикации статьи и так далее до этого руки просто не дошли у нас.
Да и Россия уже спрашивает, какие масштабы не расти и по сравнению с Масштабами дотс это сколько параметров сети отвечает скольким элементом выборки с достаточно сложной структурой каждого элемента.
Ну, вот это, конечно, такой сложный вопрос, я сходу не могу сказать. Я могу только вот что сделать могу на самом деле на статью по моей статью потому что у нас в статье там не улпт транспорт вот в этой статье которая здесь зеле вылин там есть прямо апендикса, в котором указанное количество параметров нейронных сетей и там же размеры да сетов есть, и там есть сравнение вот этих количества параметров по сравнению с другими стандартными методами из области этого непарного перевода домена. Я сходу, к сожалению, не помню, сколько там, но могу сказать еще один такой момент, что что мы заметили вот и экспериментируя этим, что в случае оптимального транспорта архитектура дискриминатора должна быть значительно мощнее, чем вот это в ганнах обычно есть.
Тут кто то неуловимо знакомый мне пишет, были картинки результатов или нет. Я чего то пропустил? И Егор Гребков. Привет, Егор. Если способ решать транспортную задачу не полностью анп стиля, а имея примеры, подсказки, что то вроде пошли сдавать.
Ленин Да, да, вот есть сейчас у нас есть такая работа, она припринта вот сейчас на рецензии жид называется Нюрал Оптим транспорт Ус Дженерл Кост Фанкшенс. Там вот как раз мы показываем, как можно как бы дополнительную априорную информацию о задаче добавлять в, ну, влос для обучения, скажем так.
Аше Александр. Спасибо. Вроде бы пока кончились вопросы.
Угу. Да ну вот, собственно, я уже так на самом деле у нас, по моему, нача планировался. Все, я вот так затянул вот. ну долго, давайте я еще минут десять тогда уже картинки покажу им картинки, коли спрашивали. Вот это все в основном изначально тестировалось на задачи перевода домена и стилизации. Вот и что здесь показано на всех картин, которые я показывать буду, это элементы тесовые выборки, то есть на первой строчке, которую модель на этапе обучения не видела, да, и это как бы тесты элементы, а вторая строчка это то, что модель с генерировала по входному элементу из тестовой выборки, которые подаются на ход. И вот здесь, вот как раз в этих примерах, очень хорошо видны свойства оптимальности отображения с точки зрения попиксель два, стоимость, которая здесь использовалась, а именно что отображения старается наемшим образом сохранить контент изображения, наилучшим образом, прошу прощения, контента изображения. И вот здесь, например, переносит домену, он сохраняет какую то атрибутику, ну, вот прям бабочка, которая заколка здесь, она здесь осталась, и у нее девушки там, да, рука вот это и так далее, здесь какая то заколка, яичница осталась здесь, там цвета сохранились, здесь вот по датасетту сумок генерируются новые доцтый ботинок как бы объекты ботинок и переносится текстура и это как раз и есть а трибутика оптимальности. Ну, вот здесь больше всяких разных примеров есть и что нужно учитывать, что, конечно, оптимальное отображение они во многих случаях хорошо работают, но не всегда. Во первых, это прям, ну, как у любой модели, есть какие то огрехи там, артефакты. вот здесь, например, артефакт как будто здесь как бы тектура вообще буквально банально плохо наложилось, назовем это так. Вот здесь, например, стура не перенеслась, но это связано с тем, что дисбалансные дата сты. То есть, ну, грубо говоря, если у вас там в одном доц все сини сумки, а в другом синий и красный, и вы отображаете там синий, синий, красный, то, конечно, у нас часть объектов станет красными, в общем.
Голубой. Обуви.
Не было? ну да, там, ну, то есть был какой дисбаланс и в принципе если интересный дисбаланс можно лечить есть всякие там методы не сбалансированного оптимального транспорта и так далее то есть есть расширение, ну это уже как бы за рамками текущей презентации вот внизу в пример как по доцу природа генерируются церкви до церкви то есть задача в принципе нарисовать как бы церковь в поверх картинки природы, которая дана. И вот есть всякие забавные примеры, когда, например, сноубордист лежит, и вот тут на фоне рисуется какая то церковь, а он остается на переднем плане, или вот как здесь слева машина не с машиной попыткой съединяет какую то церковь и так далее. То есть вот за счет вот этой попих сильной близости льва, которая с помощью оптимальной транспорта и достигается входное изображение, оно похоже на входе. и на самом деле вот есть какие то такие экстремальные, ну, вообще совсем, наверное, части бестолковые но забавные примеры когда, по дот с этого анималист можно генерировать ботинки, ботинки, которые еще и зачастую похожи там, ну, подсвет и так далее насколько можно сходить о схожести там, значит, они мои лица и ботинка. Да, это так просто для проверки, что такого рода методы в принципе и в экстремальных случаях работ. Ну и в заключение сказать, что, конечно, транспорт не единственный способ решения задач перевод домены. и здесь такое много такое маленькое сравнение в статье там гораздо больше с таким классическим методом называется циклизский гн. И вот в отличие от сиклического гана оптимальный транспорт защиту позволяет сохранить схожестью входного и входного объекта дефолтный как ванильный, как это обычно называется, циклический ган зачастую этого не делает, ну, то есть примерно на защиту бывает вообще как бы случайный выход по ходу генерируют. Да, в принципе в моделях типа Сайган можно стимулировать вот эту похожесть, но там возникают дополнительные гипер параметры, которые надо настраивать и так далее, и так далее. А вот с другой стороны оптимальной транспорте вот эта простая функция потерь, стоящий из трех слагаемых, и там как бы нету гипер параметров, кроме, возможно, как было замечено, функции транспортной стоимости. Ну вот давайте уже заключение, собственно, с чего мы сегодня поговорили о методах понимального транспорта для решения задач генеративного моделирования, а именно мы говорили о их применении для задач непарного обучения. И в принципе методы они довольны такие теоретические, обоснованные с точки точки зрения, что сейчас все больше и больше статей начинает выходить, которые какие то теоретические свойства этих методов исследуют. И это гораздо проще, чем у тех же генеративных издательных мирных сетей. Потому что вот как бы задача, она основана на такой богатый математической теории оптимального трансферт. да, ее проще анализировать. есть куча приемов трюков о том, как теоретически он всего этого дела приводить вот и вообще говоря, эти методы, они сейчас очень активно расширяются. С помощью оптимального транспорта можно делать генерацию по одному объекту сразу нескольких объектов из тагетных из таргетного домена. и это как вот кому интересно в той же стате, которую зелено было выдленно можете посчитать оптимальный транспорт также при ним и к парным задачам. на самом деле вот это результаты, которые у нас, по моему, даже не опубликованы еще нигде на картинке на большом разрешении то есть когда у нас есть пол полные пары целые экс игрикой нужно обучить модель перевода домена на парных данных в принципе это с помощь оптимального транспорта путем некоторых таких модификаций тоже достигается и сто и сказать, что оптимальный транспорт можно применять и для задач, безусловно, г, то есть генерации. Ну вот той самой первой задачей которую я начал президацию, когда мы по случайному шуму хотим генерировать какой то сложный объект, картинку. И вот недавняя статья по моему, она сейчас на нее на конференции не у рыб какие то вот, собственно, корейские ученые показали, что в принципе за счет оптимального транспорта можно достигать качество сравнимого с обычными генеративными созидательными сети сетями и в каких то моментах сравним из дефузми. но Почему я вот всю эту свой презентацию устроил вокруг и настоящий перевода домена? Да потому что в задачах перевода домена в принципе дифузии те же самые которые как бы стоит узарт задача обычной генерации они еще мало добрались да, Вот, и именно в задачах непарного перевода домена зачастую нужна какая то осмысленность в генерации, да, то есть объект выходной должен быть похожных в одной и так далее. а в задачах безусловной генераций, когда мы шума где данные этого не нужно там вот применим весь этот арсенал дефузионных моделей а вот задачах непарного обучения к, сожалению пока, с этим все сложно вот. Но есть уже ряд работы который такое мне делать. собственно, если, кому интересно весь кот он вот на гитхабе есть в разных репозиториях, можете заходить. там на самом деле есть даже как бы семинары, то есть вот такие джу петра на буки, которым можно прорешать все вот эти вот методы, закодить, посмотреть, как оно работает, на каких то игрушеных примерах, в том числе чтобы просто проще было, быстрее. Спасибо за внимание.

The post Научно-технический вебинар «Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных» first appeared on Компания НТР.

Научно-технический вебинар «Мета-автоматическое машинное обучение с помощью графовых нейронных сетей»

Модератор Модераторов — Wed, 28 Jun 2023 03:51:11 +0000

Спикер о вебинаре:
В докладе освещаются подходы к автоматизации построения пайплайнов автоматического машинного обучения на основе нейронных сетей, графовых моделей и обучения с подкреплением. Рассматриваются эксперименты по обоснованию возможности применения предложенных методов, а также возникающие при этом проблемы. Кроме того, представляется библиотека MetaFEDOT с открытым исходным кодом и описываются реализованные в рамках ее решения.

Презентация: https://drive.google.com/file/d/1JPEPfqW-L3aGqAd6sg2EnGP3OinztcUG/view?usp=sharing
Видеозапись: https://youtu.be/joW4nvidm74

Речь идет о генерировании изображений, даже тех, которые не существуют и могут соответствовать какому-либо текстовому описанию. Сегодня я поговорю о нескольких классах алгоритмов, которые могут решать эту задачу. И почему это вообще связано с искусственным интеллектом? А потому, что существуют два типичных подхода к решению подобных задач, и между ними есть некая связь, о которой я расскажу.

Генеративное удаление как таковое развивалось довольно давно, но в 2014 году появился новый подход на основе ГАНов (Генеративных adversarial networks) — это сверточные нейронные сети, которые берут на вход какой-то вектор шума или шумовую матрицу. Если правильно настроить параметры такой сверточной сети, на выходе можно получить изображения высокого разрешения, например, лиц людей, которые не существуют. Эта техника эксплуатирует факт, что если у нас есть простое распределение, например, равномерное гауссово, то нелинейным отображением его можно преобразовать в arbitrarily сложное многомерное распределение. Вопрос заключается в том, как это сделать.

То есть, мы можем не знать вид плотности распределения рэпле, но мы можем сгенерировать неявное представление этой плотности, которая проявляется в данном случае. Распределение данных, генерируемых ею, напоминает распределение реальных данных, причем этот факт используется в алгоритме, который назван градиентным неконкурентным нерассеивающимся. Кроме того, в 20-м году появился другой класс моделей, основанных на диффузионных процессах. Сначала генерируется шумовое изображение, а затем оно специальным образом расширяется, чтобы получилось изображение, похожее на реальное, как те, что были в обучающих выборках. Кроме того, в идеале изображение коррелирует с описанием, которое пользователь ввел. Эти результаты используют некоторые интересные факты и теорию вероятности, особенно в отношении второго подхода, основанного на диффузионных процессах. Эти факты были заложены теорией паронных процессов, разработанной Колмогоровым, известным математиком прошлого столетия. Вот собственно и три основные компоненты.

Я собираюсь сначала рассказать о диффузионных процессах, которые представляют собой первый подход к построению нериативных моделей. Второй подход — это оптимальный транспорт, который отличается от диффузионных процессов, но превосходит их математической строгостью и способностью достичь желаемого результата в различных ситуациях. Можно соединить эти два подхода с помощью моста Шелтингера, который также заслуживает внимания.

Диффузионный процесс в непрерывном времени — это просто преобразование переменной x в момент времени, которое можно записать более просто. Здесь x может быть многомерным и задается нелинейным уравнением, включающим коэффициент сноса. Кроме того, добавляется дополнительное движение, которое задает случайность. Существует начальное значение процесса, которое генерируется случайным образом, и затем траектория запускается из этой начальной точки.

Мы можем заинтересоваться свойствами такого случайного процесса. Например, если начальное распределение точки было сложным или даже представляло собой распределение некоторой сложной величины, такой как изображение, мы можем рассматривать изображение как реализацию случайно влеченной из неизвестного нам распределения реальных изображений.

«Предположим, что изображение реального мира является реализацией неизвестного нам распределения реальных изображений. Мы считаем, что существует некоторое распределение, которое описывает изображения в реальном мире, хотя мы не можем быть уверены в этом. Пусть у нас есть сложное начальное распределение для случайных процессов. Известно, что если мы запустим случайную траекторию из этого распределения, то при определенных условиях (не слишком ограничивающих) её предельное распределение будет стремиться к некоторому фиксированному гауссовскому распределению. То есть в каждый момент времени распределение значения в этой траектории будет сходиться к гауссовскому распределению.»

Этот факт, известный в теории марковских процессов в дискретном времени и в прерывистом случае, также применим к случайным процессам. Существует другой важный факт из теории случайных процессов: если случайный процесс в прямом времени удовлетворяет некоторому уравнению, то случайный процесс, определенный обратным временем, начинается с начального распределения, соответствующего предельному распределению прямого случайного процесса.

Если уравнение траектории такое, то оно сходится к предельному распределению, которое соответствует начальному распределению прямого процесса. Это интересный факт, но требует некоторых дополнительных предположений. Кроме того, необходимо знать плотность распределения прямого процесса в любой момент времени, потому что для запуска обратного процесса требуется знать градиент логарифма этой плотности. Если мы знаем это, то мы можем воспользоваться уравнением, обладающим определенным удивительным свойством, как показано на рисунке. Это также очень важный факт из теории случайных процессов. Почему это оказывается полезным?

Предположим, у нас есть некоторое начальное распределение, например, распределение векторов, каждый компонент которых соответствует пикселю изображения. Мы взяли arbitrarily одну случайную картинку из Интернета, как будто она была сгенерирована из этого распределения, которое нам неизвестно, но мы хотим иметь возможность моделировать его, т.е. генерировать из него наблюдения, похожие на реальные изображения. Мы запускаем траекторию случайного процесса из arbitrarily выбранной начальной точки. Что произойдет дальше?

Если все будет сделано правильно, траектория сходится к предельному распределению, например, гауссовому. Фактически, мы начинаем зашумлять изображение. После определенного количества шагов, где каждый пиксель изображения преобразуется случайным диффузионным процессом, мы получим изображение с пикселями, которые представляют собой гауссовский шум. Если мы можем записать уравнение обратного процесса для данного диффузионного процесса, то мы можем размыть изображение, т.е. взять arbitrarily случайное изображение и преобразовать его в объект из распределения, как будто оно было сгенерировано из начального распределения, которое соответствует распределению реальных изображений. Если мы точно знаем начальное распределение, то мы должны получить изображение, похожее на начальное, а не на шум. Вот как можно реализовать эту идею?

Конечно, для этого необходимо конкретное уравнение, которое удовлетворяет необходимому предельному свойству. Например, такими могут быть уравнения вида «капп», но в нашем случае будем использовать очень простое. В качестве коэффициента диффузии выступает некая функция брата, которая с течением определенного времени стремится к определенному значению с определенной скоростью. Таким образом, мы можем записать уравнение для обратного процесса. Основная сложность заключается в том, что мы не можем явно записать плотность распределения в этом процессе, поскольку оно зависит не только от текущего момента времени, но также от начального распределения, которое нам неизвестно и которое мы именно желаем бы моделировать.

Предположим, нам удалось сделать это с помощью нейросети, в частности, используя универсальный парокситатор. Мы можем ассимилировать градиент логарифма плотности распределения неким хитрым образом. Если нам это удалось сделать, мы получаем следующую систему: у нас есть процесс, который зашумляет изображение, т.е. мы можем применить диффузионный процесс к любой начальной картинке и получить в результате просто шум. Если мы построили такой зашумляющий процесс, его можно обратить, построив некоторую нейросеть, которая аппроксимирует градиент логарифма плотности процесса. Таким образом, мы можем легко размыть изображение

С помощью такого уравнения мы можем легко размыть изображение. Конечно, это уравнение записывается в дискретном времени, и мы вычисляем, как оно взаимодействует с arbitrarily выбранной картинкой, постепенно размывая ее и получая результат, похожий на те картинки, которые мы зашумляли для оценки градиента логарифма плотности распределения. Теперь осталось научить нейросеть размывать изображения таким же образом. На самом деле, все эти методы широко используются в теории случайных процессов.

Если у нас есть распределение траекторий случайного процесса на некотором отрезке для процесса, градиент логарифма плотности которого мы знаем точно, то мы можем оценить распределение траекторий процесса с помощью некоторого расстояния Кульбака-Лейблера между двумя траекториями, рассматриваемыми как случайные функции. Это расстояние задается определенным уравнением, которое включает математическое ожидание внутреннего произведения. В таком случае, что мы могли бы сделать?

Мы вычисляем этот интеграл с помощью модели авторегрессии, вместо интегрирования по времени. Затем мы подставляем значение этой величины, которая задается математическим ожиданием по траектории, во все уравнение и оптимизируем его по параметрам, чтобы обучить нейросеть размывать изображения. Проблема заключается в том, что мы обычно не можем выписать эту формулу явно. Но мы можем воспользоваться следующим трюком: разделим математическое ожидание на две части.

Мы ожидаем не по времени, а по картинкам из обучающей выборки. Мы аппроксимируем это ожидание усреднением по обучающей выборке. Затем мы явно разделяем ожидание на две части: ожидание по картинкам и ожидание по траектории. Мы подставляем оценку плотности логарифма распределения, которую можем вычислить явно для конкретной диффузионной модели, в формулу. Затем мы минимизируем по параметрам. Вот что еще можно сделать: мы можем оценивать все остальное по формуле Монте-Карло для конкретного диффузионного процесса

Здесь мы можем сгенерировать не только картинки, но и картинки, обусловленные текстом. Для этого нам нужно взять выборку пар «картинка-текстовое описание» и добавить в качестве параметра скор-функции некоторый вектор, представляющий условие на текст. Этот вектор получается с помощью вложения текста в некоторое пространство с помощью нейросети. Таким образом, мы можем управлять генерацией картинок с помощью текста.
—
Хорошо, давайте продолжим. Мы уже обсудили один из подходов к моделям деления. Теперь перейдем ко второму методу, основанному на теории оптимального транспорта. Идея следующая: была задача Монжа, затем Канторовича. В современной постановке задача формулируется так: есть две меры, и мы хотим построить такое отображение T, чтобы оно точно переводило одно распределение в другое. Я уже упоминал, что можно преобразовать любое распределение в любое другое в этом же пространстве, если применить достаточно сложное отображение. Так вот, наша цель — найти среди всех возможных отображений такое, которое минимально изменяет исходное распределение.

Леонид Витальевич Канторович был выдающимся математиком, который работал как в теории, так и на практике, решая множество важных прикладных задач. Он предложил теоретический подход к решению задачи, который оказался очень важным и полезным. Это по сути генеративно-состязательная сеть (ГАН), поскольку генеративные адверсариальные сети — это способ построения отображения, которое трансформирует простое распределение Гаусса в распределение изображений. Важно то, как устроен алгоритм оценки этого отображения и какой целевой функционал оптимизируется.

Теперь обобщим: мы строим генератор, который трансформирует одно распределение в другое, и оптимизируем функционал, который при этом естественно возникает. На самом деле мы не знаем исходные распределения точно; они представлены наборами точек, сгенерированных из этих распределений. Если мы построили такое отображение, можно для любой новой точки предсказать, какой точке она соответствует. Это позволяет трансформировать один домен в другой.

Теперь о классической задаче, также известной как слабый оптимальный транспорт. Если в классическом случае каждую точку одного распределения мы переносим в точку другого распределения так, что кажется, будто последняя была сгенерирована из второго распределения, то в случае слабого оптимального транспорта каждая точка переносится в окрестность, где существует условное распределение в зависимости от этой точки. Мы используем более общее описание функции стоимости, которое не просто учитывает квадрат разности, а зависит от способности порождать новые точки из условного распределения. И вот мы минимизируем этот функционал по всем возможным совместным распределения.
Это то, что называется транспортным планом. В качестве функционала ?C можно использовать квадратичный функционал, который учитывает разность между ?Y и генерированным ?Y из условного распределения при заданном ?X. Однако, если использовать только квадратичную функцию стоимости, это может привести к вырождению транспортного плана в дельта-функцию, то есть условное распределение будет порождать только одну конкретную точку для каждого фиксированного ?X, что нежелательно. Чтобы избежать этого, следует добавить регуляризацию, которая предотвращает вырождение условного распределения.
Такой подход позволяет создавать много разных условных точек ?Y для каждого ?X, используя штраф на дисперсию условного распределения. Это гарантирует, что условное распределение не будет вырожденным. Теперь возникает вопрос, как решать такую задачу оптимального транспорта. Очевидно, что нужно использовать нелинейные преобразования, если ранее мы использовали их для неявного представления распределений. Если раньше у нас было простое распределение, которое трансформировалось в сложное, то теперь ситуация немного сложнее.
Имеется начальная точка ?X, которую мы отображаем в точку ?Y. Однако ?Y не однозначен и как будто генерируется из распределения при фиксированном ?X. Чтобы учесть эту неоднозначность, мы можем генерировать случайные значения шума ?Z, например, из Гауссовского распределения, и за счёт этого дополнительного источника шума разные ?X пропускают этот шум через нелинейное преобразование, получая разные ?Y, как если бы они были сгенерированы из условного распределения.
Это неявный способ моделирования условного распределения, который может усовершенствовать любое условное распределение. Почему эта задача на самом деле важна на практике? Многие задачи анализа данных могут быть поставлены в непарной постановке. Например, мы хотим каждой фотографии сопоставить аниме-лицо, похожее на лицо человека на фотографии, но у нас нет пар «фотография — аниме-лицо». Мы не знаем, какое аниме-лицо на самом деле соответствует каждому человеческому лицу, но мы хотим достичь некоторой разумности в сопоставлении.
Для этого мы задаём функцию стоимости, которая сравнивает лицо реального человека с аниме-лицом, и решая оптимизационную задачу, мы строим такое отображение, которое любую точку из распределения реальных лиц отображает в аниме-лицо, которое похоже с точки зрения функции стоимости на реальное лицо. Это отображение в идеале должно быть эффективным, и предполагается, что меры ??μX и ??μY существуют в одном пространстве одной размерности.
Важно, что при определённых условиях можно достичь того, что отображение будет взаимнооднозначным. Если говорить об исходной задаче, то всегда существует решение. Эту задачу оптимизации можно переписать в двойственной форме, чтобы найти соответствующее отображение. Необходимо взять это отображение и другое преобразование, которое действует как дискриминатор, и оптимизировать данный целевой функционал, что выполняется довольно просто.
Это похоже на задачу, возникающую в генеративно-состязательных сетях (ГАНах), где также присутствует оптимизационная минимаксная задача. Основное отличие здесь заключается в том, что в случае ГАНов существует дополнительное ограничение, которого нет в рассматриваемом нами случае. Задача оптимизируется по параметрам двух моделей, и находится седловая точка. Интегралы в этой двойственной задаче оцениваются методами, предложенными Карлом Декартом.
На практике предположим, у нас есть картинки сумок, и мы хотим для каждой сумки сгенерировать обувь, похожую на структуру сумки. Поскольку из второго распределения при условии точки из первого можно сгенерировать множество различных образцов обуви, мы можем получить множество различных пар обуви для одной и той же сумки.
Примеры подтверждают, что если использовать различные метрики, такие как Receptive Field или другие подобные метрики, качество трансфера может быть таким же или даже лучше. В случае анимационных лиц мы видим, что в целом сохраняется определенная семантика — выражение лица, цветовая гамма, что достигается даже с использованием самых простых функций стоимости.
В этом контексте параметр гамма, о котором идет речь, имеет большое значение: чем больше гамма, тем больше дисперсия условного распределения, что влияет на результаты, которые мы получаем для заданного лица. Это можно использовать на практике, например, для трансформации поля ветра из одного домена, соответствующего климатической модели, в домен, соответствующий реальным измерениям. Это улучшает климатический прогноз, придавая ему свойства, близкие к реальным измерениям, что позволяет более точно оценивать феноменологические риски.
Перейдем к третьей части моего рассказа о мошеннингере, который включает задачу построения оптимального транспорта. Транспортное отображение строится с учетом некоторой функции стоимости, что позволяет генерировать условные ?Y, зафиксированные на ?X, при условии, что функция стоимости не квадратичная и включает регуляризацию для предотвращения вырождения транспортного плана. В качестве такой реализации я использовал дисперсию, но можно применять и другие подходы, например, энтропию этого распределения ΠΠ.
В случае использования энтропии, решение задачи слабого оптимального транспорта в многомерном случае становится практически невозможным, потому что оценка многомерной энтропии распределения ΠΠ в многомерном пространстве — это сложная и неблагодарная работа. Несмотря на то, что энтропия является часто используемым и теоретически привлекательным функционалом, применение его в непрерывных задачах оптимального транспорта, где распределение ?μ известно только выборочно, делает его использование нецелесообразным.
Тем не менее, можно решить задачу оптимального транспорта с энтропийной регуляризацией, просто для этого нужно действовать иначе.

Давайте проясним и улучшим структуру и ясность изложения текста:
________________________________________
Итак, это мост Шрёдингера. Существует задача, которая связывает дефиниционные процессы и оптимальный транспорт. Идея динамического моста Шрёдингера заключается в том, что он представляет собой стохастический процесс, управляемый стохастическим дифференциальным уравнением, который эволюционирует из одного распределения в другое. Мы требуем, чтобы начальное и конечное распределения точно совпадали, и при этом стремимся минимизировать квадрат сноса процесса, делая его траектории как можно более близкими к нулю.
Оказывается, что между решением задачи моста Шрёдингера и оптимального транспорта существует взаимно однозначное соответствие: если решить задачу моста Шрёдингера с определёнными распределениями, то совместное распределение начального и конечного состояний этого процесса будет являться оптимальным транспортным планом для задачи оптимального транспорта. Это интересный факт, показывающий, что вместо прямого решения одной сложной задачи, можно переформулировать её и решить альтернативную задачу моста Шрёдингера.
Как это работает на практике? Рассмотрим прикладную задачу: допустим, у нас есть изображения в плохом разрешении и мы хотим преобразовать их в изображения хорошего разрешения. Технически сложно сделать точные пары изображений одной сцены в разных разрешениях, поэтому традиционный регрессионный подход не применим. Вместо этого у нас есть множество непарных изображений, и мы хотим построить модель, которая «наделяет» изображение в плохом разрешении характеристиками изображения в хорошем разрешении.
Здесь на помощь приходит мост Шрёдингера: начиная с изображения в плохом разрешении и применяя оптимальный стохастический процесс, мы можем постепенно преобразовать его в изображение хорошего разрешения. Если параметр стохастичности ?=0ϵ=0, процесс является детерминированным, и мы получаем прямое преобразование. При ?=1ϵ=1, процесс включает стохастичность, что добавляет вариативность в генерируемые изображения, делая результаты более разнообразными, но похожими на исходное изображение.
Интересно наблюдать, как изменение параметра ?ϵ влияет на «температуру» преобразования: при увеличении ?ϵ стохастичность увеличивается, и конечное изображение может сильно отличаться от исходного, сохраняя при этом общие характеристики.
Эти теоретические разработки важны, поскольку они позволяют формулировать строгие задачи для построения инновационных моделей. Из этих постановок можно извлечь теоретические оценки, объясняющие, почему те или иные алгоритмы работают эффективно. В отличие от эмпирических подходов, таких как ГАНы, где теоретические оценки часто сложны или невозможны, мост Шрёдингера предоставляет возможность для строгой теоретической оценки и объединения нескольких подходов в единую конструкцию.
В заключение, мост Шрёдингера не только решает практические задачи, но и обеспечивает глубокое теоретическое понимание связей между различными областями математики и компьютерных наук.

The post Научно-технический вебинар «Мета-автоматическое машинное обучение с помощью графовых нейронных сетей» first appeared on Компания НТР.

Научно-технический вебинар «Введение в тензорные сети для квантовых компьютеров и численных методов»

Модератор Модераторов — Fri, 17 Feb 2023 06:40:55 +0000

Спикер о вебинаре:
На семинаре будет представлена техника тензорных диаграмм, часто используемая в квантовой физике численных методах многомерного моделирования.
Также будут представлены разработанные нами алгоритмы свертки тензоров и их использование при симуляции квантовых цепочек.

Дополнительные материалы:
https://arxiv.org/pdf/1911.12242
https://arxiv.org/pdf/2004.10892
https://arxiv.org/pdf/2012.02430

Видео: https://youtu.be/13-TqIJhRrw
Презентация: https://drive.google.com/file/d/10n6uHU60o8ipf3KK5sRG9JOFfwIPVzId/view?usp=sharing

The post Научно-технический вебинар «Введение в тензорные сети для квантовых компьютеров и численных методов» first appeared on Компания НТР.

Научно-технический вебинар «Импульсные нейронные сети и нейроморфные процессоры»

Модератор Модераторов — Mon, 06 Feb 2023 07:00:20 +0000

Спикер о вебинаре:
Такие появившиеся не так давно области искусственного интеллекта (ИИ) как импульсные нейронные сети и не-фоннеймановские нейроморфные вычислители сейчас рассматривается многими исследователями как перспективные с точки зрения как создания разнообразных автономных интеллектуальных устройств, так и построения больших вычислительных систем для реализации сильного ИИ. Это следствие присущих таким системам преимуществ – на порядки меньшее энергопотребление по сравнению с традиционными нейросетевыми решениями, полная асинхронность и, следовательно, потенциально неограниченная масштабируемость, возможность реализации непрерывного обучения.
Подобно нейронным ансамблям мозга, нейроморфные системы оперируют информацией, представленной не в виде чисел, а как последовательности атомарных событий – спайков (в мозге им соответствуют нервные импульсы). В докладе рассматривается построение вычислительных процессов на основе спайков, модели импульсных нейронов и нейросетей, принципы их обучения, моделирования когнитивных процессов на их основе, а также их аппаратная реализация в специализированных нейрочипах.

Страница Михаила Киселева на ResearchGate: https://www.researchgate.net/profile/Mikhail-Kiselev-5

Видео: https://youtu.be/hkqt3AieSIg
Презентация: https://drive.google.com/file/d/1CIxof4ctnpkzI4Jj1KSPHrj_XB0WyqHG/view?usp=sharing

The post Научно-технический вебинар «Импульсные нейронные сети и нейроморфные процессоры» first appeared on Компания НТР.

Научно-технический вебинар «Внутренняя мотивация для мультиагентного обучения с подкреплением»

Модератор Модераторов — Fri, 09 Dec 2022 10:48:02 +0000

Спикер о вебинаре:
Задачи с редкими вознаграждениями являются актуальной проблемой в обучении с подкреплением (Reinforcement Learning, RL). Решение таких задач требует эффективных методов исследования, которые часто основаны на использовании принципов внутренней мотивации (Intrinsic Motivation, IM). Помимо этого существует множество таких задач в контексте мультиагентного обучения с подкреплением (Multi-Agent RL, MARL), где сложности двух этих доменов накладываются друг на друга, ещё больше осложняя решение проблемы. Мы рассмотрим некоторые подходы в IM, а также их расширение на MARL, которые могут оказаться эффективными в решении подобных задач.

Презентация: https://drive.google.com/file/d/1gVp6CEURGYyKupUt8a25SMus_PaKstaH/view?usp=sharing
Видеозапись: https://youtu.be/AYXK0pcIZvY

The post Научно-технический вебинар «Внутренняя мотивация для мультиагентного обучения с подкреплением» first appeared on Компания НТР.

Научно-технический вебинар «Методы покоординатного спуска для обучения деревьев решения с частичным привлечением учителя»

Модератор Модераторов — Fri, 25 Nov 2022 06:41:12 +0000

Спикер о работе:
Oбучение модели машинного обучения с частичным привлечением учителя применимо когда разметка дана лишь для небольшого количества данных. Наиболее широко распространенный подход для решения таких задач использует регуляризацию на основе графа схожести, который побуждает cхoжие точки иметь похожие прогнозы.
Несмотря на то что, этот подход был очень успешно применён для разных моделей (например нейронные сети, SVM и т.д.), он остается неприменимым к деревьям решений, для которых оптимизационная задача намного труднее.
Мы предлагаем новый подход на основе переформулировки задачи, требующей итеративного решения двух более простых задач:
1) решение разреженной линейной системы;
2) стандартное обучение дерева. Что касается второй части, потенциально может быть применен любой алгоритм обучения дерева. Тем не менее, недавно предложенная нами метод TAO имеет уникальные свойства, которые делают общую структуру высокоэффективной и масштабируемой даже с очень небольшим количеством помеченных данных.

Дополнительные материалы: https://openreview.net/forum?id=cZ41U927n8m

Видеозапись: https://youtu.be/NQJ6PFbaH-g
Презентация: https://drive.google.com/file/d/1EFL2R4P79HjgXNcSgqhNnlaYDkrmxkC_/view?usp=sharing

The post Научно-технический вебинар «Методы покоординатного спуска для обучения деревьев решения с частичным привлечением учителя» first appeared on Компания НТР.

Научно-технический вебинар «О криптоморфизме между решетками подмножеств Дэвиса, атомистическими решетками, системами замкнутых множеств при выполнении аксиомы отделимости T1»

Модератор Модераторов — Mon, 07 Nov 2022 06:58:19 +0000

Спикер о работе:
В докладе пойдет речь о семействах замкнутых множеств (известных как семейства Мура) для случая, когда все одноэлементные множества семейства замкнуты. Задача порождения таких семейств для объектно-признаковых или транзакционных данных хорошо известна в майнинге данных как поиск частых (замкнутых) множеств товаров (Frequent Itemset Mining).
В частности, нами приводится количество таких строгих (включающих пустое множество) и нестрогих семейств для 6 элементов (признаков). Мы также приводим количество таких неэквивалентных семейств Мура относительно всех перестановок базового множества вплоть до n = 6. Поиск в OEIS и существующей литературе показал совпадение найденных чисел (с учетом изоморфизма семейств) с числом решеток на основе объединения множеств, полученным Д.М. Дэвисом (последовательность OEIS A235604, до n=5), и c |L_n| (без учета изоморфизма) – числом атомистических решеток на n атомах, найденным С. Мейпс (до n=6), соответственно. Нами установлено взаимно-однозначные соответствия между этими тремя типами решеток на основе соответствий Галуа и анализа формальных понятий (Formal Concept Analysis).
Кратко обсуждаются два использованных перечислительных алгоритма, а также дополнительные результаты их работы наибольший размер семейства множеств без пересечений для n=6, наша гипотеза для n=7, верхняя граница числа атомистических решеток L_n и некоторые структурные свойства L_n, основанные на теории экстремальных решеток.

Исследуемые автором последовательности OEIS:
https://oeis.org/A334254
https://oeis.org/A334255
https://oeis.org/A235604
https://oeis.org/A355517

Видео: https://youtu.be/fxM6YnpP-bs
Презентация: https://drive.google.com/file/d/14rwakB1aFcXzO_-A7gliF6OJ4Ffo8lju/view?usp=sharing

The post Научно-технический вебинар «О криптоморфизме между решетками подмножеств Дэвиса, атомистическими решетками, системами замкнутых множеств при выполнении аксиомы отделимости T1» first appeared on Компания НТР.

Научно-технический вебинар «Доброкачественное переобучение в моделях, дополненных поиском по хранилищу»

Модератор Модераторов — Thu, 06 Oct 2022 07:05:32 +0000

Спикер о вебинаре:
Теория длинного хвоста Фельдмана (STOC 2020) утверждает, что запоминание редких/атипичных примеров неизбежно при обучении на естественных данных. Несмотря на то, что современные глубокие нейронные сети имеют возможность запоминать (почти) всю обучающую выборку, при обучении с SGD они этого не делают. Напротив, они доброкачественно переобучаются, то есть делают точные прогнозы на новых данных, несмотря на идеальную подгонку к обучающей выборке.
Грубо говоря, все это происходит из-за неявной предвзятости к простоте: SGD предпочитает более простые и надежные модели и использует возможности нейронной сети для запоминания, чтобы подгоняться к нетипичным/редким примерам только в случае необходимости.
В то же время специалисты по машинному обучению (особенно в области обработки естественного языка) придумали, как использовать эту возможность для более эффективного обучения: модели, дополненные поиском по хранилищу данных (kNN-LM, RETRO) явно запоминают (часть) обучающей выборки в хранилище и, таким образом, пытаются (частично) снять нагрузку запоминания с нейронной сети. Насколько мне известно, в настоящее время нет теоретического анализа доброкачественного переобучения в таких моделях.
В своем выступлении я предложу несколько возможных исследовательских вопросов, касающихся доброкачественной переобучения в моделях, снабженных поиском по хранилищу, для дальнейшего обсуждения с участниками вебинара.

Видеозапись: https://youtu.be/YBXShQsiWsM
Презентация: https://drive.google.com/file/d/10Auhws68kt3ztopd-pAulVK-mKtsQ5j0/view?usp=sharing

The post Научно-технический вебинар «Доброкачественное переобучение в моделях, дополненных поиском по хранилищу» first appeared on Компания НТР.