Спикер о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценка на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.
Презентация: https://drive.google.com/file/d/1pKfX-AeEt4Nw8dzo3P9cAPe6I-voq-9y
Видеозапись: https://youtu.be/2gKejxGZvIA
Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР
Ну что ж, давайте начинать и к структура побегу. То есть сначала мы поговорим брат вообще, зачем нужны мирные суду. Я понимаю, что он скрестили большинства из вас это просто не стоит, но тем не менее пусть немножко вспомним, за одно обозначением поведем, а дальше поговорим зачем нужна собственная неопределенность и попробую дать какое то определение что такое неопределенности ей как снижать и в конце поговорим про методы как можно было бы при оценивать. Начнем с простого примера когда примерно все написать это вейная модель. значит, поговорим мы уже про сложные методы, которые позволяют для не рост все оценивать, и в конце немножко обсудим, что еще не сделано и что нам мешает это сделать. А, собственно, очень краткое введение в неродной сети. То есть мы предположим, что у нас есть некоторые а некоторая сдача машина обучения классическое. И в этом случае обычно у нас есть некоторые готовы представление объекта, то есть это некоторый возраст, пол это все. и мы строимстую модель, например, модель классической регрессии, где мы просто берем скалярное произведение представление на параметры модели и еще там все это прообразу сгму и чтобы у нас получилось корректная, вероятно, с конца а и вот как то так это устроено обучение если мы все обучили и моделька нормальные, нужны признаки есть, все хорошо работает, и в нероностях необходимости не возникает. Возникает позднее, когда мы смотрим на более сложные данные. Но, к примеру, возьмем какую нибудь картинку, и оказывается, что картинки у нас нет, никакого представления объекта по хорошему, у нас есть только эти изначальные описания набор пикселей, из которых довольно трудно лип какие то разумные по решающее дерево или фишку регрессия использовать для прогноза но чего нибудь сложно вам хотя бы и дженна кот либо собака на картинке, то скорее всего ничего хорошего не выйдет. Точка зрения качества. Поэтому обычные споры нервной сети, которая состоится с двух частей. Но тело сети и головы это компонента тела, она служит для того, чтобы из картинки сделать представление некоторый электор, который потом удобно использовать для того чтобы смочь простой модели пришли к польную задачу сдача построение представления это сдача построения отображения и сводной картинки был вектор который можно использовать простые модельки и собственно, часто говорят про универсальное представление сегодня говорить не будем просто посмотрим немножко потолка как обычно обучают нейронные сети и как не расти устроены то есть обычно, предполагаю что это не это некоторый набор преобразовании нашего слоного входа икс коли нашей модели мы берем первый слой при образовании га один с параметрам это один второй слой и так далее пока накатом слоям не получим полную полную модельку и которая дает представление которое очень большого набора при образовании в этом дала нам некоторые ветта никогда не получили представление то оказалось, что можно, например, высказывать класс объектов. у некоторых есть кот. Поэтому, наверное, мы хотим, чтобы вероятность скота была высокой и число справа от вероятности, потому что на картинке вот это конкретный объект этого типа. и мы хотим, чтобы наш прогноз прогноз вероятности были похоже на реальность и так мо организа обучение с в этом случае мы идем обратно и пытаемся поменять параметры так чтобы в итоге нашего сет по достаточно хорошо и предсказываем. формально можно сказать, что мы это распределением высказываем было похоже. но вот это вот вот распределение. Обычно других меток у нас нет, и одна единица настоящий класс. И, собственно, как мы обучаем? То есть представим, что у нас один параметр и вот это вот кривая, от которой сокращено на некоторое качество модели, и мы, собственно, и теруемся удаляем очень приятно адама и с и в итоге то на начального приближения получаем со звездой он локальный оптим, который дает высокое качество. На самом деле у нас изначально есть некоторая проблема в том, что мы делаем, а именно, как правило, наши метки. Они вообще никак не учитывают, что у нас может быть что то не вполне уверены. То есть когда он берет пример замечающие урки, мы считаем, что для него мы в точности знаем ту метку, которая у нас сидеть это кошка или собака. каких нибудь катасов у нас выборки обычно не бывает. Мы знаем, что половина кота пять пятьдесят процентов собак. И поэтому по молчанию, когда мы все это обучаем, то никакой адекватной пс у нас на самом деле нет. Мы очень плохо представляем чего то, о чем мы не видели он чаще горки, в частности мы не видели каких то город вероятностей, об этом нам трудно получить. И теперь давайте попробуем подумать уже более в терминах и в терминах неопреляности. Смотрит не определенность это самка то общее явление для людей для нейронных стей сам мы можем мало паранзировать. что то наши прогнозы не очень точны. То есть выходим пытается проанализировать погоду у нас две недели дальше нет, и мы даже можем сказать, насколько мы не уверены мы это недель когда мы не уверены аналогично с решениями покинуть инвестиции очень трудно предсказывать у нас сверхнизкой курсаций и там какие нибудь еще приложения. Это медицина тоже. Нам бы хотелось оценить, насколько мы уверены в том вагнозе, который оставил врач. Соответственно, у нас есть какая то несовершенная либо неполная информация. То есть в принципе правильный ответ про болезни нас съесть и про погоду через две недели у нас есть ответ. но в силу того, что информация несовершенно, которая доступна на решения правда, болезни погодно, оно тоже будет неточна. То есть у нас есть некоторый пробежит между тем, что мы знаем, и тем, что мы не знаем. Мы хотели бы как то все это думать. на самом деле это не продаст все. А про неронной сети. то есть нам бы хотелось аналогичное рассуждение и аналогичные идеи. а в контексте неронных сетей использовать то говорить правильно мы уверены не уверен пример, почему это не очень тревальная задача расправ в этом с. То есть у нас опять же есть моделька, которая обучалась на кошечка и собачках и вполне может определить, какая вероятность того, что игорь правильной единицы то есть у нас кошеч или то, что игорь круто с собачка на вероятные сшачки какая нибудь маленькая, но она показывает драха то, что должна выдавать модель. Непонятно, как все это определить или как бы опять же в контексте какой то реальной жизни нам вот это знание про прирост оказывается полезным. То есть первое естественная идея то есть которая, наверное, приход был тем, кто занимается как раз большими языками моделями это то что, галюцинации в нервных с тех про факт и про то что, он хочет с ггировать, это тоже вполне себе откладывается в том, что у нас есть какая то неопределленность, которую мы хотели бы как то конфицировать. В целом медицине тоже возникают проблемы университета, которая диагно ставить. То есть у нас две проверки права пробирки все нормально, мы взяли кровь, и она там достаточно много, достаточно понятно будет, когда мы будем анализировать, например, какая группа крови. И слева что то непонятное, а мы взяли мало материала, он не очень хороший, и по хорошему нам нужно это эксперимент переделать, чтобы даже правильно определить такой простой штук, как группа. Третье важное предложение неопределенности это активное обучение. То есть надо бы хотелось обучаться не только не на всех объектах, на самом деле пытаюсь обучаться эффективно, то есть взять как можно меньшего размера и обучиться на них. Поэтому мы сэкономим время на обучение и стоимость разметки. И кажется, что правильно как раз брать те примеры, которые модели максимально не уверены только у нас какие то привлекают сложности. Ну, например, мы хотели ассоциировать опять же котов и отвечать их от собак. Пример справа премьерный кот амершлевый это очень неявный кот, и, наверное, таких котов хорошо было бы побольше положить на шурку, что модель тоже поняла что существует и как, собственно, консировать? получается, что для Не Расст могли бы нанести пользу, ведя некоторую оценку уверенности модели ну или что то же самое один вел с неуверенностью неопределенности. В этом случае получается, что у нас есть более доверенный искусственный интеллект, который нам, наверное, будет более полезен, особенно в каких то критических областях. Но опять более формально это говорить то, что они хотят для регрессии, для фальсификации. То есть вот тга сверка, например, у нас одномерная функция с входом с выходом игрек и красной этой точки вычайщей банке и, соответственно мы хотели бы чтобы по прогноза вот головой но еще давали некоторые доверительные тела в каждом точке вот это вот закрашенные области встречи о том чтобы не не по модели выяснить, а именно про то, чтобы в точке порталу неверно или, например, целиком выдать спределение, которое нам нужно для классификации. Тоже в принципе все похожим образом устроено. Примерумерный два признака один, два и есть вот эти точки оранжевые, точки синяя мы хотим как то отличать, и получается, что где то посередине нужны не уверены. если мы поим в сторону углов, то мы должны быть уверены ли мы раньше о красном классе или мыс класс, в общем, там должна быть высокая вероятность, что объект принадлежит к симу классу, но и наоборот. То есть вот такое, что мы бы хотели сделать. При этом часто мы хотели бы взависимости в постановке задачи моделировать немножко разные неопределенность. и тут как раз показано, какая бывает неопределенность. Обычно говорят про сон неправилось данных и мода сотня модели. А первое это про то, что у нас есть какой то шум данный, который, по сути, мы никак устранить не можем. То есть мы, например, мере дней в длину и меньше чем деление оперене мы померить не можем никак. у нас там слаба была у меня на стеке на первом курсе которая раз брата и была по что он, собственно не прину мы так мы не уберем этот почности прибора, с которыми нам нужно будет начать. и тут слева примерно высокой данных справа низкая неправданны потому что с якушу у нас почти в у нас нет не а не модели это как раз в тех точках, тех интервалах, когда у нас вообще ничего нет у нас есть сне точки от нашегощающая выборка и соответственно торлак унс у нас вообще никаких сроков и на модель будет очень неверно в своем прогнозе. И соответственно, например, если мы говорим про активное обучение, туда интересно скорее точки, которых у нас высоко не принес моделью, потому что кажется, что если киточки две выборку то мы не принес модели уменьшен и в итоге все как модель улучшится, потому что она будет лучше знать от точки штаб они так плохими быть перестанут добавление точек со своим шелом как то мало гуляет на качество модели ну, разве что можно немножко перебралась на тюрку, но, наверное, это, мир учная вещь то есть больше кидать точек куда для нас побольше, ну, собственно можно то же самое придумать фальсификацию то где то у нас будет песок знали сокий шум, но эта картинка кажется, что это вообще какой то мусор в реальной жизни это как меня по середине вот это тоже как то собака. Ну, есть какие то сложные примеры, которые хорошо быку добавить и собственно качестве работы модели улучшить. и, собственно, давайте подумаем, как можно это задача решать. И думать мы будем на примере линейной модели. особенно что не происходит, полагаю, что у некоторых выборка данных, для которыми как дача регрессии то есть хотим некоторым эк остановить игрек начнется любой фсггресс с предполагаем конкретную форму в нашей модели то есть уберем склярное произведение кода на некоторый векторов давляем шум и это наш игорь, который мы наблюдаем что хорошо, что можно все это зафиксировать до некоторой степени это то случайно вместо боя с агрессия и соответственно. вот мы хотим, например, остро такую линейную модель в зависимости цены дома от его площади относ точки наблюдения и хотим что то вроде красный криво провести или подумать что то уже в направлении неточных оно взять распределение вот это и пост нас вы и что на самом деле с точки зрения Кимбаяс но подходит. Изначально у нас было какое то априодное распределение параметров по сути со средним ноль дисперсия с то есть по сути вот этот мешок ункции потому что каждое значение тектона соответствует функция и меш функций очень очень разных. Сверху как раз примеры функции из этого распределения. И соответственно, когда мы шпот наблюдаем, у нас получается постное распредление, которое обусловлены на эти сильние точки данные, и у нас все равно распределение, но гораздо более приятно. То есть вместо вот этого хаоса мы получаем достаточно порядочным на рассмотрение, которое учитывает как раз природно регрессии. можно вполне все это посчитать то можно посчитать кого на среднее и какая коационная матрица в параметра у нас вот не выписаны очень хорошо получается вот такое распределением получили про то, насколько наши крыва может плавать, и из этого мы можем получить ужетельное распределение то есть насколько у вас может быть плавать как раз в выход модели игрек. а мы не берем интеграл вот это распнем присоед и дальше не заодно это знаем, как у нас устроено. Игорь, уточни его распределения, потому что у нас сейчас есть некоторые вот это распределение нормальное распределение. Второе распределение тоже нормальное распределение с прошлого Аслан оказывается, что наград не репрессии мы взять можем, у нас получится тоже явная формула. вот такая формула и заданным в среднем в заданной дисперсии пусть это все очень хорошо сказал да, шикарно мы можем все умеем читать как раз вот эта дисперсия наценка неопре которая нам нужна и может на нее посмотреть. Посмотрим. давайте уберем лишним мы и получим что нибудь такое. То есть у нас на картину сначала посмотрим. То есть у нас там, где есть точки, как то неопределенно меньше наших прогнозах там где то нет нас не при серая зона одна това пять процентов она несколько побольше. то есть мы его на картинке приобим, что если сдано меньше окрестности точки то он с ней приносит побольше. Формальная формула тоже примерно про это же. то есть у нас есть какая то симма в квадрате, которая просто шоу дал которые которые везде даже на точки. Но и вторая часть насколько выкиданные которые некоторые не похоже на эти данные, которые есть Наберем новый икс читаем до него вот формула И вот так мы взяли сидели неопределенность явно оформился прямо на регрессии. и в целом для моделием тоже можно получать. ну в целом оказывается, что это не совсем то, что нам нужно. Ну, пример более сложные модели. Тут уже мы отправляем расправление на функции нелинейных нелинейных, а лучше опять же на картину посмотреть, что происходит и тоже получал при посте распреление. То есть какие наши идеи? Проток устроена функция постновления данных. То есть если данных мало три точки верхняя левая картинка с красными кривыми то получается что, у вас очень небольшой разобраться шатание у срена. если мы наблюдаем, то у нас начинается более строго выстроены и все функции которые мы скрес будем наблюдать условно данные и устроена лучше. И опять же мы можем нарисовать кривые примеры таких функций можно нарисовать интервал который, я вам уже написали. то есть это все еще нормально случай мы можем примерно посчитать, что нам нужно, но, конечно, на самом деле на территори несколько другое. То есть дней на репрессии, да, вот это вот ребрести процессов, мы все это можем сделать, но у нас на самом деле не вполне то, что мы хотим. Мы хотим для нерона седия то, что мы хотим оценивать напло для какой нибудь до вполне конкретных не для методов более простых язык сверч, нервно сливающий язык моделей везде хотим оценивать неопределенность, но пока не можем, потому что у нас получается все эти формы не ломаются, когда мы нагло берем, пытаемся баточнее не берутся. И на самом деле хотелось бы нам эффекты избежать то, что мы ищемся под фонарем, а найти что нибудь там где то нам нужно делать, потому что работают мы, конечно, побольше счастье с целью не. И можно сейчас мне как нибудь вопрос задать, какой то вопрос по первой части того, что я вам всем говорил.
: Коллеги, пожалуйста, вопросы. Но мне кажется, вопросы начнутся там, где мы к неродным сетям приблизимся.
: Ну давайте попробуем проверить ипоте.
: Вот есть вопрос. Алексей Трипецкий спрашивает а что, если просто дисперсии ответов посмотреть вместо интеграла?
: Формальность у нас фиксированная модель то у нас как бы не дисперсии. То есть если мы предсказываем дисперт, собственно, то, что мы делаем на самом деле, это и есть дисперсии ответа. То есть смотрите, что у нас произошло. Мы взяли этот интеграл, получали распределения этого распределения и среднее, и дисперсии, дисперсии. Мы считаем, что настолько неопределенности при этом оказывается, что если бы мы забыли про то, что у нас если не продлялась в этом дайте, у нас не очень интересная формула было бы, осталось бы просто симма в крае, ну, может, не совсем то, что нам бы хотелось. Вот, наверное, если я правильно понял вопрос, ответ примерно такой.
: Алексей спрашивают, имею в виду ответы ансамбля.
: А собственно просаблидальщиков поговорим так что это вопрос креп предвосхищает то, что будет дальше. Я думаю сейчас мы как раз до этого дойдем и обснимся сам хороший или плохо и, собственно, что как правильно воспользовать почему то с точки зрения теории тоже что тосно. Давайте дальше, если других нет ответов. То есть получается, что мы взяли басовские методы, басовское предположение под параметры и часов и получили вот такой штук. и, собственно, дальше опять будет смотреть на этот интеграл, который можно представить в двух видах. То есть у нас есть, по сути, непрах есть неопределенность выгреки параметры мы знаем, мы все это интегрируем получаем распрельнее игоряка в конкретной точке икс играл с местными сплениями, которые мы интегрируем по это остается только игр а смотрим нагло понимаем, что мы взять его не можем примерно во всех случаях крыли самых самых простых поэтому нам нужна некоторая все дальше и поговорим То есть берем использу сампсе, говорим, что мы умеем атакаты из наших, из нашего распределения и говорил, что можно взять так вот такой суммы, по сути заменив наши исходные распределении как это присловие поступления Мпк. Так я вызвал берическое распление, которое, по сути, бото функций в эти теттакаты, которые просплировали раст взял. И в целом, наверное, если у нас это будет много таких цпированных, то будем сходиться к нашему интеграу, и в целом наша оценка будет достаточно точна. При этом мы можем посмотреть на самом деле на три отдельные штуки. Я окажу, что нет особого времени рассказывать подробно про все. Можете мне поверить, что можно написать некоторые формулы и получить от общества неопласти для классификации примерно в таком виде. энтропия экс экспект пригибши мы берем на от ожидания патта то есть у нас на класса задач классификации, соответственно тп это вектор вероятной принадлежности каждому из класса можно посчитать мы от ожиданиям по набору ну вот это он нашим всем моделькам и потом нестерпи вот этого вот этого распреления полученной от это будет общая определенность а дальше мы можем, похоже, вам развести не принес данных то есть это меня сами ожидания и антропию то считаем интервью или окно вот это наберем в ожидании тропе и у меня модель то есть про модель неверны можно получить в раз что это называется болот. и опять же можно жить с этим ожиданиям и оценить помощью выборки из Кита. то есть это то же самое что он самый не получили то есть взяли ну ну довольно се образом то, что он сам это примерно то, что нам нужно. И давайте немножко поговорим про глубоки асабле и как мы можем делать их получше, особенно в контексте нашей задачи. Тест. Мы сказали, что если уката есть, то у нас задача в целом неплохорушается. Теперь вопрос в том, как нам взять вот эти токкаты. Тут есть три популяр варианта которых каждых есть некоторые свои преимущества первый. Вариант берем просто и запуска оптимизации мио С карас запускались с разных седов поэтому получаем достаточно разнообразной модели или для не раз сетта работает мы получаем обычно мы неплохо разнообразно модели второй вариант это вот это вот распление это просто вида как то опроценировать сможем а сонная выгода и получить какое то более просто распление с которым мы уже умеем работать и, брат самый интеграл, например, нормально. Ну, третий вариант это взяли какой нибудь семплирование и, собственно, мы чуть попозже посмотрим на картинка про это, но, собственно, вот.
: Тут у нас есть вопрос что вы думаете о меддах конформал придишин Они? Являются по, сути применение, в медине паретрической статистики порядковых ранговых статистик к оценке неопределенности также не параметрической.
: Кафо прише это очень интересный момент, который как раз в этой области тоже довольно активно используются последние годы но в целом они похожи в чем то на это все и даже больше похоже на то, что я буду говорить в конце когда мы от ансамбле уходим обратно в сторону одной модели, потому что он сам в это не очень эффективно и хоть степени нехорошо работает, но мне кажется, что методы которые более явно указываются потери они работают чуть чуть получше. То есть с точки зрения теории это все очень хорошо пригикшн Я Как то был даже на на конференции ездил про комфортный придикты, а там даже был впни, которое, наверное, знает автом видят. И как? Ну, как бы кажется, что пока это немножко не монстрим, кажется, что на практике это чуть чуть похоже работает. Но, впрочем, возможно, это я пытался преодолеть и тогда, чтобы наформ при некторов хорошо и собственно, смотреть только конференцию там тоже на пердиктор он не встречается чуть понег.
: Дмитрий Раков спрашивает вслед А что скажете насчет а Парксиацию лаплас Насколько работает на практике то что смотрел в публичном доступе все несколько упирается в лос функцию, с, которой мы обучаем модать, чтобы пригнить на практике.
: Тоже очень хороший вопрос. Вопрос в принципе можно сказать, что максима классы это некоторый вариант вационные выводы где мы заменяем наше севое распредление с мощным методомачных моментов на нормальное раскрыли. Понятно, что это нам все сильно обращает. Но как этой картинкой нам говорит о том, что возможно это упрощение через веру. Представь такую функцию потерь, точнее даже постную плотность. И собственно, что нам даст речь? Даст вокруг какой нибудь одной моды разбросанные точки, то есть вокруг модус это будет точно спортима целого год вот как нормальное аксмиров как бы не вполне хорошо. и, собственно, у нас есть еще метод, то есть вариант когда мы берем гипан смело пош мы сойдемся несколько раз разумы, но будет тоже неплохо только у нас будет все это может калишком уверены это, наверное, нужно, взять несколько похоже, и сокна есть подходы, которые пытаются брать спание вокруг этих точек, и в принципе у них неплохо получается. Но я бы сказал, что на практике вот таких глубоких на самом принципе неплохо работает лучше, чем вариционные подходы мультифак. Мне кажется что за ним немножко будущее это в принципе работы есть и так это все испольную, но, наверное, можно лучше. но в целом на самом деле вот когда мы завершают этот блок франсабан а хочется сказать, что в принципе это примерно что может быть для С то, что мы сейчас имеем дело для какие нибудь методы модели ари а с нервно сидел то есть приятно лучше с точки зрения качества с точки зрения непленности. Но если у нас Аслес катер то у нас все раздорож получается и обучение и френс и хранить нам нужно как раз больше модельми хочется понять, можно ли сделать все это немножко дешевле. И давайте посмотрим а, собственно, посмотрим, в чем идея а я вот вот этого подхода. ну, в общем то, все. Дмитрий. Я согласен с Вами. То есть там вопрос дон под Дмитрия как быть со ск все то что сбруи дорогой, я согласен. мне кажется, что тут нужно заняться пониманием того можно, ли это первый дешевить или по на то, что все будет как то так есть. к сожалению, мне кажется что до конца этого не решен задача, кажется, что направление выбрано правильно. но, собственно проэффективные методы они будут устроены довольно просто. То есть берет нашу кошку опять несчастную, но по другому мучаем и получаем некоторое представление это самого вектор и смотрим на наших классы плошка тишка, собачка взяли посчитали эль два расстояния между представлением отображения и центрами базировали на конрате взяли экспоненту и не оправиться это будет минимум по этим самым обратным состоянием, то есть насколько мы далеким ближайшего к нам центр класса в данном случае это класс кош и сам довольно хорошо. Причем авторы рисуют довольно красивые картинки, сравнивая с ассамблеей. с ассамблем. То есть у нас слева называемый глубокий он сам или справа модель брюк на основе вот этого расстояния. И оказывается, что, например, такая модель лучшая с точки зрения локальных свойств. то есть глубокий от сам не будет уверены даже там, где у нас точек нет если в достаточно далеки от действительности бандае тут то у нас желтая зона низкой неопределенности и высокомерности у нас у нас поведение получат то мы уверены это, конечно, некоторые модели примерно в целом переносится на многомерный случай и на не тоже. то есть это изначально то это было, конечно, всем тесным для не получать а другой вариант более в кинос как раз вот наша работа совместной с моим бывшим магистром Ромой Кайли С Паном, собственно, можно попробовать взять отдельную голову и научить ее предсказывать скейл предсказывать температуру для нашего объекта который будет в самом характеризовать настолько мы не уверены настолько мы должны приезжать на вероятность кроме пятимерным распределением и в целом мы можем довольно неплохо это все дело это нельзя. обучили сначала обычную нейронную сеть, да хочу мы говорим про метрик нет поэтому так важно и взяли еще потом обучили небольшую отдельную голову для из центра. и у нас есть кейс, который говорит насколько вы не уверены вот так получилось это миссия вполне работает тоже одной. Но вот пример того, как работает. Вот мы взяли топ десять процентов примеров, про которые наш ме слов вы не уверены взяли только десять процентов примеров для кто рассказал суверен нижний, верхний ряд, нижний ряд, соответственно, и видно, что вообще какие то непонятные призраки появляются на сборке. и понятно, что в деле не уверена, что это нарисован снизу вполне нормальные лица, с которыми удобно работать. то есть ну, все кажется, что модель с точки зрения такого счета адекватно таблице показывать не буду потому что он кажется, не доле звучит. Посмотреть можно? Посмотреть мы выиграли у всех, с кем вы сравнивались сравнивались адекватным подходом на тот момент. А вторая как бы то в чем проблема на самом деле за двух подходов Дюкали сказал Феса в том, что мы, как правило, берем какой то один слой, какую то одну размерность. Это на самом деле не вполне хорошо, потому что кажется, что информация по неопределенности, она должна храниться везде в наш С. И то, что на самом деле я сейчас некоторые способы подумать про то, как мы можем поймать Неп. Посмотри на сеть причем нефтивно. И тот подход, который, кажется, у нас работает, это подходы для своей рецепты гологи. Но про это я думаю, что сейчас не стоит. Расскажи просто просну уберем нашу. Вот у нас на самом деле даже не сверт сеточка а трансформер униристом натаном матрицы большим количестве, и мы считаем, сколько эти матрицы и как они устроены, что некоторые признаки матрис и некоторые признаки, которые характерт насколько матрасы но на друга не пахло по первое матроса, на вторую третью и так далее. в итоге собрали все это один большой вектор. Суть такое представление есть, и оказывается, что это представление, оно более кажется лучше ловят. Вообще, что у вас происходит? особенно контекст неуверенности модели табличка Покажу то, что сейчас получается. Мы взяли, сравнились с другими методами для языковых моделей взяли некоторую метрику, которая называется площадь от кривольки отвергания или отвержение и оказалось, что у нас самая большая площадь и при мы приближаемся к такому оракул. То есть больше часа площадь в принципе не может для выборов, а мы, в общем так, поближе, чем все остальные тоже это и марка.
: Да, у нас Дмитрий Раков опять задает вопрос Расскажите, пожалуйста, детально, насколько спектральная нормализация влияет и работает в подобных методах. Видел во многих работах, правда, терминист консетом. Идея с баркодами крута, я тоже про нее думаю. Это чем то близко к анализу активаций, но, кажется, подобные признаки проще анализировать.
: А, Дмитрий, спасибо. Действительно, про баркоды а тоже мне было интересно посмотреть как, они работают они как то работают а, в, общем так, как, мы доделаем надеюсь, что, подадим стал прошл про специально реализацию, она важна потому что, ну, то есть мотивация, которая обычно приводит, это то, что у нас есть некоторые увеличится. то есть у нас расстояние пространных представлений оно похоже на расстояние пространстве, и за счет спектральной нормализации там вот это все бериши получают. То есть у нас есть относительное разумное расстояние с точки зрения того, как у нас устроены объекты исхода пространствия, и это помогает. С другой стороны, мне кажется, что налючи какая то нормализация нужна, потому что помочь пространство представления оно устроено дом странным образом и так она становится устроена стоится более прядочно вот. и, наверное, на этом я буду заканчивать даже. То есть, мне кажется, остался один на один сайт, в котором много пункт один часом попробуйте пробуйи посмотреть на те методы, на которых все работает, и постоять на то, собственно, что нам нужно. И кажется, что можно какой то вариант синергия это у нас сделает. то есть в принципе городские процессы и продуцентами когда мы берем последний слой но, то возникает проблема с тем, что нам хочется все таки брать больше стоев. и ничего эффективного отдела не было. То есть формально есть, конечно, работы про глубокие галки процессы но как будто ее хорошей с точки зрения качества эффективности, оно, собственно, можно все равно стремиться к чему то похоже на ансамбле. при этом у нас возникает новый дискус дис, дискурс, кажется, это называется а про то, что на самом деле обычный язык модели, там все по другому устроены. С одной стороны, у нас есть ансамбль некоторое видят, потому что каждая голова это что то отдельное, как будто что то отдельное важное может смотреть на сколько они похоже не похожи. С другой стороны, обычная ассамблея должна тренировать и они крови и прочее. даже если это сделать он дает в меньшей степень какую то важную всякой неопределенности. То есть вот у нас передний край науки и, как во многих в других частях искусственный интеллекта это большая такая модель думать, думать, как для них оценивать. При особенно сложная задача, когда мы не просто классификации решаем, мы когда мы греем ответы на вопросы. ну, в общем то можно закончить на том, что еще бы теорию подтянуть немножко, как это можно считать, когда нет, но надеюсь, что я еще раз я смогу про это рассказать более подробно. вот как то как то так.
: Алексей Трепецкий спрашивает Они экспериментировали с колибровкой вероятности работает лето за распределением трейна.
: Колибровка работает вполне, то есть опять же все зависит от задачи. Но сам калибровка когда мы пройдем даже на трене, причем простая колибровка это просто температуру покручиваем она вполне нормально работает. То есть на практике, наверное, это будет некоторой степени достаточно, но я подозреваю, что прям с ней и тут как раз могут помочь какие нибудь там более сложно устроенные по модели вероятность есть направления, где они пытаются использовать на близящий глаз флоус такую генеративную модель, которая любое рассмотрение приводит на грубо и в целом это может помочь. Могли распределение в контексте вопроса получается? Ну, наверное, более сложно копировать, но пока каждый отст еще не успели.
: Так, коллеги, пожалуйста, еще вопросы, пока коллеги собираются. еще с вопросом у меня такой. А вот Олег спрашивает, а что лучше всего работает для оценки неопределенности, для задачи регрессии, а не классификации?
: Но я бы взял ну, либо ансамбли, либо в целом. Сейчас есть подходы если он хочет что то поешевле и отца не хочет застроить и мы опять же говорим про неронке то соло можно просто взять нейронку которую умеет предсказывали размеры горный или предсказывать дисперсии ск с нормальным распредлением там можно принять своего солнца янаю и обучить. Но по сути, наверное, я бы сказал, что это некоторые вообще не контильная регрессии для нейроны. Посмотрите, там есть некоторые набор интересных работ, который ростом интереса.
: Вот я бы даже продолжу вопрос Олега. Пусть у нас имеется модель регрессии, который работает на очень дорогих данных, то есть это такие производственные данные, получение каждой точки данных которых очень дорогое. Вопрос как нам узнать, сколько данных нам нужно в тестовой выборке, чтобы быть уверенным, что у нас дочная точность модели.
: Еще хороший вопрос, ну, как бы ответ, наверное, будет чуть похоже, потому что на самом деле все это будет очень специ зависит от задачи. На самом деле мы про это думали в контексте даже в диссе. момент есть проект теоретический результат легавских процессов взяли, проанализировали, как должно быть устроена выборка и сколько нам дочке должно быть, ну, собственно, ответ очень должности все зависит главное степунса которую, он так как зависит тоже там будет за ядраского процесса, то есть насколько она будет гладким. Поэтому, в общем то, нужно просто аккуратно смотреть. И опять же там можно еще немножко с другой стороны на самом деле. Ну, с другой точки зрения смотреть на это создать что тут на самом деле вопрос, который разделяет, он уже даже не проточен сп по интегра по всему домену, который нам интересен. И тут что можно сделать? Можно попробовать тоже явно оптимизировать это все. Есть критерий, который называют оптимальность. Для этого можно просто случайно, случайно только не бросать и по количеству там опять же даже порядок скорости необходимости будет зависеть это он.
: Ну как? случайно точки набросать невозможно, потому что это производственный процесс, и каждая точка это человека день работает для инженера на производстве.
: Как то, ну, как бы на практике я не видел примощь большой разницы между способами генерации главные эксперименты для допного планы эксперимента сложный хагоризма либо это смощью от рано верного заполнения нашего дизайна. А то есть тут нужно просто понять, каком регионе все это интересно, и там наброса достаточно полное количество точек, чтобы судить. Но тут, наверное, скорее вопрос в оценке ошибки. включить проци тоже это, мне кажется, про специфик обычный как и правильно устроить то есть, наверное, мы можем по.
: Может быть, Вы можете какие то ссылки на работы релевантные.
: Присво, я пришл. Напишите телеграмм. Я после доклада. Завтра, видимо.
: Пришли? Хорошо. спасибо. Так, коллеги, пожалуйста, еще вопросы. А вот у нас пропущенный вопрос. Пропущенный или нет? Теоретическое обоснова от Дмитрия Ракова вопрос, наверное, одновременно с Олегом задал.
: Смотрите, ну, в целом мы можем прямо то есть ну и, собственно, я этим работаю на деле а хоть сейчас про конститутивно думаю на сонач если верно сок на регрессии, то, по сути мы можем посмотреть, насколько та диспекция к зее может быть сильно отклоняться в реальной жизни от того, что у нас есть. Понятно, у нас есть некоторые спецификация неправильно с модели на модель на самом деле. Но если говорить про статистику, то получается, что мы обычно забиваем или рассматриваем больше по модели и то есть ансамбля на самом деле тоже обоснованно. То есть если все это посмотрите еще, раз то мы говорили что у нас есть сходимостьперического распределения интеграл интеграл по умолчанию это что то хорошее, ну, то есть это точная оценка расходования, то, что модель правильная. То есть на пальцах теоретически все это должно работать. на практике возникает некоторые сложности, потому что он стоит атаката изнашего распределения и суру довольно трудно и ваших а сам не будет, в общем то вопросы открыто еще есть атреминист концерт, да, смотрите. А тут тоже есть соображения. Да, Спасибо большое за уточнение. А то есть есть вот такого рода штуки делаем то в целом у нас все это свой ценно в первую очередь оценки неопности данных уточнение нечто средний зал пленности модели но в целом это вещь не самая плохая, потому что дочь похоже на то, что модели для нас с процессом а тут у нас и формально все вроде как дисперс мы оценили хорошо везде, и неформально у нас картинка довольно красивая получается. то есть он по точке есть неп побольше там, где точки нет у нас не просто не просто меньше а, точки есть у точек нет вашей причины не при погонщиком в такой постановке задачи вполне решена для как бы для афикации там, конечно, не по применимо но опять же силу того что мы хотим понимать про то в целом это хорошо не было плохо, но скорее хорошо для теории, поскольку конкретно хорошо уже будет задать модель сейчас. Спасибо. Вот у нас такая снистика сотнуть пани можно и нужно поменять.
: Хорошо, спасибо. Коллеги, еще вопрос вот до Дмитрия благодарность пишет алексей Спасибо за доклад и ответы было очень полезно. Ну, видимо, больше вопросов нету. большое. Спасибо. А есть комментарий, что в больших языковых моделях есть такая конструкция, называемая миксеров эксперт которая внутри себя содержит немножечко ансамбля вот. и это очень по архитектура, которая станет все более и более популярной, судя по многим признакам. поэтому, вероятно, залез во внутрь этой архитектуры можно что то еще интересное получить Отдумал, да? Хорошо. Спасибо всем участвовавшим. Еще раз напоминаю, что через неделю у нас семинар с Женизбеком Солбековым Из Пд университета про шифрова расшифровывание шифрования с помощью гентного спуска от. Всем спасибо. Спасибо, Алексеевич, До свидания.