Спикер о вебинаре:
Оценка моделей играет значительную роль в современной обработке естественного языка. Большинство современных тестов NLP состоят из произвольных наборов задач, которые не гарантируют какого-либо потенциала обобщения для модели при применении модели вне набора тестов и не пытаются минимизировать потребление ресурсов, необходимых для оценки модели. Мы обсудим теоретический инструмент и практический алгоритм для вычисления сходства между заданиями, который мы называем «расстоянием Выготского». Основная идея этого показателя сходства заключается в том, что он основан на относительных результатах «учеников» на выбранном задании, а не на свойствах самой задачи. Если две задачи близки друг к другу с точки зрения расстояния Выготского, модели, как правило, имеют сходную относительную успеваемость по ним. Таким образом, зная расстояние Выготского между задачами, можно значительно сократить количество оценочных заданий при сохранении высокого качества валидации. Эксперименты с различными бенчмарками, включая GLUE, SuperCLUE, CLUE и RussianSuperGLUE, демонстрируют, что подавляющее большинство бенчмарков NLP могут быть как минимум на 40% меньше по объему включенных задач. Также расстояние Выготского может быть использовано для валидации новых задач и бенчмарков, тем самым расширяя потенциал обобщения будущих моделей.
Презентация: https://drive.google.com/file/d/1iOq-UN_BlchyJW9y12LVIRkBym7-hUt0
Видеозапись: https://youtu.be/x65EYl-ynBY
Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР
В данной работе мы рассмотрим теорию «Расстояние Выготского: подход к оценке схожести интеллектуальных задач». Основное внимание уделяется изучению методов анализа и оценки, которые позволяют оценивать и сравнивать интеллектуальные задачи на основе их схожести.
Спасибо большое, во первых, за приглашение. Спасибо, Николай, и спасибо, что нашли время, присоединились. Меня зовут Иван, я профессор с недавних пор в Высшей технической школе в городе Вусбург. Германия это такое небольшой университетский город между Мюнхеном и Франкфортом, и мы здесь строим центр искусственного интеллекта. Я занимаюсь генеративными языковыми моделями,, до этого я занимался ими в лаборатории естественного языка, которую запустил в Петербургской высшей школе экономики. И это работа, которую мы начали, когда я работал в вышке вместе с моим студентом Максимом Сурковым, который сейчас продолжает развивать наши совместные работы в своей аспирантуре. Да, мы говорим про расстояние Выготского или Выготского, я, к своему стыду, не знаю, куда правильно ставить ударение, но так или иначе расскажу, кто это и почему мы хотим счастьем назвать это самое расстояние. Давайте по порядку Начнем с вот такого график, который мы в другой нашей работе с моим с автоми леша Тихонов назвали Кембрийский взрыв моделей. Вот если вы находитесь в Томске, то вы знаете, что Западно-Сибирская равнина крайне интересно с точки зрения археологии, потому что в ней можно найти много представителей флоры и фауны, которые жили на самое равнение много много много лет назад. И Кембрийский взрыв видовой это то, что археологи называют моментом, когда на Земле сложились сами благоприятные условия для жизни и внезапно видов стало очень очень много. Грубо говоря, процесс формирования новых видов не останавливался, а процесс вымирания существенно замедлился. В связи с этим видов стало много, видовое разнообразие резко подросло. Вот мы сейчас с вами живем в эпоху ким близкого взрыва, такого маленького кембрийского взрыва и больших языковых моделей. И к самому слову большие модели к словосочетанием большие языковой модели есть много вопросов, и мы чуть попозже в этом докладе про них говорим. Но вот это график из нашей статьи, которую мы в принципе обсуждаю, как оценивают качество работы больших языковых моделей. И мы показываем новые собственной модели опубликованной на Hugging Face за месяцы 2022 и 2023 года а синеньким помеченные модели на базе ламы красной модели на базе электай, сером все остальные. И вы видите, что процесс экспоненциален. Статью у нас взяли в августу двадцать третьего поэтому с тех формы туда не смотрели, но я полагаю, что сейчас этот столбик уже выходит за пределы славя, потому что за очень у нас появилось несколько моделей на базе Мистраль с открытыми весами. буквально на этой неделе Гугл опубликовал свои веса всем языковой модели на базе архитектуры CMU Distil такие как мамба рвкв опубликованы тоже были в позднею осенью в начале зимы. соответственно это экспонциальный пост количество модель он продолжается, а это количество статей, говорящих про то, как измерять качество этих самых языковых моделей. И очевидно, что сейчас в целом Элпие как дисциплина научная находится в жесточайшем кризисе, потому что мы видим много новых инструментов, мы видим много новых результатов, и мы совершенно не понимаем, как на самом деле убедиться, что предложенный результат действительно значимо лучше, чем предыдущие. И прежде чем я поговорю, просто невыгодка. Мне кажется, что это как раз статья, которая возможно позволить нам немного систематизировать вот этот самый экспенциальный рост модели. И вот прежде чем поговорить про суть нашего результата, давайте просто поговорим про то, как большие языковые модели разбивались и как их оценивали. Да, важно понимать, что у нас нет определения, что такое большая языковая модель, но интуитивно мы понимаем, что за последние пять лет понимание, что такое большая оно менялось, да, То есть, условно говоря, в две тысячи семнадцатом году вышла статья шен Зол, и в которой предложили архитектуру трансформер. на следующий год с год с небольшим вышла статья Берта, и Берт стал такой, ну, в общем, базовой штукой. И на то момент, когда Берт выходил, для некоторых исследователей из академии Берт учить с нуля оказалось неподъемной задачей. Но с тех пор закон Мура, который говорит, что количество вычислительных мечтастей, доступных нам, будет расти экспедиционная экспедиционально привел к тому, что какие то модели, которые с большими такими же не кажется и сейчас, наверное, конвенционально все, что больше, чем джип Гпт три, три, три, пять это большая модель, все, что меньше точка три, точка пять это маленькая модель, более того, примерно такую же. а такое же определение больших и маленьких модель зафиксировали европейские законодатели в принятом документе, который регулирует собственно эти самые большие и головой модели. Они говорят, что если у вас больше чем три с половиной гигафлопс на вычисление потрачено был большая модель, и это примерно соответствует пяти три пять, которые уже считается большой по этой законодательной инициативе. а все остальное, что меньше, оно как бы под нее не подпадает. При этом до появления пяти три жизнь была устроена довольно просто были бенчмарке бенчмарков было много, но они помещались на один слайд. Вот, собственно, самое главное в марк вы здесь видите. я думаю, большинство слышали или видели. мы можем устроить голосование, не знаю, есть у нас такой интерактивный инструмент голосования или нет, но может поставить плюсик, если, к примеру, знаете, что такое глюд или суперглю. Вот если у нас есть чат и можно в нем что нибудь написать. Я не знаю, есть ли у нас возможность. Николай, у нас есть возможность устроить голосование и проверить, как люди знают, межбанке. : Поднимите руку, если вы знаете, что такое глю. Суперглю Вот метя поднял руку, отлично какое то количество не подняли. : Так, три человека в курсе. Давайте тогда я, судя по скорости, с которой люди. понимают. други, видимо есть некоторые. Вопросы. Ну, смотрите вот что такое в принципе бенчмарк? Бенчмарк это какой то набор задачек, который предлагается модель выполнить глю это дженер лэнгвич андестендинг в люишем грил ю и это был бенчмар, предложенный в восемнадцатом году людьми из Нью Йорка. он содержал в себе несколько подзадач. Эти подзадачи были ответ на вопросы, ответ на вопросы когда у вас есть выборы из четырех вариантов ответа или ответ на вопросы, когда вы, допустим, есть текст по тексту задан вопрос нужно, чтобы модель ответила сама сгенерировала ответ задачи связанной суммаризацией. К примеру вот есть большой текст, вот есть задача написать саморе большого текста и иногда даже есть человеком написанная саме. И можно бы сравнить, насколько ваша модель близко суммузует похожее на человека. Вот, пожалуй, очень интересный бенчмарк, про который я советовала бы посчитать, это схема винограда. Виноград это такой американский ученый украинского происхождения, который и предложил в какой то момент более операционализованную альтернативу тесту Тюринга. Вот давайте мы будем развивать умение поднимать руки. давайте спросим кто знает, что такое тостюринга поднимите руки так те же на манеже. А нет, побольше Дарья подняла. раньше даже не понимал. Так, ну, слушайте, а что ж вы. А, ну вот, вот вот вот. все. все квалифицированное большинство знает, что это стерлинга. Спасибо. Давайте расскажем для тех, кто спит. Как это? Давайте проверим, они живы вообще. А если вы не знаете, что такое эта Стюринга, вы поднимите руку есть люди, которые не знают, что это сюнга, или просто остальные спят. А вот Николай честный человек. Николай, объясним, что такое то стена? : В общем, очень коротко то Сюринга была такая базовая идея, что если модель в чате общается с вами, я сильно упрощаю. Тюринг мыслил в терминах записочек. В его времена была такая слоная игра, когда мужчины и женщины уходили в соседнюю комнату и остальные участники вечеринки отправляли туда записочки, и по ответам должны были догадаться, кто им отвечает мужчины или женщины, а соответственно тех, кто ушли в другую комнату. У них была задача ну, как бы один отвечал честно, а другой или другая, соответственно пытались прикинуться, что они там, не знаю, ушел не ср Реджинальд и его кузина, и они оба пытаются косплеить кузину Сырбель. А мы с вами должны по ответам понять, кто настоящий сэр Реджиналь. Так то кузина. Вот там Тюрин предложил заменить соответственно одного из участников игры на компьютер и сказал, что если мы с вами не можем понять по ответам компьютер с нами говорит человек значит, компьютер разум это его статья в журнале Майнд журнале Королевского философского общества, которое до сих пор является самым цитируемой статьи в этом журнале по философии, что довольно забавно. Вот а схема винограда, предложенная виноградом, это альтернатива. Это тут Юринга, он говорит Смотрите, довольно часто, когда мы говорим про интеллект, нам на самом деле важно, понимает ли модель, как устроен мир. И вот я предлагаю вам такое простое предложение, по которому можно понять, понимает модель, как устроен мир, или нет. Предложение такое Я не мог засунуть гитару в чемодан нет, гитару я не мог засунуть в бас в чемодан, потому что он был слишком больш Модель спрашиваем кто был большой басс или чемодан И человек он понимает что в предложении я не мог снуть бас в чемодан, потому что он был слишком большой, слишком большой был басс, потому что если бы чемодан был слишком большой, то как раз легко у него бас гитара поместилась, а вот модель может не понимать, и наоборот можно такую же схему построить такую я не мог заснуть бас в чемодан, потому что он был слишком маленький, и тогда ответ уже чемодан, а не бас. То есть чтобы правильно разрешить с кема винограда, модель должна понимать какие то соотношения между двумя объектами или субъектами, упомянутыми в тексте. Это такой интересный упрощенный варианте статьюллинга, который не очень известен, но при этом, мне кажется, классно, в общем вот эти бенчмарки представлять себя такую коллекцию заданий разного толка, и на них можно было хорошо работать, потому что модели были примерно в два раза хуже людей, иногда на тридцать процентов, иногда на пятьдесят хуже людей, и соответственно было довольно хорошо видно, как мы прогрессируем по этим маркам. Но все изменилось появлением джи пяти три, потому что в этот момент по всем этим бичмакам мы стали получать, а иногда и выше качество. То есть, условно говоря, если раньше люди работали там, отвечали на вопросы по тексту лучше, чем модель, теперь модель стали отвечают лучше, чем люди. и это привело к следующей волне бенчмарков, которые были построены по такому же принципу, но стали сложнее и больше. И попытка здесь была сказать смотрите, да, мы понимаем, что на тех старых бфмаках нашей модели работают почти так же, как люди. но вот у нас есть новые бенчмарки, они значительно сложнее, и на них уже можно увидеть, что по прежнему модели не справляется. Тут на самом деле возникло много проблем. Вот пример смартом три век Юэй. Проблема в том, что это вопросы по некоторым фактам. Может быть, вы играли есть такая игра тривиодра, она была довольно популярна в разного рода социальных медиа социальная казуальная игра, в которой можно самому играть можно с друзьями когда вам на скорость задают какие то факты такие в формате своей игры не знаю в, каком году было не была основана москва или или какова длина волге и вы начинаете вопросы отвечаете ну, и в, общем не, трудно понять, что не так много людей хорошо отвечают на такого рода запросы. И оказалось, что та же самая Дже пяти три и особенно чат Дже пяти на вот такие бчмарки отвечают очень хорошо частично потому что эти бенчмарки были опубликованы в сети попали в кому крол, который собирался для обучения чаджи пяти и, оказалось что вся втором смысле модель знает это тебе не в парке просто наизусть и даже просто оценив ее на о том, как она хорошо отвечает на эти вопросы, довольно сложно убедиться что эти ответы вот эти оценки они верны для новых вопросов которые тебе шмаки не попали. А после чатжи пяти наступила нынешняя эра, когда стало совсем хорошо в том смысле, что модели стали большими, начинают пяти четыре и вот пяти четыре она, к примеру, проходит так называемый тест Джимат или там тест Эсад это разного рода тест, на которых тестируют американских выпускников школ для поступления в университеты, и вот она их проходит лучшие медианного ученика. Вот давайте осознаем это. И это не потому, что медианный ученик в Сша очень плохо, хотя, конечно, он не чита медианному ученику в Томске, я уверен, но тем не менее это потому, что модели стали действительно хорош в таком широком спектре задач, и примерно понятно стало, что обойтись какой то одной моделью, в смысле одним бенчмарком, который достаточно большой, очень сложно, но люди все равно продолжают стараться, придумывают новые бенчмарки, придумывают какие то способы оценки. И сейчас картинка выглядит примерно так мы берем много много много разных бчмаков, оцениваем на ней модель и дальше пытаемся как то усреднить при помощи какого нибудь рейтинга элла рейтинга или мы берем и прям людьми собираем оценки работы модели для разных ситуаций так, чтобы модель гарантирован костилровлась на данных, которые никогда не видела. Есть еще такой третий способ, который совсем оккультный, когда мы пытаемся сделать модель, которая бы моделировал оценку человеком. Я сейчас не буду вдаваться в детали, но так или иначе сам этот факт того, что у нас бичмарк становится очень много, они становятся узко специальными очень разными, и возникает масса вопросов протока агрегировать вот этот факт. он толкнул нас на мысль, что неплохо бы было придумать некоторый инструмент, который бы позволил нам различать бенчмарки между собой. потому что, если посмотреть на разные задания, на которых модели оцениваются достаточно быстро, возник ощущение, что как бы не все бенчмарки одинаково полезны. Есть какие то задания, которые явно очень простые, и не очень понятно, почему мы до сих пор их используем для оценки работы модели и что нам эта оценка говорит. А есть, допустим, задания, глядя на которые кажется, что если Мадрес справляется с этим заданием, то, наверное, есть тем более простым она тоже справится, да, в общем, у нас возникла задача. Вопрос скорее, как мы можем систематизировать имеющийся вот этот зоопарк бенчмарков? При этом надо понимать, что вокруг парка есть очень много проблем. Во первых, вот как я сказала, они просто проливаются в ком крол и дальше модели лучивают наизусть дальше их очень много и разные новые бенчмарки. Когда человек публикует новый бенчмарк, говорит вот я сделал, не знаю, новый набор заданий для того, чтобы проверить, насколько хорошо модель отвечает на вопросы по медицине. Ну, он же как бы, скорее всего, медик или работает вместе с медиками. Он собрал каких то реальных данных вокруг медицины, собрал каких то ответов, как ты их разметил, но он вообще никак не проверил, как этот бенчмарк относится со всем остальным, что уже есть опубликованная. Дальше. Оказывается, что в некоторых темах у нас бенчмарков многое но в то же самое, не знаю, в ответах на вопросы по школьной программе бечмарков много. Почему, как вы думаете, есть люка? Вот поднимите руку с гипотеза, почему по медицине бенчмарков мало, а по ответу на школьную программу много. Поднимите друга Есть гипотеза Андрея, есть гипотеза остальных, нету интуиции. Ну смотрите, давайте я вам расскажу, как устроен реальный мир. Школьные учебники это паблик ноледж, это паблик домен. Почти все школьные учебники опубликованы без копирайта, и на основании их любо дорого собирать бенчмарки. А кроме того, школьное знание это знание, которое обладает большое количество людей. Поэтому вы можете проверить качество вашего бенчмарка при помощи разного рода платформы для крау сбора данных. А вот медицина это часто сильно коммерциализованная область, в которой крутятся миллиарды долларов. И несмотря на то, что вроде как все понимают, что от того, что будет больше открытых данных, это будет лучше работать в системе диагностики, лучше работать системой персолизации лечения. Проблема в том, что очень многие медицинские организации не заинтересованы в публикации данных, потому что беспокоятся, ну, потому что они не очень понимают, как работают искусственный интеллект, я не очень понимают, как в принципе работают технологии. Поэтому они думают, что от того, что они опубликуют свои данные и в конечном итоге, значит, не знаю, диагностов нужно меньше. они не понимают, что на самом деле в мире живет там десять миллиардов человек, И в идеале мы могли бы построить персонализованную диагностику и персонализованные решения для всех десяти миллиардов. И нам для этого нужны все имеющиеся у нас диагносты и еще в десять раз больше которых просто взять не откуда именно для этого и нужен и Вот и поэтому в разных областях ситуация скрудными данными устроены по разному, и, в частности, в некоторых властях очень мало открытых да. Ну и дальше как бы есть всякие штуки, связанные просто с существительными сложностями. То есть представьте, что вы взяли новую модель вы сожгли и так кучу компьютер, для того, чтобы обучить, а теперь вам нужно показать, что она лучше других моделей, и для этого вам нужно в идеале ее потестировать нам примерно всех бичмарках, которые есть. Это довольно долгая и утомительная задача, и ученый может себе позволить, наверное, потратить это время. а вот если бы в индустрии работаете и, не знаю, вы работаете в каком нибудь банке, хотите обновить ваш отбота вам бы как бы хотелось как то быстро оценить лучшую модель для ваших задач, чем предыдущая, или нет? прогнать ее на каком то небольшом количестве бенчмарков и понять, что она работает. И вот в современном мире хорошего способа сделать это быстро, к сожалению, нет. Ну и вообще, если вам интересно прогуливейше почитать подробнее вот ссылка на Прилин Приприн вышел на вкшопе Джем в прошлом году этот дженерейшен модул по, моему модулинг в общем это бакшоп джим При гемоп, который посвящен как раз сбор бенчмарков для генеративных моделей Башоп очень медленно просиде до сих пор не вышли. поэтому вот есть ссылкой на преприн на архиве но этот препринят он проходил рею и там. в общем, можете почитать дальше про то, как вообще все устроено валюции. Но теперь, когда мы поняли, в чем суть проблемы, что значит бенчмарки растут как грибы после дождя, так как отличается хорошие от плохих непонятно, как их себе стиматизировать непонятно. и главное, совершенно непонятно, какова предсказательная сила течь марков, которые у нас есть. потому что вы же в идеале хотите убедиться, что, ваша модель будет работать на новых задачах не совершенно непонятно от того, что вы ее на десяти, допустим, бечмарках оценили или на пятнадцать. Вот вы как бы значительно увеличили оценку того, что на новых данных вашей модель будет хорошо работать, или незначительно? Вот на все эти вопросы у нас нет хороших ответов, и, собственно, мы предлагаем некоторую метрику. Сравнение бенчмарков мы предлагаем назвать в честь такого советского психолога Выготского, который предложил идею, которая, собственно, он заметил. он занимался когнитивной психологией. У нас есть два таких столпактивной психологи, которые работали в Советском Союзе Это Лурия и Выгодки, они даже вместе работали. И вот Выгодки я обратил внимание на интересный феномен если ребенок разговаривать со взрослыми, то взрослые разговаривать с ребенком на более сложном языке, чем язык, на котором разговаривает ребенок. Взрослый дает ребенку более сложные задачи, чем те, которые ребенок может делать уже сейчас сам. То есть, грубо говоря, дети с детьми разговаривают на более простом языке, взрослые взрослыми на более сложно, а вот взрослые с детьми разговаривать на языке, который проще, чем тот язык, на котором они разгова взрослыми, но сложнее, чем тот язык, на котором дети разговаривать друг с другом. И он, собственно, вел это представил понятие то, что в английском называется зона прокс деблат, это как бы некоторая разница между тем, что ребенок может делать сам, и тем, что ребенок может делать при помощи инструментов или других людей, которые знают больше, то есть групп. говоря, вместе с учителем или вместе с какими то инструктором вы можете сделать чуть больше, чем сами по себе. И вот этот подход в принципе к оценке ну и вообще выгодске он он очень много думал именно про то как оценивать успех или не успех образовательного образовательной программы что такое образовательный результат, и постоянно выступал за то, что нужно оценивать в терминах ученика, а не в терминах единой какой то программы. Ну, грубо говоря, если у вас есть человек, которому явно есть сильная предосположенность к математики, довольно странно оценивать его результаты на основании такой же контроль, на основании которой вы оцениваете человека с задержкой в развитии. Да, наверное, если человек задержка в развитии решил на двадцать процентов больше примеров из вашей контрольные, чем месяц назад, то вы, наверное, достигли более впечатляющего образовательного результата с этим человеком, чем если у вас на двадцать процентов больше решил человек, который я не знаю луриак с российской олимпиадематике. И собственно, вот эта идея оценивать качество обучения, опираясь на учеников, а не на их результаты, нам оказалось интересной, и мы подумали, что надо ее применить к бенчмаркам, и ввели понятие расстояние Выготского. И, в общем, базовые идеи здесь написана Мы обычно используем бенчмарки для того, чтобы оценить модели, и на каждом бенчмарке оно представьте у вас есть задачка, не знаю, ответ на вопросы, и у вас есть процент ответов, которые каждая модель дала. Пусть у вас есть десять моделей тогда вот этот рейтинг модели на задачки. А это какая то перестановка из десяти позиций на первом месте модель номер три, на втором месте модель номер два, на третьем месте модель номер шесть и так далее. да, и у вас есть, допустим, задачка Б, и на этой задачки у вас, к примеру, задачи суммаризации текстов и какая то метрика, по которой вы эти модели спорите, и у вас соответственно, новая перестановка из за тех же десяти моделей, но на задач Кб. И обычно мы мыслим про бенчмарки в терминах, что если моя модель выше на всех задачах унчмарка, чем другая модель, то, значит, эта модель лучше. Мы решили посмотреть на задачи внутри бенчмарка в термин рейтингов. Ведь на самом деле если у меня задача и задача б, и ранжирование моделей на каждой задаче одинаковая, то в некотором смысле мне неважно знать результаты модели на второй задаче, если я знаю их на первый. Представим себе, что вот у меня есть ранжирование на задачу ответа на вопросы и поэтому оранжированию на первом месте модельным один, на втором номер два, на третьем номер три и так далее. а дальше у меня есть задача суризации и на нейранжирован ровно такое же. И интуитивно понятно, что в некотором смысле получается, что несмотря на то, что для нас эти задачи выглядят как разные, одна задача ответов на вопросы, а другая задача сумаризации. Для модели в некотором смысле задача одинаковые, потому что модели не меняют своего относительного положения в рейтинге на этих задачах. И собственно, мы предложили вести метрику расстояние Выготского как просто количество перестановок, которые нужно сделать, чтобы получить из рейтинга на одной задачей рейтинг на другой. То есть представим себе, что у нас есть очень простая ситуация. Пусть у нас будет две задачи задача один и задача два. и соответственно задача один у нас модели а б а и б с на первом месте модель анна втором модель цен на третьем б это, соответственно ранжирование пи а здесь у нас А бц это оранжеров сига. И вот идея ровно в том, что для того, чтобы получить из писигма, нам нужно сделать одну перестановку, и тогда у нас получится ранжирование соответственно дальше. Если количество перестановок нормировать, то мы получаем число, которое будет в интервале от нуля до единицы и в нуле у нас будет ситуация, когда у нас не нужны вообще никакие перестановки, у нас есть транжирование, а цена одной задачи и абц на другой, и нам не нужно вообще ничего делать. А в единице у нас будет ситуация, когда у нас в одной задаче Абц, а в другой задаче соответственно а, к примеру и для того чтобы сейчас нет цб так, и соответственно, чтобы из одной из получить другую, нам нужно сделать аж четыре перестановки, иначе оранжирование не совпадают. То есть, грубо говоря, задача номер один в случае, когда расстояние Выготского один, она максимально отличается от задачи номера. Вот давайте в этом месте сделаем небольшую паузу, и вы поднимите руку, если вы поняли, о чем речь. : Потому что. потому что это. это. это ордер, сет. нам важно, кто на первом месте, кто на последнем. Нет, ну вот мы не можем, мы не можем представлять, мы не можем представлять с конца в начало за один ход. это как бы строка. То есть мы не можем, нам надо переставки делать, меняет вкус. : Так? Именно так. Ну, вы логика в этом на самом деле такая, что поскольку это ранжирование на рейтинге когда мы сменяем, ну вот представим, что у нас есть четыре модели и мы хотим переставить местами вот эту и вот эту, вторую. Четвертый на самом деле означает, что нам нужно и третью переставить местами с четвертый, потому что после того, как мы переставили здесь у нас взаимная то есть, грубо говоря, у нас если мы переставим а в начало а вниз, то у нас изменится относительное положение б по отношению к обоим моделям. Да, и нам это надо учитывать. Давайте все таки вопрос про руки. Вот вы поняли, что происходит. То есть смотрите, у нас есть ранжирование моделей, и мы говорим вот у нас иранжирование оно порядочное, от самый хороший, самый плохой. и мы говорим, что две задачи идентичны в терминах расстояние выгодского то есть расстояние ними ноль, если оранжирование одинаковое, а есть зараживание максимально отличается. так что нам нужно делать много перестановок для того, чтобы из одного получить другое, то тогда мы говорим, что эти две задачи максимально далеки друг от друга. вся на состояние Выготского, да? Ну, к примеру, представим себе школьные предметы. Представься школьные предметы и скажем, что у вас есть математика и музыка, к примеру. Это, кстати, довольно интересная аналогия, потому что корреляция Пирсона изначально была предложена Пирсона в статье, в которой он изучал работу. Леонид, вижу, у Вас вопрос, отвечу у него закончу комментарии. Пирсон в своей работе, в которой вел к реляцию Пирсона, он вообще ее вел для того, чтобы найти то, что он называл коэффициентом интеллекта. Он обнаружил, что ученики, у которых хорошие оценки в школе по разным предметам, у них хорошие оценки по другим не знаю, говорит, высокая оценка полатыни у вас в англист высокая оценка и по муски тоже высокая оценка и и так далее. И были предметы, которые были слабо корреливы друг с другом, например, физическая культура, да? вот если у вас высокая оценка по английском и по музыке, это совершенно не гарантирует, что будет высокая оценка по фехтованию. Дело было в девятнадцатом веке, тогда были такие предметы, а с другой стороны, были какие то предметы, которые сильно коррелировали. к примеру, о том то, что мы сейчас называем вербальный интеллект, то есть знание языков или абстрактное мышление. Вот прям выделялись там вот эти компоненты достаточно хорошо. И вот мы мыслим в этих же терминах. Мы говорим, что если у нас есть две задачи, на которых школьники показывают сопоставимый сравнительный рейтинг, то в нашем случае школьники это языковые модели, то тогда как эти две задачи в некотором смысле похоже, и неважно, как они выглядят для нас. Может быть, для нас они кажутся разными, но для вот этих самых обучаемых они похожи и наоборот. Теперь можно ответить на вопрос Леонида. Леонид. Защий вопрос в такой оценке мечпарков предполагается. Что, модели на разных вич вичмарках ведут себя одинаково даже я су через средние агрегаты по классу моделей. Я не до конца понял вопросы, потому что мне кажется, во первых, он сформулирован как утверждение. Ну, давайте я прокомментирую. Смотрите, мы не агрегируем по классу модели, мы подходим в экспериментах. Я дальше про чуть подробнее скажу. Мы говорим вот у нас есть, не знаю, пейперс всуд это такой веб сайт, на котором собранный открытый результат тестирования разных модели на разных бить в марках, и мы показываем, как это работает, на примере конкретных межпарках и конкретного набора моделей. Пусть у нас есть десять моделей, которые на восьми задачах с бенчмарка как то работает. Я сейчас вам покажу, как это выглядит. А вот у нас есть бенчмарк галю в этом бечмарке есть некоторое количество задач и задач в этом бечмарке каждый тип задачи он отмечен точкой на этом граф граф это это минимальное дерево из граф который получается, когда мы рисуем в расстояние Выготского для глюк, значит, и соответственно у нас здесь сеньким отмечены задачи на понимание естественного языка, а зеленым отмеченные задачки, которые требуют просто оценки качества классификатора в терминах точности Черным это задача пара фраза бежим задачи сентиа. Но при этом если мы посмотрим на вот эту спян три то есть то мы видим, что в некотором смысле оказывается, что рт и мнлы, хотя вроде как они себя оппозиционируют как и то и другая задача нашел Франции они находятся друг от друга довольно далеко, а то есть схожесть между ними невысока, и не знаю, наоборот, там какие то задачки находятся довольно близко, хотя мы думали иначе. Соответственно, идея вот в чем чтобы мы взяли порядка дюжины модели, которые все результаты которых опубликованы на меч марки глю и исходя из предложенной выше формулы посчитали расстояние выгодского Взяли дальше порождающее дерево получившего, ск и вот от врождающее дерево. Оно показывает нам структуру Бенчмарка и показывает похожесть заданий друг на друга внутри этого парка. И мы видим, что многие задания довольно похожи. То есть есть задание, которое далеко друг от друга. Мы, по сути, не обозначаем ребрами задания, которые далеко друг от друга, но есть задачи, которые сравнительно похожи. И если вы посмотрите на эту траекторию, просумируйте ребра от внд рт, то вы на самом деле получите примерное значение ребра между в и рт, которое было, и мы его убрали, поскольку это порождающее дерево. То есть в некотором смысле мы можем померить расстояние от каждого бечмарка любой другой бенчмарка в нашем в нашей коллекции а просто просуммировав значение ребер на кратчайшем пути от одной задачи до другой. и это довольно удобно само по себе, и оно показывает некоторые неочевидное она вещи. Ну, к примеру, вот оно показывает, что задачи, которые вам кажутся с задачами начин могут быть как очень похожи друг на друга вот здесь так, и очень далеки друг от друга. Так вопрос в чате. Выбор модели как раз определяет то, насколько хорошо мы можем оценить. Да, совершенно верно, Леонид, Это собственный вопрос, который можно поисследовать, насколько устойчиво это штука к выбору модели. Мы на текущий момент пользуясь открытыми данными в том, что есть на Ппс Вск. И понятное дело, что когда модель мало, а стабильность такого рода оценки ниже. Однако в случае с языковыми моделями мы видим, возвращаясь к тому первому слайду. Кембрийский взрыв. Мы видим, что модель на самом деле тысячи скоро будут, и кажется, что в дальнейшем вопрос о стабильности отпадет, потому что модели очень много, и хорошим тоном является оценкой модели на достаточно большом количестве популярных гончмарков. Поэтому вот эта статистика по мере развития и публикации все большего количества языковых модели, она, кажется, будет становиться все более и более стабильной с этой точки зрения до другой. Давайте посмотрим пример Суперглю это следующий бенчмарк поверок Блю, которые сделали через год. в нем чуть больше задачи, они немного другие, а он, соответственно, немного другую структуру имеет. Но снова мы видим интересные вещи, то есть мы видим, что некоторые вот здесь как бы другая кодовая схема, здесь, соответственно, есть ответы на вопросы. Здесь уже начал мужчин в одном месте находится, и он довольно похож. но мы видим, что кэй здесь, оказывается, местами похоже друг на друга, местами не похоже. То есть у нас есть две кеи компоненты, которые мы, как люди, обе записали в коше. Ленски сказали, что они похожи, судя по тому, как модели на них проформят, и разные. Леонид, можно ли при такой оценке выискивать, на каких слах марки похожи и можно использовать только один из парок и отличаются и тогда найти можно использовать вымеч марка. Леонид, Вы молодец. Если бы Вы придумали эту идею год назад, то мы бы с вами написали статью. Но мы придумали идею с Максом, и, собственно, я сейчас про это как раз и покажу. Вот смотрите, это наша оценка попсу. мы прокачали датасет всех бенишмаков и статьей это соответственно, плотность размеров бенчмарков с точки зрения количества задач у них большинство обещ марков содержит себе две три задачи есть какие то бег парки больше пяти. Есть небольшое качество бечмарков действительно сложных и интересных, в которых десять пятнадцать задач мы на них сосредоточились это вот там суперглю, это плэйн геймс и так далее. вот это соответственно, распределение тем по которым бенфмарк опубликованный пеперс самое большое собственно, компьютерное зрения потом язык и вот игровой бенчмарк тоже достаточно большой интересный какое то количество на современных рядов и на разного рода методологические штуки, но это на самом деле такой синкретический раздел Попс сказал я бы не обращал на него внимания. но при этом вы видите, что, допустим, вещи, связанные с компьютерным кодом или с медициной, но они их мало, и тут не очень интересно что то делать в плане компрешено. А вот дальше мы сделали вот что. Мы взяли и разбили суперблю на публичной и частной лидерборды. То есть мы взяли два задания Булаки и Копа и сказали, что давайте вот они будут публичными и мультиверсии будут закрытыми, и давайте попробуем проверить, можем ли мы по публичному скору предсказать закрытый скот. Это примерно то же самое, что предлагают ли они. То есть я вам напомню, что булатю он находится вот здесь, а копа находится вот тут, они довольно далеко друг от друга. И соответственно, взяв открытыми задачки на концах порождающего дерева, мы рассчитываем, что мы сможем предсказать, что то, что, грубо говоря, между этими задачками лежит, то есть с и мультисии. И это действительно оказывается так. Мы чуть больше, чуть чуть позже покажу, как работает вот эта сжатия бенчмарков, покажу еще одно распределение. Возвращаясь вопрос Леонида, на который я уже ответил. Он предвосхитил в этом смысле мой рассказ. Действительно, стабильность оценки зависит количество модели, которые мы можем оценивать. Мода количество модели это девять моделей, которые на одном и том же бчмаки посчитанные для тех больших бчмак, которые смотрели там как бы, ну там порядка десяти модели было соответственно, нас это вполне устраивало, и, собственно, мы видим основные эпч марки для которых мы Делали вот клюв это китайский китайский бехмарк понимал языка он самый маленький российский чуть побольше суперглю еще побольше просто глю, на нем очень много моделей. И соответственно, вот что получается в термина компрессии это три разных классификатора, которые дают девяносто пять процентный интервал оценки точности с которыми мы можем предсказать скор на закрытой части бенчмарка в зависимости от того, насколько сильно мы сжимаем. И, собственно, вы видите, что если сжимать бечмар где то на сорок шестьдесят процентов, то можно с очень высокой точностью. То есть там свис в этом смысле дает сам большую точность и соответственно самую маленькую абсолютную ошибку. Вот как бы просто методом викторов опорных можно взять классификатор, который по шестидесяти процентам бичмака предсказывает скор на оставка сорока или, наоборот, и неплохо работает. То есть, грубо говоря, можно выкинуть больше половины меч марка и с точностью восемьдесят процентов предсказать результаты модели на выкинутой части бчмак. И это как бы очень важный финальный результат, который мы показали, и то, что как выкинуть часть бч парка, и то, что в зависимости от задачи мы можем ошибаться от пяти до двадцати процентных пунктов в абсолютном споре модели, что, кстати, само по себе суперзабавана, потому что сама методология до этого момента она вся была основана только на относительном положении моделей на бичмаке и вообще никак не учитывала абсолютной величиной того, как модели перформ. И в сухом остатке получается, что при помощи Выгодский единственность можно делать несколько вещей. Во первых, расстояние Выготского Позволяет вам представить бенчмарк В виде порождающего дерева которое, позволяет вам увидеть насколько, схожи или различные задачи внутри бич марка. Во вторых, вы можете выбрать после того как такое порождающее дерево построили некоторый набор задач, по которым вы можете там по сорока процентам мечмака предсказать достаточно высоко на результаты модели на оставшихся в шестидесяти процентов. И самое главное на самом деле, на что я надеюсь и за что очень хочется радовать это, чтобы, когда человек публикует новый меч марк он брал предыдущий бечмарк, относительно которого он утверждает, что он улучшается. То есть почти всегда люди публикуют новый бичмарк, не знаю про ответы на вопросы, и говорят мы делаем это потому что тот бечмарк ответ на вопросы протух и на нем модели работают так же как люди. Вот хочется, чтобы с появлением расстоянии Выготского как методологического инструмента люди теперь правильно учмак брали оценивали на нем десяток моделик из тех моделей, которые, у них есть скоро на предыдущем мечь марке и говорили смотрите, ребята, вот мы оценили расстояние Выготского между новым бенчмарком и старым довольно большое. Это означает, что новый бенчмарк действительно повышает наши шансы на то, что модель вот как бы генерализуется и ее обещающий потенциал растет, потому что мы включили этот бенчмарк в наш набор задачных, которых мы считаем качество работы модели. Ну, все, я все, что хотел, рассказал. Я думаю, что можно перейти к вопросам и дискуссии. Пока в ней участвовал только Николай Леонид. : Вы знаете, я тут у меня два комментария. Во первых, я с некоторой иронией отношусь к желанию Шмидхубер утверждать, что, он все придумал хотя уважаю безмерно ряд в работу, но мне кажется, что все таки есть какой то кодекс научной чести. и мне кажется, мне представляется, что он почему то его нарушает, я уж не знаю почему, но это говорит с мое личное оценочное суждение. Кто я такой, чтобы судить Шмидхубера? Ему и без моего мнения отлично. Повторых. Мне кажется, что есть общая тенденция, с которой я лично борюсь, и всем моим русскоязычным коллегам советую присоединиться к этой битве. Это на самом деле как куда более важная, мне кажется, часть развития мирового такого культурного пространства. Это то, что вообще наука предполагает, то, что вы развиваетесь внутри некоторой интеллектуальной традиции. И вот эта пресловутая фраза Ньютона, что я стоял на плечах гигантов, а до этого не знаю, исламские ученые которые придумали формулировку так сказал такой как как было на самом деле, знает только Аллах, а до этого еще древние греки в принципе придумали ссылаться на документы друг друга. Это вот идея того, что мы находимся внутри некоторые интеллектуальной традиции и ее развиваем. И мне кажется, что, к моему сожалению, многие русскоязычные ученые не обращает достаточно внимания на тот интеллектуальный потенциал, который русскоязычная культурная традиция несет. И всегда, когда можно популяризовать какие то достижения русских ученых прошлого веков, и я стараюсь это делать. К примеру, мой любимый пример это мы все знаем, кто такая Да Лавлась, мы все знаем, кто такой Чарс Бегаш, ну, может быть, многие знают как некоторого первого автора концепции компьютера, как первого программиста. Но у нас был такой Николай Корсаков, который в тысяча восемьсот тридцать втором году написал записку на создание инсуальной машины, попал в Русскую академию наук, и он предлагал в отличие от Бебеджи, который хотел паровой вычислитель. Корсаков предлагал делать вычислитель, в котором информация кодировала с размерами Брука. Он предлагал у брука три размера плюс вес это четыре переменные. и он, значит, пытался так вводить данные в некоторую машину, которая при помощи весов должна была производить вычисление, на что получила ответ от господина Остроградского, что господин Корсаков потратил много ума, чтобы люди могли обходиться без ума. Идея, конечно, прикольно типа, но делать мы ничего не будем. Вот то есть вот такой есть персонаж, забытый многими. Я вот очень топлю, чтобы Вышкинский Центр искусственного интеллекта, который в Петербурге, возможно, появятся, назвали в честь Корского ровно в рамках этой же идеи, что давайте как бы находить людей из нашей интеллектуальной традиции и помнить о том, что они сделали классные штуки. : Да, я бы тоже предлагал побиться в какой то момент Википедии за то, чтобы это была двойная инфляция, это алгоритма но. : Мы, да? Ну, во первых, там, в статье есть еще другие картиночки, там есть, по моему, картинка для ран супруглю. А если нет, можно мне написать письмо, я пришлю, она у меня где то есть, может быть, мы просто ее не публиковали, я сейчас не вспомню. Во вторых, мы сейчас делаем более интересную штучку. Мы хотим попробовать посмотреть, можно ли такую же штуку применять к школьным материалом, ск говоря метрика, ей все равно, кто обучающийся, и нам интересно попробовать генерализировать эту штуку и посмотреть, можно ли ее в принципе для педагогического дизайна использовать. : Понимаю, это мы просто так в статье предлагаем так назвать эту метрику мы ее придумали и хотим назвать честь российского советского исследователя ну. так, бывает когда, в. : Делаете новый результаты вы можете как то назвать? Это один из бонусов занятий наукой, и я советую им пользоваться, если результат хороший, и пользуйтесь на здоровье. Можно таким, да? Важно сказать, что эту статью у нас взяли на коллинг, то есть в июне, в мае, будет в турне конференции по вычислительной энгвистике, и мы там будем рассказывать. Она попала в основную часть конференции, то есть тоже пока есть Приприн, просидев в июне, но статью накольник уже взяли Можно ли таким способом сравнивать не только по ансамблю модели, но и модели ансамблюсов, модели пантов люди сравнивают уже давно, и там много такого сделано, и это как раз, ну, там есть много интересных результатов. Там немного другая логика, потому что довольно странно ранжировать датасетты относительно друг друга. Поэтому там обычно идут какие то усреднения, агрегации, их много разных, и про это как раз есть много разные прикольные математики. Поэтому я бы не советовал пользоваться этой методикой, я бы советовал именно этой методикой пользоваться. когда у вас есть задачи, на которых у вас есть оранжирование того, как работают на них модели или другие ученики. Это может быть не только, мы полагаем, что это может быть любой интеллектуальный агент. не обязательно модель, не обязательно языковая модель. Но будет ли запись публично это. : Нам нечего скрывать, мы ученые. Разница между жильцом и ученым в том, что жилец сохраняет знания, а ученый распространяет. Это смена парадигм лет пять назад случилось. : Но прежде чем откладится, и кратко резюмирую видимо, нету. Спасибо большое за приглашение. Я надеюсь, что было интересно. и если у вас есть какие то дополнительные вопросы у Николая и у организаторов этого мероприятия есть мои контакты, можно написать мне письмо и задать вопросы. : Хорошего вечера.