Научно-технический вебинар «Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2»

17 октября 2023, 16:00 MCK

О вебинаре

  • Спикер

    Иван Бондаренко, Новосибирский Государственный Университет, Новосибирск, Россия

  • Тема

    Научно-технический вебинар «Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2»

  • Подробнее про вебинар

    Спикер о вебинаре:
    Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень ошибок на тестовой части одного из популярных академических датасетов (например, Librispeech или CommonVoice), но качество этой же модели на реальных данных в ходе эксплуатации существенно отличается в худшую сторону.
    В своём докладе я попробую охарактеризовать проблему устойчивости нейросетевых алгоритмов распознавания речи и рассмотреть подходы к её решению в рамках парадигмы минимизации инвариантного риска (invariant risk minimization). Отдельное внимание я уделю вопросу о том, что в рамках данной парадигмы может являться средой (environment) для алгоритма распознавания речи и как автоматизировать разметку обучающих речевых корпусов по средам.

    Презентация: https://drive.google.com/file/d/1ytqpSsSwc8VZv7R8TYnYGsTspisGYfLE/view?usp=sharing
    Видеозапись: https://youtu.be/aoSzMt1bh5M

    Расшифровка вебинара:
    Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР

    SPEAKER_00 [0.96]: Меня зовут Иван, я работаю в Новосибирском государственном университете и занимаюсь распознаванием речи в целом. Я заинтересовался проблемой распознавания речи достаточно давно в две тысячи пятом году, когда я еще учился в Донецком национальном техническом университете. там же я поступила аспирантуру остался преподавать и занимался вопросами, связанными с распознаванием речи на базе нечеткой логики, на базе нейронных сетей, на базе ансамблей нейронных сетей для повышения устойчивости. Потом я перешел войти индустрию работал в разных компаниях влаги в датамонстрах, в московском фистехе в хоэе. Ну из двадцать второго года я окончательно вернулся обратно в академическую сферу и сейчас с рекома полностью работаю в университете преподаю курсы по диплинингу занимаюсь исследованиями в виду некоторые Не окр да для индустриальных партнеров университета но и занимались консульственными. Проектами я люблю Понсорс. Во первых, упонсорс сам по себе это дело хорошее. Во вторых, опенсорс важный в науке, потому что в компьютерных науках, в любых науках воспроизводимость эксперимента важна, в компьютерных науках воспроизводимость может обеспечиваться открытыми данными и открытым кодом. И вот мы как то с ребятами с моей командой решили попробовать сделать штуку, которая может помогать людям журналистам, всяким пребым социологам и прочим специалистам, которые составляют интервью обрабатывать в записи интервью. К этому я подошел достаточно давно, еще когда я сотрудничал с Театром старый дом они делали документальную пьесы в жанре вербатим а этот жанр предполагает тесное взаимодействие с реальными живыми персонажами с фиксацию их рассказов о жизни и составление сценария на основе именно живых рассказов живых людей. Тогда мы предложили свои услуги по распознаваниюще по транскрибированию. вроде бы получилось. Но когда Фонд содействия инновациям предложил конкурс коды искусственный интеллект поддержка, грантовая поддержка открытых систем искусственного интеллекта, мы воспользовались этой возможность для того, чтобы довести нашу систему до ума. И эта система автоматического снографирования интервью как важным элементом который ключевым элементом который является распознавание речи и преобразование речи в тек что здесь есть компоненты и пик порешили другие анализ текстов ил питематика. распознавание является весьма аварным. Более того, потом я тесно общаюсь с моими коллегами, которые защищает диссертации, а работа в академической сфере, как правило, подрубить защиту каких то диссертаций, кандидатских и докторских. Я понял их боль, а их боль во многом связано с кучей документальной рутины, с тем, что люди, после того, как выступят на дисете, готовят кучу документов для Вк, включая стенограмму. Вот стенограмма всего выступления на дис на Совете, включая не только выступление докладчика, но и реплики из зала реплики член диссоветов, выступления оппонентов в тому подобные вещи это достаточно долгое и мучительно. Я вот решила сделать отдельную штуку писец назвала это забавный писец, которая записывает речь диссертанта, речь всех участников и образуют их субтитры. Казалось бы, дело неплохое, благородное, более того, некоторые же диссертанты попробовать этот писец. Но я столкнулся с внезапной проблемой. То есть как внезапной? Не совсем внезапной. Проблема известная, но для меня была внезапно, что она так выпукла встанет с в реальной жизни. Здесь я показывании реальные примеры защиты, я показываю некоторые модельные примеры. Например, если мы попросим писец распознать, когда один человек рассказывает анекдот в другом анекдот как что будет, если. Представьте, что если программисты доделывают другой проект Лего Скотт Известный анекдот почесав голову, вы выгребаете хлам из комнат, да, делаете лаборатории, сдаете объекты ученым, но через пять минут они выбегают с криком утечкой дотого газа. Начало анекдота система писец распознал более менее нормально, с небольшими ошибками по часа в голову, казалось по часам на голову. но знаки пунктации опустим, это определенная боль. он не поставил знаки пунктов необходимые, но тем не менее, кажется, качество распознавания является приемлем. Анекдоты он распознает отлично. Давайте дальше Возьмем другой пример уже не рассказанный анекдот, а некий а у него подкаст с подлодка, и это мой подкаст, я там рассказывал про распознавание речи. кажется, что все красиво, но если вы внимательно посмотрите, вы немножко задачитесь субтитры отдают легким безумием. И действительно, если мы посмотрим более внимательно, то здесь уже наблюдается достаточно большая масса ошибок. Например, внезапно еще такой важный для снижения стоимости распознала я говорю для лицензирования. Я, вообще говоря, здесь рассказывал про разные аспекты лицензирования от речевых корпусов на русском языке я говорю что вот опан ст хороший корпус, но он с ограниченной лицензией не позволяющего коммерческого использования а вот сбердавайсь с голос позволяет. В результате система очень странно галлюцинировала она пыталась распознать то то с точки зрения языка более менее адекватно, но с достаточно серьезными ошибками объект недоступен до построения у нас не доступен для построения сбердвайся голос как голосовые связки распознала этому подобные вещи. Много ошибок, казалось бы, и в первом случае, когда люди рассказывали анекдот друг другу, и во втором случае, когда один человек выступал с рассказом для другого человека. о распознавании речи. это достаточно сложная тема распознавание речи в речи диктора много спецстрминов содержится. То есть достаточно сложная тема для распознавания. Как кажется, что и в одном случае, и в другом должно быть либо много ошибок, либо мало ошибок, но разница есть на самом деле. Я маленькую предоткрою завесу тайны. В первом случае, когда мы рассказывали анекдот, это мои студенты взяли специально нашли анекдоты и зачитывали анекдоты друг к другу для создания неких тестовых сигналов, которые нужны были для проверки всего попали спикер, сепарейшен, распознавание речи и так далее. то есть это родных спич это спич такая же как, например, вангазыч не спечь только на русском как в русской рашин либреспич есть такой дтсет не такой известный как голос или комман вос не есть тот же командойс, который краусорсингом создан. там тоже либо спич, по сути дела, и для модели либо аудио рейтинг спич речь гиктора по бумажке, условно говоря, является родной, это данные из, грубо говоря, одной и той же генеральной совокупности. А когда мы начинаем распознавать реальную живую речь, которая строится не по бумажке, модель начинает ломаться. Основная проблема, ключевая проблема такого поведения это с двух данных, то есть когда модель распознает речь примерно такую же, на которой она обучалась, а обучалась модель на открытых дотасетах, таких как ком вс голос упомянутый мной в подкасте Рашин ли Приспич это прямо откровенные аудиокниги роли Приспич. Естественно, на похожих доменах, когда человек что то надиктовывает, она будет работать хорошо, но когда происходит в данных распределение наших речевых признаков, другие модель начинает ломаться. а какие другие? Здесь он нарисовал такую картинку, что у нас есть разные распни одной какой то фичи одного признака. но на самом деле проблема сдвига данных проблема дом залежам распознавание речи она достаточно острые. источником двига данных могут быть как как акустика это шумы шумы разных типов, так, и лингвистика это другое синтаксическое построение фразы, другая лексика и тому подобные вещи. Так, я прошу прости, тут вопросы возникли. Взаимодест иностранными языками пока еще нет, не взаимодействует. Пока он работает только на русском. В планах поддержка английского. Вот какие инструменты исполь для записи речи на телефон диктовали использование студийное оборудования ни в коем случае мы не использовались единые оборудование мы пытались записать максимально реалистично то есть использовали либо телефон либо либо микрофон обычного ноутбука, чтобы условия записи были максимально реалистичны, чтобы минимизировать вот эту ситуацию с двига данных. Когда мы записистируемся на идеально чистых данных в реальности это писец будет эксплуатироваться в условиях записи в каком то диссовете дай бог, чтобы там был приличный микрофон студиных условиях речи быть не может поэтому тестировалась записывалась, тестировалась на простых акустических устройствах надеюсь. Я, ответила вкус и Так, поехали дальше. итак, проблема с данных это это боль. и я начал думать а как же можно попробовать решить проблему с двигаданных как вообще ее умные люди ученые решают В литературе проблема замечена не одним иной, это проблема насчитывает давнюю исследовательскую историю. И вот мне на глаза попалась одна из статей в прямомбуле которые исследователи авторы рассказали забавную историю это не про речь, это про компьютерное зрение компьютерное зрение датасет это типа мне сифа это подобные штуки это как дрозофилы для глубокого обучения обычно какие то новые теоретические методы обучения новые подходы к повышению рабастности тестиру на компьютерном зрении потому что с этой простые они понятны они не очень большие в то же время достаточно интересно особенно сифа простой сифар посложения. Так вот ученые решили сделать систему компьютернозрения, которая отличала коров верблюдов. Ну, что такое корова все знают, Да, коровы такое животное с рогами на четырех ногах, говорит му поется на травке, вот она у меня нарисована. А верблюд это такое животное, тоже млекопитающее, тоже на четырех ногах, но у него два горба, рогов нет, и оно города придется сквозь барханы. Итак, была подготовлена обучающая выборка. Обучили модель, получили высоко качестве начинают тестировать, дают на вход корову на пляже. Система уверена классифицирует коров на пляже это верблюд, это однозначный верблюд, потому что крова, которая на траве, а если на песке, то это верблю. Модель научилась выделять ложные корреляции между признаков описанием объекта и целевой переменной, которую необходимо прогнозировать. В данном случае целевая перемена это метка класса, у нее было много коров на травя, много вербудов на песке и модели вместо того чтобы выделить какие то инвариантные корреляции между признаками и целевой переменной и таркетом, которые описывают некие сущностные характеристики объекты, они научились система научилась выделять ложные корреляции охотятся инвариантной ложной не хочется. И вот, вообще говоря, как модель обычно обучается? Обычно, когда мы используем обучение с учителем, мы реализуем так называемую концепцию минимизации имперического риска. Это известная концепция. у нас есть какой то датасет там у нас есть некая генеральная совокупность примеров, есть ответы учителя на ней. мы берем за это генеральная свободность, некоторую выборку обучающую, размеченную, естественно. Мы же говорим о супервайзелен. и мы пытаемся минимизировать некое ожидание нашей функции правдоподобия по выборке в надежде что, будет хорошо так же хорошо на всей генеральной совокупности. Во первых, не всегда бывает хорошо проблема повар фитинг, проблема переобучения, она существует, с ней борется, она существует. Во вторых, если мы говорим о том, что у нас есть разные среды, соответственно, мы должны понимать, что у нас есть, условно говоря, разные генеральные совокупности. Такой подход точно в такой ситуации работать не будет. И вот в две тысячи девятнадцатом году вот эти ребята Мартин Ржовский тогда еще аспирант, его научный руководитель известный в мире депленнинга чувак Леон Ботл И еще с авторы Е я решил фотографии двух главных авторов привести героик надо знать лицо вот они предложили принципиально новый подход, как они считали принципиально новый подход аллаверды к минимизации имперического риска. Минимизация инвариантного риск. В чем там идея? В том, что, предположим, у нас в обучающей выборке есть не только примеры и их разметка, а у нас есть еще некоторая информация о среде, об энвайро среде. вот наша среда, вот я ее специально отвел инвариант то есть откуда были примеры, взятые, например, в случае с кормитраблюдами, это, например, мы знаем. Мы откуда то знаем, что обучающие выборки вот эти коровы это коровы на травье, а вот коровы коровы на песке вот те третьи коровы групп по коров это коровы в зоопарке. Наконец то у нас даже есть коровы в космосе, то есть из разных свет то же самое вот верблюда на пеке, верблюда на траве, траве тоже в запарке, и верблюд в космосе. То есть у нас есть, например, четыре среды обучающие выборки, и у нас есть информация в явном виде об этих следах, методанные для примера обучающей выборки. И в таком случае мы формулируем наш риск как риск по разным средам, то есть примерно то же самое, только по разным средам. И наша цель минимизировать не имперический риск, а сделать рабастную модель, которая бы минимизировала риск по любой из сред, который у нас есть здесь максимум среди по рискам среди сред. И вот этот максимум мы минимизируем. То есть здесь как раз такая робастная минимизация идет. Концептуальная идея простая дайте мне точку опоры, я сдвину землю. Как там говорил древний грек Здесь дайте мне информацию о среде и построен вариантный классификатор. Концептуально это выглядит просто, но авторы анализируют ряд подходов к решению такой инвариантной задачи и задачи построения вариант классификатора, прошу простить, и говорят, что разные подходы не подходят, если мы просто сделаем больше данных. Есть такая концепция чтобы решить проблему аутов дистрибьюшен проблема С двигадана. Давайте мы просто больше данных на Вм и в надежде на то, что мы всеми данными звучающие выборки покрыли все возможные ситуации. Новых неизвестных сред у нас нет. Но это очень наивный подход, который не работает. Новые исследования всегда будут, и на них будут об данных можно попробовать напрямую применить тот формул построить просто как валидироваться с учетом того, что у нас обучающие выборки есть разные среды и какой то арабашный варидшинулась оценивать по средам максимум по всем средам, насколько он будет минималь минизировать максимум все напрямую. но это возможно именно на этапе эволюции. Как построить функцию потерь до такого, но не совсем понятно. Можно разные подходы сделать, но авторы говорят, что самый лучший подход это подход к вариантом нез риска. Тут они немножечко ударяются в философию, как они говорят как они отвечают, что набор всех сред содержит все возможные экспериментальные условия, все возможные в духе модального реализма и возможных миров, где мы могли бы рассмотреть, например, среду инвариантов, который мы выключаем Солнце. Здесь отсылка к модальному реализма. Такая концепция философская в Сша в двадцатом веке была развита. То есть предполагается, что наш мир не единственные миры есть разные, но объекты и причина следственной связи Калзали они в разных, во всех мирах они, в общем то, устойчивый. Я сейчас в эту философию удаваться не буду, но авторы, кстати говоря, написали большую статью, где они философские аспекты проблемы рассматривают. Но речь о том, что корова под днем корова, вот ночью корова по в космосе, коа хоть на Земле корова. Важно, что у нее есть некие вариантные фичи. И мы в процессе рассуждений строили некие причинно следственные связи каузальной зависимости между тем что если четыре ноги, если рога есть короткая мощная шея, если там вымя, то это корова а остальные вещи в свет, освещенность, космос, звезды, трава это все не влияет и. Математические авторы предложили построить в следующую штуку. То есть здесь у нас есть это наша фикая некое робастное представление, робастное устойчивое к изменению среды представления и некий классификатор в этом представлении, которое реализует устойчив рабасную безлунных классификацию. Собственно, левая слагаемая, по сути дела, это стандартная минимизация имперического риска по средам, по всем возможным средам, которые у нас есть в обучающие выборки. А правая слагаемая это как раз способ построения такого вот этого представления фи, которая была бы максимально инвариантно для одних и тех же классов, но в разных средах. То есть как можно меньше изменений в этом представлении было для одного класса, но в разных следах можно больше изменений было для одной и той же среды, но для разных классов. Я сейчас опять таки в математику подробно вдаваться не буду. Я всех желающих отсылаю вот этой чудесной статье. Более того, эта статья не единственная, эта статья была первой ласточкой, которая открыла целую научную дискуссию на эту тему были публикации инвариантно вариантом называется риска Потом. последователи авторов немножко покритиковали сказали, что на самом деле вот эта вот фи это не обеспечивает инвариантность, потому что при большом числе сред у нас наступает переобучение то есть на инвариантное представление независимые от среды обрасттиться на обучающие среды и насти получается у нас в среду мало мы это все схлопывается в обычную минимизацию имперического риска. Потом другие следователи написали в двадцать втором году, по моему, статью Байся На Инвари дзейшн, где предложили добавить байсовские подходы, которые обеспечивают все таки робастность наша Фи на январиантное представление становится устойчивым. Вот там есть статьи, которые предлагают применить все это экспериментировалось на кошечках, то есть на картинках на компьютер вижен. Есть статьи, которые предлагают применить вариант рисков на специальные домены например на Элпи на языковые модели. Вот есть интересная статья Энд Январь Антонович модс статья на одной из сельских конференций там рассматривали модели трансформеров типа роберта И дилберт Как можно внести вариантность на этапе про трейнинга для Задачи Мандич Модал Вот но тем не менее общая концепция вот такая. ну еще минутка программирования. То есть что у нас тут реализуется в качестве инвариантности, если на по точен по сути дела, у нас есть некие некарная сеточка, ну, например многослойный персептронная элпи, который решает какую то задачу как задачу капитонного зрения. есть у нас некая икс это у нас информация о признаках трейн энф это у нас информация о средах, есть некие мбэдинги среды мы следующим образом преобразуем представление распление вероятности, точнее, распление логитов, которая вощает пертро. Например, десять. если у нас десять классов классификаций нанести, я считаю негатив, лук и крихт, да? А рассчитываем вот это вот пеналти, вот наша, вот эта вот слагаемая, которая справа, штраф за неинвариантность нашего инвариантного представления и соответствует. То есть вот эта вот левая часть ее не привел, это просто краснотерпийная функция потерь. то есть, точнее, я ее привел, вот она трейнмен негативой квакли, правая часть тнпнел потом мы определенным образом суммируем с неким гипер параметрам лянда, которые тоже нужно подобрать нуля плюс бесконечности на самом деле может изменяться. вот плюс еще мы накладываем штраф за сложность весов. то есть это тоже один из важных компонентов. здесь не показан в нежных компонентов реализации программ реализации но и автор я уже сказал, тестировали на компьютерном зрении на минист минист приказансет он может казаться с одинмножко устаревший, потому что на нем на обычном маниште уже пробивают девяносто девять процентов практически любые нейронной сети. Но авторы сделали хит трюк они взяли непростой манист они взяли так называемый колор министр раскрашенный. То есть они взяли попытались обмануть бедную нейронную сеть в обучающей выборки. У нас единички были одного цвета, а нолики были другого света. То есть это необычно. Еще на белом цветной амист моделька, точно так же, как корова на траве, верблюд на песке. Да здесь все единички одного цвета, норки другого цвета, а на тесте внезапно поменяли цвета. Вот тот цвет, который был нолика на трейне, оказался у ежев всех на тесте, а тот свет, который был у нолика, голубенький у единички на трне оказался нолика на тест и решили проверить насколько инвайн ирн и рэпер незарешен классический способ обучения а. январин не классический вариантный способ обучения. Так вот если мы обычные многословные перси трон обучаем на просто минимизировать негатив флок лайкер клд на задаче фальсификации, то получается на трейне весьма круто восемьдесят шесть процентов опять таки не смотрите на эти цифры я знаю, что на самом деле девяносто девять процентов вот круто нам нести но тем это просто модельный пример будет автор восемьдесят шесть процентов. Но при этом когда мы меняем свет моделька выучила что свет от фичер, а это ложная корреляция на самом деле фичи являются геометрические контуры цифры мы деградируем леко меньше пятнадцати процентов точно с места выборки в том же в то же время когда мы используем января снизейшн, мы не достигаем таких впечатляющих результатов. На трейне у нас точность поменьше, но на тесте у нас получается просто пропустить, просто супер, просто супер. У нас сейчас один момент технический. Так, качество качество шестьдесят шесть процентов просто плашка зума мешала я ее убрал чтобы вы танечку и так все отлично в компьютерном зрении по крайней мере концепции минимизация на риска работает, если мы пытаемся обмануть модельку сказал что свет от фича минимизация январята в рисках позволяет эту ложную корреляцию между классом цифры и цветом игнорировать обычное нервно сеть обучаемые, обычным образом к этому к этому не способна она выделяет ложный крест не вариант. Но что касается распознавания речи что у нас, что такое распознавание речи, какая природа входного объекта там, естественно, понятно растровая матрица яркости пикселей. Соответственно, если у нас свет есть, то это три разные акции что у речи есть и какие модели там применяется, и, что самое главное, является средой. Так вопрос возник. Раскраска цифры припирает, отличается статная аргументация датасетта. Ну да, отличается. Стандартаться датасетта это всякие сдвиги, повороты, зашумление. Здесь у нас принципиально другой процесс. То есть мы цифры раскрашивают, причем в один и тот же цвет мы раскрашиваем единички в голубой, например, в другой цвет один и тот же, в бордовой мы раскрашиваем нолики. Никаких аументаций дополнительных мы не накладываем. Когда мы стандартно ауацию делаем, мы из одинаковых распределения шумов семплируем шуммы для аменации и для одного класса, и для другого класса. А здесь мы поступаем по хитрам здесь мы для одного класса один, подскажи, не делают. то есть один цвет добавляю для другого класса другой цвет то есть это нестандартная аргументация вот надеюсь что, я ответил на вопрос так. Вот мы обманываем бедную не рассееточку. Ну давайте поговорим о речи что кочевой сигнал когда мы говорим о распознавании речи то ли сигнал он посложнее будет, чем сигнал компьютерного зрения. Чем расстроена матрица? У нас есть некая силограмма сигнала. Обычно, когда мы говорим о сигналах, мы используем разложение в ряд фурье, например. быстрое прозвание фурье это дело быстрее, но это возможно только для периодических сигнала. Сигнал очевидно, не периодически мы видим реальный сигнал из дота смит ангазичного. Но если мы возьмем наш сигнал, нарежем на маленькие кусочки, например, по двадцать пять мили секунд по двадцать двадцать пять мили секунд, как здесь нарисовано, то если мы присмотримся, то в этом каждом таком кусочке мы можем считать сигнальчик почти периодически применять к нему быстро приблизание фурье получать спект сигнала на каждом кусочке слева сверху сигнал справа снизу его спектр но и ответственным образом такие кусочки идут в доле сигнала. В каждом кусочке спектра получается такая чудесная красивая спектрограмма здесь уже спекрама для сигнала датасет. Голос, сдавайся. Голос поставь на Тв Канал Европа плюс Тв. Мы видим, что здесь по оси, и это время по оси игрек частоты о яркости. свет здесь показывает амплитуду сигнала в какой то мин времени на какой то часто те чем краснее, чем высшая энергия сигнала, чем синее, тем ниже энергия сигналам. Притуный спектр у нас такой получается, ну, можно спекты мощности считать, мы от фазовой части избавляемся и получается такой аспекта и определяющая особенностью речи является то как распление энергии по частотам сигнала меня и сходом времени еще один вопрос вариант среди можно пояснить то просто случае. Например, мы имеем зависимость Игорек икс плюс распределение с параметрами ноль, один, которого мы заранее не знаем. Нам найти две стрельбы в первый икс одна доса трой от единицы до двух мы обучаем модель в виде аксфакс считаются вариантами к среде какие? Нет. Если у нас, предположим, на обучающей выборке была икс от нуля до единицы и мы обучили модель минимизировала, допустим, масье менск аэрор модель получила точный а потом поем на вход в тестовой выборке икс отъединиться до двух. Если мы предполагаем, что у нас функция периодическая, то есть от единства до двух у нас должна быть та же, у нас должен быть такой же игорь, как от нуля до единицы, то предполагается, что да, наша модель стала вано если она адекватный и прогнозирует либо не периодическая, например, там есть определенный тренд, например параболический тренд. Модель нашла что это арабола на основе обучающей выборки где икс у нас множество обучающие выборка была изя позорна один и дальше она построила адекватную модель, которая распространяется и на их единица до двух, и даже на их от двух до трех. А если модель, допустим, решила, что это линейная зависимость не праболическая, и то она не оказалась на вариантной. Я думаю, что можно еще лучший пример привести. Допустим, у нас есть какая то среда, в которой мы наблюдаем сенусит, допустим, игорь кравняется, допустим, синус икс мы обучили модель но у нас есть другая среда где тоже есть периодическая зависимость и грека текса, но при этом у нас идк равен два сидосакс такая среда она это повлияла. И вот если мы сделаем модель, которая бы смогла адекватно прогнозировать синусоидальную зависимость игорь Сикс независимо от того игорь кронос с игорь синус ск и три сину стык, то такая модель может являться инвариантной. То есть вот я бы так пояснил ответ на этот вопрос есть какие то ложные корреляции например, какой то параметр определяет параметр с на сальной зависимости которая определяет претуду, а есть инвариантные корреляции, что у нас в принципе есть периодическая зависимость похожая на синус с некоторым шумом который вызван на колеаторной неопределенности. Да, вот, соответственно, вот в этом суть вариантности. То есть мы пытаемся найти промодировать, что эта синусоида в любой ситуации синус это независимо от того какая там сейчас там прилетуда. И по крайней мере, я для себя вариантность определяю именно так. Надеюсь, и на этот вопрос ответил. Ну, вернемся к нашим баранам, в смысле к нашим решим сигналом, что такой вариантность применительно к картинкам. Мы попробовали разобраться. Мы должны какие то геометрические контры выделять низов, а цвет на это не обращать внимание. Что такое вероятность, в общем случае, мы тоже вроде как немножко обсудили, а что такое инвариант исполнитель кречи.
    SPEAKER_01 [1993.2]: У вас. У нас есть еще один вопрос. Вижу, увидел.
    SPEAKER_00 [1996.28]: Что такое? Почему не двадцать пять мили секунд? Ой, это древняя история, еще с восемьдесятых годов идет, все так делают. Двадцать двадцать пять миль секунд это кусочек сигнала, на котором можно увидеть какие то проявления австране мы. С одной стороны, он достаточно длинный для того, чтобы можно было построить адекватный спектр с нормальной разрешающей способностью по частоте. С другой стороны, он достаточно короткий для того, чтобы короткие фанеры типа всякие взрывных согласных и так далее себя проявились. Если мы возьмем длинный отрезок сто мили секунд двести милли секунд, то на нем будут хорошо видны только вокализованные согласные, а особенно ударные гласные. если Мы возьмем сильно короткий фрагмент, то на нем ничего не будет видно а за секунд это имперические подобранные участие которые соответствуют более менее с самым коротким фаом обычно делают так были попытки подобрать оптимальный интервал причем дин динический оптимальный торвал зависимости от тех критерия вот здесь несут автопросов предложил сумму квадратов наблюдений, пока не произойдет некоторые заданные фиктивный порог а люди предлагали смотреть на частоту основного тона и на период основного тона и длинного окна кратно период основного тона. То есть для высоких голосов у нас получается маленький период и маленькое окно, а для голосов низкочастой большой период и большие окна. Но это оказалось вычистить накладно и на самом деле ничего толкового не давала, никакого особого просто не давала. Поэтому все сейчас восемьдесятых годов, как я уже сказал повелось это двадцать или двадцать пять мили секунд, при этом шаг окна идет десять миллисекунд. Сейчас в последних подходах, когда у нас энн нейроносит десять двадцать секунд, то есть некоторое перекрытие наблюдается пятнадцать пять пятнадцать секунд то есть они не краями соприкасаются с перекрытием элит Я Ответил надеюсь, на вопрос поехали? Дальше и. Так вот у нас так хочу спрограмма как во первых, как мы ее распознаем, какими методами можем мы распознавать? во вторых, что здесь может являться средой, как здесь может обмануться нейронная сеть? Я сразу пропускаю весь исторический пласт исследования по распознавании речи. и у нас классические подходы к нейрона к распознавании речи были сразу Перехожу к современным нтун подходам на базе глубоких нейронных сетей это прежде всего в ту век но сейчас уже есть и всякие такие навороченные штуки типа кто всех трансформеров для речь, там висперы прочие вещи, но я предпочитаю более простые и надежные трансформер кодеры и вы в ту век такой классический пример трансфером кодера, точнее смешанная модель у нас есть килограмма сигнала здесь вот этого спектограмма не считается вместо непосредственно на расчет спик смочь быстрого приблизания фурье а это посудило свертка сигнала синусоидами. Здесь используются обучаемые свертки, а сверху накидывается трансформер кодер с многоголочным внимания. Ну вот обычаем и свертки наши, я на них подробно останавливаться не буду. По сути дела, обучаемая свертка может быть эквивалентно с точки зрения представления спектральному преобразованию, получение спектрамов спектограмма это человек и читаемая штука а вот я пробовал визуализировать выходы из этой сверточной части во века здесь ничего не читаемо. На самом деле модели это даже лучше такое способ представление даже более интерпретирую модель машинного обучения, чем спектрограмма, потому что здесь свертки обычаяные. Вот эта часть. эта часть обучается вместе со всей моделью в целом. Так и про рейтинга сами представления квантизуется. Я поясню почему. Антизованные представления нужны для того, чтобы потом вот эта вот трансформерная часть предучалась построению неких контекстных речевых представлений, контекстных, таких, которые могут реализовывать ассоциативную память, то есть восстанавливать пропуски ошибки в данных по контексту. Но это стандартная задача масла. Если кто у нас тут есть любитель бортов и всяких других пишных штук, то вы помните мы пропускаем какое то слово или несколько слов в тексте и учим мы дали ее восстановить. И здесь мы пропускаем какой то фрагмент в дискредитизованном представлении и учим модель его восстанавливать. Соответственно, вот наша функция потерь для восстановление категоризированного представления замаскирована рычевого фрагмента. Но при этом, поскольку вот эта часть обучаемая, то нам нужно, чтобы представления были максимально разнообразными, чтобы они не схлопывались в какую то одну, две три категории, что максимально все категории были задействованы примерно две группы по триста категорий, потому что с некими квази фаелами дополнительная функция потерь накладывается контрастивный лос сопоставительная функция потерь на то чтобы вот эти квазифа некуда в книге максимально были разнообразны. и таким образом модель предущается модель предобущается сразу муж на большом время данных. В частности, в век иксср языка независимая модель предобучалась примерно на пятидесяти тысяч часов речи на разных языках, записанные в разных условиях. Это ребята из Фейсбука постарались молодцы. Вф век для английской речи тоже обучалась на большом объеме английской речи разнообразной. и потом нам остается только дообучить эту модель по сети село сети силос фактических формах но вы вификации форма кроснотропийная функции потерь для классов классификации того что у нас сложный объект для распознавания если когда мы распознаем картинки у нас просто картинка это статический объект некоторый фиксированного размера для каждой картинки у нас один из н класса то здесь речь динический объект по времени он меняется и у нас речь одной длинной она нужна это все слопнуть в цепочку букв цепочку бук в другой длинный короче, как правило, чем цепочка спектров, цепочка от этих представлений с кодовой книги с выходом с фердош. И здесь, по сути дела, мы используем смесь категориальная просто интропии и динамического программирования для того чтобы максимизировать функции протоподобия, ну максимизирует продоподобие по всем возможным гипотезам все возможные гипотезы декодирование Проверять это накладно, это просто нереально поэтому использовать и программирования для того чтобы эффективно найти вычислить все возможные пути декодирования ты опять таки подробно рассказы станавливаться я не буду, у меня здесь внизу есть ссылкой для тех, кто хочет немножко погрузиться в подробности сети силоса чудесный пример даже сами машками есть. В общем, как я уже сказала, концептуально нужно понимать, что это посудило также к антропийная функция потерь которая призвана минимизировать кронтропию либо Минимизировать огф максимизировать грецию продоподобия, что одно и то же. Митимизация функции наподобие минимизация хронотропии это то же самое по всем возможным гипотим декодировании чтобы эффективно вычислительно пройтись по всем возможным кадром использовать динамическое программирование но и так обучили модель считаем качество если в случае компьютерного зрения качество считать очень просто это может быть юроссии точность, но банальный процент правильно угаданных картинок либо, если у нас тест не, сбалансированный а мы более продвинутые досанцист можно использовать афонин. Скоро то опять таки речь сложный объект, здесь нужно использовать специальные меры качества Существенно того что талонная фраза и распознанная фраза могут быть не одинаковые длины состоит из не одинаковое количества слов в числители здесь у нас используется сумма ставокза и удалений минимальная сумма став замена удаление необходимое для того, чтобы привести талонную цепочку распознанной, как в том анекдоте, что слово пиво это слово хлеб написано с ошибками как здесь счислители считают ошибки экономным образом с помощью динического программирования а именно рассмешным знаменатель число оттокинов слов или букв или черт фаем в талоны фраз. Так вопрос презентацию можно будет получить? Да, конечно, можно будет получить презентацию, безусловно. Более того, я помимо презентации выложил еще дополнительные материалы, которые у меня в презентации нету там ссылки на открытый код и на открытые модельки, о которых я сейчас буду говорить вот. ну.
    SPEAKER_01 [2538.56]: Все можно будет получить, Иван добавлю что, мы видео презентацию которую иван реаст нам и дополнительные материалы опубликуем и у себя на сайте и в канале вабинаров по нейронным сетям вот, ну и возможно, где то еще. Так что когда это все появится, мы сделаем почтовую и рассылка о том, что это появилось.
    SPEAKER_00 [2573.4]: Спасибо, Николай. Спасибо. Ну, в общем, вроде бы мы разобрались, как строить модель распознавания речи И чем принципиально построение модели распознавания речи отличается от модели распознавания изображений? Динамичностью принципиально отличается. Ну и сейчас трансформеры является более эффктивным механизмом для построения таких моделей. Плюс еще есть в компьютерном зрении и мажет модельщик потения номон использует то здесь в распознавании речи используется село Сувозить Ленинг на неразмеченных вещевых корпусах, которые искусственным образом зашумляется, То есть там пропуски данных моделируются, и модели учатся их восстанавливать, при этом сохраняя максимальное разнообразие спич поземлейших представлений. Потом мы обучаем уже эту модель на небольшое размеченное обучающие выборки. Казалось бы, в такой постановке проблем не должно быть, поскольку модель обучается неоднократно а сначала притреница на большом датасете, а потом фатнице до обучается на маленьком размечен до сети. Кажется, что разнообразие всех возможных условий разнообразия всех возможных примеров речевых семпл из разных светов должно обеспечиваться на этапе про трейнинга есть такое мнение и тогда когда мы фантюни модель обучаем я прошу простить замен про трейне фантюник трейне предварительное обучение фнин тонкая настройка или до обучения модели на нужном нам дота на садом датасете так Вот про трейнинг у нас на очень разнообразных данных реализуется на большом объеме. Пантюнин на маленьком объеме целевых данных. Кажется, что среда не должна представлять собой проблему, однако оставляет, что может быть средой распознавание речи в компьютерном зрении, сд может быть, например, цвет. А что здесь Очевидно, что вы все сталкивались, когда вы общаетесь друг с другом, когда вы стоите рядом и разговариваете, вы прекрасно друг друга понимаете. а когда вы звоните друг другу по телефону, особенно если кто то из собеседников идет по улице, дует сильный ветер или где нибудь вагоне электрички шум, то вы своего собеседника, который в таких жестких условиях находятся, вы его, наверное, плохо слышите. Акустическая среда это один из источников сдвигадам, это один из возможных типов энвайро. То есть, во первых, уровень шума. Уровень шума это соотношение сигнал шум выражена в дице белых, то есть это логарифма отношение энергии полезного сигнала речи энергии шума умноженная лагорив по основанию десять на десять это традиционно считается в децибелах уровень семна шула когда у нас там пятнадцать дел двадцать пятьдесят десношение сигнал шум это очень классный сигнал чем высшие отношения сигнал шум, тем лучше, то есть тем больше энергия сигнала носитель энергия шума. и это очень хорошая запись. Если у нас, например, нольде то есть значит, что уровень полезного сигнала такой же уровень шума это очень грязный сигнал это один источник другой источник лингвистическая всегда может быть инваринглистиканвари, то есть лексика и сиксис высказываний. Что здесь имеется в виду? Одно дело, когда мы, вот как я в самом начале. Возвращаясь к самому первому примеру. Когда я привел, как работает писец, привел работу, что в одном случае он распознал хорошо, в другом плохо. Распыл хорошо, когда человек, когда человек аккуратно зачитывал, предложил ему текст а плохо он распознал и начала спонтанна и для письменного текста, и как соответственно для родиных спичка человек защиту письменный текст характерны более сложные синтаксические конструкции, характерно более плавная аккуратная речь для спонтанного высказывание характер какие то оговорки, характерное нарушение синдекса с характерно некоторая аграматичность. То есть когда мы можем в стиле мастераоды говорит, допустим, речь распознавания работает правильно, то в таком духе то есть слова путаются и для русского языка это еще более характерно чем для для языков типа английского с более строгим синтексисом это тоже может эффектить. Качество распознавания речи тоже может быть сдвигом данных. То есть, с одной стороны, это рейтинг спич, с другой стороны, это спонтанная речь на уровне втового общения, с третьей стороны, это могут быть какие то парламентские выступления с определенным типом лексики и на грани спонтанности и бумажки. люди заранее отрабатывают выступление, но тем не менее говорят транспонтанно. Это могут быть какие то команды, голосовые команды кудвайсом это еще один тип лингвистической среды. и это все необходимо как то моделировать. Давайте попробуем разобраться, как мы это можем уделлировать. С акустической средой, сакустической средой все может быть чуть проще. Если у нас есть речевые корпуса, то мы можем взять искусственным образом накладывать разные типы шумов, например, микшировать полезный сигнал и сигнал шума с разным уровнем сигнал шум. Таким образом мы моделируем разную акустическую среду. Лингвистическая всегда все сложнее. Теоретически. Теоретически можно представить эксперимент на полностью синтетических данных, где мы с помощью определенного генератора генерируем высказывание из одной среды, из другой и третий, а потом с помощью синтеза речи озвучил эти высказывания. Таким образом мы можем достичь как то промоделировать изменение лингвистической среды но это достаточно сложно, накладно, интересно с одной стороны с, другой стороны это, сложно и, не факт что, син синтез речи не будет еще дополнительным сдвигам. да, потому что синтезированная речь, реальная речь, все таки они разные по своим характеристикам. Здесь уже акустическая среда играет роль. поэтому разные типы лингвистических с можно промоделировать разными до пасетами. счастью для русского языка есть ряд собранных корпусов, среди которых стоит отметить, например, до, Голос Домен крау И фарфилд. Здесь голос это до это сбердевайзис, в котором моделируется взаимодействия пользователя и умных устройств сбера всяких салют, афина и так далее. Крауфрофилд это скорее про акустику, не про лингвистику. То есть крауд это высокое качество сигнала с высоким уровнем громкости, записанные сигналы непосредственно у микрофона а фарфил домен это запись на микрофоны умного дывайса с разного расстояния три метра, пять метров, семь метров и так далее но но высказывание примерно похожее салют сколько тенге будет в ста российских рублях Или Афина поставь меня Европа плюс твитом или там подобные штуки. То есть вот такого рода фразы это один домен можно считать одной средой комман Воис ру это тоже краусорсинговый датасет, но в котором лексика другая. Там много записей как бы парламентских заседаний типа позвольте поговорить представитель Австралии за ее заявлением такого фразки дипломатические свар убиваясь это спонтанная речь которую, компания на на семантики целое семей сау по сделал рудава С Руди Букс Ру тупы и трудывась с интересным тем, что там, с одной стороны, достаточно низкокачественная запись то есть а что хорошо в акустическом смысле модерируется невысокое качество записи это интересно, полезно. С другой стороны, там не очень хорошее качество разметки и спонтанная речь. То есть люди говорили как бог надо же положить при этом с матами, собственной лексикой, с аграматичностью. То есть это максимально су, максимально приближена к реальной разговорной речи. Тем и ценен этот дтсет раньше не приспичит то максимально ридных спич максимально спич и воксфордширу это еще один видных спич это по исторический первый нормальный открытый датасет для русской речи, которая в свое время Николай Шурем собирался по принципу коросорсинга тоже там фрагменты из аэлиты Алексея Толстого, надиктованные разными добровольцами, но это тоже можно считать специфической средой. Итак, давайте попробуем посмотреть на результат экспериментов. Я здесь привожу два результата экспериментов Империигрыз и Наваринзейшей. Для экспериментов я взял не самую лучшую модель распознавания речи я взял не в ту век ссср Не веве кладч я взял небольшую в век бэйс, которая весит примерно триста мегават, и она была изначально предопущена для английской речи, и я ее тюнил уже на русской речи. Обратите внимание на постановку эксперимента. Это было сделано сознательно. Это не баг, это фича для того, чтобы ускорить проведение экспериментов и попробовать понять. Попробуй исключить влияние трейнинга на распознавание. То есть если бы я маллингвал в тувек использовал, то велика вероятность того, что туда бы протекли какие то русские датасеты. и вполне возможно, что какие то высказывания как то кустическую, лингвистическую, свистической следов истические следы попали бы для потения. Я хотела максимальная лабораторно чистая эксперимент провести поэтому во век у меня английский был и весьма мал и триста мегабайт я с него стартовал и вот этот вот фантюнинг сталбес и империи Фантюнин по классическому подходу мы просто сидеть и силос используем мы ни о чем не думаем января пресим женщины мы специальным образом модифицируем функцию потери, где у нас добавляется слагаемая свечающая за вариантность нашего промежуточного представления. Фильм как вопрос возник.
    SPEAKER_01 [3213.52]: Да? Тут вопрос у Олега Седухина.
    SPEAKER_00 [3216.68]: Вот вопрос отличный вопрос, я специально ответ на него светом подсветил. Зелененькие строки это датасетты, которые участвовали в экспериментах по обучению. а так еще вопрос есть Сла. Давайте отвечу на один вопрос. зеленые строки это дтс, которые были в обучении, то есть это комон висру это голос и раша не приспичи. Естественно, я тестировался на тестовый выбор, обучался на обучающий. То есть понятное дело, что здесь оценки не на обучение, но тем не менее зеленые были в строение, а желтые это вообще новые данные, которые в троне не было. Это в принципе другая среда. И здесь результаты немножечко как бы противоречила, насколько хорошо произошла адаптация, а насколько хорошо модель оказалась нано в смысле лингистической среды в целом кажется, что модель по ирм инварианты сменязейши показывает себя хорошо на всех датасетах на тестовых частях сетов. при этом особенно хорошо, особенно большой прирост качество наблюдается на воксфорджру, то есть на сайте который в принципе отсутствие обучающей выборки не трен части его не было никаких частей а так жена форфил домени на плохом качестве когда у нас уровень сигнала слишком низкий выдерж заметил но есть обескураживающая строка для Сварудывайся. Результаты января Андрийской Мизей и Империи Мезени примерно одинаковые может быть чуточку чуточку лучшая империя кловисзейшей, но при этом ошибки достаточно большие и там, и там порядка сорока процентов верт рейд. С чем это может быть связано? Это может быть связано с тем, что на самом деле сдавайс хорошего во всех отношениях, кроме разметки, разметка там была сделана весьма приблизительная, не по принципу диктата, а по принципу изложения, то есть приблизительно что сказано. И часто во многих ситуациях результаты разметки реальная анотация Трунатейшнс отличали от того, что на самом деле было сказано то есть там всякие оговорки междути убирались а, это сильно влияет на опустить составляющую процесса распознавания. соответственно. одинаково плах плох себя показали обе модели и января и империи зашили потому что сами данные оказались шумкой по крайней мере я это объясняю так и анализ ошибок, который я провел. посмотрел примеры из Дотс эта свара убивайся, к сожалению, их в презентации не привел, но я хочу их прикрепить к дополнительным материалы на которых Николай говорил что нибудь разосланы. Там весьма любопытная картина. Там действительно наибольший уровень ошибок связан в ситуации, когда модель распознала вроде бы правильно, но ей засчитали ошибку из за того, что анотация недословная, а приблизительная. То есть могу себя успокоить и вас тоже успокоить, что все таки инвай Антарис немизейшен работает. Так вопрос возник. На вопрос Олега я уже ответил. а тут вопрос еще дополнительный был результаты не на комических датасетах на реальных например, телефон, кажется, вы в туве будет поло работать даже после фантюнинга если фантюн на малом датасете моя коллега прокомментировала что, на фантин на телефоне оказался весьма хороша на телефоне На самом деле на самом деле проблема была не в телефоне. Мы фантюнили на реальных записях колцентра автодилеров. то есть люди обраща ходили на сайт автодилера оставляли заявку и специалисты кол центра перезванивали этим людям а потом беседовали вы там интересовались какой нибудь чанган там что то покрето лада веста и там подобные вещи. Там основная проблема была специфическая специфических терминах, автомобильных терминах это название марок автомобилей, это всякие штуки, связанные с адресами геодомна, там подобные вещи. В принципе действительно тюнинг на десяти примерно десяти часах такой модели позволил получить более рабастную штуку. При более рабастную уреня ошибок снизился примерно с семидесяти процентов гтура рейд до двадцати пяти двадцати девяти процентов гартура рейда. Кроме того, помимо телефонии мы также сейчас проводим эксперименты для домена голосовых команд в условиях сильных шумов там тоже инвариант рискнемзейши работает там мы, правда, чуть более сложный эксперименты делали мы не в век использовали непосредственно мы дилировали большую модель В В тубек маленькой моделью на базе маленькая нейронной сети типа Конформ. И в такой ситуации тоже и рэм в сравнении с обычным империи с немзейшиным дал существенный прирост, правда я не могу сказать что это прямо реально серебряная пуля была использованию самой функции потерь в рамках парадигмашин обеспечивало лучшее качество. Но важно было, что в обучающей выборке присутствовала та все таки среда, которая потом предполагалась на этапе эксплуатации. среда в смысле лингвистическом. То есть важный момент в лимуристическом смысле, потому что если мы говорим о кустическом смысле, то январи Андрис немизейшен обеспечивает весьма эффективную адаптацию под изменениякустической среды. Здесь проводились эксперименты с синтетическими данными, то есть мы взяли аугментатор. Мой коллега Данила разработал специальный комментатора, который способен аугментировать зашл микшировать полезность сигнал с разными типами шумов. Пять типов шумов это речь, подобные шумы, то есть фонова речь это музыкальные шум, фоновая музыка это шумы домашних животных мяу, мяу, гавгав, кукареку и тому подобные вещи, это ревербационные шумы, связанные с опушкой помещения сложной формы. И наконец, это бытовые шумы, что дверь, работа кондиционера, работа стиральной машинки и так далее. Пришлось повозиться для того чтобы собрать талонные образцы таких шумов. Мы базиры основывались на ряде открытых сетов типов и саудиотегингсет две тысячи девятнадцатого года ряд других датасетов. некоторые вещи сами записывали, но в целом получилось достаточно интересный аргументатор. И вот когда мы с этим помощью этого аргумента можем аргументировать сигналы с разным уровнем сигнал шум ноль, пять, десять, если, ноль то человек может что то услышать особенно если де белл для шумов домашних животных или для музыкальных шумов речь на уровне такого шума различается даже если уровень шума сопоставим с уровнем речи если там речи подобный шум то, конечно же с уровнем нобел аша получается но уже пятница бел человек слух различает, при этом модель, обученная на аументированных данных, которые были в трейне, все равно теряет, теряет в качестве распознавания на тесте. причем тем сильнее ошибка возникает, сильнее уровень шума, то есть чем ниже соотношение сигнал шум. я. когда занимал значил и заниматься исследованием в области января мезейшен, мне некоторые коллеги говорили а зачем ты это делаешь? Ведь на самом деле давайте мы просто больше данных в обучающую рыбку зальем. Если нам нужно определен тип шов, давайте мы поместим обучающий выбор обучим стандартом вампиров на риск немзейшей и будет профит. Я говорил нет, у нас есть опять вопрос так, у нас сразу два вопроса есть Вопрос да, судя по таблице и рм да просто на индам данна. Тогда, может быть, взять эти группы разделить каждую еще на пять группы комната свойства, например пощего, может быть, еще сильнее улучшить метрику? Это хорошая мысль действительно, но, к сожалению у, меня не было информацией с почти во всех дота сетах там полно только в комисе была информация о поле говорящего втсетах. Такой информации не было в наших костных доносах, которые мы делаем для распознавания велосовых команд для заказчика мы эту информацию учитываем, что есть такое предположение, что полговорящего как среда всегда связано с особенностями. именно говорение это прежде всего влияет на основного тона, с одной стороны. То есть женские голоса более высокий, у них чисто снотона более высокая и тем причи тоже может быть индивидуален у женщин и у мужчины может в определенной степени отличаться. И больше всего, конечно, отличается шанатона. он может тоже повлиять. Да, безусловно, это можно. Мы подобного рода эксперименты не проводили, мы проводили другие эксперименты, мы пробовали. И опять таки мы больше не про акустику здесь, а про лингвистику. Мы пробовали рассматривать в качестве среды тему высказывания. То есть мы брали лабсе лэндвич агностик бр сэнсом бедин с их помощью генерировали мбэдинг виктора для аннотаций потом мы их кастризова либо с помощью дбска например, чтобы, выделить какие то основные не на многообразия в данных, либо с помощью обычного Кэминс для того чтобы просто более менее равномерную постаризацию сделать, и рассматривали вот эти вот метки кластеров как некие темы и темы высказывания могли быть средой такой подход действительно помогал. Я сейчас эти эксперименты пока опубликовать не готов, это будет позже готово, потому что эксперименты продолжается, но предварительно результаты показывают, что да, если мы дополнительно рассматриваем тему высказывания как инвайн, как среду, это может помочь. В тех экспериментах, которые я здесь показываю, я считал обобщенно, что каждый дотсет на свою тему каждый су с индивидуальными своими собственными лексиконическими характеристиками. Но если у нас такого нету если у нас большой датасет или мы наоборот, хотим в каждом из за более дробно выделялись среды то, да так можно на счет рм группам полученным рангом с притом типа стадии. это прекрасное замечание. мы этого не делали, но это замечание согласен его нужно его по хорошему имеет смысл реализовать как дополнительно бэшин стать. то есть да, действительно, влияет ли осмысленное выделение среды среда как торпус, среда как тема на устойчивость, на результаты модели по с тем как если мы среду будем убирать случайным образом, это хороший экспериментом стоит провести.
    SPEAKER_01 [3918.08]: И у меня тоже есть вопрос. Вопрос такой. У вас в системе распознавания речь есть языковая модель как отдельная сущность и присутствует? И если есть, то как оно с этим см соотносится?
    SPEAKER_00 [3934.84]: Вот здесь вот эти результаты, что в этой таблички, что, простите, заканчивается? Что предыдущие таблички это результаты получены принципиально без языковых моделей, то здесь мы показывали результаты. В нашей модели, безусловно, есть, во первых, трехграмная элмка для русского языка. Во вторых, если мы говорим о песе, который я там демонстрировал в самом начале, там еще дополнительный корректор, обучаемый корректор ошибок на базе пять сектор сектор трансформер типа индикодер, который изначально обучался для разных задач, связанных с днм текста с машинным переводом этому подобные вещи с профразом а мы его приспособили для преобразования гипотезы о высказывании распознанная система распознан речи с ошибками в эталонную гипотезу без ошибок то. Есть там двух уровневая языковая модель обычная инграммная статистическая пса обучаемый корректор ошибок на базе трансформеры. Но эти эксперименты, которые здесь представлены, опять таки я старался моя цель была максимальная чистые эксперименты провести без влияния дополнительных моделей то здесь не представлено именно без языковых морей. А так то у нас да, безусловно, если мода используется.
    SPEAKER_01 [4011.04]: Как продолжение вопроса а как протащить идею с Инв ин Взши до языковых моделей?
    SPEAKER_00 [4027.8]: Хороший вопрос. Здесь я не задумывался на эту тему. Если мы говорим о энграммных языковых моделях. Я задумался. я задумался на эту тему. Если мы говорим об обучаем корректор ошибок у нас один из ключевых элементов того же писа или там диалогера является обучаемых электора ошибок пять это сек усек трансформер. Здесь такая модель, с одной стороны, является мощной, и она действительно может корректировать ошибки типа фонетических ошибок корова там когда там через пол а записано какие то ошибки, связанные с лишним проделами наоборот, что обычно в криче модель все схлопнула без пробела в один текст. Коп может такие вещи корректировать, но он, во первых может галиционировать потому что всех всех расформ, во вторых, для него тоже есть проблема с двигаданных. но здесь проблема с двигадана останется по другому. Здесь, скорее нужно рассматривать две среды среда, когда акустическая модель распознала хорошо и корректировать не нужно ничего либо корректировать нужно мало и среда инвариант когда кустическая модель распознала плохо то, здесь мы планируем сейчас эксперимент для до обучения языковой модели на стероидах типа ты пять обучаемых корректор ошибок. Ситуация у нас есть две среды, когда ему нужно мало исправлять, когда им нужно многое исправлять. Кроме того, в литературе опять таки для языковых моделей, для языковых моделей как классических статистических, так и для модели типа трансформер кодеры и в целом трансформированной модели рассматривается длина текста как среда, как источник свига данных, то есть модель, протрненная на коротких текстах, она будет более склонна во всем видеть короткие тексты, с длинные тексты идет тоже быть источник света. То есть тоже может быть проблемой? Может быть проблемой и это как раз мы сейчас готовим серию экспериментов, которые позволяют проверить, насколько январи неистов хороша для языковых моделей, причем как для классических трансформер геров, так и для сект у всех моделей применительно к распознаванию речи и без отст на распознавания речи когда у нас длина текста или других от текста являются январина средой вот как то там какие у меня обычны кем.