Научно-технический вебинар «Hardness of Learning AES with Gradient-Based Methods»

О вебинаре

Спикер

Женисбек Ассылбеков, Assistant Professor of Data Science, Purdue University Fort Wayne.
Тема

Научно-технический вебинар «Hardness of Learning AES with Gradient-Based Methods»
Подробнее про вебинар

Спикер о вебинаре:
We show the approximate pairwise orthogonality of a class of functions formed by a single AES output bit under the assumption that all of its round keys except the initial one are independent. This result implies the hardness of learning AES encryption (and decryption) with gradient-based methods. The proof relies on the Boas-Bellman type of inequality in inner-product spaces.

Презентация: https://drive.google.com/file/d/1RgWI1LIBoPqFS-Zu1a8xOXUeR1Ei1nXU/

Видеозапись: https://youtu.be/QBizdzGzFhk

Расшифровка вебинара:
Расшифровка выполнена с помощью системы автопрокотолирования Protocol.AI, разработанной НТР

Значит, это будем рассматривать, ну, такой типа в этап обучения с учителем у нас есть обучающая выборка, а здесь это в качестве примеров это изображение фруктов и это иксы, а игрики это у нас метки, то есть название фрукта и мы хотим такие пары и соху игреков скормить алгоритма обучения, которые должен нам дать некую функцию эф. и эта функция эф должна на вход принимать картинку и на выходе давать метку, да, вот мы ее называем косикатору. Вот в этом случае причем это небо какая функция. Но желательно, чтобы при применении на какой то новой картинке, которой не было в обучающей выборке, ответ, то есть метка, выдаваемая функции фальсификатором, была бы правильная. И вот процент правильности таких ответов на новый выборке это, соответственно, то, что мы называем точные сикации. Так вот в качестве вексов игреков. но у нас не обязательно должны быть картинки, там, метки, это могут быть, например, куски текста, то есть икса, это может быть предложение или кусок текста на одном языке. А, Игорек, вот в этой постановке такой задачи, которая типично для обработки естественного языка, это перевод на другой язык этого же текста. Ну и соответственно, если мы возьмем типовой алгоритм выучивание машинного перевода в конце мы получим не был модель которая также ожидается что при применении к новой к новому куску текст к новому предложению выдаст адекватный перевод ну вот а ты с машины переводом я так более менее был знаком когда только только начинал этот проект. ну, я, конечно, прокриптографии ничего нервно почти и. соответственно, я, я как размышлял я думал ну вот если если. если представить, что икс. ну, если представить, что мы никакой славянский язык не знаем, то икс для нас это некий какой то шифр, текст, а игорьк это вот то, что мы понимаем, хотя в данном слышь, конечно, мы и твой друг, понимаешь, Но если бы там было бы на каком то языке, который мы не знаем, мы не знаем, то для нас это было бы как некий чип, да? Вот и теперь мы переходим к симметричной криптографии симметричным крипто система. То есть вот у вас есть какой то, ну, так называемый исходный текст, хотя это не обязательно должен быть текст, это любая любая информация, любые данные, картинки там, видео, что угодно. Просто терминология такая, что это называется обычный пэнтекс. И вы хотите вот эту информацию передать свои подруги, соответственно, вы и ваша подруга должны как то договориться о секретном ключе, который знаете только вы и ваша подруга, и все, больше никто. И дальше вы применяете алгоритм шифрования, которые параметризуется ключом. Ну, то есть шифрование это что? Это некая функция, которая берет на вход вот это как икс, да? То есть исходный текст. Эта функция зависит от параметра ключа. То есть для разных ключей функция разных она выдает на выходе шифртекст, и вот этот шифр текста отправляется подруге, а подруга знает что. ну какой алгоритм расшифрования был использован. Причем шифрование здесь это взаимнооднозначное соответствие, то есть оно может быть обращено, то есть есть обратная функция, и если знать вот этот секретный ключ, что обратную функцию посчитать довольно лепо. И соответственно, она применяет обратную функцию, получает исходный текст, исходную информацию, и вот в этом как бы смысл симметричная крипт систем, то есть как именно вы, ваша подруга, договариваетесь о ключе. Ну, это как бы отдельная, отдельная демона есть, есть методы, как по незащищенному каналу вы можете обменяться секретным ключом. Так вот я что подумал. Я подумал, что вот если смотреть на эту часть, то есть зафиксировать ключ мы мы не знаем ключа, но, допустим, у нас есть возможность на генерировать кучу кучу вот таких пар шиппа текст и исплодный текст, то почему бы на это не смотреть как на задачу машинного переводе, да? То есть с какого то непонятного языка на понятный язык. То есть вот такое желание. Хорошо, давайте попробуем. То есть с генрим такие пары икс игрек. То есть как это делается? Мы берем какие то куски текста на напом языке шифруемых, используясь фиксированный ключ. Ну, понятно, что это тек на самом деле теперь уже воспринимается алгоритма шифрования просто как последовательно сбит и это долгобит он переводит данный последователь сбит в другую последовательность сбит, которая здесь в шестнадцатиричной системе записана. применяемый алгоритм обучения получаем как бы модель дешифрации, которая должна по новому шифротексту выдать, взяв на вход, но Шепертекс должна в идеале выдать адекватные соответствующий исходный текст, но ничего не получается, там выходит вообще мусор. Ну, теперь вопрос почему? Да, почему не получается? А давайте возьмем какой нибудь какой нибудь высокой информации, вот, скажем, текста предложения и посмотрим на его шифротекст. Шифротекст это последовательность бит, да? Но здесь в шестнадцатиричной системе записано Теперь возьмем вот в этом предложении маленькую эф заменим на за главную. и если бы это переводилось на какой то естественный язык человеческий, то, конечно, изменение в в в переводе были бы минималь. Да я сегодня попробовал Гугл траслей ставить, там вообще никаких изменений не происходит. Он понимает, что если в середине слова, в середине предложения слово за главный будка все равно его с маленькой буквы в переводе напишно. Ну так вот. А вот шифртексте там вообще абсолютно, казалось бы, не связанная последовательность битов выходит. Но на самом деле тут надо понимать что. Что, что Вот этот кусок, вот этот кусок это результат работы одной и той же функции. Ключ у нас зафиксирована. То есть получается, что ваши права это такая негладкая функция при малом изменении входа изменения на выходе, а не колоссальное, Ну, как бы в принципе вот это в этом есть с критографии. задача критографа такие функции строить, чтобы их было трудно обернуть. Вот это как бы в двух словах. почему, почему не получится выучить хороший алгоритм шифрова. Но теперь вот конкретно к этому главному гостю этой текущей презентации. Адванснкрипшен стендер, то есть это так называемый блочный шифер, он на вход берет сто двадцать восемь бит, на выходе также сто двадцать восемь бит. И ключ, секретный ключ, который параметризует а если он может быть сто двадцать, восемьдесят, девяносто два двести пятьдесят шесть. И получается, что разработан алгоритм, ну, как бы, ну как относительно недавно, ну и в принципе уже давненько двумя бельгийскими критографиями дамин ремонт. В девяносто восьмом году он пришел на смену так называемого тата инкрипшен стандарт дес потому что ну дес, оказалось что легко взламывается и вот там был объявлен конкурсы и скарлетт новую замену да, сегодня а если это самое распространенный алгоритм шифровании то есть вот сейчас мы сейчас мы здесь в зуме в трафик у нас с асом шифруется соответственно когда вы всрфите обмениваетесь почвыми сообщениями в отсапе везде все шифруется Есом, Но единственное как для бытовых нужд сто двадцать восемь бит ключа достаточно. Но когда дело доходит до секретно секретная форма, то надо Вот Агентство национальной безопасности штата, по моему, требует двести пятьдесят шесть бт, чтобы был ключ для шифрования материалов под грифом секрет. И суть такая, что Ну а если вообще то не базируется на какой то трудной математическая задача, как, например, система с открытым плечом арысей или дифи Хелмана, они базируются на каких то трудных матиматических задачах по типу того, что разложить целое число на простые множители это трудное или там дискретное логарифмирование это трудно Ну вот а а вот это а если он является эвристикой и как бы вроде как на какой то трудной математической задаче не базируется либо мы не знаем о существовании такой но в то же время самые лучшие атаки на ес они только вот на на эпсило лучше чем полный перебор ключа То есть непонятно его легко взломать не легко, ну, судя по существующим передовым попыткам, не так ли теперь подробнее что внутри этого А получается что ас он является частным случаем так называемый подстановочно перестановочной сети спеть Но эс сама по себе является частным случаем ки айтинг сайфа шифа с переменным ключом соответственно. я сначала расскажу про кейс потом как эспин является частным случаем кейси и как дальше а е специализирует. вот начинаем с кейси наход то есть это мы мы говорим про облачные шифры они все берут на вход некую последую бит и на выходе дадут последовательность сбит такого же размера то есть энбит. Значит, вначале применяется так называемый нулевой раунд, то есть берется ключ ну, мы сейчас будем для просто ты делать допущение что ключ он имеет такой же размер то есть тоже энбин и через исключающее или исключающее или он складывается с исходным текстом, с иной информацией. И дальше результатирующая последователь энбит проходит через перестановку, то есть это пи один это перестановка бит в результатирующей ретирующие от этой строки и дальше добавляется еще один ключ так называемый первый к это был нулевой и вот эта перестановка вместе с с первым ключом это первый раунд. Дальше эти раунды не чередуются, ну, точнее, повторяются то есть также применяется перестановка возможна другая и дальше с добавляется ключ ключ точно другой должен быть вот вот эти перестановки не взяв на разные они могут быть одни и те же. Мы вот таким образом, допустим, четыре раунда проходят и иди на выходе у нас эбитная строка и вот это объявляется шифртекст. То есть здесь каждая операция, она обратима. То здесь что нужно? Если мы хотим от шепотекста перейти к исплоному тексту, можно вот опять добавить этот же ключ, применить обратную перестановку и так далее и дойти до увиду словно тек теперь как как подстаноч перестаночная сеть специализирует этот шифр с переменным делается допущение о о форме о структуре вот этой перестан Перестановка небо какая? А вот какая то конкретная. причем как это делается? берется вот этот вот вход перестановки это энбит по прежнему эбит он нарезается дальше на на куски по побит в случае а это сто двадцать восемь а б это по. то есть у нас шестнадцать по идее так отпусков должно быть по восемь бег и соответственно вот этот каждый кусочек восьмибитный кусочек дается на вход некой нелинейной функции или лином отображении, которое на выходе также дает восемь бит. Вот здесь каждый такой эс бокс каждое такое преобразование, если оно на выходе дает восемь бит, и их таких кусков шестнадцать, и они дальше все склеиваются, и потом применяется линейное преобразование, но это имеется в виду линейное над полем, то есть конечное поле порядка два и соответственно ну что на выходе тоже была последователь цз нулей единичек то не ведома про санкции и дальше у нас. То есть это вот как сеть устроен, да? Ну, то есть это по прежнему келт найти сайфер, но с конкретной формой перестановки. Причем это форма перестановки одна и та же на всех раундах, только ключи меняются. Теперь как Ас дальше специализирует подстановочной перестановочная сеть Он просто говорит, что эс бокс вот это вот приобрезание эс оно должно быть вполне конкретным преобразованием а именно мы будем смотреть на восьми битный вход из бокса как на элемент конечного поля порядка два степени восемь. то есть у вас поле ну, конечно в нем два степени восемь элементов так называем поле голова и понятно что в этом поле для каждого не нулевого элемента у вас есть обратно и так вот этот обратный элемент это и есть взятие обратного элемента к к к к входу это есть бокса вс, ну там с точностью до линейного преобразования там еще дальше линейное преобразование, но сейчас мы это опустим если на вход подается ноль то поем так это у нас соответственно, ас, Понятно, что здесь все все обратимо и как бы если если знать. Ну а еще, наверное, стоит сказать, что ключи они выводятся тоже там есть так называемый планировщик ключей, то есть, вообще то, используется один ключ, из которого потом детерминировано, ну, то есть тоже через некую функцию получаются все остальные рандовые ключи. Вот и соответственно, если бы если знать ключ, то все обратные операции они выполняются, и можно по протекции восстановить исход. Так, есть какие то вопросы на данном?
[1315.24]: Коллеги, пожалуйста, вопросы есть юные? Есть чат. Можно поднять руку, и тогда я вам дам возможность говорить голосом. Я думаю, можно. А вот что пишут.
SPEAKER_03 [1334.0]: В хорошо, Окей. Теперь переходим к. Ну, еще пару слов, да? То есть если вот мы а е запишем, так как последовательность применения бокса потом линейного преображения добавление ключа, ну, вот такая структура получается, то есть чередуется нелинейность, линейность и так далее. А зачем нужно нелинейное преобразование? Чтобы спрятать, по сути, зависимость между ключом и шифротекстом. Потому что если бы не было вот этих эс боксов, если бы все было линейно, то там есть такие давно известные атаки типа дифференциальных криптонализов и линейных крепитанализов, которые по дельте между входами. То есть вы дождете два хода, вы знаете дельту между ходами, соответственно, вы смотрите на дельту между выходами. ну и таким образом вы можете понять как как ключ на это дело действует. Вот нос бокс он как раз таки нужен для того, чтобы вот эту зависимость спрятать, чтобы не так легко было по бумбара, ну, по паре входов и парень выходов понятия.
[1420.72]: Там как? Как? Ну, клюдь как устроена, по сути.
SPEAKER_03 [1432.36]: Если бы а, ну вот а линейное преобразование нужно для того чтобы вот как раз таки распространить изменения в одном бите входа на большое количество битов выхода Вот и ты такой пример допустим, на входе у нас, ну, если бы у нас все было в, видно если, один восемь было бы, скажем такой вход и мы прогоняем через блочный шифр получаем такой выход и потом меняем один бит буквально вот третий бит сенечки на нолик. Ну, мы ожидаем, что на выходе половина, примерно половина битов изменится это вот за счет не обозвать. Так, теперь почему а есть трудно выучить генными методами, в том числе глубоким обучением как какую бы глубокую не растили, какую бы широкую не рассеет не использовали бы. Проблема заключается именно в методе, базирующемся на градентах, то есть в генах проблем. Сначала мы вот такое понятие ведем вычислительная неразличимость, то есть как бы если, если досла, если грубо, то, скажем, если я попрошу вас попытаться найти отличие между этими картинками и дам вам какое то ограниченное количество времени, там пять секунд или десять секунд, то это трудно сделать, если там побольше бюджет. Ну, скажи, пять минут то он, наверное, в принципе можно. Я вот буквально перед презентации пытался найти, и вот здесь вот, скажем, есть возвезд дырка в дырка, но это, конечно, зависит от того, сколько есть времени на нахождение. да, это, это если грубо, да, если формально, то пусть у нас поку две функции вероятности. мы говорим о дискретных распределениях и покуда у нас две фунцигст. и пусть у нас есть алгоритм который выдает либо ну, либо один и его задача так называемый различитель, то есть его задача различать наблюдения сп от наблюденийску. то есть если у нас образец если икса вышел из распределения то, ожидаем что алгоритм волик а если иску то един, например. так вот два распределения по называются эпсилон близ эпсилон близкими вычислительно если если вот мы берем наблюдение сспм даем его находит алгоритм дэн и в единичку да, ну с какой то потому что и у нас выкидывается случайным образом исп. Теперь то же самое делаем для наблюдения и скул то есть выкида выбрать свои наблюдения из распределения ку даем его на вход д и он тоже дает единичку с какой то вероятность если разница между этими вероятностями она маленькая не больше я все то мы называем покусе близкими. но еще одно требование что должен быть какой то бюджет на на время вычисления время работы алгорит модель то есть делается общение что любого алгоритма с полиномамильной сложностью вот эти две вероятности эпсон близки. И тогда мы называем сами расправления по ику Эсл английскими вышли. Так, теперь вот что у нас известно про Аес Берем Аес берем на вход два исходных текста то есть это две энбит две ста двадцати восьми битные строчки вот икс экстрих это если вместе это двести пятьдесят шесть б мы их каждой по отдельности шифруем на ходе каким то ключом, и получается на выходе у нас тоже две сто двадцать восемь битной строчки, и если мы на них смотрим как вот последовательности двести пятьдесят шесть бит то вот эта последовательность двести пятьдесят шесть бит это почти что в кидание монетки двести пятьдесят шесть раз кидание сбалансированные монетки двести пятьдесят шесть раз, ну при, условии что ключик мы выброс которые случайно образ то есть вот терема она звучит так что пусть ка у нас случайный ключ эн битный ну эн это сто двадцать восемь с и у нас есть два исходных текста и штрих а они разные различные, мы их шифруем асом у которого шесть и ораундов. а один раз это, помните, это перестановка плюс добавление раундов встречается. Ну так вот шесть эраундов таких прогоняем, и вот у нас на выходе вот эти вот игорь игры штрих это вот вот это вот а от икс а с ак штрик. И тут важно, что к одной и тоже, то есть как случайные векторы эти два вектора независимых, потому что они оба абазируются на одном и том же случайно векторе, но и его авторы, и они доказали, что, что вот эта вот пара, то есть вот эти стот, сколько там двести пятьдесят шесть бит, которые здесь есть, они вот эпсилон. Эпсилон это штука не эпсилон близкий к ну, двести пятьдесят шесть раз побрасыванию, сбалансированный? Нет, но, конечно, вот эта вторая часть южриха, она должна отличаться от первое. То есть это не совсем прям чистые двести пятьдесят шесть случайно подбрасывание. Вторая часть она должна отличаться от первой? Ну да, почти что это почти что двести это случайность подбрасываниями. хотя на самом деле, конечно, тут максимум, на что мы могли бы рассчитывать, казалось бы, это поскольку у нас ключ случайный, то вот это первая часть, конечно, случайно, да, потому что ключик случайно. Вот то, что вторая часть, она почти что не зависит от первой, в этом весь прикол. Вот это эпсилона, но, конечно, для маленьких хэр не очень маленькая, но поскольку падает экспозициально поэту в принципе три довольно большом количестве раудов мы можем сделать его сколь угодно маленький. Вот это очень неоптимальная оценка потому, что в реальности А Ес использует там у тебя десять двенадцать раундов. А если вы попробуйте вот эту штуку сделать меньше, скажем один делить на два в степени сто двадцать восемь, то то там аар должно быть что то в районе три тысячи, что ли, ну очень много. Но нам главное на качественном уровне понимать, что происходит. Так вот, хорошо, у нас есть такая все случайная серьезность. Дальше Что? Дальше? Ну, давайте попробуем все таки выучить аеса а хотя бы один бит, то есть пусть первый бит, а если он единичка, то мы заведем такую функцию эф эфкс парметизованный клечон к если у ас на выходе ничка и и будет плюс один если на выходе вес ноль. Ну, в принципе можно было использовать один ноль, то есть просто сказать что мфк а икс то это просто первый бит Аес, но вот такая вот такое масштабирование ответа оно оно удобно в том плане, что от ожидания вот такой случайной величины икс это у нас какой то случайный шифртекст, какой то случайный исходный текст. То есть мы икс выбрасываем как последовательность, случайная последовательность из энбит ее это равномерное распределение. то есть вот это у нас булевый кубик, гипер кубик размерности энны, мы одну из его вершин случайным образом выбираем, и вот делается допущение, ну, не то что до общения, можно показать, что ожидание. ну. ну это просто потому, что половина вершин в этом купите будет минус один, другая половина плюс один размечена. вот и это по сути, метко мы хотим сейчас свести к супермаслива при этом дисперсия будет единичка это тоже не сложно показать. и почему это удобно? потому, что если мы теперь рассмотрим вот такое выражение, ну, по сути это скалярное произведение то. есть вы вы берете два разных ключика фиксированных, то есть в отличие от тюрем или предыдущий тут у нас включи фиксируются, а теперь вход рандомизирован, и теперь получается вы два еса, то есть вот это вот это результат работы а ес с ключиком к а это результат работы а е с крючком кашри. и вы берете первый бит здесь и первый бит вот у этого есть. и эти два бита просто перемножайте, и получается, что в среднем вот такая вот такое выражение в среднем оно очень маленькое, можно сделать его сгодно, ну как ни сколь угодно маленьким. то есть здесь это сто двадцать восемь. То есть вот эта часть она по себе маленькая, а этпсела использует достаточное количество раундов можно сделать сколько угодно маленький Вот теперь да, это, конечно, легко. Легко. Вот это легко показать, используя предыдущий результат. Если бы у нас вот эти функции в Кае в Каштри были бы чисто артагональный, то есть их нелетное произведение, задаваемое таким образом, было бы ровно моль. Вот тогда можно было бы использоваться результат шаля Шварца и авторов с две тысячи семнадцатого года, где доказано, что для любой такой системы любого такого класса функций всуд ортонормированной системы функция гридный спускок г ну методы обучения на основе кредитного спуска они приводят к не приведут к успех вот но у нас у нас не чистый ноль, соответственно нам мы не можем напрямую использоваться их результат. Хорошо, мы посмотрели что там в каком месте вот ушале шварцы используется и как он как вот это условие используется оно? Используется через не веселя которая оказывается в в линейных пространствах с со скалярным произведением можно в принципе обобщить вот то есть вот это вот получается это обобщенные нераство бесселя но имеет специальное название называется у был, ну не по типу ус суть такая выберете вот д д элементов вот в этом векторном ленином пространстве со скалярным произведением и еще один какой то телемент же теперь вы берете же и пройцируе на вот эти вот фиты потом берете с квадратой этих проектов складывайте, ну, то есть если если вот в школьной терминологии это это сум сумма квадратов катетов если бы у нас эдифд были бы армированы системы. да и вот сумма квадратов катетов она не превосходит в квадратке потянул за ну, с точностью до некого множителя, потому что у нас их один евд они нертонормированы. И вот за счет того, что здесь вылазит вот вот это вот попарное скалярное произведение между элементами внитожита и норма каждого элемента. Но если мы будем считать, что по норме не единичка, по сути, у нас это так и есть. Вот это дисперсия это как раз таки будет норма квадрат норм. Ну вот то то Вот этот ножитель он будет единичкой а. А вот это вот оно как раз и отражает насколько насколько близко эта система эф один эф дэк артонормированной системе и вот если он довольно близко картоном с ними, то, ну, максимум вот эти попарные произведения маленький. Ну и как бы в вырожденном случае если это прямо ортная вмена тема, то мы получаем вот именно не нравится бесселя, которая как раз таки используется в работе шале В Шварц. Но мы вместо неравество весели используем вот это вот неравенство. но при этом мы контролируем вот эту часть попарные произведения, потому что у нас есть вот этот результат, да? То есть мы за счет большого количества раундов всегда можем вот это попарное произведение, даже максимум, сделать сколь угодно близким к один, делить на два в Миде теперь у нас это есть, у нас есть вот это вот неравенство. И как мы будем выучивать, конечно, граде через глубокое, глубокое, неглубокое любое обучение, которое использует грозный спуск то есть вот эту функцию это у нас некий голден чурс который золотой стандарт который мы хотим выучить а выучивает мой был, конечно, в классе на другом в классе не растет вот аш это икс это это класс не рассеет какой то фиксированный архитектур любую уберите архитектуры вот это это все все все параметры этой нерос. Ну вот, соответственно, тут не рассеять, взяв на вход икс вот именно исходный текст она выдаст игрек игры игрек с крышкой Игры с крышкой мы, конечно, хотим сделать, чтобы было максимально близким к бенус один или кс один в зависимость адрекса как бы выучивать такую такую функцию суперс леник То есть мы нагнерируем кучу кучу разных весов разметных через заезд у нас есть он ключ зафиксировал возьмем ключ, зафиксируем, разметим все вот эти вот эксы плюсадими нассадился вот. Это наша наша обучающая выборка это обучающая выборка будем скармливается в волгоритм обучение. Что такое обучение? По сути это подгон подгон на нейросети к к обучающей выборке. Как это сделать? Ну, через империческую функцию риска то есть это это у нас экрический риск и ошибка обучения. То есть мы используем какую то гладкую гладкую в плане дифференцированную функцию эль, которая как раз таки отвечает за потерю, если наша нейросеть выдает вот такую вот такую метку, а на самом деле метка должна быть вот такая, да? И то есть вот как вот эту разницу между ними функция потерь должна отражать? То есть, ну, типовой пример это хадратичная функция потери. Но поскольку здесь классификация, то обычно используется кросс допусти. И вот соответственно мы все эти ошибки собираем на наших примерах усредняем это отношение имперической функцист и теперь мы вот функцию пересун цика будет минимизировать перекри минимум зашивалась и минимум этой функции объявляем параметры которые, минимизируют это как раз такие исковые параметры не расти которую мы считаем наилучшим образом подно на под на, Да, теперь вопрос как мы это дело как меня то есть вообще то вообще то можно.
SPEAKER_02 [2570.56]: Пойди на любой Ас, найти не рассеять, ну, там.
SPEAKER_03 [2578.48]: Определенной архитектуры, которая будет в точности выдавать, ну, тот ответ, который ес. Но все дело в том, что мы ищем ищем значение параметров генным спуском, как он работает. Ну, получается, мы на эту функцию мы хотим минимизировать вот эту вот су ллк почему ка что она зависит отключка, да, если мы вот как бы другой ключик сейчас возьмем, то функция в свою форму поменяет, потому что метки метки тоже поменяются ведь. Вот и соответственно, все вот эти вот разницы они то как работает кредитный способ. Мы берем сначала какую точку наугад ноль, потом делаем шаг в направлении, противоположным градиенту размер шага альфа сделали шаг, потом оказались новые точки, и в этой новой точке вычислили зановоградин и сделали шаг опять в противоположном направлении. и таким образом мы скатываемся в какой то локальный минимум то есть это такой стандарт де факто как как не расте сейчас обучается. Ну вот то есть тут тут важно что что, во первых, сама функция вот это имперические функции инкического риска она она она должна зависеть отключая потому что если. Если. Если мы берем разные ключи, а при этом функции не меняется, ну, тогда это странно, да? То есть тогда что предметки они одни и те же, но это не так метки они будут меняться в зависимости отключат, потому что мы говорим о первом бите а. и понятно, что для половины ключей первый бит будет мидс один для половины ключей первый вид быстро с час а. ну вот и в общем вот эта вот поверхность меняется, соответственно и гредиты это должны меняться. Да, вот вот мы бере как будто началь точно вот это ноль. и, скажем, у нас какой то ключик, но гент один, а если мы использовали бы при этом другой ключики такую же поверхность построили бы то кент совершенно другой должно. Так Вот теперь к ближе к на нашего результата ближе к концу мы используем тот факт почти штартагональности вот этих функций, которые являются первыми битами Аса. то есть это вот тот результат который на основе Лю Теперь берем Булас Беллман, Нера по типу У Беллмана все это берем, конечно, работу шале В шварца, там делаем модификации и получаем такой результат раздат следующее что оказы если мы будем, ну, вот случайным образом ключик берем и смотрим на дисперсию градиента функция потерь, имперская функция риска, то вот дисперсия вот этого градиента, она оказывает очень маленькая, то есть эпсилон мы всегда можем сделать сколь угодно маленький, взяв большое количество раунда поса вот это число вс по себе уже маленькая и здесь есть ну, да, некая, некая вот эта вот не констант функция от это зависишь она мажорирует вот среднеквадратичнаяму градиентно домой не расти но как считается то есть если мы делаем до общения что сама по себе вот эта функция от это она тоже ограничена, то есть не взрывается, то, по сути, у нас дисперсия кредита. А что мы подразвиваем под дисперсии? Это же гигде, это вектор. Случайно вектор получается здесь, потому что. Как случайно? Ну, вот под дисперсией этого случайного вектора мы имеем в виду в среднем как по норме этот градиент отклоняется от своего среднего значения, да? То есть вот вот это вот средний ген каждый градиент в зависимости от отключка когда, смотрим как, он сильно отклоняется от от среднего вот этого кредита а здесь усреднение тоже по ключику пока и просто вычисляем норму потратить вот вот это мы имеем в виду под дисперс, да? Ну и так вот вот это вот среднеквадратичное отклонение градиента от своего среднего значения оно оно очень мал. То есть получается по сути, что. Ну, то есть. Вот вот сами представьте, вот у вас есть случайная вечна, и у нее дисперсия маленькая, очень маленькая, да, там близка к нулю. Так это так это случайная величина, но она почти что не случайно, она почти что констант. И тут. тут вот тоже такой казус получается, что гардин почти что один и тот же всегда вот какой.
SPEAKER_02 [2914.56]: Бы вы ключ не брали? Гн всегда почти один и тот же.
SPEAKER_03 [2918.84]: Ну, соответственно, а как тогда градному способу учится если, гран всегда один и? вы вот получается если, мы этот результаты используем вместе с работой шамира Который, в принципе является продолжением работы шалю шва, так можно строго показать что почему гас полка безуспешен при выучивании даже одного бита а Ес только если, конечно, мы не позволим экспоненциальному количеству шабов гентного скуа. и получается что результат не зависит от от от того класса моделей параметрического класса модели, которую мы используем, это линейная регрессия или там глубокая не рассеять или не глубоко это неважно. Вся проблема в том, что сами гранты они всегда будут у вас в одну сторону посмотреть. если мы во всех этих рассуждениях заменим наезд на обратное есть то мы получаем что то есть мы сейчас пытались же, получается, выучить примешь праване, то есть по исходному тексту пытаться предсказать один бит шифртекста, да? Но все эти рассуждения можно сделать и для обратного Ес, И тогда мы получим, что, по по исход по шифор тексту мы один бит из слоного текста не можем выучить гдными методами запали ное время. Ну вот мы все таки попытались. Ну, понятно, что это тюрьма говорит, что они ничего не получится, но давайте попробуем все равно. То есть мы с Генри кучу кучу пара. то есть у нас будут на входе шифртексты, то есть мы какие то берем исходные тексты, шифруем асом с фиксированным ключом, и это у нас пусть будет, ну, вход, а на выходе в мерке мы используем первый бит бит исходного текста, ну, пытаемся выучить дешифрование. по сути, только один деше так формируемая выборку. Потом три архитектуры рассмотрели. это у нас количество нейронов на каждом слое. То есть понятно, первый слой, входной слой то сто двадцать восемь нейронов. И потом, вот, скажем, первая архитектура здесь на промежуточном слое две тысячи сорок восемь миллионов. и научение понятно, один у нас же мы же хотим делать предсказание одного бита вот ну и соответственно так обучаем эти неросети через стастический гранатный спуск ну И понятно что, ничего хорошего не получается на на тестовой выборке у нас не лучше, чем если бы мы подбрасывали монетку и таким образом предсказывали бы первый бит исходного текста. Если мы берем вот якобы самую успешную архитектуру вот первую которая две тысячи сорок восемь миронов а, посередине в которое более менее что то пыталась хотя бы а верхитнуть, потому что остальные даже переобучиться толком не могут, ну вот этот даже хотя бы попыталась что то запомнить на обучающие выборы. И если мы берем процируем вот эти вот репрезентации с промежуточного слоя на просто на плоскость, то есть используем две первые, две главные компоненты проецируем на плоское, то получаем что отрицательный и положительные примеры они не разделены тут, казалось бы, можно было возразить но типа сицировали очень многомерного пространства на на сегодня лишь двухмерное мы могли бы как бы утратить в структуру но если так подумать в пие это все равно линейная праца и если у вас классы были раздели и причем она же небо как прорицирует а сначала находит, ну, там первое главное компания это направление, вдоль которой дисперсия у вас максимальная, да? То есть это по сути, если представить, что вот эти два класса они были бы разделены в многомерном пространстве, то, вообще то при проекты на на плоской с они должны были остаться раздел разделенными. да, вот, ну вот мне мне не разделяется, не получается. Ну вот, теперь все, почти что уложился.
- Другие приложения

Научно-технический вебинар «Hardness of Learning AES with Gradient-Based Methods»

О вебинаре

Спикер

Тема

Подробнее про вебинар