Классические статьи по вычислительной лингвистике

5 самых классических статей по вычислительной лингвистике

На мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры — неожиданнее, чем в массовой научной продукции последних лет. Ниже — 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.

Авторегрессионные языковые модели

А.А. Марковъ, Примѣръ статистическаго изслѣдованія надъ текстомъ «Евгенія Онѣгина» иллюстрирующій связь испытаній въ цѣпь. 1913

В статье Марков строит то, что сейчас назвали бы char-level bigram language model. Естественно, такие модели эквивалентны марковским цепям, и явились едва ли не первым примером применения механизма условной вероятности, на котором держится вся вычислительная лингвистика, и марковских цепей.Таким образом, языковая модель, вводимая им — это авторегрессионная модель, и является прадедушкой GPT.

Lalit R. Bahl, Frederick Jelinek, and Robert L. Mercer. A Maximum Likelihood Approach to Continuous Speech Recognition, 1983

В статье Йелинек с соавторами описывает подход, используемый с тех пор во всех системах распознавания речи, и архитектуру с разделением на акустическую и языковую модели, которые используются до сих пор. Также статья вводит в современную вычислительную лингвистику марковский подход (см. выше) с марковскими цепями и условными вероятностями.

Формальные грамматики

Noam Chomsky. Three Models for the Description of Language, 1953

C практической победой статистического подхода Йелинека (см. выше) в вычислительной лингвистике в 90-х годах прошлого века генеративные грамматики очутились на окраине вычислительнолингвистических интересов. Однако, до этого эта работа 40 лет определяла развитие вычислительной лингвистики. Формальные грамматики по-прежнему лежат в основе всего, что мы программируем, ибо все языки программирования определяются формальными грамматиками.

Дистрибуционные семантики

Zellig S. Harris. Distributional Structure. 1954

Видимо, впервые вводится идея о том, что слово определяется своим контекстом.

Информация

А. Н. Колмогоров, Три подхода к определению понятия “количество информации. 1965

Обсуждая шенноновский подход к определению информации, Колмогоров вводит то, что теперь называется колмогоровской сложностью. Парадоксы, вытекающие из этой работы, до сих пор не разрешены удовлетворительно. Хотя значимость этой работы сильно выходит за рамки вычислительной лингвистики, бОльшая часть приводимых Колмогоровым примеров — именно лингвистические.

А вы бы что к этому списку добавили? У меня есть еще один список чуть менее классических, но все равно любимых старых статей. Написать в следующий раз?

Подписывайтесь на телеграм-канал «ProAI»