Лучшее в мире распознавание адресов в тексте в 2006 году

Когда в штате нашей компании появились сотрудники с учеными степенями, мы решили поработать над задачей распознавания именованных сущностей и с помощью технологии адаптивных деревьев решений разработали систему распознавания адресов в тексте.

В далёком 2006 году вокруг внутреннего проекта НТР сформировалась могучая команда программистов, пара из которых даже была с научными степенями: один — доктор наук computer science, второй — защитил кандидатскую по вычислительной лингвистике.

Задачу выбрали революционную на тот момент: Named Entity Recognition, то есть распознавание именованных сущностей, но по отношению к физическим адресам. Замахнулись сделать большой-большой каталог из физических адресов разных компаний, извлеченных из их сайтов.

Начали работать. Написали паука, который бродил по интернету и собирал всякие интернет-странички. Стали писать распознавание именованных сущностей с помощью адаптивных деревьев решений. Это тогда было модным направлением.

Писали-писали, не получалось. Писали-писали, не получалось.

В конце-концов решили эту задачку. С помощью этих самых деревьев решений сделали распознавание адресов, которое было на уровне лучших мировых образцов. Инновационная технология автоматически извлекала ключевую информацию с общедоступных веб-сайтов.

Назвали проект QuickHydra. Hydra, потому что был многоглавый как гидра — позволяло искать одновременно в разных поисковиках, а Quick потому что достаточно быстро.

Сайт QuickHydra работал очень быстро, на нём перечислялись десятки миллионов адресов американских компаний. Этакая динамическая база данных предприятий по всей территории США. На сайте можно было найти компанию и ее адрес, тип бизнеса, номер телефона, адрес электронной почты. Люди приходили и пользовались. Затем мы обучили нейросеть распознавать британские, канадские и русские адреса. Таким образом разработали лучшее в мире распознавание адресов в тексте с помощью адаптивных деревьев решений.

Отрасль
Стек