Лучшее в мире распознавание адресов в тексте в 2006 году

Когда в штате нашей компании появились сотрудники с учеными степенями, мы решили поработать над задачей распознавания именованных сущностей и с помощью технологии адаптивных деревьев решений разработали систему распознавания адресов в тексте.

В далёком 2006 году вокруг внутреннего проекта НТР сформировалась могучая команда программистов, пара из которых даже была с научными степенями: один — доктор наук computer science, второй — защитил кандидатскую по вычислительной лингвистике.

Задачу выбрали революционную на тот момент: Named Entity Recognition, то есть распознавание именованных сущностей, но по отношению к физическим адресам. Замахнулись сделать большой-большой каталог из физических адресов разных компаний, извлеченных из их сайтов.
‍
Начали работать. Написали паука, который бродил по интернету и собирал всякие интернет-странички. Стали писать распознавание именованных сущностей с помощью адаптивных деревьев решений. Это тогда было модным направлением.

Писали-писали, не получалось. Писали-писали, не получалось.

В конце-концов решили эту задачку. С помощью этих самых деревьев решений сделали распознавание адресов, которое было на уровне лучших мировых образцов. Инновационная технология автоматически извлекала ключевую информацию с общедоступных веб-сайтов.
‍
Назвали проект QuickHydra. Hydra, потому что был многоглавый как гидра — позволяло искать одновременно в разных поисковиках, а Quick потому что достаточно быстро.
‍
Сайт QuickHydra работал очень быстро, на нём перечислялись десятки миллионов адресов американских компаний. Этакая динамическая база данных предприятий по всей территории США. На сайте можно было найти компанию и ее адрес, тип бизнеса, номер телефона, адрес электронной почты. Люди приходили и пользовались. Затем мы обучили нейросеть распознавать британские, канадские и русские адреса. Таким образом разработали лучшее в мире распознавание адресов в тексте с помощью адаптивных деревьев решений.

Лучшее в мире распознавание адресов в тексте в 2006 году

Отрасль

Стек