[Moscow.pm] исправление слов

Andrew Shitov andy на shitov.ru
Сб Май 23 05:09:11 PDT 2009


> Но может есть какой-то более
> умный  алгоритм  нечёткого  сравнения  двух  слов, который бы например

Есть такое "расстояние Левенштейна", которое можно использовать как
меру того, насколько "удалены" друг от друга два слова. На спане есть
модуль Text::Levenshtein, правда мне когда-то не понравилось, как он
считает расстояние (не помню, почему). Еще есть такой же с XS.

> правильно приводил неверно написанное доменное имя к mail или к gmail?

Привести к нужной форме метод не может, но зато может сказать,
насколько строка yandeks близка mail, rambler или gmail.

# perl -MText::Levenshtein -E'say join ", ",
Text::Levenshtein::distance("yandeks", "yandex", "gmail", "rambler");'
2, 7, 6

Там, где минимум, там и истина.

-- 
Andrew Shitov
______________________________________________________________________
andy на shitov.ru | http://shitov.ru


Подробная информация о списке рассылки Moscow-pm