[Moscow.pm] Корпус слов
Dmitry Eremeev
dmitry на eremeev.ru
Сб Янв 24 23:58:33 PST 2009
На "Озоне" есть несколько книжек по лингвистике и текстологии, дешевые
но полезные.
Потратьте пару недель - очень увлекательно. :о)
24.01.2009, в 16:16, Михаил Монашёв написал(а):
> Здравствуйте.
>
> А что такое корпус? Это список из слов и их частот? Или там ещё связи
> между словами есть?
>
> Что можно с корпусом делать в теории?
>
> Мне видится, что можно как-то посчитать близость текста и корпуса
> слов. Вот только как правильно это сделать?
>
> Можно, наверное, взять совпадающие слова и в многомерном пространстве
> из них посчитать угол между многомерным вектором корпуса и вектором
> текста. Слово - это измерение. Частота слова - это значение
> координаты, отложенное в этом измерении. Так правильно близость
> текстов считать? Нужно ли слова предварительно через стеммер
> пропускать? Или вместо слов лучше шинглы использовать?
>
> Можно ли на коллекции разных текстов сделать автоматическое
> тематическое разбиение этих текстов, заранее не зная о чём они? Скажем
> нужно разбить коллекцию на 100 тематических групп. Как эти группы
> выделить?
>
> P.S.
> Посоветуйте хороший бесплатный стеммер, который бы справлялся с
> неизвестными ему словами русского и английского языков.
>
> VS> Мысль сделать автоматическую добавлялку фидов.
>
> VS> Также есть Мысля, что мы таки сделаем language detection.
>
> VS> Киньте ссылок на блоги, там где про перл на разных языках, мне
> нужен
> VS> корпус языков для самообучения,
> VS> Сдаётся мне, что десяток языков я выделить смогу.
>
> --
>
> С уважением,
> Михаил Монашёв, SoftSearch.ru
> mailto:postmaster на softsearch.ru
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
Подробная информация о списке рассылки Moscow-pm