[Moscow.pm] Имена кластеров.

Grigory V.Sapunov grigory.sapunov на gmail.com
Вс Окт 30 12:32:46 PDT 2011


Если совсем введение интересует, можно начать с книги Мэннинга, Шютце и
Рагхавана (http://www-nlp.stanford.edu/IR-book/), главы про кластеризацию,
статья в википедии во многом по ней построена:
http://en.wikipedia.org/wiki/Cluster_labeling

Введение в аннотирование есть у Мартина с Журафским в 23-й главе:
http://www.amazon.com/speech-language-processing-daniel-jurafsky/dp/0131873210

Если нужно более глубоко, то скорее придётся по публикациям в тематических
журналах и трудах конференций копать. Готовых книг, посвящённых именно этой
проблеме, мне в руки не попадалось. Хотя у Springer что-то было...

2011/10/30 Михаил Монашёв <postmaster на softsearch.ru>

> Здравствуйте, Grigory.
>
> Я хотел теорию почитать.
>
> > А какая конкретно задача? Этому целая область посвящена -- Multiple
> > Document Summarization.
>
> > Где-то для этого достаточно выбрать заголовок одного из документов,
> > где-то достаточно наиболее представительного тэга или именной группы,
> > а где-то нужно ещё и сделать обобщение, например, с использованием
> > тезаурусов и создать аннотацию, которая ни в каком конкретном
> > документе не содержится. Сложность соответственно тоже очень разная,
> > от простого подсчёта и выбора наиболее частотной сущности до сложных
> > алгоритмов машинного обучения с использованием лингвистического
> > обеспечения.
>
> >> Может кто знает алгоритмы поиска названий кластеров, когда на кластеры
> >> разбиваются текстовые документы?
> >>
>
>
>
> --
> С уважением,
>  Михаил                          mailto:postmaster на softsearch.ru
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20111030/5b1f6a24/attachment.html>


Подробная информация о списке рассылки Moscow-pm