[Moscow.pm] Offline #6

Vyacheslav Matjukhin mmcleric на gmail.com
Пн Апр 28 04:18:16 PDT 2008


>
> А зачем тут костыли? Кто Вам сказал, что разные фиды не могут отдавать
> одинаковое  содержимое?  Вот  например,  у  блога  могут  быть  фиды с
> последними   комментами   всего   дневника   и  последними  комментами
> определённого топика. И даже больше, коммент может попасть в фид всего
> блог-хостинга. Везде один и тот же коммент будет показываться. Везде у
> него  будет один и тот же url, как и в Вами приведённом случае. И даже
> больше  -  у  них  будет  одинаковое содержимое и заголовок! Зачем эти
> items считать разными и писать какие-то костыли?


Ага.
Все верно, схлопывание уникальных url-ов с одного хоста - самое простое
решение, и мы его наверняка в ближайшее время сделаем, если еще не.
Отсеивать одинаковые записи по заголовку или содержимому тоже можно было бы,
но в таком случае общее число записей неизбежно будет примерным (оно и
сейчас примерное, конечно, но мне кажется, разница есть).

Да, и как Вы правильно заметили, ничего не мешает блогохостингу по ошибке
положить все комменты в общий rss. Или добавить к нам фиды с комментами, по
одному на каждый фид.
А общепринятого API для обозначения комметнтов, насколько мне известно, не
существует. И если бы и был - нет никакой гарантии, что блогохостинг его
правильно реализует :)
В общем, это наша вечная головная боль, слишком долго (и не всегда
совместимо с NDA) рассказывать детали. Как-то боремся.


>
>
> Да и к чему этот рейтинг, если он на костылях и не показывает реальной
> картины?


Ага, это ключевой вопрос: "достаточно ли точен рейтинг, чтобы его
показывать?"
Ответ тут может быть только субъективным. На мой взгляд - достаточно. Хотя и
есть над чем поработать, конечно.


>
>
> Или  взять  например blog.ru, у которого довольно значительный процент
> содержимого  -  это  скаченные  с  других блог-хостингов фиды. Было бы
> логично  определять  источник оригинального контента и не обрабатывать
> ретранслируемые  фиды.  Это  конечно  сложнее  в  реализации, но вроде
> искать нечёткие дубли Яндекс умел раньше.


1) Какие-то продвижения в этом направлении у нас есть;
2) полное решение этой проблемы без того, чтобы заставить такие
блогохостинги использовать общее API для трансляций (которого к тому же не
существует), может быть построено только на эвристиках (во, надо было это
слово использовать вместо "костыль" :) ), которые бы тоже иногда
промахивались;
3) (мечты) вот бы все блогохостинги были вежливыми и клали бы оригинальный
линк в <link> или хотя бы в <origLink>, как feedburner. Эх...


>
> >> Я не знаю почему так происходит, но в проекты Яндекса почему-то всегда
> >> подмешивают ═ человеческий ═ фактор, ═ который ═ сводит ═ на ═нет ═все
> >> мега-алгоритмы.
>
> > Теории заговора - это, конечно, очень увлекательно, но реальность
> > куда банальнее. Когда обрабатываешь много разных источников, не всем
> > из которых можно доверять, трудно извлекать из них все полезное и
> > одновременно защищаться от накруток, ошибок в rss, спама и прочего.
> > Хотя мне кажется, у нас достаточно хорошо это получается :)
>
> Со стороны кажется иначе... Я же не зря ссылки тут давал...


Вы давали две ссылки, на roem и на жалобы на Директ.
На Роем'е в первых же комментариях столько паранои, что у меня просто воли
не хватило до конца дочитать.
Спорить со сторонниками теории заговора бесполезно, к сожалению.

[дальше рассуждения на тему, а не личное оскорбление :) ]

Я знаю три лекарства от подобной паранои:
1) устроиться работать в ППБ;
2) "Маятник Фуко" Умберто Эко может помочь;
3) развивать здравый смысл и не увлекаться поиском совпадений и ассоциаций
другими способами :)

А вот умозрительного аргумента, который бы можно было привести в подобной
переписке, я не знаю.

PS. Ну а Директ просто не в моей компетенции.


>
> --
> С уважением,
> Монашёв Михаил, SoftSearch.ru
> mailto:postmaster на softsearch.ru
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
> http://mail.pm.org/mailman/listinfo/moscow-pm
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: http://mail.pm.org/pipermail/moscow-pm/attachments/20080428/506d7b0d/attachment.html 


Подробная информация о списке рассылки Moscow-pm