Алгоритм примерно такой:<div>- грузим две страницы с разным контентом (например, две новости)</div><div>- делаем diff</div><div>- все, кроме одинаковых частей - это контент<br><br><div class="gmail_quote">14 июня 2012 г., 13:47 пользователь Анатолий Шарифулин <span dir="ltr"><<a href="mailto:sharifulin@gmail.com" target="_blank">sharifulin@gmail.com</a>></span> написал:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Привет!<div><br></div><div>Может кто-нибудь знает алгоритмы или реализации Safari Reader, Readability или Evernote Clearly.</div>
<div><br></div><div>На CPAN нашёл только старые реализации:</div><div><br></div><div><a href="https://metacpan.org/module/HTML::ExtractMain" target="_blank">https://metacpan.org/module/HTML::ExtractMain</a> (алгоритм readability.js)</div>

<div><a href="https://metacpan.org/module/HTML::ExtractContent" target="_blank">https://metacpan.org/module/HTML::ExtractContent</a><br clear="all"><div><br></div><div>Но они не очень.</div><span class="HOEnZb"><font color="#888888"><div>
<br></div>-- <br>С уважением,<br> Анатолий Шарифулин.<br>

</font></span></div>
<br>--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>С уважением, Александр<br>Личный блог: <a href="http://eax.me/" target="_blank">http://eax.me/</a><br>Мой форум: <a href="http://it-talk.org/" target="_blank">http://it-talk.org/</a><br>
Мой Twitter: <a href="http://twitter.com/afiskon" target="_blank">http://twitter.com/afiskon</a><br><br>
</div>