Как получить полный текст статей из RSS ленты поиска по блогам?

июня 4, 2008 | Tags:

Задача: у нас есть список кивордов, по которым мы хотим получить свежие тексты из различных тематических блогов и новостных сайтов. Сразу скажу, что мой метод основывается на утверждении о том, что большинство блогов сейчас отдают полный текст статей в rss фиде. А как лучше всего искать свежие новости и статьи? Правильно – с помощью поисковиков по блогам, таких как google blogsearch или technorati.

Далее лишь остается пройтись по найденным url, и взять текст поста уже непосредственно с фида сайтов. Собственно, ниже скрин реализации этой простой и гениальной идеи

pipe1.gif

Как можно догадаться, в таком самом простом виде эта труба не даст 100% гарантируемый результат. Во-первых, блог может отдавать статьи под катом, во-вторых, если блог обновляется довольно часто, то мы получим не ту статью, что хотели, а другую – более свежую. И хотя лично меня такие результаты вполне устраивают, все же эти проблемы можно решить с большой долей вероятности успеха. Можно запрашивать не один блог и не одну статью, а “с запасом” в 3-5 постов. Далее просто нужно отсечь все лишнее:

- Отфильтровать резаные стать, например, заблокировать тексты с “…” или по другим признакам.

- Можно искать ключевые слова в title и description, и если их нет – не пропускать пост.

- Сравнивать url из поиска по блогам непосредственно с линками в фиде блога. Как это реализовать с помощью yahoo pipes я не знаю, но метод надежный, и можно запрограммить свои пару строчек кода.

- Делать сортировку по дате поста, а не по релевантности в поисковиках по блогам.

Если это будет интересно, далее я планирую рассказать, как в Yahoo

Pipes можно использовать Google Trends и как решить проблему с RU кодировками.

Источник

No comments yet.

Comment Spam Protection by WP-SpamFree