Yahoo-Pipes: русский справочник по модулям (Sources). Часть 1
я настойчиво предлагаю начать с описания модулей. Этакая
русскоязычная (не путайте с
переводом оригинальной документации по pipes здесь будут приведены мои собственные определения, хотя и без перевода не обойдется
Итак, модули класса Source (Источники)
- это модули которые должны быть в каждой трубе, потому что нет
источника данных - нет и данных, а нет данных - не с чем работать, а тогда
зачем вообще нужна труба?
ссылку на него ты хоть убей не видишь, но знаешь что она там есть.
Ну, не позаботился автор о большой и красочной кнопке с призывом Feed Auto-Discovery, который распарсит (разберет) указанный сайт на болтики и найдет на нём ссылку на RSS.
Итак,
Feed Auto-Discovery - который сам находит ссылку на RSS-канале,
вам остается только указать адрес интересующего вас сайта. Если на
сайте обнаружится более одного канала, то Feed Auto-Discovery найдет их все! После этого каналы можно разбирать модулями для чтения RSS (например, Feed)
- для разбора файлов, содержащих данные разделенных
разделительным символом (, ; | Tab или какой-нибудь другой, например
слово "Razdelay" ), для использования нужно указать - адрес
файла CSV (например
посмотрите его, если не имеете представления о формате CSV файлов),
символ-разделитель (Сolumn separated by), а также номер колонки
значения которой будут использованы в качестве названия столбцов (Use
Rows as column name) или ввести свои названия (Use following column
names и вводить имена колонок по порядку). Необязательный элемент -
Skip the first X rows (Пропустить первые X колонок).
csv" id="BLOGGER_PHOTO_ID_5203846040140591874" border="0">
Ну вот и все, теперь на выходе у вас - данные в виде: Название столбца -> Значение столбца.
data" id="BLOGGER_PHOTO_ID_5203846040140591890" border="0">
Вот их то мы и сможем .
Для этого вводим в поле URL адрес xml или JSON файла (например
http://www.weather.gov/data/current_obs/KRIC.xml), а в поле "Path to
item list" путь до элемента, то есть название узла (например latitude)
и получаем на выходе список значений этого узла (если вы не знакомы с
xml форматом, то вам стоит почитать об этом где-нибудь в интернете).
data module" id="BLOGGER_PHOTO_ID_5203672454742356706" border="0">
Пример взятый из документации - для извлечения значений place, в поле
"Path to item list" вы должны вставить idinfo.keywords.place.
- самый простой модуль. Укажи ему адрес RSS канала (или нескольких RSS
каналов) и получи на выходе сборную солянку из новостей этих RSS.
feed" id="BLOGGER_PHOTO_ID_5203846044435559202" border="0">
Итак, на вход на RSS, на выходе элементы состоящие из новостей этих
самых RSS, их вы уже сможете фильтровать, объединять (для этого
используются модули из раздела Операции), но об этом потом...
site feed" id="BLOGGER_PHOTO_ID_5203848097429926738" border="0">, но
в отличие от него находит только один RSS канал на странице - первый ему попавшийся (сколько бы их там не было) и возвращает не ссылку, а содержимое найденного канала.
позволяет искать фотографии по ключевому слову и географического местоположения.
Во-первых, укажите количество изображений, которое должен вернуть поиск. Затем введите один или несколько ключевых слов, таких, как «лошади» или «артишоки». Также вы можете опционально указать географическое местоположение фото, например, «Чикаго, штат Иллинойс» или «Гавайи»
Этот возвращает много данных: вы не найдете в очередной RSS канал. y:flickr тег показывает URL-адрес для Flickr страницы и ссылку на файл изображения.
В Tags элемента перечислены все Flickr теги , привязанные к фото.
Частенько вы сможете получать географические данные в y: location элементов, если, конечно, эти данные доступна для фото. Это даст вам возможность отобразить Flickr результаты на карте в «Pipe Preview».
- один из самых нужных модулей в pipes, который позволяет
использовать данные, полученные поиском в google base (база знаний,
рассортированная по категориям). Вставьте этот себе в трубу,
выберите категорию (например: anithing - все категории, jobs -
работа), введите строку в keywords.
Также можно заполнить поля для географии - within (на растоянии) и
location (тут вводится код региона, как получать этот код ума не приложу) - и все, теперь на выходе вы получаете данные из базы.
(перевод) - Так же, если его использовать, как суб-модуль в цикле, который обрабатывает уже существующий поток данных, для изменения, переименования и создания
новых элементов.
заведений в заданном месте
local module" id="BLOGGER_PHOTO_ID_5203848106019861394" border="0">(например, рестораны в Гонконге или Пицерию в Токио)
- модуль, использующий поисковую машину yahoo, задается строка для поиска.
search module" id="BLOGGER_PHOTO_ID_5203849420279853986" border="0"> Есть возможность искать по заданным сайтам, для этого надо задать их в поле site restriction.
Module, конечно,
сейчас большинство сайтов и блогов имеет информацию в виде RSS, но не все! Для извлечения данных из обычных html страниц используется Module
В качестве параметров, он принимает адрес страницы а также начальный и
конечный html-тэги между которыми находится интересующая инфа (например
от до ). Если на странице имеются повторяющиеся элементы, то укажите в
поле "Split using delimiter" строку определяющую его.
page" id="BLOGGER_PHOTO_ID_5203846044435559218" border="0">
Модуль пока не работает со страницами 200К, а также не индексируемыми страницами.
