Home Page |  Каталог / Изменения / НовыеКомментарии | Поиск:
Вход:     Пароль:   

  Избранное:   Каталог | Изменения | НовыеКомментарии | Вам запрещён доступПользователи | Вам запрещён доступРегистрация  
Версия для печати :: Версия для экспорта в Microsoft Word

CelarentWackoSite: ИзКомпьютерры/СиндикацияИАггрегация ...

Синдикация с аггрегацией

Борис Богданов


Термин «Web 2.0», появившийся с легкой руки Тима О'Рейли около года назад и создавший моду на «вторые версии» буквально всех известных понятий, до сих пор вызывает споры. Что именно стоит за этим словосочетанием? И стоит ли за ним вообще что-нибудь, или это лишь buzzword, «модное слово», помогающее выкачивать из инвесторов деньги? Мы не будем включаться в этот терминологический спор. Вместо этого мы постараемся рассказать о технологиях, обычно связываемых со «вторым вебом» – их истории, принципах работы и практических применениях. – И.Щ.


Когда говоришь о технологиях, которые являются неотъемлемыми элементами Web 2.0, складывается парадоксальная ситуация: ирония в том, что большинство из них появилось задолго до того, как Тим О’Рейли провозгласил о наступлении новой эры.


В этой статье речь пойдет о решении одной очень старой проблемы. Разработчики много лет бились над задачей быстрой доставки информации заинтересованным читателям и её ретрансляции во всевозможных клиентах. Поиск одновременно простого, функционального и унифицированного решения шел несколько лет. Что только за это время не появилось — от глобальной концепции Semantic Web до многочисленных прикладных решений и технологий. Так были разработаны Channel Definition Format (CDF) от Microsoft, PointCast, поддерживавшийся Netscape, Marimba Castanet и многие другие. Практически все решения так и сгинули в безвестности, и даже среди специалистов лишь единицы сейчас вспомнят хотя бы название этих технологий.


Из множества конкурирующих стандартов до наших дней благополучно дожили лишь 2: RSS и Atom. При этом RSS является действительно «народным» форматом, практически синонимичным для многих самому понятию синдикация. И RSS, и Atom – это основанные на XML форматы, предназначенные для сбора информации, т.е. аггрегирования. Эти стандарты, как, впрочем, и все, основанные на XML, реализуют давнюю идею разделения оформления и содержания и лишены одного из главных недостатков HTML — запутанности и перегруженности служебными и «оформительскими» элементами, которые крайне затрудняют автоматическое унифицированное получение и обработку информации: в данном случае транслируется только полезное содержание без каких-либо элементов дизайна, навигации и т.д.


RSS – это семейство стандартов формирования XML-документа, в который сохраняется информация об обновлениях. В подавляющем большинстве случаев речь идет об обновлении в новостной ленте, но, в принципе, это могут быть любые изменения. Впрочем, об этом мы поговорим чуть позже. Взаимоотношения между отдельными версиями этого формата достаточно запутаны. Представители этого семейства частично несовместимы друг с другом, но для конечного пользователя это практически не имеет значение — любая современная программа для работы с RSS понимает все его версии.


Atom — это также основанный на XML формат, предназначенный для аггрегирования информации об обновлениях, в первую очередь с веб-сайтов.

История синдикации

Идея стандартизировать процесс оповещения о появлении новых данных и изменении существующих, а также ретрансляцию информации появилась очень давно. Прообразы современных стандартов синдикации начали разрабатывать еще в 1997-ом году.


Первым на сцену появился RSS. Разработана эта технология была легендарной компанией Netscape, которая использовала её для наполнения своего портала Netcenter. Вскоре RSS ленты уже активно использовалась для трансляции новостей на многих сайтах — в том числе таких крупных и авторитетных, как CNN, BBC, ZDNet, CNET, Forbes, Slashdot и многих других.


Первой появившейся версии RSS был присвоен номер 0.90. Однако стандарт, как сочли и пользователи и эксперты, оказался излишне сложным и запутанным. Так что вскоре Netscape выпустила следующую упрощенную версию RSS 0.91. Затем корпорация потеряла интерес к своему детищу. Разработку формата продолжила компания UserLand Software. К тому моменту у UserLand в активах была собственная схожая по задачам технология ScriptingNews, наработки из которой были включены в выпущенные вскоре версии RSS 0.92, 0.93, 0.94 и, в итоге, 2.0. Параллельно RSS-DEV Working Group развивала свою версию RSS и выпустила RSS 1.0, а затем и 1.1. В результате на сегодня существуют 7(!) версий RSS. Наиболее популярны версии 0.91, 1.0 и, конечно же, 2.0.


Подобная неупорядоченность и постоянные склоки в среде разработчиков и сторонников RSS неизбежно должны были привести к появлению конкурента. Конкурентом стала уже упоминавшаяся технология Atom, построенная на тех же принципах и с теми же целями, но изначально учитывавшая недостатки RSS, гораздо более четко стандартизованная и более функциональная.


Как ни странно, войны форматов не получилось: практически все аггрегаторы (программы для чтения фидов) поддерживают и Atom, и все версии RSS, так что пользователю всё равно, если сайт поддерживает экспорт только в каком-то одном формате.


Стремительное развитие RSS, больше похожее на триумфальное шествие, развернулось в 2003 году. Появлялось всё большее число сайтов, поддерживавших RSS и другие форматы синдикации, всё привычнее становились блоги – а практически все блог-движки, будь то хостинговый LiveJournal или персональный WordPress, поддерживали RSS. Таким образом, рост числа блогов означал и рост числа фидов, всё большее развитие синдикации, появление программ для работы с потоками.


Успех, основы которого были заложены в 2003 году, стал очевиден уже на следующий год – количество фидов выросло многократно. Посмотрите на график на http://www.syndic8.com/stats.php, по нему четко видно, насколько стремительно росла популярность формата. Распространение облегчало и то, что появились программы, в которых функция чтения потоков RSS и Atom была необязательным, но очень интересным дополнением. RSS-аггрегаторы (в том или ином виде) были добавлены в состав Mozilla Firefox, Opera и Safari. Теперь можно было познакомиться с новой технологией, не ставя каких-либо дополнительных программ. Да и появление первых онлайновых аггрегаторов позволило создавать на сайтах свою персональную новостную ленту, показывающую автоматически обновляемые новости из интересующих именно вас источников.


Получилось так, что самым ярым сторонником Atom стал Google, Microsoft же поддерживает RSS. Именно Atom используется в Blogger.com, Google News, Gmail и других сервисах Google. Google также развивает стандарт и вводит дополнения к нему. Так появился GData, формат, основанный на Atom. Именно GData используется в последних сервисах компании, таких, как Google Calendar.


Microsoft стал далеко не первым, но, пожалуй, самым полезным сторонником RSS. Сначала Microsoft завела фиды у себя на сайтах, потом разработчики компании в свою очередь решили расширить RSS. В 2005 году корпорация представила расширение Simple Sharing Extensions, призванное превратить RSS в средство двусторонней синхронизации данных, т.е. добавить в RSS функционал, уже присутствовавший в Atom. Правда, это расширение так и осталось бумажным тигром – приложений, использующих этот формат я назвать не могу.


Поддержка RSS включена в готовящиеся Internet Explorer 7.0, MS Outlook и Windows Vista. RSS становится стандартом де факто для автоматизированного обмена информацией. Важным плюсом синдикации для разработчиков является тот факт, что потоки не накладывают ограничение на характер передаваемой информации и её адресата. Через фиды вы можете информировать пользователей о чем угодно – публикация новостей, статей, появление на ftp-сервере нового файла, изменение страницы в wiki… да мало ли! Главное, что произошло определенное изменение, информация о котором вносится в фид.


Использование XML, формата гибкого и расширяемого, позволяет легко приспосабливать RSS и Atom под самые разнообразные задачи. Так появление подкастов и видкастов поставило ту же проблему, что уже была решена для текстовой информации – быстрая и максимально автоматизированная передача информации заинтересованному пользователю. Использование опционального элемента enclosure, описывающего подключаемый объект (аудиозапись, видео-файл, картинка), позволило распространять через RSS любой медиа-контент. Поддержка данного тега в программном обеспечении может сделать работу и вовсе прозрачным – пользователь может даже не догадываться, что данные передаются через RSS. Скажем, iTunes позволяет подписаться на RSS-фид с подкастом, просто перетащив ссылку в соответствующий раздел, и затем автоматически закачивать новые аудиозаписи на iPod.

Как же это работает?

XML-файл, называемый фидом (от англ. feed – питание) или потоком, обновляется в тот же момент, когда появляется новая информация. При этом в фид записываются заголовок, описание и дата изменения (набор полей может варьироваться в зависимости от используемого стандарта и задачи, это лишь основные). Затем специальная программа или сервис, с заданной периодичностью проверяющие содержание этого потока, показывают пользователю, что же изменилось.


Информация об обновлении может использоваться как угодно – пользователь может прочесть эти данные на персонализированной «домашней странице» или в своем любимом аггрегаторе, будь то онлайновый сервис (скажем, BlogLines или Яндекс.Лента), на настольном компьютере (например, с помощью NewsGator или популярного открытого RSS Bandit) или на КПК (PocketRSS, PocketFeed и т.д.).


В качестве клиента для RSS-потока может выступать не только программа-аггрегатор конечного пользователя, но и специальный сервис, занимающийся публикацией информации на сайте. Если вы хотите разместить у себя на странице, скажем, последние новости, курсы валют или сводки погоды, то RSS может оказаться самым подходящим решением, гораздо более мощным и гибким, чем традиционные и давно привычные информеры. Для разработчиков особенно ценным может оказаться то, что информацию, полученную через фид, можно обработать как угодно и вывести именно в том виде, как это вам необходимо. Посмотрите, например, на сайт FeedBurner.com: одна из его задач – показ RSS фидов в удобном для конечного пользователя виде, так, чтобы RSS было легко прочесть без каких-либо дополнительных ухищрений непосредственно в браузере.


Оценить возможности автоматического сбора, анализа и публикации фидов можно на примере новостных порталов, агрегирующих данные с сотен и тысяч сайтов. Самые яркие примеры – Google News (четыре с половиной тысячи источников) и Яндекс Новости (http://news.yandex.ru/, почти 1400 источников).


Приятно, сейчас Яндекс активно развивает разнообразные сервисы, связанные с RSS. Отметим, например, недавно появившийся индекс популярности темы в блогах. Сейчас вы легко можете получить список наиболее обсуждаемых в блогосфере новостей и прочесть мнения блоггеров.

Синдикация и реклама

Очень долго RSS и Atom имели еще один огромный плюс, который, впрочем, был и их минусом: в потоках не было рекламы. На подавляющем большинстве блогов и форумов вы увидите контекстную рекламу, не важно, будет это AdSense или, скажем, Бегун. Зачастую это основной источник финансирования проекта. До прошлого года в RSS нельзя было показывать контекстную рекламу: размещением ее просто никто не занимался. Так что многие сайты использовали, да и сейчас используют RSS и Atom лишь как средство извещения о появлении новых материалов на сайте, а не как средство для их передачи пользователю. Подписчик в таком случае получает лишь вводную часть материала, или, что еще хуже, просто несколько первых символов, и вынужден за полным текстом идти на сайт.


Со временем ситуация изменилась и в данный момент несколько западных компаний занимаются размещением рекламы в фидах. Это и Google (правда, его программа пока находится в стадии закрытого бета-тестирования), и уже упоминавшийся FeedBurner, и Kanoodle… Российские компании, занимающиеся контекстной рекламой, пока эту нишу игнорируют. (Сноска: На самом деле, не совсем игнорируют: в компании «Бегун» нам ответили, что соответствующая технология уже разработана и ждет лишь критической массы спроса со стороны рынка – И. Щ.)

Мы искали, мы искали…

Поиск по фидам – достаточно интересная ниша. Данные в поисковой базе обновляются очень быстро (скажем, заявленная частота обновления в Яндекс.Блогах – 5 минут), так что результаты запроса показывают актуальную картину.


Поиском по RSS занимаются очень многие. Назовем лишь нескольких – Feedster, BlogPulse, Technorati, Google Blog Search и уже упомянутый Яндекс. Интересной возможностью, предоставляемой некоторыми из таких сервисов, является подписка на RSS-фид с результатами поиска. Давайте посмотрим на конкретном примере. Например, вы подписываетесь на канал с результатами поиска по запросу «Компьютерра». Теперь каждый раз, когда кто-то упоминает журнал в своем блоге или форуме, вы получаете сообщение об этом.

Онлайновые аггрегаторы

Рассказать обо всех существующих на сегодня аггрегаторах просто невозможно. Они многочисленны и многообразны. Аггрегатор может скрываться в вашем любимом браузере, работать на КПК или настольном компьютере, открываться в качестве домашней страницы… Да мало ли. Открытость стандартов синдикации и их популярность привели к появлению огромного числа приложений, работающих с потоками на различных платформах.


Сейчас RSS стремительно переходит из разряда экзотики для техно-гиков в разряд привычных технологий. Вы можете использовать RSS и даже не знать об этом. Скажем, список новостей при загрузке VisualStudio 2005 поставляется именно через RSS. Практически все скрипты для создания блогов и CMS поддерживают этот стандарт.


Также вполне возможно, что у вас на компьютере уже есть аггрегатор, который просто входит в состав какой-нибудь программы. Вы можете увидеть RSS-ленты на панельке Google Desktop, в «живых закладках» Mozilla Firefox, виджетах Оперы...


В этом разделе мы упомянем наиболее популярные аггрегаторы и рассажем об онлайновых русскоязычных сервисах по работе с фидами. Желающие посмотреть огромную таблицу со сравнением англоязычных офлайновых аггрегаторов могут посетить сайт www.aggcompare.com.


Первым российским онлайновым аггрегатором является Kanban.ru. Этому сервису недавно исполнился год. Возможности достаточно стандартны для подобных приложений: сортировка и отображение фидов по категориям, импорт и экспорт списков фидов через OPML. Неприятный момент в том, что содержание сообщений выводится только в сокращенном виде, с удаленными картинками и форматированием. Зато Канбан прост, быстр, понятен и не показывает рекламы. Отметим, что в составе сервиса работает огромный каталог русскоязычных фидов, разбитый на категории. Кроме того, есть дочерний сервис rss2email, позволяющий получать фиды в виде писем на электронную почту.


RSSReader.ru – проект стартовал в конце 2005 года. Схема приложения напоминает обычный почтовый клиент – слева выводится список подписок, которые можно распределять на категории, справа выводятся сообщения выбранной ленты. Сообщения, как и в Канбан, показываются без форматирования и графики. Имеется возможность импорта и экспорта OPML файлов. Конечно же, присутствует и свой каталог фидов, ленты в котором можно фильтровать по категории, популярности и новизне.


Закладки (http://zakladki.com/) – русскоязычная «домашняя страница», которая позволяет собрать на экране одновременно несколько фидов. Ленты выводятся в независимых блоках. В настройках ленты можно указать режим отображения — только заголовки или же заголовки и сокращенный текст, плюс указать количество выводимых сообщений. Правда, текст и тут передается без графики и форматирования. Из дополнительных возможностей есть блок поиска в Yandex, Yahoo и Google, блок закладок для вывода ссылок, которыми вы часто пользуетесь, также на страницу можно добавить модуль «электропочта», который выводить заголовки новых сообщений из практически любого сервисов e-mail (поддерживаются POP3 и IMAP4).


Яндекс Лента (http://lenta.yandex.ru/) – пожалуй, на сегодня это самый функциональный и удобный русскоязычный аггрегатор. Основное и очень важное его преимущество – он позволяет читать полный текст сообщения. При большом количестве фидов сервис может немного притормаживать, но всё равно остается достаточно удобным. Очень функциональна форма добавления нового фида. Здесь вы можете не только непосредственно ввести адрес ленты, но и просто ввести имя пользователя LiveJournal, поисковый запрос к blog.yandex.ru или Яндекс Новости.


За последний год даже в Рунете RSS перестал быть диковинкой. Оранжевая кнопка и надпись RSS/Atom появились на очень многих сайтах. Сейчас редко можно встретить свежезапущенный проект, который не использовал бы эти технологии. Появление поддержки RSS в Windows и Internet Explorer лишь еще больше увеличит популярность синдикации.


Авторы: Борис Богданов, Илья Щуров
Опубликовано в журнале «Компьютерра» №30 от 24 августа 2006 года
http://offline.computerra.ru/2006/650/282802/


 
Файлов нет. [Показать файлы/форму]
Комментариев нет. [Показать комментарии/форму]