Ресурсный центр по контролю над табаком
|
1. Мониторинг новостей в области контроля над табаком в странах бывшего СССР1.1 Технология1.2 Результаты мониторинга1.1 ТехнологияПоначалу мониторинг публикаций по табачной тематике представлял серьезную проблему. Большинство поисковых систем, работающих с кириллицей, прекрасно находят информацию на сайтах, зарегистрированных в России, в некоторой степени также на украинских, белорусских и молдавских, однако на серверах стран Средней Азии и Закавказья находятся лишь материалы двух-трех летней давности. Складывалось впечатление, что ничего нового в этих странах не происходит, либо русскоязычные СМИ там больше не работают. Есть ли русскоязычные СМИ в Средней Азии и Закавказье?Процесс приспособления к данной ситуации занял немало времени. Хочется рассказать о нем довольно подробно, поскольку представляется весьма вероятным, что кому-то из аудитории Ресурсного центра придется решать аналогичные задачи. Обращение к нашим коллегам в соответствующих регионах не дало ответа на вопрос. Оказалось, что они пользуются теми же российскими поисковыми системами, которые не дают необходимой информации, а местные поисковые системы им неизвестны. Местные регистрационные и поисковые системы в большинстве своем пользовались инструментами широко известной поисковой машины yandex.ru. Но этот поиск давал все те же устаревшие результаты. Началось коллекционирование серверов, на которых когда-либо что-либо было найдено по табачной тематике. Эти сервера собирались через каталоги и поисковые системы. Особое внимание уделялось серверам, зарегистрированным в любых других странах бывшего СССР, кроме России. Оказалось, что русскоязычные средства массовой информации в этих странах, в том числе в Средней Азии и Закавказье, все же существуют и продолжают публиковать новости. Далее на всех этих серверах, если они имели собственную поисковую систему, проводился поиск новостей вручную. Если собственной поисковой системы на сервере не было, приходилось посещать данный сервер достаточно часто, чтобы не пропустить возможные интересующие нас новости. В эту кропотливую ежедневную работу наибольший вклад внесли Наталья Аракелян и Элеонора Василец. Чем искать?Постепенно в ходе знакомства с работой различных серверов стало все чаще обращать на себя внимание то, что многие из них пользуются поисковыми инструментами сервера www.yandex.ru. При более внимательном знакомстве с ним удалось увидеть, что продвинутые поисковые услуги предоставляются не только за деньги владельцам коммерческих сайтов, но также и индивидуальным пользователям бесплатно. Однако в этом случае информация предоставляется не сразу в момент поиска, а через некоторое время. Если вы хотите воспользоваться данной услугой Яндекса, нужно искать функцию «запросы». Важно было овладеть языком запросов и техническими особенностями составления запроса на поиск. При этом можно было обозначить, на каких серверах вести поиск и какие ключевые слова должны присутствовать в искомых документах. Форма составления запроса имеет функцию «проверить», однако для стран Средней Азии и Закавказья обращение к этой функции обычно давало нулевой результат, но через несколько дней по запросам начали приходить ответы. Дело в том, что поисковая машина просматривает вновь закачанные на сервер или обновленные страницы. Проблема была отчасти решена. Теперь можно было уменьшить объем ежедневного ручного мониторинга. Впрочем, среди того, что находилось, чаще попадались документы одно-двух летней давности, просто потому, что вебмастер обновил соответствующий каталог. Новостей попадалось мало, совсем мало. Поэтому на сайте Ресурсного центра можно обнаружить документы, которые попали на него недавно, но не были анонсированы ни в каких новостях, просто потому что новостями они не являются. Где взять новые новости?Стояла задача поиска новостей. В отличие от других поисковых систем Яндекс предлагает искать не просто «везде», а «в новостях». Это делает специальная машина на news.yandex.ru. При этом, как news.yandex.ru отличает новости от не-новостей, не вполне понятно. Вероятно, источник информации должен быть зарегистрирован как новостевой, чтобы попасть в такой поиск, и внести его туда должны администраторы ресурса. Удобством онлайнового поиска была возможность выбрать глубину просмотра новостей. По умолчанию это было две недели, но можно было также выбрать больший или меньший срок. Впрочем, в последнее время дизайн этой услуги поменялся, и теперь, воспользовавшись расширенным поиском, можно выбрать необходимый интервал дат. Что собираем, что выбрасываем?Как и любая поисковая система, yandex позволяет также находить новости по ключевым словам. При этом оказалось важным указать много ключевых слов, а не только «табак» и «курение», но важно было обозначить, что нужно искать любое из этих слов, а не все вместе. Однако, если ключевых слов было много, то находилось очень много ненужных текстов. Например, если на www.yandex.ru провести поиск на слово «курение», то 80% найденных документов будут касаться пожаров и жертв во время них. Это серьезная проблема, но это лишь один аспект контроля над табаком. Поэтому для проведения эффективного поиска важно отсекать неподходящие тексты. Чаще всего требуется отсекать пожары и пожарных, Олега Табакова, людей с фамилией Куренной, Курильские острова, форумы и сайты знакомств, где традиционно принято рассказывать о своих курительных пристрастиях или отсутствии оных. Проблемы, которые пока не удалось решитьНесмотря на то, что, на данный момент, технология осуществления поиска может считаться удовлетворительной, остается ряд нерешенных проблем. 1. Языковая проблема. В тех странах, где население и СМИ по-прежнему охотно пользуется русским языком, теперь для нас уже не проблема быть в курсе событий контроля над табаком. Однако среди стран бывшего Советского Союза есть такие, где русским языком почти не пользуются, и русскоязычных СМИ мало. В этом случае нет уверенности в том, что произошедшие события попали в поле нашего внимания. Это относится к странам Закавказья и Балтии, и в наибольшей степени к Литве. Если наши коллеги из этих стран знают адреса русскоязычных сайтов, просим сообщить нам их. 2. Запаздывание новостей. Если интересующий нас сайт не попадает в понимании news.yandex.ru в разряд новостевых, точнее, не зарегистрирован как таковой, практически нет надежных способов получить эту новость в режиме реального времени. 3. Информационный вакуум. Очень мало информации поступает из таких центрально-азиатских стран, как Таджикистан, Туркменистан, Узбекистан. При этом неясно, в чем причина - в отсутствии событий или в отсутствии информации о них? 1.2 Результаты мониторингаКоличество материалов по странам, которые удалось найти в этом году и в предыдущие годы, представлено в таблице 1. Таблица 1. Количество материалов по странам бывшего СССР и по годам (по состоянию на 23 ноября 2003 года)
Как видно из таблицы, в наибольшей степени представлены материалы из России, Казахстана, Украины, Киргизстана, Латвии. При этом по четырем странам не удается находить достаточного количества информации. Это Литва, Таджикистан, Туркменистан и Узбекистан. Вопрос о причинах малого потока информации из этих стран остается открытым, хотя гипотезы были высказаны в предыдущем разделе. Суммарное количество материалов по годам представлено на рис. 1. Рисунок 1. Общее количество материалов, касающихся отдельных стран бывшего Советского Союза, по годам
Как можно увидеть из рисунка, в результате описанных выше усилий в 2003 году удалось обнаружить немалое количество материалов на серверах стран бывшего СССР. Некоторое количество материалов было дополнительно найдено за 2000-2002 годы. Единичные материалы, имеющиеся на сайте Ресурсного центра за 1995-1999 годы, представляют собой, главным образом, тексты законов, действие которых продолжается в настоящее время. Однако более важной причиной увеличения количества материалов, кроме наших усилий по их поиску, представляется процесс, который происходил вокруг обсуждения и принятия Рамочной Конвенции по контролю над табаком, и возникшие в связи с ним события в странах нашего региона. |