Ресурсный центр по контролю над табаком
Tobacco control resource centre

Рассылка 'НОУСМОКИНГ - для тех, кто не носит смокинги и не выносит табачного дыма' Tobacco Control and Public Health in Eastern Europe 
Контроль над табаком и общественное здоровье в Восточной Европе
Контроль над тютюном й охорона громадського здоров’я у Східній Європі
international peer-reviewed open-access journal Система Информации на Русском языке по Профилактике Алкогольных, Табачных и прочих Интоксикантных Проблем Alcohol and Drug Information Centre - ADIC-Ukraine Coalition for tobacco free Ukraine
 
Источники информации
Страны и регионы
Здоровье
Табачные изделия
Политика и экономика
Индустрия
Технологии контроля над табаком
Поиск по сайту
Картинки
English
Новости сайта
Рассылки

Страны и регионы

bulletСтраны СНГ
bullet 
bulletУкраина
bulletРоссия
bulletБеларусь
bulletМолдова
bullet 
bulletАзербайджан
bulletАрмения
bulletГрузия
bullet 
bullet Казахстан
bulletКыргызстан
bulletТаджикистан
bulletТуркменистан
bulletУзбекистан
bullet 
bulletЛатвия
bulletЛитва
bulletЭстония
Tobacco Control and Public Health in Eastern Europe 
Контроль над табаком и общественное здоровье в Восточной Европе
Контроль над тютюном й охорона громадського здоров’я у Східній Європі
international peer-reviewed open-access journal
Система Информации на Русском языке по Профилактике Алкогольных, Табачных и прочих Интоксикантных Проблем
Центр помощи бросающим курить КВИТ
Alcohol and Drug Information Centre - ADIC-Ukraine
Coalition for tobacco free Ukraine
Журнал тех, кто не боится быть трезвым
Глобальный контроль над табаком: Узнаем от экспертов 
 

IV. Подготовка и обработка данных: простые шаги по построению вашей собственной базы данных

Подготовка Данных

Первая задача в любом анализе состоит в тщательной вычистке собранных данных. Всестороннее редактирование состоит из проверки данных на последовательность, полноту и точность. Всестороннее редактирование также включает маркировку противоречащих значений данных и отслеживание количества пропущенных ответов.

Попрактикуйтесь в выполнении этих шагов, чтобы устранить многочисленные противоречия в данных. (ВОЗ, 1998)

1. Проверьте значения данных по вопроснику

2. Введите данные в компьютер больше одного раза (комментарий переводчика) .

Просмотр первичных данных

Если вы получаете обобщенные или собранные в результате опроса данные от социологического агентства, массив данных может требовать некоторых предварительных действий и зачисток перед тем, как он будет готов даже для самых простых форм статистического или эконометрического анализа. Например, первичные данные нужно вначале перевести в форму, которую может прочитать хотя бы один пакет статистической оценки (например, SAS, SPSS, LIMDEP, RATS, TSP, Microfit, STATA). Чаще всего первичные данные импортируются в статистические программы в форме ASCII, то есть из файлов текстового формата (с расширениями .txt или .csv). Дополнительную информацию и руководство по чтению файлов с данными для SAS, можно найти во второй главе Маленькой книжечки SAS (Делвиш и Слотер, 1998).

Просмотр файла данных ASCII

Файл ASCII (с расширением .asc после имени) - это обычный тестовый файл, содержащий строки и колонки цифровой информации. Файл ASCII можно легко открыть и просмотреть с помощью Word, WordPad или Notepad. Рисунок 2.6 показывает файл ASCII, содержащий данные опроса на индивидуальном уровне, проведенного в Польше в 1994 году. Имя этого файла data94.asc.

Для того, чтобы использовать данные из диаграммы 2.6 дальше, их нужно перенести либо в электронную таблицу, либо непосредственно в статистический пакет. 

Импорт текста в электронную таблицу

Наибольшее удобство импортирования файла ASCII в электронную таблицу заключается в простоте просмотра и обработки данных. Большинство электронных таблиц позволяют даже начинающему исследователю с ограниченным опытом быстро и просто просмотреть данные. Вдобавок, достаточно легко составить формулы, позволяющие получить описательные статистики первичных данных. Наконец, программы типа электронных таблиц позволяют с легкостью строить достаточно изощренные графики. [Исключительно ради простоты объяснения в этом Пособии мы будем использовать в качестве примера импорта и обработки данных Microsoft Excel.]

Чтобы импортировать текстовый файл, приведенный на рис. 2.6 в Microsoft Excel, следуйте таким шагам:

1. Открыть программу Microsoft Excel. 

2. Открыть файл ASCII, кликнув на Файл\Открыть в строке меню в верхней части экрана (чтобы найти текстовый файл на вашем компьютере, в Типах файлов выберите «Все файлы».)

3. Выбрать нужный файл и нажать Открыть. В нашем примере, открывается файл data94.asc (комментарий переводчика) .

4. Использовать Мастер импорта текста, чтобы правильно открыть файл ASCII, как указано в шагах А-В ниже.

Для того, чтобы правильно сегментировать колонки в этом тестовом файле, нужна кодировочная книга или индекс кодов колонок. Как только данные попадут в среду этого программного обеспечения, первичные данные колонок должны быть обозначены соответствующими именами переменных. Часто индекс или книга кодов сопровождает первичные данные опроса. Таблица 2.2 содержит пример индекса колонок.

1. Используйте индекс кодов колонок, чтобы обозначить заголовки (в данном примере заголовками колонок являются значения от p45 до m10) для каждой колонки данных в файле Microsoft Excel. В таблице 2.3 приведен пример того, как можно обозначить заголовки для файла data94.xls.

2. Сохранить файл с данными как электронную таблицу Microsoft Excel. (для целей примера назовем этот файл data94.xls.) Убедитесь, что запомнили место расположения файла с данными, и закройте Excel.

Файл ASCII data94.asc успешно трансформирован в файл электронной таблицы Microsoft Excel под названием data94.xls.

Импорт файла электронной таблицы в SAS

Как только массив данных существует в среде электронной таблицы (в нашем случае это электронная таблица Microsoft Excel), его можно легко отправить для обработки в статистический пакет SAS.

Для того, чтобы импортировать наш файл-образец data94.xls в SAS, нужно сконструировать код, представленный на Рис. 2.7, в окне Редактор Программы (Program Editor) восьмой версии SAS. Процедура импорта успешно импортирует файл Excel data94.xls в SAS, создавая постоянный массив данных SAS в файле под названием data94.sd2 (комментарий переводчика).  (рисунок 2.7)

Импорт текстового файла непосредственно в SAS

В представленном выше примере, включающем файл ASCII и программирование, предполагается, что исследователь предпочтет импортировать текстовый файл в электронную таблицу перед тем, как импортировать данные в более сложный статистический пакет. Исследователи, которые уверенно справляются со статистическим программным обеспечением, могут посчитать, что им лучше переносить свои данные непосредственно в SAS, чтобы производить простой анализ, составлять диаграммы, суммарные статистики, таким образом проделывая на несколько шагов меньше (комментарий переводчика) .

Код, представленный на Рис. 2.8, построен так, чтобы непосредственно импортировать файл .csv (или любой другой текстовый файл) в SAS и также создать постоянный массив данных SAS под названием cbos.data94.sd2. (рисунок 2.8)

Проверка качества первичных данных

Перед тем, как анализировать данные и составлять отчет о результатах исследования, вам стоит начать с качественной проверки данных, используя несколько базовых тестов. Это поможет убедиться, что наблюдения и переменные в порядке.

Поскольку некоторые массивы данных, особенно полученные в результате опросов, достаточно велики, практически невозможно посмотреть на массив данных в целом, чтобы найти резко выбивающиеся значения и другие причуды. В результате, существует две процедуры, которые можно использовать, чтобы быстро просканировать и найти неисправности в данных.

1. Постройте описательные статистики для каждой из первичных переменных.

2. Проверьте частоту значений для каждой переменной

3. В случае данных на обобщенном уровне, постройте диаграммы.

Подсчитайте описательные статистики для каждой первичной переменной

Статистический пакет SAS предлагает статистические процедуры, которые можно использовать для составления сводки или описательных статистик для каждой первичной переменной, имеющейся в массиве данных (комментарий переводчика). Две наиболее часто используемые процедуры - среднее и одномерное распределение - имеют во многом схожий вывод данных, при этом команды, используемые для получения описательных статистик в процедуре построения средних (именуемой «Proc Means» в SAS) кажутся наиболее простыми.

Рисунок 2.9 содержит код с командами Proc Means, которые позволяют создать массив описательных статистик или сводки для нашего первичного массива данных SAS в файле data94.sd2. Этот код вводится и запускается через окно Редактор программы в SAS. Proc Means требует, чтобы SAS сгенерировал следующие семь видов информации о массиве данных (комментарий переводчика). (рисунок 2.9)

 

  1.  N (число наличных наблюдений)
  2.  Nmiss (число пропущенных наблюдений)
  3.  Mean (среднее значение переменной)
  4.  Min (наименьшее значение переменной)
  5.  Max (наибольшее значение переменной)
  6.  Sum (сумма значений, содержащихся в одной переменной)
  7.  StDev (стандартное отклонение каждой отдельной переменной)

Вывод, сгенерированный этой процедурой, высвечивается в окне SAS Вывод (см. Диаграмму 2.10), представляет собой следующее:

Колонка 1 Variable. Список всех переменных, содержащихся в SAS-версии первичных данных (имя файла: data94.sd2).

Колонка 2 N. Количество всех наличных наблюдений, определенных для каждой переменной.

Колонка 3 N MISS. Количество всех пропущенных наблюдений, определенных для каждой переменной. (Заметьте: сумма результатов в колонках 2 и 3 должна соответствовать общему числу наблюдений в массиве данных)

Колонка 4 MINIMUM. Это наименьшее значение, найденное для каждой переменной в массиве данных.

Колонка 5 MAXIMUM. Это наибольшее значение, найденное для каждой переменной в массиве данных.

Колонка 6 STD DEV. Среднее стандартное отклонение для каждой переменной в массиве.

Колонка 7 Sum. Сумма всех значений, найденных для каждой переменной в массиве данных.

 

Генерирование Частотного распределения

Проверка частотного распределения (названная в SAS «Proc Freq») переменных, содержащихся в массиве данных, позволяет исследователю просто и корректно определить разброс и частоту разных значений для любой из приведенных переменных. Как подробнее показано ниже, вывод частотного распределения также нужен для корректной реконструкции первичных наблюдений опроса в информативные эконометрические и статистические переменные. Рисунок 2.11 демонстрирует процедуру в SAS, которая генерирует информацию о частотном распределении значений для каждой отдельной переменной в массиве данных файла data94.sd2.   (рисунок 2.11)

Как и в случае с Proc Means, вывод данных, сгенерированный командой Proc Freq, показан в окне SAS Вывод. Рисунок 2.12 показывает вывод Proc Freq для переменных p45 p46_1 p46_2 из файла с массивом данных data94.sd2. Результаты Proc Freq для первичной переменной p45 показывают, что эта переменная имеет несколько значений, разбросанных от 1 до 3. Среди 1041 респондента, для которых определена переменная p45:

§ 50,9% респондентов (530 человек) сообщили о соответствии значению 1

§ 40,35% (420 человек) ответили 2

§ 8,74% (91 респондент) сообщили о соответствии значению 3

Этот разброс значений составляет ответы всей опрошенной выборки размером 1041 человека. То есть, пропущенных наблюдений по переменной p45 нет.

Результаты частотного распределения переменной p46_1 сообщают, что разброс значений для этой переменной составляет 1-5. В данном случае среди 1041 респондента 87,79% (834 респондента) соответствовали значению 1; 8,00% (76 человек) - значению 2, и так далее. Частотное распределение этой переменной охватывает значения, полученные только от 950 респондентов. Оставшийся 91 респондент не дал ответа на вопрос, задающий переменную 46_1. В результате, поле Frequency Missing -Частота пропущенных значений сообщает о значении 91.

Как только первичные объемы информации успешно переведены в статистическую программу, и все видимые огрехи определены и улажены (комментарий переводчика), нужно предпринять следующие шаги, чтобы подготовить обоснованный массив переменных для статистического анализа. Эти шаги включают в себя:
bullet Построение новых переменных
bullet Импорт данных из других источников
bullet Очистка окончательного массива данных

Построение диаграмм из данных (только для обобщенных данных)

В случае обобщенных данных, целесообразно построить график, позволяющий увидеть тенденции, которые прослеживаются в значении переменной с течением времени. Рисунок 2.13 показывает корректную процедуру в SAS, которую можно использовать для построения простого графика.

Примечание. Большие или резкие вариации при переходе из года в год, как правило, нехарактерны и, в результате, должны быть проверены дважды и внимательно рассмотрены. Небольшие колебания данных могут быть удалены с помощью статистических техник, называемых сглаживание или движущиеся средние. В разделе Создание движущихся средних - сглаживание эти вопросы рассмотрены более подробно. (рисунок 2.13)

Конструирование новых переменных

Многие вопросы, задаваемые при опросах, предполагают ответы, которые, если брать их непосредственно, сложно, если вообще возможно, ввести в таблицу или количественно измерить. Эти первичные переменные могут требовать перекодирования перед тем, как они будут использованы для статистического моделирования.
bullet Двоичные (дихотомические) переменные - это такие, которые заданы вопросами, предполагающими ответы «да» и «нет». Необходимо записывать переменную так, что каждому ответу соответствовало уникальное цифровое значение. Например, переменная SMOKE (Курение), заданная вопросом «Курите ли Вы в настоящее время?», предполагает два возможных варианта ответов - «Да» или «Нет». Определите значение переменной единицей, если респондент курильщик, и нулем, если он некурящий.
bullet Категорийные переменные - это такие, которые имеют определенный разброс значений, зависящий от возможных ответов на вопросы. Например, к возможным ответам на вопрос «Каков Ваш уровень образования?» относятся ответы: «Нет образования», «начальное образование», «базовое среднее образование», «полное среднее образование», «среднее специальное», «высшее» и т.д.. Таким образом, переменная EDUCATION (образование) принимает значение какого-либо целого числа в промежутке от 1 до 4 (5 или 6 в зависимости от принятых категорий) для каждого респондента, где значение переменной 1 определяет респондентов без образования, 2 относится к тем, кто получил начальное образование, 3 - к тем, кто закончил среднюю школу и так далее.
bullet Непрерывные переменные существуют для тех вопросов (например, возраст, доход), ответ на которые уже предполагает определенное числовое значение сам по себе. К примеру, переменная AGE (Возраст) получает значение, равное реальному возрасту респондента.

В зависимости от цели исследования и интересов исследователя, каждая из переменных может быть перекодирована в дополнительные переменные. Например, можно трансформировать переменную AGE из непрерывной переменной со значениями 18, 19, 20 и так далее в категорийную переменную, имеющую значение 1 для всех респондентов, кому меньше 18 лет, значение 2 для респондентов, кому от 18 до 21 года, значение 3, определяющее тех, кому больше 21 года, но меньше 31 и так далее. Или можно сконструировать группу (комментарий переводчика) переменных, которые отобразили бы ответы людей с разными уровнями дохода. В таком случае нужно создать переменные для разных групп (например, бедные, со средним доходом, с высоким доходом), где переменная POOR (бедные) получает значение 1 для всех респондентов, зарабатывающих менее $2,000 в месяц; переменная MIDDLE (средний) получает значение 1 для всех, кто зарабатывает от $2,000 до $4,000 в месяц; и переменная HIGH (высокий) отмечает значение дохода более $4,000 в месяц.

Объединение массивов данных

Часто исследователи хотят включить в свой анализ специфические массивы информации. Для этого могут требоваться дополнительные источники данных, которые содержат информацию по специфическим переменным. Если вы используете более одного массива данных, объедините их. В исследованиях это обычная и часто необходимая практика. Например, если два исследования - среди домашних хозяйств и среди отдельных людей - содержат информацию, связанную с табаком, можно обогатить и упростить анализ, объединив два массива данных. Информацию о размере домашнего хозяйства можно получить из опроса домашних хозяйств, в то время как информация о занятости, уровне образования, семейном положении отдельных членов домашнего хозяйства содержатся в данных индивидуального уровня.

Объединяйте два или более массивов данных только в том случае, если у них есть хотя бы одно общее поле. Например, в обычных опросах каждое домашнее хозяйство обозначено двумя идентификационными номерами. Первый - это идентификатор домашнего хозяйства, а второй - идентификатор расположения домашнего хозяйства (город, регион, государство). Когда опрашиваются отдельные люди, они обозначаются своим идентификационным номер, и идентификатором домашнего хозяйства. В результате, данные опроса на уровне домашних хозяйств можно объединить с данными опроса на индивидуальном уровне, чтобы создать больший и более объемлющий массив данных (комментарий переводчика).

В другой ситуации в данных опросов домашних хозяйств и на индивидуальном уровне может недоставать информации по определенным переменным, важным для анализа. В этом случае попытайтесь найти другой массив данных, чтобы объединить его с данными по домашним хозяйствам и индивидуальным опросам. Например, если ни в данных по домашним хозяйствам, ни в данных индивидуального опроса нет информации по доходам, попробуйте обратиться к средним данным по городу или региону. Национальные или центральные статистические ведомства большинства стран обычно собирают такую информацию.

Помните о том, на каком уровне были собраны данные, использованные для объединения массивов и анализа, используйте свои собственные оценки при интерпретации таких данных.

 Используйте свои собственные оценки, принимая решение по поводу уровней дохода, которые лучше всего подойдут для анализа на уровне домашних хозяйств или на индивидуальном уровне. Идентификационные коды государств, провинций или городов помогут объединить данных о домашних хозяйствах с правительственными данными о доходе. Однако, после того как массивы данных объединены, и получены результаты, важно помнить об уровне информации, интерпретируя результаты. Например, в анализе спроса на сигареты, если спрос на сигареты оценивается на уровне домашних хозяйств, но значение переменной уровня доходов равняется среднему для города, интерпретируйте результаты как изменение в потреблении домашних хозяйств (в пачках, штуках и так далее) в ответ на изменение в среднем уровне дохода по городу.

Очистка данных

Как только массивы данных объединены, и нужные переменные созданы, следующим шагом следует отфильтровать противоречия (комментарий переводчика) в кодировке данных. Наиболее важный фильтрационный подход направлен на то, чтобы разобраться с пропущенной или неправильно закодированной информацией.

В первую очередь, как только массив данных получен, просмотрите его описательную статистику (включая стандартное отклонение, среднее, минимальное и максимальное значения и количество наблюдений) для каждой интересующей переменной, содержащейся в массиве данных. Найдите отсутствующие наблюдения, значения, выбивающиеся из общей массы, и неправильно закодированную информацию. Если хоть в одном из наблюдений переменной наблюдается пропущенная информация, то в таком случае в этой переменной число наблюдений будет отличаться от числа наблюдений в других переменных, содержащихся в массиве данных. Когда вы проверяете минимальные и максимальные значения, определяйте выбивающиеся и неправильно закодированные значения. Например, переменные, задающие пол, обычно кодируются таким образом, что мужской пол обозначается значением 1, а женский - 0 (или наоборот). Если максимальным значением для этой переменной является «2», то понятно, что одно или более наблюдений неправильно закодированы или некорректно импортированы в рабочий массив данных. Аналогично, когда вы проверяете переменную дохода, то значение 0 или слишком высокое значение свидетельствует о потенциальных проблемах с данными. Если не представляется возможным разобраться с проблематичными значениями переменных, обычно наблюдения, в которых содержится пропущенная или неверно закодированная информация, удаляют из анализа.

Во-вторых, важно использовать таблицы частоты и распределения переменных как метод проверки данных и решения по поводу подходящей модели или трансформации данных. Например, распространенность потребления сигарет обычна асимметрична. Исходя из этого, используйте анализ распределения переменной в модели анализа спроса и выберите подходящую форму модели (линейную, лог-линейную, модель распределения, состоящего из двух частей и т.д.) для анализа. Если, например, данные говорят о том, что 80 процентов опрошенных - мужчины, а только 20% - женщины, тогда в данных опроса появляется смещение, и может оказаться полезным либо провести взвешивание данных, либо разделить данные на слои, исходя из пола.

Ввод пропущенных значений

Большинство статистических пакетов автоматически пропускают наблюдения с пропущенными значениями какой-либо переменной при анализе (комментарий переводчика). В том случае, если оставшееся количество наблюдений недостаточно велико, то исследователь может не захотеть выбрасывать наблюдения с пропущенными значениями, а вместо этого попытаться ввести данные. Например, если отсутствует значение переменной дохода, исследователь может ввести доход, основываясь на уровнях дохода других домашних хозяйств со сходными характеристиками. Другой подход состоит в том, чтобы запустить регрессию для переменной «уровень дохода» как функции от других характеристик (например, возраст, образование, профессия) и использовать результаты регрессии, чтобы предсказать или рассчитать доход в наблюдениях, где значение для этой переменной отсутствует. Перед тем, как запускать регрессию, отметьте все пропущенные переменные каким-либо значением (0 или 1), так чтобы они не выпадали из регрессии (комментарий переводчика) .

Ниже приведено уравнение регрессии, используемое, чтобы ввести значение дохода, где уровень дохода является функцией от возраста, пола, или соседства, размера, типа, или места расположения дома, полученного образования, семейного положения, профессии и имущества:

Доход = f(возраст, пол, дом, образование, семейное положение, профессия, имущество)

Эта техника регрессии рассчитывает доход для каждого наблюдения. Используйте коэффициенты регрессии, чтобы рассчитать доход для наблюдений с пропущенными значениями этой переменной, где доход человека с порядковым номером i рассчитывается как (постоянный член + возраст) х (коэффициент для возраста + пол) х (коэффициент для пола + каждая другая переменная уравнения) х коэффициент переменной (комментарий переводчика).

Отладка смещений в потреблении сигарет

Как упоминалось ранее в этом Пособии, отдельные респонденты порой занижают сведения о своих реальных уровнях потребления табака и алкоголя. Таким образом, не забудьте отладить данные опроса, чтобы они соответствовали обобщенным данным о продажах, (и корректно объяснить, как и почему это сделано). При проделывании этой отладки, используйте информацию о том, какая часть населения была охвачена опросом и насколько репрезентативной является выборка. По крайней мере, определите уровень недооценки и упомяните смещения результатов в своем отчете (комментарий переводчика).

Создание движущейся средней - сглаживание

Ежегодные колебания во временных рядах данных типа ежегодных уровней потребления сигарет могут быть сглажены во времени с использованием статистической процедуры под названием движущейся средней.

Например, представим, что у нас есть уровни распространенности курения за 1980-2000 годы. Представим, что данные за годы 1980-1985 составляют 36%, 37%, 41%, 36%, 35% и 32% соответственно. Чтобы получить ряд средних значений, основанных на уровнях трех последовательных календарных лет, нужно:

1. Подсчитать среднее значение для 1980, 1981 и 1982 года.

2. Потом подсчитать среднее значение для 1981, 1982 и 1983 года.

3. Потом подсчитать среднее значение для 1982, 1983 и 1984 года и так далее.

Ряды средних показателей строятся на показателях трех последовательных календарных лет, и в результате тенденции гораздо более сглажены, чем исходные ежегодные данные. В том случае, когда усреднены были показатели пяти последовательных лет, новая серия называется движущейся трехлетней средней (комментарий переводчика).

V Предложения об источниках данных   Данные об экономике и табаке

к содержанию

 

http://contacttobinfo.narod.ru

        

Hosted by uCoz