совокупность операций и процедур анализа первичной социологической информации.
ОБРАБОТКА ДАННЫХ
Обработка данных
ДАННЫХ ОБРАБОТКА
англ. data, performing; нем. Datenbearbeitung. Совокупность операций по преобразованию данных с целью выявления эмпирических и теоретических закономерностей исследуемых явлений и соц. процессов.
Источник: Большой словарь по социологии, проект www.rusword.com.ua
ОБРАБОТКА ДАННЫХ
этап социального исследования, включающий редактирование и кодирование информации; перенос данных на машинные носители; ввод данных в ЭВМ; проверку качества данных и коррекцию ошибок; создание переменных; статистический анализ.
Источник: Основные понятия социальной работы. Глоссарий. СПб. 2007.
Данных обработка
этап прикладного социологического исследования (см. Исследование социологическое прикладное), следующий за сбором данных (см. Данных сбор) и включающий в себя технические процедуры по подготовке данных для их непосредственного социологического анализа (см. Данных анализ). Обработка данных состоит из редактирования (контроль, выбраковка), кодирования и формализации (см. Данных формализация) полученной информации. При этом широко используются возможности ПК (см. Программные продукты для прикладных социологических исследований).
ОБРАБОТКА ДАННЫХ
один из этапов социологич. исследования. Включает ряд компонентов, каждый из к-рых требует решения организационных, технич., методич., а подчас и теоретич. проблем. Необходимо подчеркнуть взаимосвязь этапа О.д. с др. этапами исследования. Многие аспекты О.д. должны учитываться при написании программы исследования, при составлении анкеты, при определении стратегии выборки, а также при оценках сроков, стоимости и трудоемкости всего проекта. Общая структура этапа О.д. социологич. исследования включает следующие процедуры. 1. Редактирование и кодирование информации. Основное назначение этой процедуры состоит в унификации и формализации той информации, к-рая была получена в ходе исследования. Часть анкетной информации заранее формализована: даны закрытые вопросы (т. е. приведены возможные варианты ответов) и проставлены их цифровые коды. Однако нередко в ответах и на такие вопросы встречаются описки, нечеткое написание и др. погрешности, к-рые устраняются рпи редактировании собранных анкет. 2. Перенос данных на машинные носители. Среднее по масштабу социологич исследование дает не менее нескольких тысяч (байт) информации, а в нек-рых случаях ло достигает миллионов. Обработка таких массивов данных без применения современных ЭВМ крайне трудоемка и малоэффективна. Применение средств вычислительной техники требует того, чтобы обрабатываемая информация находилась на специальных носителях - перфокартах, магнитных лентах и т. п. Перенос данных с анкет на такие носители информации составляет содержание этой процедуры. 3. Ввод данных в ЭВМ. Находящиеся на машиночитаемых носителях данные вводятся в ЭВМ и организуются в ней в соответствии с требованиями используемого пакета программ О.д. Эти операции реализуются, как правило, специалистами вычислительного центра. 4. Проверка качества данных и коррекция ошибок. Введенная и соответствующим образом организованная в ЭВМ информация во многих случаях содержит более или менее серьезные ошибки. Причины их возникновения разнообразны - это и ошибки опрашиваемых при заполнении анкет, ошибки перенесения кодов на машиночитаемые носители информации, ошибки (сбои) технич. устройств ЭВМ и др. Однако независимо от источника необходимо выявить и исправить все ошибки сразу после ввода данных в ЭВМ до перехода к анализу информации. Если ошибки будут исправляться после того, как часть анализа уже выполнена, то после корректировки данных эту часть потребуется выполнить заново. Для проверки социолог формулирует определенные требования, к-рым его данные должны удовлетворять (напр., "Коды ответов на вопрос 15 должна быть только 1, 2, 3", или "Если код ответа на вопрос 23 равен 1, то допросы 20 и 26 должны иметь значение кода 0"). Сотрудники, ведущие обработку информации, на основании этих требований выдают социологу номер анкет, информация в к-рых этим требования не отвечает, и сообщают характер ошиоок. отдача социолога после этого решить, что делать с ошибками, и если есть возможность установить какие коды должны быть вместо ошибочных, сообщить их для корректировки информации. 5. Создание переменных. Собранная на основании анкет информация в ряде случаев прямо не отвечает на те вопросы, к-рые необходимо решить в исследовании. Связано это с тем, что подчас стожно бывает непосредственно замерить изучаемую характеристику. Для ее получения может потребоваться выполнение ряда преобразований собранных данных. Так, для фиксации среднедушевого дохода необходимо задать респонденту вопросы о его зарплате (доходе), о зарплатах др. членов семьи и о количестве членов семьи. После этого для получения показателя среднедушевого дохода необходимо сложить ответы на вопросы о зарплатах и разделить сумму на число членов семьи. Создание переменных является процедурой, в нек-ром смысле обратной процедуре операционализации понятий: создаваемые переменные выступают в качестве показателей, изучению к-рых, собственно, и посвящено исследование. Для многих вопросов анкет получаемая информация непосредственно отвечает задачам исследования, и в этом случае сами вопросы являются переменными. 6. Статистический анализ. Эта процедура является ключевой в процессе анализа социология, данных. В ходе статистич. анализа выявляются искомые статистич. закономерности и зависимости. Социологи используют большое число различн. математич. методов, позволяющих полно и всесторонне анализировать собранную информацию. Применение современных ЭВМ, оснащенных программами математико-статистич. обработки, выступает необходимым условием быстрого и качественного анализа социологич. данных. Лит.: Процесс обработки данных анкетных опросов на ЭВМ. М, 1986. А.О. Крыштановский
Источник: Российская социологическая энциклопедия
ОБРАБОТКА ДАННЫХ
комплекс процедур, направленных на преобразование и обобщение данных социологического исследования. В отечественной социологии термин трактуется очень широко. Обычно к О.Д. относят процедуры проверки и кодирования заполненного инструментария, в том числе пропущенных значений; ввода данных в компьютер; проверки и исправления введенных данных; перекодировки и преобразования переменных; проверки репрезентативности выборки и, при необходимости, ее взвешивания; простейшие процедуры статистического анализа данных - построение распределений частот и таблиц сопряженности .
При любом способе сбора информации общим требованием является обязательная фиксация ее в документах. Если в исследовании одновременно используется несколько документов, из них после заполнения необходимо сформировать рабочие массивы. Материалы, относящиеся к одному респонденту, следует собрать в комплекты, контролируя полноту каждого комплекта. Одновременно производится проверка, кодирование и нумерация документов, причем всем документам, относящимся к одному респонденту, присваиваются одинаковые номера. Если для групп респондентов заполнены некоторые общие документы (например, карточка предприятия или семьи), в каждый вид индивидуального инструментария должен быть внесен общий идентификатор - предприятия, семьи, - который позволит в дальнейшем связать ответы респондента с характеристиками группы.
При проверке документов следует обращать внимание на принадлежность респондента к генеральной совокупности, полноту комплекта и полноту заполнения каждого документа, правильность заполнения инструментария. К типичным ошибкам заполнения инструментария относится наличие нескольких ответов там, где предусматривался только один, наличие нелегитимных пропусков, логические ошибки.
Кодированию, в первую очередь, подлежат открытые вопросы и пропущенные значения. В сложных случаях для открытых вопросов разрабатываются специальные кодификаторы. При кодировании пропущенных значений важно знать причину отсутствия ответа. Основные причины можно упорядочить по степени легитимности: 1) вопрос не относится к респонденту ("структурный пропуск"); 2) респондент не понимает вопрос, не знает ответа или не имеет сложившегося мнения; 3) респондент отказывается отвечать на вопрос, уклоняется от ответа; 4) ответа нет по неизвестной причине. Первые три вида пропусков следует считать легитимными. Структурные пропущенные значения обычно исключают из анализа соответствующего вопроса. Незнание ответа или отказ отвечать в некоторых случаях можно содержательно интерпретировать и использовать в анализе данных. Поэтому интервьюеры должны как можно более точно фиксировать причину пропуска. Отсутствие ответа по неизвестной причине не является легитимным и должно быть отнесено к категории серьезных ошибок интервьюирования.
Ввод данных в компьютер производится с помощью текстовых редакторов или, что предпочтительнее, специальных программ или подсистем для ввода и редактирования данных, которые имеются в большинстве программных статистических средств. Преимущество специального программного обеспечения состоит в том, что оно позволяет организовать контроль качества данных непосредственно в процессе их ввода. Это, в первую очередь, контроль соответствия диапазону допустимых значений, проверка логической совместимости ответов, следование процессу ввода логике анкеты (автоматизация структурных пропусков).
Проверка и чистка введенных данных заключается в нахождении и исправлении ошибок, не обнаруженных при вводе. На этом этапе основное внимание уделяется логическим ошибкам. Если качество ввода не контролировалось автоматически, следует также проверить введенные данные на принадлежность к диапазону допустимых значений.
Программное обеспечение обработки данных, в том числе наиболее популярный среди социологов статистический пакет SPSS , обычно предоставляет возможность хранить вместе с данными исследования и выводить на печать тексты вопросов анкеты и ответов на них. Как правило, это делается посредством присвоения "меток" переменным и их отдельным значениям. Задание таких меток также входит в число процедур О.Д.
Современная методология неукоснительно требует, чтобы инструментарий исследования был максимально удобным для заполнения и точного фиксирования информации, и чтобы ввод данных в компьютер, во избежание ошибок, производился в полном соответствии с заполненным документом. Это требование часто противоречит логике решения задачи или требованиям статистических методов анализа данных, поэтому, в случае необходимости, переменные должны быть перекодированы и преобразованы соответствующим образом.
Предварительная проверка репрезентативности выборки осуществляется по так называемым "контролируемым", например, социально-демографическим, показателям. При необходимости, выборка может быть взвешена ( Выборки взвешивание) с помощью весовых переменных, предусмотренных в большинстве статистических программах. При использовании методов случайной выборки дополнительный опрос отдельных групп респондентов не рекомендуется; изъятие из массива уже заполненных "избыточных" документов запрещено. Если выборка невелика, проверку распределения "контролируемых" показателей можно сделать вручную на этапе проверки заполнения инструментария.
Статистическая О.Д. предусматривает в первую очередь получение важнейших количественных характеристик выборки, одномерных распределений и всевозможных таблиц; расчет ошибок выборки по важнейшим показателям; оценивание характеристик генеральной совокупности; анализ связей между переменными, решение прикладных задач и проверку гипотез исследования. Это может потребовать применения достаточно сложных методов статистического анализа - корреляционного , регрессионного , дисперсионного , факторного , кластерного и других.
О.В. Терещенко
При любом способе сбора информации общим требованием является обязательная фиксация ее в документах. Если в исследовании одновременно используется несколько документов, из них после заполнения необходимо сформировать рабочие массивы. Материалы, относящиеся к одному респонденту, следует собрать в комплекты, контролируя полноту каждого комплекта. Одновременно производится проверка, кодирование и нумерация документов, причем всем документам, относящимся к одному респонденту, присваиваются одинаковые номера. Если для групп респондентов заполнены некоторые общие документы (например, карточка предприятия или семьи), в каждый вид индивидуального инструментария должен быть внесен общий идентификатор - предприятия, семьи, - который позволит в дальнейшем связать ответы респондента с характеристиками группы.
При проверке документов следует обращать внимание на принадлежность респондента к генеральной совокупности, полноту комплекта и полноту заполнения каждого документа, правильность заполнения инструментария. К типичным ошибкам заполнения инструментария относится наличие нескольких ответов там, где предусматривался только один, наличие нелегитимных пропусков, логические ошибки.
Кодированию, в первую очередь, подлежат открытые вопросы и пропущенные значения. В сложных случаях для открытых вопросов разрабатываются специальные кодификаторы. При кодировании пропущенных значений важно знать причину отсутствия ответа. Основные причины можно упорядочить по степени легитимности: 1) вопрос не относится к респонденту ("структурный пропуск"); 2) респондент не понимает вопрос, не знает ответа или не имеет сложившегося мнения; 3) респондент отказывается отвечать на вопрос, уклоняется от ответа; 4) ответа нет по неизвестной причине. Первые три вида пропусков следует считать легитимными. Структурные пропущенные значения обычно исключают из анализа соответствующего вопроса. Незнание ответа или отказ отвечать в некоторых случаях можно содержательно интерпретировать и использовать в анализе данных. Поэтому интервьюеры должны как можно более точно фиксировать причину пропуска. Отсутствие ответа по неизвестной причине не является легитимным и должно быть отнесено к категории серьезных ошибок интервьюирования.
Ввод данных в компьютер производится с помощью текстовых редакторов или, что предпочтительнее, специальных программ или подсистем для ввода и редактирования данных, которые имеются в большинстве программных статистических средств. Преимущество специального программного обеспечения состоит в том, что оно позволяет организовать контроль качества данных непосредственно в процессе их ввода. Это, в первую очередь, контроль соответствия диапазону допустимых значений, проверка логической совместимости ответов, следование процессу ввода логике анкеты (автоматизация структурных пропусков).
Проверка и чистка введенных данных заключается в нахождении и исправлении ошибок, не обнаруженных при вводе. На этом этапе основное внимание уделяется логическим ошибкам. Если качество ввода не контролировалось автоматически, следует также проверить введенные данные на принадлежность к диапазону допустимых значений.
Программное обеспечение обработки данных, в том числе наиболее популярный среди социологов статистический пакет SPSS , обычно предоставляет возможность хранить вместе с данными исследования и выводить на печать тексты вопросов анкеты и ответов на них. Как правило, это делается посредством присвоения "меток" переменным и их отдельным значениям. Задание таких меток также входит в число процедур О.Д.
Современная методология неукоснительно требует, чтобы инструментарий исследования был максимально удобным для заполнения и точного фиксирования информации, и чтобы ввод данных в компьютер, во избежание ошибок, производился в полном соответствии с заполненным документом. Это требование часто противоречит логике решения задачи или требованиям статистических методов анализа данных, поэтому, в случае необходимости, переменные должны быть перекодированы и преобразованы соответствующим образом.
Предварительная проверка репрезентативности выборки осуществляется по так называемым "контролируемым", например, социально-демографическим, показателям. При необходимости, выборка может быть взвешена ( Выборки взвешивание) с помощью весовых переменных, предусмотренных в большинстве статистических программах. При использовании методов случайной выборки дополнительный опрос отдельных групп респондентов не рекомендуется; изъятие из массива уже заполненных "избыточных" документов запрещено. Если выборка невелика, проверку распределения "контролируемых" показателей можно сделать вручную на этапе проверки заполнения инструментария.
Статистическая О.Д. предусматривает в первую очередь получение важнейших количественных характеристик выборки, одномерных распределений и всевозможных таблиц; расчет ошибок выборки по важнейшим показателям; оценивание характеристик генеральной совокупности; анализ связей между переменными, решение прикладных задач и проверку гипотез исследования. Это может потребовать применения достаточно сложных методов статистического анализа - корреляционного , регрессионного , дисперсионного , факторного , кластерного и других.
О.В. Терещенко
Источник: Социология: энциклопедия