(big data, вялiкiя дадзеныя) концепция (у некоторых авторов — парадигма) науки о данных, предложенная в 2008 г. Клиффордом Линчем (Clifford Lynch), редактором специального выпуска «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» журнала Nature. Данная концепция предполагает одновременное использование данных не только большого объема, но также разного формата, происходящих из многих источников, которые могут находиться на удалении друг от друга. Например, «большие данные» университета могут включать административные базы данных о преподавателях; странички преподавателей на сайте университета с учебными материалами и ссылками на архивы журналов, где опубликованы их статьи, информацию о распределении нагрузки между преподавателями; странички в системах электронного обучения, информацию о проверке преподавателями студенческих работ в системе «Антиплагиат»; оценки, поставленные преподавателями студентам; оценки и отзывы студентов о работе преподавателей на сайте Рrofessorrating, а также на неофициальных студенческих сайтах и в социальных сетях, и многое другое. Некоторые из этих данных недостаточно структурированы и часто обновляются, к некоторым университет может не иметь прямого доступа. Поэтому наиболее сложным и длительным обычно становится этап подготовки данных к анализу (data processing). Сведение такого количества разнородных данных в единую базу представляется не только невозможным, но и нецелесообразным, поэтому интернет становится средой (медиумом), в которой происходит сбор, подготовка и анализ данных. Таким образом, «большие данные» — это метафора, которая относится не только и не столько к объему данных, сколько к доступности и сложности их структуры. Иногда для больших данных определения используют критерий четырех V: объем (volume), разнообразие (variety), скорость (velocity) и ценность (value). Появившись в качестве концепции науки о данных, большие данные также являются межотраслевой областью практической деятельности. Дрю Конвей (Drew Conwey) выделил три области компетенций, необходимых «ученому по данным» (data scientist): знание математики и статистики, наличие опыта в предметной области, а также хакерские навыки. Он также подчеркнул, что на пересечении предметной области и хакерских навыков существует «зона опасности», из чего, в частности, следует, что данные могут использоваться несанкционированно, о чем прямо говорить не принято (см. также: исследования интернета). Научная проблема больших данных появилась относительно недавно, с одной стороны, в результате быстрого роста объемов цифровой информации после 2000 г., с другой стороны, по мере достижения информационными технологиями такого уровня развития, который позволяет обрабатывать с высокой скоростью большие объемы данных разного формата, размещенных на множестве ресурсов, в том числе по мере обновления в режиме реального времени. Анализ больших данных нередко рассматривают как новое направление бизнес-аналитики. К нему обычно прибегают крупные корпорации, имеющие базы разнообразных данных на многих серверах и разного формата, с целью повышения эффективности своей работы. Однако известны и случаи эффективного использования больших данных государственными институтами, например в целях безопасности. Многие корпорации в целях безопасности разрабатывают для работы с большими данными собственное программное обеспечение. Могут использоваться также специализированные программные комплексы (Hadoop, Oracle Exadata, Teradata) и статистические программы общего назначения (R, SAS Visual Analytics, IBM SPSS) и др.
Литература Найдич А. Большие данные – насколько они большие? URL: http: // compress.ru / article.aspx?id=23469 (дата обращения: 01.03.2015) Сакоян А. Большие данные. URL: http: // polit.ru / article / 2013 / 12 / 09 / ps_bigdata / (дата обращения: 01.03.2015). Черняк Л. Большие данные – новая теория и практика. URL: http: // www.osp.ru / os / 2011 / 10 / 13010990 / (дата обращения: 01.03.2015) Conway D. The Data Science Venn diagram. URL: https: // s3.amazonaws.com / aws.drewconway.com / viz / venn_diagram / data_ science.html (дата обращения: 01.03.2015). О. Терещенко
Большие данные
Большие данные
Источник: Новые медиа-социальная теория и методология исследований. Словарь-справочник 2016