укрощение больших данных

Пожалуй, ничто так сильно не повлияет на сферу передовой аналитики в ближайшие годы, как постоянное появление новых и мощных источников данных. Если говорить об анализе потребительского рынка, время, когда можно было полагаться исключительно на демографию и историю покупок, осталось в прошлом.

Практически в каждой отрасли существует по крайней мере один совершенно новый источник данных, который в ближайшее время появится в интернете, если его еще там нет. Одни источники данных широко используются в различных отраслях промышленности, другие — в очень небольшом количестве отраслей или ниш. Многие из этих источников данных попадают под определение, которое вызывает в последнее время много шума: «большие данные».

Большие данные появляются везде, и их умелое применение окажется конкурентным преимуществом. Игнорирование больших данных опасно для организации, поскольку так можно отстать от конкурентов. Чтобы оставаться конкурентоспособными, крайне важно, чтобы организации активно анализировали эти новые источники данных и воспользовались содержащимися в них ценными сведениями.

Профессиональным аналитикам предстоит много работы! Нелегко будет объединить большие данные со всеми остальными данными, которые в течение многих лет применялись для анализа.

То, что считается большими данными, будет изменяться по мере развития технологий. То, что когда-то было «большими данными», или то, что считается «большими данными» сегодня, будет отличаться от «больших данных» завтрашнего дня. Некоторых настораживает этот аспект понятия больших данных. Приведенные определения подразумевают, что суть больших данных может отличаться в зависимости от отрасли или даже организации, если существует значительная разница в возможностях инструментов и технологий. Мы обсудим это более подробно в этой главе в разделе «Сегодняшние большие данные отличаются от завтрашних больших данных».

Вот несколько интересных фактов, которые дают представление об объеме существующих сегодня данных.

  • За $600 сегодня можно купить диск, способный вместить всю музыку мира.
  • Каждый месяц через сеть Facebook пользователи обмениваются 30 миллиардами фрагментов информации.
  • В среднем компании пятнадцати из семнадцати отраслей промышленности Соеди ненных Штатов имеют больше информации, чем Библиотека Конгресса США.

Хотя понятие «большие данные» подразумевает наличие большого количества данных, оно не относится только к объему данных. Большие данные характеризуются возросшей скоростью их передачи, сложностью и разнообразием по сравнению с источниками данных прошлого.

С разрешения издательства, на сайте публикуются несколько интересных глав из книги.

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики / Билл Фрэнкс ; пер. с англ. Андрея Баранова. — М. : Манн, Иванов и Фербер, 2014. — 352 c.