Начать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться в том, чем они могут быть вам полезны.

Для начала не понадобится обеспечивать постоянный поток данных. Все, что вам нужно, — это позволить аналитической команде применить свои инструменты и подходы к некоторому набору данных, чтобы они могли начать процесс исследования. Это именно то, чем занимаются аналитики и ученые в области науки о данных.

Существует старое правило: 70-80% времени уходит на сбор и подготовку данных и только 20-30% — на их анализ. В начале работы с большими данными можно ожидать более низких значений. Вероятно, в самом начале аналитики будут тратить 95%, если не все 100%, времени только на то, чтобы разобраться в источнике данных, прежде чем они смогут решить, как его следует анализировать.

Важно понимать, что это нормально. Выяснение того, что собой представляет источник данных, — важная часть процесса анализа. Это, может быть, и скучновато, однако итеративная загрузка данных* изучение того, как они выглядят, а также настройка процесса загрузки с целью более точного извлечения нужных данных критически важны. Без выполнения этих действий невозможно перейти к самому процессу анализа.

Приносите пользу по ходу дела

Чтобы решить, как использовать источник больших данных на благо своего бизнеса, придется потратить немало усилий. аналитики и их работодатели должны подумать, как обеспечить небольшие быстрые достижения. Это продемонстрирует организации прогресс и обеспечит поддержку дальнейших действий. Такие достижения могут генерировать солидную отдачу от инвестиций.

Процесс выявления ценных фрагментов больших данных и определение наилучшего способа их извлечения имеют решающее значение. Будьте готовы к тому, что на это понадобится время, и не расстраивайтесь, если его потребуется больше, чем вы ожидали. По мере изучения новых источников больших данных специалисты и их работодатели должны искать способы достижения небольших и быстрых побед. Если вы обнаружите хоть что-то ценное, это поддержит заинтересованность людей и продемонстрирует прогресс. Например, кросс-функциональная команда не может приступить к делу, а год спустя утверждает, что по-прежнему не может ничего сделать с большими данными. Необходимо придумать хоть что-то, и сделать это нужно быстро.

Вот отличный пример. Европейский розничный магазин. Компания решила начать использовать подробные данные интернет-журналов. При создании сложных долгосрочных процессов сбора данных они сначала наладили несколько простых процессов для определения того, какие товары просматривает каждый посетитель. Информация о просмотренных страницах была использована в качестве основы для последующей кампании, в рамках которой каждому посетителю, покинувшему сайт без совершения покупки, высылалось электронное письмо. Это простое действие принесло организации значительную прибыль.

Далее компания наладила долгосрочный процесс сбора и загрузки веб-данных. Важно то, что они даже не начинали работу со всем потоком данных. Представьте, какую прибыль они получат в будущем, когда приступят к более глубокому анализу этих данных! Сотрудники организации, с самого начала увидев реальные достижения, сохраняют высокую мотивацию, поскольку они уже оценили мощь даже самого простого использования данных. А главное, дальнейшие усилия уже оплачены!

* Итеративная загрузка данных (от англ. iteration — повторение) — выполнение загрузки данных параллельно с непрерывным анализом полученных результатов и корректировкой предыдущих этапов работы. Прим. ред.

Укрощение больших данных: как извлекать знания из 
массивов информации с помощью глубокой аналитики /
 Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
 Опубликовано с разрешения издательства.