Большая часть больших данных вообще не имеет значения. Неожиданно, не так ли? Однако так быть не должно. Мы уже упоминали, что поток больших данных подразумевает большой объем, скорость передачи, разнообразие и сложность. Бóльшая часть содержимого потока данных не будет отвечать поставленным целям, а некоторая его часть вообще не будет иметь какого-либо значения. Укрощение больших данных похоже не на закачку воды в бассейн, а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо.

В потоке больших данных есть информация, которая имеет долгосрочное стратегическое значение; некоторые данные пригодны только для немедленного и тактического использования, а часть данных вообще бесполезна. Самое главное в процессе укрощения больших данных — определить, какие фрагменты относятся к той или иной категории.

Примером могут служить метки радиочастотной идентификации (RFID), речь о которых пойдет в главе 3. Они размещаются на палетах с товарами в процессе их перевозки; если это дорогие товары, метками помечают каждый из них. Со временем станет правилом помечать метками отдельные товары. Сегодня в большинстве случаев это связано с большими затратами, поэтому метки ставятся на каждой палете. Такие метки упрощают процесс отслеживания местоположения палет, позволяют определить, где они загружаются, разгружаются и хранятся.

Представьте себе склад с десятками тысяч палет. На каждом из них находится RFID-метка. Каждые 10 секунд считывающие устройства опрашивают склад: «Кто здесь?» Каждая палета отвечает: «Я здесь». Посмотрим, как в этом случае можно использовать большие данные.

Палета прибывает сегодня и сообщает: «Это палета 123456789. Я здесь». Каждые 10 секунд в течение следующих трех недель, пока находится на складе, палета будет снова и снова сообщать: «Я здесь. Я здесь. Я здесь». По завершении каждого опроса следует проанализировать все ответы на предмет изменения статуса палеты. Таким образом, можно подтвердить то, что изменения были ожидаемыми, и принять меры, если палета неожиданно изменила статус.

После того как палета покинула склад, она больше не отвечает на запрос считывающего устройства. После подтверждения того, что отбытие палеты было ожидаемым, все промежуточные записи с ответом «я здесь» не имеют значения. По-настоящему важны только дата и время появления палеты на складе, а также дата и время ее отбытия. Если между этими датами прошло три недели, то имеет смысл сохранить только две временные метки, связанные с прибытием и отбытием палеты. Ответы, полученные с интервалом в 10 секунд, говорящие: «Я здесь. Я здесь. Я здесь», не имеют какой-либо долгосрочной ценности, однако собрать их было необходимо. Необходимо было проанализировать каждый ответ в момент его создания, однако долгосрочной ценности они не имеют, поэтому их спокойно можно удалить после отбытия палеты.

Будьте готовы отбросить данные

Одна из главных задач при укрощении больших данных — определить фрагменты, которые имеют ценность. Большие данные содержат информацию, пригодную для долгосрочного стратегического применения; данные, которые могут использоваться в краткосрочной перспективе, а также данные, которые вообще ничего не значат. Удаление множества данных может показаться странным, однако при работе с большими данными это в порядке вещей. Вам потребуется время, чтобы к этому привыкнуть.

Если необработанные большие данные можно сохранить в течение некоторого периода, это позволит вернуться к ним и извлечь дополнительные данные, пропущенные при первоначальной обработке. Хороший пример такого подхода — процесс отслеживания веб-активности. Большинство сайтов используют метод, основанный на тегах: необходимо заранее определить текст, изображения или ссылки, взаимодействие пользователей с которыми требуется отслеживать. Теги, которые не видны пользователю, сообщают о его действиях. Поскольку данные поступают только об элементах, содержащих тег, бо'льшая часть информации не учитывается. Проблема может возникнуть, если по каким-то причинам не выполняется запрос на тегирование нового рекламного изображения, в результате чего упускается возможность проанализировать взаимодействие с ним. Это изображение должно быть помечено тегом, прежде чем пользователь его увидит. Можно добавить тег и позже, однако в этом случае собираться будут только данные, полученные после добавления тега.

Существуют новые методики, позволяющие проанализировать необработанные данные интернет-журналов и определить события, которые не были предопределены заранее. Эти методы основаны на использовании содержимого журнала, поскольку они опираются на непосредственно содержащиеся в них необработанные данные. Преимущество этих методов в том, что если вы забыли собрать данные о взаимодействии пользователей с рекламным изображением, то можете позднее вернуться и извлечь необходимую информацию. В этом случае ничего изначально не отбрасывается, а нужные данные определяются в процессе анализа. Это важное преимущество, и именно поэтому хранение некоторого объема архивных больших данных, если оно оправдано с экономической точки зрения, имеет смысл. Объем архивных данных зависит от размера канала и от доступного пространства для хранения данных. Хорошая идея — хранить такой объем архивных данных, который экономически оправдан с учетом доступного объема хранилища.

Укрощение больших данных: как извлекать знания из 
массивов информации с помощью глубокой аналитики /
 Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
 Опубликовано с разрешения издательства.