Будут ли большие данные по-прежнему характеризоваться невероятными форматами, неограниченными потоками и отсутствием определенности? Вряд ли. Со временем будут разработаны стандарты.

Многие источники полуструктурированных данных удастся структурировать, отдельные организации подстроят свои потоки больших данных, чтобы их было легче анализировать. Но, что еще более важно, со временем произойдет переход к отраслевым стандартам. Хотя текстовые данные вроде электронных писем и комментариев в социальных медиа невозможно контролировать, можно стандартизировать подходы к интерпретации таких данных и использовать их для анализа. Это происходит уже сейчас.

Например, какие слова считать «хорошими», а какие — «плохими»? В каких контекстах не применяются правила по умолчанию? Какие из электронных писем требуют исчерпывающего разбора и анализа, а какие — лишь минимальной обработки? Стандарты производства больших данных будут развиваться, как и стандарты их обработки и анализа. Подвергнутся стандартизации и входные, и выходные данные. В результате упростится жизнь тех, кому поручено их укрощать. На это потребуется время, и многие из разработанных стандартов будут представлять собой, скорее всего, набор общепринятых передовых практик, применяемых специалистами, а не формальные правила или политики, разработанные официальными организациями, занимающимися стандартизацией. Тем не менее стандартизация будет развиваться.

Стремитесь к максимально возможной стандартизации

С помощью стандартов вы можете значительно облегчить свою жизнь, хотя вам не удастся стандартизировать все аспекты больших данных. текстовые данные, например электронное письмо, невозможно контролировать на входе, но можно стандартизировать подходы к интерпретации таких данных и использованию их при проведении анализа. сосредоточьтесь не только на стандартизации входного потока, но и на стандартизации способов использования больших данных.

Организации, которые быстро включатся в работу с большими данными, смогут повлиять на процесс разработки стандартов и, следовательно, обеспечить удовлетворение собственных потребностей. Некоторые отрасли даже работают на опережение. Еще до появления возможности сбора данных предприятия коммунального обслуживания начали работу по определению параметров данных интеллектуальных сетей. Если формальные определения и руководящие принципы разработаны заранее, данными интеллектуальных сетей гораздо легче управлять, чем если бы каждое предприятие только что начало работать с данными собственными способами, не обсудив их заранее с другими представителями индустрии.

Укрощение больших данных: как извлекать знания из 
массивов информации с помощью глубокой аналитики /
 Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
 Опубликовано с разрешения издательства.