Самая большая трудность при работе с большими данными может заключаться не в анализе, а в процессе извлечения, преобразования и загрузки данных (ETL), который необходимо наладить перед проведением анализа. ETL — это процесс сбора необработанных данных, их чтения и получения полезных выходных данных.
Сначала данные извлекаются (E, extracted) из соответствующего источника. Затем они преобразуются (Т, transformed) путем агрегации, комбинирования и применения функций, чтобы обеспечить возможность их дальнейшего использования. И, наконец, данные загружаются (L, loaded) в среду для анализа данных. Это и есть ETL-процесс.
Вернемся к нашему примеру. Когда вы пьете воду из шланга, вам все равно, какая часть потока воды попадет в рот. В случае с большими данными, напротив, очень важно, какие части потока данных будут собраны. Сначала вам потребуется изучить весь поток данных, и только после этого можно отфильтровать нужные вам фрагменты информации. Вот почему процесс укрощения больших данных может занять так много времени.
Как попить из шланга
Работу с большими данными можно сравнить с попыткой попить из шланга. Бóльшая часть данных будет пропущена, как и бóльшая часть воды. Цель в том, чтобы отхлебнуть нужное количество данных из потока, а не выпить его полностью. Если вы сосредоточитесь на важных фрагментах данных, то работать с большими данными будет проще.
Аналитические процессы могут потребовать наличия фильтров, чтобы при получении данных отбросить часть информации. По мере обработки данных будут применяться и другие фильтры. Например, при работе с данными интернет-журнала можно отфильтровать информацию о версии браузера или операционной системы. Такие данные редко бывают нужны. Позднее в процессе обработки можно отфильтровать данные о конкретных страницах или действиях пользователя, которые можно исследовать для решения бизнес-задач.
Сложность правил и объем отфильтрованных или сохраненных на каждом этапе данных зависят от источника данных и бизнес-задачи. Для достижения успеха решающее значение имеют правильные процессы загрузки и фильтры. Традиционные структурированные данные не требуют таких усилий, поскольку они заранее исследованы и стандартизированы. Большие данные часто приходится исследовать и стандартизировать в процессе анализа.
Укрощение больших данных: как извлекать знания из
массивов информации с помощью глубокой аналитики /
Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
Опубликовано с разрешения издательства.