Объём данных, которые генерируются и собираются компаниями разных мастей, продолжает расти. Предприятия, которые хотят ускорить свои сквозные процессы и улучшить понимание бизнеса, не могут продолжать использовать ручные процессы управления данными, на которые они полагались в течение десятилетий. И в ближайшие годы ситуация будет только ухудшаться. IDC ожидает, что совокупный объём данных будет прирастать на 32% в год и достигнет 180 зеттабайт к 2025 году. К счастью, DataOps может помочь.
DataOps – это относительно новая и пока ещё развивающаяся дисциплина, возникшая около пяти лет назад. Она построена на фундаменте, созданном гибкой разработкой и DevOps. Цель состоит в том, чтобы привнести аналогичные принципы в аналитику данных и науку о данных, чтобы улучшить качество данных и сократить время, необходимое для получения качественной бизнес-аналитики.
В течение следующих нескольких лет предприятия, которые сопротивляются внедрению DataOps, будут тратить ещё больше времени на реагирование на ошибки в данных и в ручных процессах, и еще больше отставать в своей способности предоставлять своевременную и точную информацию бизнесу. В то же время те, кто использует DataOps, создадут оптимизированные автоматизированные конвейеры данных, которые позволят администраторам данных и учёным-исследователям оптимизировать бизнес-процессы, сосредоточиться на более важных задачах и поддерживать принятие эффективных решений.
В этой статье мы рассмотрим принципы и возможности DataOps, а также пять конкретных способов, с помощью которых любая организация может извлечь дополнительную выгоду из данной дисциплины.
Что Такое DataOps?
Вследствие огромных объёмов данных выполнение анализа сегодня требует автоматизации для проверки достоверности данных, анализа работы и поведения конвейера данных, а также обнаружения аномалий и существенных отклонений, которые могут указывать на проблемы качества данных или самого конвейера. Основные принципы и лучшие практики DataOps были заимствованы из идей гибкой разработки и DevOps и сформулированы в виде 18 принципов Манифеста DataOps.
Основополагающая концепция DataOps заключается в следующей формулировке: “аналитика – это код”. Это означает, что всё –процедуры сбора данных, процедуры ETL, даже процедуры анализа, которые управляют метаданными и консолидацией, – должно быть модульным, автоматизированным, легко и мгновенно воспроизводимым. По мере продвижения бизнеса к этой цели будут проявляться операционные преимущества, такие как возможность получать оповещения, касающиеся потоковых данных, в режиме реального времени, что будет способствовать решению проблем с качеством ещё до того, как “плохие” данные будут распространяться или получать шанс повлиять на принятие решений.
Сила DataOps
DataOps уже сегодня позволяет компаниям трансформировать свои процессы управления данными и анализа данных. Например, как и DevOps, DataOps помогает создавать изолированные, безопасные временные среды тестирования, которые позволяют экспериментировать и внедрять инновации (принцип 12 Манифеста). Однако, в то время как разработчики обычно сосредотачиваются на приложениях с небольшими тестовыми базами данных, аналитикам данных и учёным требуются безопасные среды, содержащие приложения вместе с терабайтами или даже сотнями терабайт данных. Создание массивных одноразовых сред обработки данных становится возможным благодаря упрощению внедрения автоматизации, клонирования, прогнозирования и тому подобных инструментов.
Принципы DataOps также позволяют компаниям работать с массивными наборами своих данных способами, которые ещё несколько лет назад невозможно было представить. Например, DreamWorks теперь может легко делиться массивами данных, связанных со своими фильмами, находящимися в процессе разработки, с творческими командами по всему миру, обеспечивая “быстрое” сотрудничество и резко сокращая время производства. Другой пример – компания WuXi NextCODE, разработавшая геномную платформу, которая может сравнивать человеческую ДНК – а это миллионы бит данных, – и интегрировать данные на лету, чтобы исследовать различия или мутации, которые могут вызывать рак или редкие заболевания.
Также существует много компаний сферы финансовых услуг в Америке, EMEA и APAC, которые используют NetApp для перехода к гибридной модели облачного конвейера данных. Гибридная модель позволяет им поддерживать соответствие требованиям к защите и конфиденциальности данных, используя при этом преимущества облаков для данных и компонентов приложений, не требующих высокого уровня защиты. Это позволяет разработать стратегию, обеспечивающую как соответствие нормативным требованиям, так и гибкость гибридной архитектуры конвейера данных.
Однако вам не обязательно быть киностудией, генетической компанией или предоставлять финансовые услуги, чтобы извлечь выгоду из DataOps. Каждая компания, которая нуждается в своевременном получении качественной бизнес-аналитики, получит существенную выгоду от применения идей DataOps.
Топ-5 преимуществ DataOps для любого бизнеса
- Сокращение трудозатрат. Подобно DevOps, DataOps – это, в основном, процессно-ориентированные методологии и автоматизация, которые резко повышают эффективность работы персонала. Внедряя интеллектуальные механизмы тестирования и наблюдения в аналитический конвейер, команды могут оставаться сосредоточенными на стратегических задачах, а не корпеть над электронными таблицами в поисках аномалий.
- Более качественные данные. Создание автоматизированных повторяющихся процессов наряду с автоматизацией тестирования кода и контролируемыми развертываниями уменьшает вероятность того, что ошибки, вызванные человеческим фактором, приведут к выходу из строя всей сети или к получению ошибочных результатов.
- Более быстрый доступ к качественной аналитике. Автоматизированный приём, обработка и сводная аналитика поступающих потоков данных в сочетании с устранением ошибок позволяют получить представление о моделях поведения клиентов, рыночных сдвигах, колебаниях цен мгновенно, а не через несколько часов, дней или даже недель.
- Возможность видеть более широкую картину потока данных. Помимо критически важных для бизнеса повседневных данных, DataOps может обеспечить агрегированное представление во времени всего потока данных, протекающего через всю организацию до конечных пользователей. Это поможет выявлять макро-тенденции, такие как изменение темпов адаптации бизнеса к определённой функциональности или к услугам, а также выявлять изменения в типовых шаблонах деятельности с течением времени, строить поведенческие или географические модели на основе сфокусированных или глобальных наборов данных. Создание таких представлений невозможно, если вы реагируете на аномалии и ошибки с помощью ручных процессов.
- Карьерный рост. Для специалистов по анализу данных и операциям с данными, которые научатся внедрять процессы DataOps и управлять ими, будет обеспечен карьерный рост, поскольку они станут лидерами следующего поколения команд обработки данных и установят стандарт для практики обработки данных по крайней мере на ближайшие 10 лет. Бизнес также выиграет от повышения удовлетворенности и лояльности сотрудников, отказываясь от повторяющихся монотонных процессов и становясь вдохновляющей и быстро развивающейся организацией, ориентированной на инновации.
В течение следующих пяти лет подходы DataOps станут общепринятыми точно так же, как и DevOps. Их преимущества слишком убедительны, а последствия игнорирования слишком ужасны. Однако по мере того, как компании будут продвигаться по пути принятия концепции DataOps и добиваться успеха в использовании её принципов для управления бизнес-аналитикой и оптимизации процессов, связанных с большими наборами данных, они будут сталкиваться с ограничениями своей инфраструктуры. В результате будет расти их потребность в надёжных технологических партнерах, которые помогут им обеспечить репликацию, распространение и доступность данных в существенно больших масштабах, чем это требуется сегодня
С оригиналом статьи можно ознакомиться по ссылке.