Цикл работы с данными

Материал из CDTOwiki
Перейти к: навигация, поиск

Digital-Content-Files.jpg Цикл работы с данными этапы и виды работ, которые необходимо проделать, чтобы получить новую информацию на их основе 200 Данные и их применение Начальная Полезно IT/soft Да Данные (раздел) Цифровая экономика (раздел) Базовые понятия (раздел) Межотраслевое (раздел) Базовые информационные технологии (раздел) Системы баз данных (раздел) 4 Цикл работы с данными

Цикл работы с данными
этапы и виды работ, которые необходимо проделать, чтобы получить новую информацию на их основе
Сегмент
IT/softIT/soft
Рекомендовано
ПолезноПолезно
Сложность
НачальнаяНачальная
Направление исследований

Да

 

Один из подходов работы с данными – это методология исследования данных CRISP, которая включает в себя шесть этапов: понимание бизнеса, начальное изучение данных, подготовка данных, моделирование, оценка решения и внедрение.

Цикл работы с данными по методологии CRISP

CRISP-DM (Cross-Industry Standard Process for Data Mining — межотраслевой стандартный процесс для исследования данных) — это проверенная в промышленности и наиболее распространённая методология по исследованию данных.

Данная схема включает в себя шесть этапов

Понимание бизнеса (Business Understanding) – на первом этапе работы с данными вам нужно понять, зачем вам собирать и анализировать данные, а также какие данные вам необходимы. Определение целей и предварительные гипотезы на данных затем лягут в основу вашего проекта.

Задачи фазы Business Understanding:

  • Определить цели вашей организации
  • Оценить текущую ситуацию
  • Определить цели анализа данных
  • Составить план проекта

Начальное изучение данных (Data Understanding) – на втором этапе работы с данными вам нужно оценить качество ваших данных: насколько данные полные, есть ли в них ошибки, пробелы и пропуски. Нужно понять, какими сведениями вы обладаете, сформулировать к ним вопросы и итоговые гипотезы о скрытых закономерностях

Задачи фазы Data Understanding:

  • Собрать исходные данные
  • Описать данные
  • Исследовать данные
  • Проверить качество данных

Подготовка данных (Data Preparation) – на этом этапе вам нужно сформировать итоговый набор данных для анализа, “очистить” данные, привести их в единых формат из исходных разнородных и разноформатных данных.

Задачи фазы Data Preparation могут выполняться много раз без какого-то заранее определенного порядка:

  • Отобрать данные (таблицы, записи и атрибуты)
  • Очистить данные, в т.ч. выполнить их конвертацию и подготовку к моделированию
  • Сделать производные данные
  • Объединить данные
  • Привести данные в нужный формат

Моделирование (Modeling) – на этом этапе вам нужно выбрать методику, каким образом анализировать данные, построить модель анализа. Модель должна отражать весь их процесс анализа (что вы хотите выяснить с помощью анализа данных, какие данные вы используете, как они организованы, как они обработаны, и так далее). У вас может возникнуть необходимость вернуться к фазе подготовки данных, так как разные методы анализа требуют различных форматов данных. Задачи фазы Modeling:

  • Выбрать методику моделирования
  • Сделать тесты для модели
  • Построить модель
  • Оценить модель

Оценка (Evaluation) – определение, удалось ли достигнуть целей с помощью разработанной модели и полученных результатов анализа. Данный этап позволяет понять, действительно ли те шаги, которые вы запланировали, позволяют получить те результаты, которые вы хотели. На данном этапе могут быть выявлены более важные задачи организации, которые не были учтены. Задачи фазы Evaluation:

  • Оценить результаты
  • Сделать ревью процесса
  • Определить следующие шаги

Внедрение (Deployment) – этот этап может быть простым или сложным, в зависимости от целей организации. Обычно это - разработка и внедрение решений на основе анализа данных. Это может быть как составление отчета, так и автоматизация процессов для решения ваших целей. Задачи фазы Deployment:

  • Запланировать развертывание
  • Запланировать поддержку и мониторинг развернутого решения
  • Сделать финальный отчет
  • Сделать ревью проекта

Рассмотрим подробнее некоторые аспекты этапов подготовки и моделирования данных, инструменты подготовки данных и способы их моделирования

Сбор данных

Важный вопрос на этом этапе - поиск данных. Согласно И.В. Бегтину поиск данных осуществляется по следующей схеме:

  • формулировка запроса - что ищем;
  • запрос консультаций с целью помощи в поиске источников поиска;
  • самостоятельный поиск;
  • запрос и получение данных.

Хранение данных

Хранение данных - это процесс обеспечения доступности, целостности, защищенности данных. Данные можно хранить разным способом:

  • твердотельный съемный или несъемный носитель - нужен доступ к самому носителю или устройству, в которое он помещается, для получения данных;
  • сервера баз данных;
  • облачное хранилище данных - доступ к данным возможен из любой локации и др.

Выбор способа хранения данных зависит от объема данных, необходимой скорости доступа к ней, частоте обновлений данных, количества лиц, которым будет разрешен доступ к данным, стоимости хранения нужного объема данных.

Основной формой хранения данных является база данных. С помощью СУБД можно получить доступ к данным, записать их, переместить, изменить, удалить.

Обработка данных

Под обработкой данных понимается определенная последовательность операций с данными, выполненных для получения новой информации путем пересмотра и уточнения имеющейся результатов анализа данных, вычислений и пр. На первом этапе осуществляется первичная обработка данных - приведение данных к единому формату, выделение общих признаков, структурирование данных. Затем выбирается наиболее актуальная для решения задачи модель работы:

  • точечная обработка активных задач - операции только с выбранными категориями;
  • потоковая обработка в реальном времени - операции с большим объемом данных, поступающих непрерывно, в процессе чего результаты анализа меняются каждый раз когда поступают новые данные;
  • пакетная обработка исторических данных - обработка данных, накопленных за определенный срок.

В зависимости от выбранной модели, решаемой задачи подбираются технологии, тип базы данных, которые будут наиболее эффективны в конкретном случае. К процедурам обработки данных относятся: создание данных, модификация данных, поиск информации, принятие решений, создание отчетов, создание документов, повышение безопасности данных.

При обработке данных обращают внимание на их качество. Выделяют чистые и грязные данные. Грязные данные отличает наличие обработки, дополнительной, не связанных с первоначальными данными, информации, недостаток первичных данных. Все это мешает полному анализу данных, так как грязные данные уже содержат в себе некоторые критерии анализа, “обнулить” значение которых нельзя.

Визуализация данных

Визуализация данных - процесс представления данных в агрегированном, понятном для восприятия человеком виде. Визуализация может быть презентационной - готовой для демонстрации аудитории, исследовательской - готовой для получения некоторых промежуточных результатов обработки данных. Визуализация может быть использована на всех этапах работы с данными: визуализация результатов первичной обработки, визуализация промежуточных результатов, визуализация окончательных результатов.

В связи с объемом анализируемых данных визуализация – это необходимый способ оформления данных в понятный человеку вид. Поэтому инструменты визуализации важны в работе с данными.

Вид визуализации данных:

  1. Графики: линейный, график рассеивания и др.
  2. Диаграммы: столбиковая, круговая, гистограмма, кольцевая, лепестковая, облако тегов и др.
  3. Инфографика.
  4. Схемы.
  5. Презентации.
  6. Карты: фотографическая, географическая, дорожная, тематическая, картограмма.
  7. Дашборды.
  8. Иллюстрации.

Выводы

  • Методология исследования данных CRISP включается шесть этапов: понимание бизнеса, начальное изучение данных, подготовка данных, моделирование, оценка решения и внедрение.
  • Поиск данных включает четыре этапа: формулировка запроса, консультации, самостоятельный поиск, запрос и получение данный
  • Хранить данные можно на твердых носителях, серверах или в облачных хранилищах.
  • Обработка данных включает в себя: первичную обработку и очистку, выделение общих признаков, уплотнение данных, выбор модели для анализа.
  • Анализ данных - совокупность действий исследователя, направленных на получение определенных представлений о характере явления, описываемых этими данными.
  • Визуализация данных - процесс представления данных в агрегированном, понятном для восприятия человеком виде.
Дата последней редакции 29 мая 20202020/05/29