Принятие решений на основе данных

Материал из CDTOwiki
Перейти к: навигация, поиск

dating.png Принятие решений на основе данных 0 Данные и их применение Начальная Полезно IT/soft Да Данные (раздел) Цифровая экономика (раздел) Базовые понятия (раздел) Межотраслевое (раздел) Базовые информационные технологии (раздел) Системы баз данных (раздел) 4 Принятие решений на основе данных

Принятие решений на основе данных
Сегмент
IT/softIT/soft
Рекомендовано
ПолезноПолезно
Сложность
НачальнаяНачальная
Направление исследований

Да

 

Понятие данных и их отличие от информации.

Данные - это основа информации. Образно говоря, данные - это буквы алфавита, а информация - это рассказ, сообщение, сведения, имеющие определенный смысл.

Чтобы узнать, какие данные о пользователе есть в системе, нужно понимать, как и откуда данные туда попадают:

  • Пользователи сами вносят данные. Каждый раз, когда человек заполняет любую форму (например, оформляет заказ на доставку еды и вносит свои телефон и адрес в форму на сайте), данные записываются в базу данных и хранятся там так долго, как посчитает нужным ее владелец.
  • Данные генерируются автоматически: записываются данные о том, когда пользователь зашел и вышел из системы, какие действия он в ней совершал, какие запросы оставлял, какую именно услугу получил.

Как хранятся данные?

Данные хранятся в базе данных, если данные структурированные, в хранилище или озере данных (data lake), если данные неструктурированные. База данных – набор структурированных таблиц, которые связаны между собой. Озеро данных (data lake) – хранилище, в котором данные находятся в сыром, необработанном виде. Видеоролики, книги, журналы, документы Word и PDF, аудиозаписи и фотографии — все это неструктурированные данные, и все они могут хранится в Data Lake.

Отличие озера данных от базы данных заключается в том, что в базах данных хранятся структурированные данные, а в озерах — неструктурированные, никак не систематизированные и неупорядоченные.

Структурированные данные имеют специфический машиночитаемый вид.

Как написать для человека? И. И. Иванов родился в 1959 году. Он пьет по три кружки кофе в день. Это вредит не только здоровью, особенно в таком преклонном возрасте, но еще и больно бьет по карману. 450 рублей в день на капучино — это много.

Как написать для машины?

Что такое государственные данные? Государственные данные — это пример больших данных. Технически государственные данные — это обычные данные о гражданах и работе государственных структур. Анализ данных позволяет оптимизировать процесс принятия решений.

Каждое государственное учреждение имеет дело с данными граждан и иными данными (например, геоданные, макроэкономические показатели, и т.д.), собирает и хранит данные. Вспомните, с какими данными вы имеете дело в своей профессиональной деятельности? Анализ государственных данных позволит выявить закономерности и получить новую информацию о гражданах и процессах вашей деятельности.

Кто такой CDO?

CDO (Chief Data Officer) – специалист, ответственный за обработку и анализ данных, разработку управленческих решений и использование данных в качестве актива организации.

В тот момент, когда мы переходим к анализу данных, CDO становится основным специалистом, который обеспечивает современную модель принятия решений, основанных на знаниях и моделях данных.

Как государство может использовать данные?

В первую очередь, это поддержка принятия решений для руководителей. Системами поддержки принятия решения можно считать финансово-экономические обоснования к новым законам, государственную политику в тех или иных областях, документы стратегического планирования. Иногда подобные системы получают глубокое развитие, способны оказывать поддержку почти в режиме реального времени, помогать оперативно реагировать на возникающие ситуации.

Для поддержки принятия решений нужны не просто данные, а статистические и аналитические выкладки на их основе. Это повысит доступность данных и облегчит процесс принятия решений на данных. Задача выглядит сравнительно простой на уровне отдела и существенно более сложной, если предполагается включать данные всего учреждения или нескольких ведомств. Как организовать выполнение этой задачи (агрегацию, систематизацию и анализ данных из разных источников) — важнейший аспект работы с большими данными. 

Больше примеров принятия решений, основанных на данных

Пример IBM Watson. Изначально программа позиционировалась как машина, которая выиграла «человеческий» конкурс «Своя игра». Она умеет обрабатывать плохо структурированные текстовые массивы данных, и не только текстовые. Сейчас самое перспективное внедрение, с точки зрения самой IBM - это предсказание того, какое лечение, какие назначения нужно делать больному, глядя в историю того, что с ним происходило. Суть разработки состоит в том, что программа обрабатывает неструктурированные текстовые данные истории болезни пациента: записи медицинских карт различных больниц, записи об анализах, прививках и тестах. На основе всех имеющихся данные программа определяет более точный диагноз пациента, чем врач, который может упустить какую-либо информацию или не обладать ей.

Кейс про Росбанк - система предсказания того, где какие банкоматы и отделения необходимо открыть или закрыть. Входные данные — это качественные и количественные характеристики работы банкомата или отделения, которые у нас есть, и внешние данные: данные о помещениях, перемещениях людей, об аренде, продаже, и так далее. Программа на основании имеющихся данных строит внутреннюю модель, а потом формирует прогноз о том, что будет, если в определенном месте открыть банкомат или отделение, что с ним будет через год, месяц или 3 месяц. Также программа формирует рекомендации по открытию новых отделений в определенных местах на карте.

Механизм принятия решений, основанных на данных

  1. Описание данных — первый важный этап — нужно понять, какие данные есть, как заполняются базы данных и заполняются ли.
  2. Поиск (не) регулярностей — это поиск каких-то закономерностей или, наоборот, чего-то, что эти закономерности разрушает.
  3. Первичные выводы (регулярности, значимые для принятия решений) – отсев регулярностей, которые представляют интерес для дальнейшего анализа
  4. Постановка вопросов / формулирование гипотез — поиск и фиксация закономерностей, которые мы хотели бы проверить по формуле «событие «А» связано с событием «Б» (корреляция) или по формуле «если … (событие 1) , то … (событие 2)» (причинно-следственная гипотеза)
  5. Поиск ответов с помощью многомерных методов анализа или программных решений.


Пример

  1. У нас есть данные о статистике поданых исков в регионе, статистике отклонения исков и статистике апелляций на решение судьи
  2. Нам показалось, что в одном из судов чаще не удовлетворяются иски, связанные с авторским правом, чаще меняются судьи, количество исков в среднем больше на 15%, чем в других судах.
  3. Мы выяснили, что иски об авторском праве рассматривают четверо судей из всех, и решили исследовать этот вопрос.
  4. Мы построили гипотезу о том, что один или несколько судей из тех, которые рассматривают иски чаще отклоняют иски об авторском праве, чем иски о других типах случаев.
  5. Мы составили реестр исков по типам случаев относительно четырех судей и посчитали корреляцию с помощью статистического критерия. Выяснилось, что судьи отклоняют иски о авторском праве с той же частотой, что и другие иски. Однако, также выяснилось, что один из судей чаще отклоняет любые иски, чем остальные трое.

Выводы

  • Данные — совокупность фиксированных сведений, хранящихся на цифровых носителях, в форме, пригодной для хранения, передачи и обработки, информация — это результат обработки данных.
  • Главное отличие информации от данных в том, что данные относятся к способу представления, хранения и элементарным операциям обработки информации.
  • Данные могут вноситься пользователем, или генерироваться автоматически.
  • Если данные не только собирать, но и анализировать, то это поможет оптимизировать процесс принятия решений.
  • При работе с данными важно соблюдать последовательность шагов: описание данных, поиск (не)регулярностей, первичные выводы, постановка вопросов, формулирование гипотез, поиск ответов, принятие решений, основанных на данных.
Дата последней редакции 29 мая 20202020/05/29