Команда по работе с данными
Основной задачей команды по работе с данными является решение задач заказчика, которым может выступать бизнес, государственное учреждение и др. Специалисты собирают данные, строят на их основе гипотезы, модели, которые предлагаются заказчику в качестве средства решения первоначальной задачи.
Специалист по работе с данными. Это специалист широкого профиля, занимающийся анализом данных, выявлением закономерностей, прогнозированием результатов. Специалист по работе с данными занимается исследованием данных, полученных из разных каналов и источников, обрабатывает их, составляет отчеты на основе анализа данных, рекомендации по решению командных бизнес задач.
Инженер по обработке данных (Data Engineer).
Инженер оказывает помощь в сборе, организации и очистке первичных данных для дальнейшей работы. Данные могут прийти в разном формате, с наличием лишней информации. Инженер приводит их в соответствие с общей структурой и передает далее готовыми к работе в команду. Также инженер отвечает за работоспособность систем и процессов, используемых в работе с данными коллегами по команде. Инженер по обработке данных занимается отладкой входящего потока больших данных, следит за его бесперебойностью, качеством, своевременностью обновления.
Аналитик данных (Data Analyst). Аналитик занимается обеспечением процессов обработки и анализа больших массивов данных: организация исследования данных с помощью применения новейших техник и инструментов, организация анализа данных на их корректность, участие в работе по улучшению качества данных. Также занимается разработкой систем поддержки исследований данных: участие в процессе внедрения технологий, которые необходимы для сбора данных, принятия решений на основе данных, взаимодействие с другими членами команды. Аналитик занимается обеспечением проверки гипотез, прогнозированием результатов, автоматизацией аналитической отчетности.
Архитектор данных (Data Architect). Архитектор выбирает технологии хранения данных, создания и оптимизации запросов, проектирует базы данных, следит за безопасностью хранимых данных. Также он занимается производством расчетов производительности БД, координацией архитектуры БД.
Исследователь данных (data scientist). Занимается подготовкой данных:
- сбор множества данных из различных источников и преобразование в более удобный форма;
- запуск различных алгоритмов предварительного анализа и оптимизации разметки данных;
- интерпретация данных, преобразование данных в оптимальный вид, визуализация данных.
Исследователь осуществляет применение технологии больших данных и машинного обучения в процессе анализа:
- выбор подходящего алгоритма анализа данных;
- машинное обучение алгоритмов ИИ;
- проверка гипотез и выявление закономерностей.
Также он занимается исследованием технологических возможностей: отслеживание технических новшеств, обновление существующих моделей анализа данных, анализ возможных рисков, создание прототипов новых моделей БД.
Руководитель команды по работе с данными. Выполняет широкий объем обязанностей. В первую очередь, занимается обеспечением данными органов государственного управления, что включает в себя:
- инвентаризацию процессов сбора, хранения, обработки данных в органах государственного управления;
- разработку и поддержку модели сбора и обработки данных в СУБД;
- поддержку высокого уровня качества собираемых и хранимых данных;
- участие в подготовке мероприятий по развитию органов государственного управления на основе работы с данными;
- организацию внедрения технологий ИИ;
- инициацию законодательных инициатив в сфере управления данными.
Руководитель отвечает за разработку и реализацию политики обеспечения безопасности данных, доступа к данным в органах государственного управления, управление технологическими рисками.
Примеры командной работы с данными в госсекторе
Приведем существующие примеры использования больших данных в муниципальном управлении. Все примеры так или иначе связаны с работой команд по управлению данными.
Система сбора мусора в городе Барселона
Длительное время в Барселоне была актуальна проблема уборки мусора - коммунальные службы не успевали собирать весь мусор быстро растущего мегаполиса. Администрация города (заказчик) провела анализ ситуации - выяснилось, что в существующей системе коммунальные службы убирают мусор по районам, последовательно проходя каждый. При этом уровень загрязненности в разных районах отличается - высокий уровень в туристическом центре и крупных спальных районах, низкий - в промышленных и коммерческих районах. Чтобы выяснить это был проведен сбор данных датчиков, установленных в каждом мусорном контейнере. Предложение такой идеи - задача разработчика модели сбора данных - архитектора данных. Налаживание потока данных с каждого датчика на общие сервера для дальнейшей обработки - задача инженера. Специалист по данным и аналитик занимаются исследованием полученных данных, их анализом.
Полученная информация была представлена заказчику, было предложено решение - формировать маршруты уборки мусора по результатам показателей датчиков, а не по районно - коммунальщики должны убирать наиболее заполненные урны, затем переключаться на менее заполненные и т.д. Данное предложение было принято, система управления маршрутами уборки была внедрена. В результате было сокращено время сбора мусора в городе, сэкономлены средства на закупку топлива, улучшено состояние окружающей среды.
Портал “Наш город” Москва
Власти Москвы долгое время не имели единой системы сбора обращений граждан с целью оценки эффективности работы территориальных органов власти, подрядчиков в сфере городского благоустройства. Жители города вынуждены были обращаться в разные инстанции для решения простых вопросов - не работает освещение во дворе, нарушена целостность дорожного полотна и пр. Приходилось долгое время ждать ответа, самостоятельно перенаправлять запросы в другие инстанции, если адресат не мог выполнить работ по исправлению проблемы. В 2011 году был создан портал “Наш город”, который позволил объединить в одном месте все обращения граждан по вопросам жизнеобеспечения их деятельности в городе. Работа портала потребовала создание большой команды аналитиков данных, которая стала обрабатывать исторические и статистические данные обращений граждан: частота, суть проблемы, районы и пр. Обработка этих данных позволила предоставлять властям города целостную картину: в каком районе медленно решают вопросы жителей, какой подрядчик чаще исправляет огрехи собственной работы, какие проблемы возникают чаще всего и требуют внедрения новаций в процесс их исправления.
Система оценки пожарной безопасности г. Лондон
В Лондоне решили модернизировать систему оценки пожарной безопасности зданий, отказаться от выборочного посещения и проверки помещений в пользу системного подхода. С помощью единой статистической аналитической системы SAS стали выявлять помещения с повышенной вероятностью возгораний для проведения инспекций и выдачи рекомендаций для хозяев помещений. Вероятность возгораний высчитывается на основе анализа около 60 переменных, включающих демографические, геологические, исторические данные. Внедрение системы снизило количество пожаров в городе, позволило более эффективно организовать систему мониторинга пожарной безопасности