Данные являются цифровым представлением происходящих процессов. По данным в системах мониторинга формируются ключевые показатели эффективности: технологические, экономические и социальные. Они используются в программных продуктах для реализации бизнес-задач — от систем учета до поддержки принятия решений. Если не заниматься вопросом качества данных (правилами их ведения, «очистки» и восстановления), то результат работы таких систем будет некорректным, что, как следствие, приведет к снижению бизнес-выгоды предприятия. Существует несколько направлений работы с данными, среди них можно выделить Data-driven — подход, базирующийся на проверке их достоверности и полноты. IT-компания «Наука» поделилась своим опытом в использовании этого подхода.
Согласно ГОСТ Р 56214-2014 и ISO/TS 8000-1:2011, качество данных оценивается по следующим критериям:
• Аналитичность: имеют ли данные определенное назначение, то есть участвуют ли в принятии какого-либо решения.
• Объективность: уместны ли данные, то есть нужны ли они в подходящем месте в подходящее время.
• Релевантность и эргономичность: отвечают ли данные требованиям потребителя.
• Рациональность: предотвращено ли повторение дефектов данных и сокращают ли они избыточные расходы.
Другими словами, информация должна быть полезной, актуальной и достоверной.
Существует ряд факторов, из которых можно выделить:
• низкий уровень организации бизнес-процессов;
• ошибки в проектировании информационных систем;
• нарушение целостности данных;
• дефекты в интеграционных сервисах;
• отсутствие формализованных опорных точек и инструментов валидации данных;
• технические факторы: погрешности в измерениях приборов, отсутствие сигнала, перебои связи и т.д.;
• человеческий фактор.
Все это может приводить к дублированию данных, пропускам значений, появлению заведомо ложных значений, нетипичному представлению данных и т.д.
Проблемы качества данных делятся на два типа: уровень структуры (схема описания объектов и их взаимосвязи) и уровень сущности (предметная область). В первом случае ее можно решить обеспечением целостности данных, а именно путем организации корректной структуры — реляционной базы данных, что позволяет задать ограничения для поддержки сущностной, доменной и ссылочной целостностей. В этой работе проблема качества данных рассматривается на уровне сущности.