Согласно ГОСТ Р 56214–2014 и ISO/ TS 8000–1:2011, качество данных оценивается по следующим критериям:
• Аналитичность: имеют ли данные определенное назначение, то есть участвуют ли в принятии какого-либо решения.
• Объективность: уместны ли данные, то есть нужны ли они в подходящем месте в подходящее время.
• Релевантность и эргономичность: отвечают ли данные требованиям потребителя.
• Рациональность: предотвращено ли повторение дефектов данных и сокращают ли они избыточные расходы.
Другими словами, информация должна быть полезной, актуальной и достоверной.
Существует ряд факторов, из которых можно выделить:
• низкий уровень организации бизнес-процессов;
• ошибки в проектировании информационных систем;
• нарушение целостности данных;
• дефекты в интеграционных сервисах;
• отсутствие формализованных опорных точек и инструментов валидации данных;
• технические факторы: погрешности в измерениях приборов, отсутствие сигнала, перебои связи и т. д.;
• человеческий фактор.
Все это может приводить к дублированию данных, пропускам значений, появлению заведомо ложных значений, нетипичному представлению данных и т. д.
Проблемы качества данных делятся на два типа: уровень структуры (схема описания объектов и их взаимосвязи) и уровень сущности (предметная область). В первом случае ее можно решить обеспечением целостности данных, а именно путем организации корректной структуры — реляционной базы данных, что позволяет задать ограничения для поддержки сущностной, доменной и ссылочной целостностей. В этой работе проблема качества данных рассматривается на уровне сущности.
Под понятием Data-driven подразумевается методология разработки информационных систем, в основе которой стоит использование больших массивов данных, накопленных за продолжительный промежуток времени. При этом есть определенные требования к качеству и объему используемых данных, так как эти факторы напрямую влияют на принятие управленческих решений. Чтобы понять, можно ли использовать Data-driven-подход для решения конкретной производственной задачи, необходимо знать: