Внимание к искусственному интеллекту (Artificial Intelligence, AI) обусловлено его эффективностью как инструмента исследований. Для работы AI, однако, требуется качественное машинное обучение (Machine Learning, ML) выполнению сложных задач без четких инструкций. ML требует определенным образом организованных обучающих наборов данных (Training Samples, TS). ML – это подсистема AI и качество TS определяет качество работы AI. Гигиена труда (Occupational Safety and Health, OSH) – предмет слишком сложный для того, чтобы допускать неопределенность качественных оценок исходных материалов.
Источником данных для TS служат электронные медицинские карты, больничные информационные системы, частные базы данных. Одним из способов сбора данных является использование клинических регистров.
Формальное определение задачи ML: есть множество входных данных {x1… xn} є X (дозы воздействия), по которым необходимо получить некоторое множество ответов {у1… уm} є Y (эффекты воздействия). Предполагается, что существует зависимость: Y = F (X). ML сводится к поиску решающей функции F, приближающей Y на всем множестве X, по предъявленному набору тестовых данных «вход-выход», исчерпывающего возможные рабочие ситуации. TS данных должны моделировать реальную работу AI – содержать входные наборы данных и соответствующие им выходные результаты анализа входных данных [1]. В медицине образцовые наборы пар «вход-выход» образуют соотношения «доза-эффект» (Dose-Response Relationships, DRR) для вредных внешних факторов [2, 3]. Для обеспечения должного качественного уровня TS их сбор и анализ следует проводить с использованием методов медицины, основанной на свидетельствах (Evidence-Based Medicine, EBM). Концепция EBM подразумевает критическую оценку медицинской информации, для обеспечения ее надежности и достоверности [4].
Источником данных для TS служат электронные медицинские карты, больничные информационные системы, частные базы данных. Одним из способов сбора данных является использование клинических регистров [5]. Регистры представляют собой систему, постоянно следящую за состоянием объектов наблюдения и оценивающую воздействие различных факторов на изучаемые показатели. В Интернете собираемые медицинскими организациями данные объединяются, их суммарный объем превосходит возможности традиционных средств обработки информации. Появился специальный термин «большие медицинские данные» (Big Data in Healthcare, BDH). Для их обработки требуются специальные программные средства – инструменты преобразования «сырых» данных в знания [6].