Любое построение корректной предсказательной модели развития инновационно активного предприятия ТЭК с использованием методов машинного обучения начинается с оценки исходных данных. В первую очередь нужно выделить главную проблему, препятствующую внедрению машинного обучения при прогнозировании физико-механических свойств пород, подходящих для бурения будущих нефтяных скважин, — это отсутствие единой актуальной базы данных. В настоящее время в распоряжении специалистов имеется достаточно большой архив материала с результатами проводимых исследований. Однако все данные в этом архиве хранятся разрозненно, результаты исследований находятся в отдельных таблицах, которые имеют различную структуру, оформление и особенности заполнения. Чтобы можно было использовать данные с алгоритмами машинного обучения, необходимо объединить их в единый массив. Для этого была собрана база из 4470 образцов для определения перспективности применения предложенной технологии, затем написан так называемый парсер — скрипт, компонующий данные из различных таблиц в одну базу [3].
После компоновки выборки следует предварительно обработать данные (удалить «выбросы», провести нормировку значений). Для каждого образца были известны значения пористости, плотности и дано словесное описание. Прогнозируемыми величинами являлись скорости распространения продольной и поперечной упругих волн, полученные в результате механических акустических исследований грунта.
Для того чтобы не учитывать аномальные значения в исходных числовых данных, можно руководствоваться следующими статистиками [4]:
• первый квартиль — число, при котором 25% объектов лежат левее него;
• третий квартиль — число, при котором 75% объектов лежат левее него;
• интерквартильный размах — разница третьего и первого квартилей.
Для определения некорректных значений целесообразно использовать следующую эвристику, свидетельствующую о том, что аномальные значения находятся за пределами интервала, границы которого определяются первым и третьим квартилями [4]: