Искусственный интеллект (ИИ) — это область информатики и компьютерных наук, занимающаяся разработкой алгоритмов и программ, которые позволяют компьютерам выполнять задачи, ранее осуществляемые только человеком. ИИ включает в себя различные методы и технологии, такие как машинное обучение, нейронные сети, генетические алгоритмы, логические системы. Эти инструменты позволяют анализировать большие объёмы данных, делать прогнозы и находить закономерности, которые невозможно определить с помощью традиционных статистических методов [1]. Многие исследователи отмечают важную роль ИИ как метода диагностики, выбора оптимального лечения и прогноза различных заболеваний. Он всё чаще используется в медицинских информационно-аналитических системах в виде системы поддержки принятия врачебных решений [2].
Главным преимуществом ИИ для анализа данных является его способность к самообучению и самокоррекции, что позволяет искусственному интеллекту улучшать свои модели на основе новых данных и приводит к увеличению точности и надежности результатов при диагностике и прогнозе заболеваний. Эффективность данного процесса напрямую связана с объемом обучающих данных: использование большего количества данных для обучения ИИ способствует улучшению точности результатов, позволяет модели лучше улавливать закономерности и обобщать свои предсказания на более широкий спектр ситуаций.
При разработке нейросетевых моделей исследователи используют специализированные статистические методы для решения различных задач, в том числе классификации, регрессии, кластеризации, снижения размерности и так далее. Например, метод k-ближайших соседей (k-nearest neighbors, или kNN) — это алгоритм, основанный на принципе определения класса объекта путем анализа его близости к другим объектам в пространстве признаков. При классификации нового объекта алгоритм находит k ближайших соседей из обучающего набора данных и присваивает ему класс, наиболее распространенный среди этих соседей. Этот метод не требует предварительной обработки данных и может быть эффективен в случаях, когда объекты одного класса образуют компактные кластеры в пространстве признаков. Метод главных компонентов или метод снижения размерности используется для уменьшения количества признаков в наборе данных. Он заключается в нахождении линейных комбинаций исходных признаков, которые максимально сохраняют информацию о данных. Эти комбинации называются главными компонентами и используются для создания новых признаков, которые затем могут быть использованы для обучения модели машинного обучения. Метод случайного леса (Random Forest) представляет собой алгоритм, который используется как для задач классификации, так и для задач регрессии. Он основан на идее построения множества деревьев решений во время обучения их на различных подмножествах обучающих данных и признаков. Затем результаты всех деревьев усредняются для получения окончательного предсказания. Метод хорошо работает на разнообразных типах данных и обладает способностью к обобщению, что делает его популярным инструментом в машинном обучении. Метод опорных векторов (support vector machine) является алгоритмом, который находит оптимальную разделяющую гиперплоскость между классами данных для решения задач классификации и регрессии. Гиперплоскость выбирается таким образом, чтобы максимизировать расстояние до ближайших точек каждого класса, называемых опорными векторами. Таким образом, SVM пытается найти наилучшую разделяющую гиперплоскость, которая обобщает данные и позволяет делать точные прогнозы для новых наблюдений. Для оценки модели машинного обучения применятся метод кросс-валидации, который используется для проверки того, насколько хорошо модель обобщает данные, которые не были использованы при ее обучении. Он заключается в разбиении исходных данных на несколько частей, обучении модели на одной части и проверке ее производительности на другой.