По всем вопросам звоните:

+7 495 274-22-22

Учёные впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта

Коллаборация учёных Института русского языка им. В.В. Виноградова РАН, НИТУ «МИСиС», НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов — корпуса. Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.

Корпус — это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определённом языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

Древнеславянские тексты представляют собой многообразие рукописных памятников XI–XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоёмкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению учёных, является задачей общенационального характера.

Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы:

«В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объём древнеславянских — древнерусских, болгарских, сербских текстов XI–XVII веков, которые дошли до нас, — это несколько тысяч богослужебных рукописей. Язык меняется от века к веку. Для учёных важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объём данных, который представляют собой древнеславянские рукописи, — это астрономическая работа, которая растянулась бы на века, особенно учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести эту важную работу в обозримое время».

Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки — главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.

Для Цитирования:
Учёные впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта. Ректор ВУЗа. 2020;4.
Полная версия статьи доступна подписчикам журнала
Язык статьи:
Действия с выбранными: