Учёные впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта

Корпус — это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определённом языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

Древнеславянские тексты представляют собой многообразие рукописных памятников XI–XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоёмкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению учёных, является задачей общенационального характера.

Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы:

«В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объём древнеславянских — древнерусских, болгарских, сербских текстов XI–XVII веков, которые дошли до нас, — это несколько тысяч богослужебных рукописей. Язык меняется от века к веку. Для учёных важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объём данных, который представляют собой древнеславянские рукописи, — это астрономическая работа, которая растянулась бы на века, особенно учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести эту важную работу в обозримое время».

Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки — главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.

Учёные впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта

Цитировать

Получить бесплатно

Войти

Регистрация

Ошибка капчи

Введите код подтверждения

Войдите в учетную запись

Активация промокода

Введите код подтверждения

Введите код подтверждения

Введите код подтверждения

Войдите в учетную запись

Войдите в учетную запись

Заявка на подписку

Обратная связь

Использовать это устройство?

Введите код подтверждения

Выберите тип

Мы перевели вас на Русскую версию сайта

You have been redirected to the Russian version