14 декабря

13 декабря

12 декабря

Популярное

Дипломница разработала алгоритм машинного русско-бурятского перевода

Дипломница разработала алгоритм машинного русско-бурятского перевода
Моя Бурятия,  Фото:НГУ
Работа в этом направлении продолжается

Выпускница бакалавриата института интеллектуальной робототехники Новосибирского госуниверситета Дари Батурова в ходе выполнения выпускной квалификационной работы разработала алгоритм машинного перевода с русского языка на бурятский.

Как сообщили в пресс-службе НГУ, Дари создала русско-бурятский и русско-монгольский параллельный корпус. Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого, параллельный корпус может состоять из пар отдельных предложений.

Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.

- Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодёжь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесён в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.

Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределённости нейросетевой модели для обнаружения некорректных переводов.

- После выявления лучшей обученной модели, которая была основана на модели NLLB (No Language Left Behind), я проанализировала её поведение при сдвиге данных с помощью методов оценивания неопределённости модели. Для этого был создан русско-бурятский параллельный корпус с аннотированными предложениями по типам ошибок, которые совершила данная модель при переводе текстов, содержащих специфические термины из научных областей. Он помог выделить лучшую метрику для определения уверенности модели в своих переводах и выявления возможных ошибок и галлюцинаций, — рассказала Дари Батурова.

Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьёзная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали её на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала ещё в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключён договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведётся поиск новых переводчиков, сбор и обработка новых данных, а также дообучение нейросети.

Также помимо переводческой деятельности в рамках гранта проводился поиск уже существующих параллельных текстов. В результате было заключено сотрудничество с некоторыми организациями, находящимися в Бурятии, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые были добавлены в параллельный корпус.

- В рамках дипломной работы алгоритм, разработанный Дари Батуровой, представлен в виде кода. Однако девушка намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Дари Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка, - отметили в пресс-службе НГУ.


Уважаемые читатели, все комментарии можно оставлять в социальных сетях, сделав репост публикации на личные страницы. Сбор и хранение персональных данных на данном сайте не осуществляется.

Читают сейчас

В Улан-Удэ в День Конституции России прозвучит полуденный выстрел
Право произвести выстрел предоставили Жамбал-Жамсо Жанаеву
Фермеры Бурятии получили 108 баранов породы буубэй
Это вторая крупная передача племенных животных в республике
Жителей Бурятии просят помочь с подарками для маленьких пациентов
Каждый год 31 декабря около 300 маленьких пациентов вынуждены оставаться в больнице
Педагог из Бурятии вошла в топ-30 всероссийского конкурса
Главной наградой для Натальи Коневиной стало обучение в московском офисе «Яндекса»
В Бурятии выбрали самых метких полицейских
Среди более 100 сотрудников органов внутренних дел
Жителей Бурятии призвали переодеть детей на Новый год в Будамшуу или Чингисхана
Общественники предложили альтернативу «заморским супергероям»
^