20 апреля

Популярное

Дипломница разработала алгоритм машинного русско-бурятского перевода

Дипломница разработала алгоритм машинного русско-бурятского перевода
Моя Бурятия,  Фото:НГУ
Работа в этом направлении продолжается

Выпускница бакалавриата института интеллектуальной робототехники Новосибирского госуниверситета Дари Батурова в ходе выполнения выпускной квалификационной работы разработала алгоритм машинного перевода с русского языка на бурятский.

Как сообщили в пресс-службе НГУ, Дари создала русско-бурятский и русско-монгольский параллельный корпус. Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого, параллельный корпус может состоять из пар отдельных предложений.

Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.

- Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодёжь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесён в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.

Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределённости нейросетевой модели для обнаружения некорректных переводов.

- После выявления лучшей обученной модели, которая была основана на модели NLLB (No Language Left Behind), я проанализировала её поведение при сдвиге данных с помощью методов оценивания неопределённости модели. Для этого был создан русско-бурятский параллельный корпус с аннотированными предложениями по типам ошибок, которые совершила данная модель при переводе текстов, содержащих специфические термины из научных областей. Он помог выделить лучшую метрику для определения уверенности модели в своих переводах и выявления возможных ошибок и галлюцинаций, — рассказала Дари Батурова.

Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьёзная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали её на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала ещё в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключён договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведётся поиск новых переводчиков, сбор и обработка новых данных, а также дообучение нейросети.

Также помимо переводческой деятельности в рамках гранта проводился поиск уже существующих параллельных текстов. В результате было заключено сотрудничество с некоторыми организациями, находящимися в Бурятии, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые были добавлены в параллельный корпус.

- В рамках дипломной работы алгоритм, разработанный Дари Батуровой, представлен в виде кода. Однако девушка намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Дари Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка, - отметили в пресс-службе НГУ.


Уважаемые читатели, все комментарии можно оставлять в социальных сетях, сделав репост публикации на личные страницы. Сбор и хранение персональных данных на данном сайте не осуществляется.

Читают сейчас

Глава Бурятии провёл единое родительское собрание
Алексей Цыденов: «Когда выпускаетесь из наших вузов, открываются все дороги»
В Бурятии определили Народную программу на следующие пять лет
Форум «Бурятия сегодня. Бурятия завтра» сформировал основу для развития в ближайшие годы
Для московских школьников провели «Знакомство с солнечной Бурятией»
В этой же школе работают кружок бурятского языка и вокальная студия 
Вознаграждение за водителей-выпивох в Бурятии увеличилось вдвое
Жители республики смогут зарабатывать на них по 10 тысяч
В районе Бурятии родилась первая двойня
Владимир и Светлана теперь воспитывают пятерых детей
Гигантскую школу в центре Улан-Удэ планируют открыть в этом году
Ранее объект претерпел финансовые трудности
В Улан-Удэ состоялся вечер поэзии и живой музыки
«БАЙКАЛ ДЕЙЛИ» представляет фоторепортаж с мероприятия
Улан-Удэ получит 28 новых автобусов
Об этом сообщил глава республики
В Бурятии назвали лучших педагогов родного языка и литературы
Завершились конкурсы «Эрхим багша – 2026» и «Эрхим хүмүүжүүлэгшэ – 2026»
Медведи в Бурятии начали выходить из спячки
Косолапые проснулись в стенах улан-удэнского музея
Во время месячника чистоты в городе уберут свалки
15 стихийных свалок обещают убрать в течение месяца
В музее Бурятии пройдёт ювелирная выставка
Это творческий диалог бурятской и якутской ювелирных школ

В Бурятии выберут лучшие фольклорные коллективы
Конкурсные прослушивания планируются 16 апреля
В Бурятии отремонтируют загруженную дорогу к ГРЭС

Помимо дороги отремонтируют также и инженерные сети

^