Меню

Free protonmail

Назад Главная » Паранормальные новости » Искусственный интеллект » 2020 » Октябрь » 22

ИИ Facebook AI научился обходиться без английского


Facebook AI представила M2M-100 — первый мультиязыковой переводчик, который не использует дополнительный шаг с переводом исходного текста на английский. Для обучения алгоритма ученые автоматически собрали 7,5 миллиарда предложений на 100 языках, для каждого из которых доступен перевод как с исходного языка, так и на целевой. Подробнее о проекте рассказывается на сайте компании.

Во многих случаях машинный перевод с одного языка на другой проходит через один обязательный этап — перевод исходного текста на английский, а затем — перевод уже этого текста на язык целевой. Этот шаг значительно облегчает задачу, в особенности — когда дело касается статистического перевода, основанного на параллельных корпусах: текстов на английском языке значительно больше, чем на любом другом языке, и вероятность того, что какой-то текст будет переведен на английский язык и это можно будет использовать для перевода, также значительно выше.

При этом переход через английский, разумеется, необязателен, а иногда может быть и лишним: например, смысла в том, чтобы использовать английский в автоматическом переводе с русского на чувашский, нет совсем, так как параллельных корпусов английский-чувашский меньше, чем русский-чувашский. Кроме того, в процессе могут появляться лишние грамматические ошибки или семантически неправильно использованные слова. Избавиться от перевода на английский частично позволили переводчики, основанные на нейросетях. Тем не менее, мультиязыковых переводчиков, которые бы не использовали дополнительный шаг с переводом на английский, до сих пор не было.

Чтобы обучить систему переводить с одного языка на другой без использования английского, разработчики Facebook собрали корпус из предложений: для этого использовали доступные программы-кроулеры, в том числе — представленную в прошлом году CCAligned (разновидность Common Crawl). Разработчики сосредоточились на 100 языках (это чуть меньше, чем у Google Переводчика, который поддерживает 108 языков), которые разбили на 14 групп на основе принадлежности к лингвистическим семьям, культурным особенностям носителей и странах, в которых носители проживают.

Далее все возможные пары перевода с каждого из 100 языков отсортировали на основе того, насколько часто они используются — самым популярным парам уделяли больше места в получившемся фразовом словаре. Всего разработчикам удалось собрать 7,5 миллиарда фраз — для определения языка использовали разработанный в Facebook сервис FastText. Дополнительно разработчики использовали автоматически переведенные предложения — этот шаг необходим для языков, параллельных корпусов с которыми в принципе очень мало.

Собранные данные использовали для обучения модели на основе XLM-R — алгоритма перевода, который Facebook представил в прошлом году, а количество учтенных грамматических, морфологических и семантических параметров достигает 12 миллиардов. По словам разработчиков, качество перевода M2M-100 превышает системы, основанные на переходе через английский язык: система набрала на 10 очков BLEU (стандартных алгоритм для оценки качества машинного перехода: обычно он выдает коэффициент от 0 до 1, но в работе разработчики, по-видимому, использовали другую шкалу) больше, чем другие протестированные системы.

Пока что Facebook не планирует использовать M2M-100 в своих сервисах: проект реализуется в первую очередь в исследовательских целях. Модель и датасет для обучения исследователи также выложили в открытый доступ. Другой переводчик от Facebook, представленный два года назад, и вовсе обходится без параллельных корпусов: в нем для перевода используется векторная репрезентация отдельных слов.

Источник

Интересные новости:

Подписывайтесь на наш Telegram, «X(twitter)» и «Zen.Yandex», «VK», «OK» и новости сами придут к вам..

Подписывайтесь на наш Telegram-канал, «X(twitter)» и «Zen.Yandex», «VK», «OK» и новости сами придут к вам..

Теги

Никто не решился оставить свой комментарий.
Будь-те первым, поделитесь мнением с остальными.
avatar
Свежие статьи:
28.11.2024 в 21:28 Необычная экзопланета IRAS 04125 b: быстрое формирование
Недавнее открытие экзопланеты, названной IRAS 04125+2902 b, перевернуло представление ученых о процессе формирования планет. Находясь на расстоянии 520 световых лет от Земли, эта экзопланета поразила исследователей своей необычайной скоростью формирования — вс...

Читать далее

28.11.2024 в 21:23 Раскрытие природы огненного облака вокруг Млечного Пути
В последние десятилетия астрономы добились значительных успехов в понимании динамики нашей галактики, однако многие ее аспекты остаются загадкой. Одним из таких загадочных явлений стало огромное облако сверхгорячего газа, окружающее Млечный Путь. Исследование,...

Читать далее

28.11.2024 в 09:17 Билл Гейтс и BlackRock начали масштабный захват земель, чтобы получить контроль над британским продовольствием
Билл Гейтс, уже ставший крупнейшим частным владельцем сельскохозяйственных угодий в США, теперь обращает внимание на Великобританию. В партнерстве с BlackRock, крупнейшим в мире управляющим активами, он запускает агрессивную стратегию скупки фермерских земель....

Читать далее


Советы:
Воздушный и нежный. Рецепт пирога из бананов
Бананы — это универсальный продукт. Их можно есть, как они есть, также их жарят, карамелизируют и запекают. А еще с ними получаются отличные пироги. Тесто с банановым пюре выходит нежным и чуть влажным. А также очень ароматным....

Читать далее

Очень дешевый пирог на прошлогоднем варенье: просто вылейте все в форму
Вкусный пирог можно испечь почти без денег, сделав тесто на основе прошлогоднего варенья. Выйдет простая и вкусная выпечка к чаю или молоку, которая "зайдет" и взрослым, и детям.

Читать далее

Голубцы с секретом: как приготовить любимое блюдо с новым вкусом

Голубцы – сытное блюдо, которое с успехом заменит обед или ужин. У каждой хозяйки свой проверенный рецепт их приготовления, и сегодня мы предлагаем вам попробовать приготовить голубцы, как это делает известный кулинарный блогер Светлана Бауэр. Ее реце...

Читать далее