Обработка естественного языка - выравнивание слов

Я ищу инструменты выравнивания слов и алгоритмы.
Я имею дело с двуязычным английским языком - текст хинди и в настоящее время продолжаю работать

  • DTW (Динамическое Время, Деформируясь) алгоритм
  • CLA (конкурентоспособное соединение алгоритма)
  • NATools
  • Giza ++

Вы могли предложить какой-либо другой алгоритм/инструмент, который независим от языка и который мог достигнуть Статистического выравнивания слов для параллельных английских Корпусов хинди и его оценки.
Некоторые инструменты являются лучшими для определенных языков; могли Вы говорить мне, насколько верный это и, если так, могли Вы обеспечивать пример того, что лучше подошло бы для азиатских языков как хинди. Контрпримеры того, что каждый не был должен, я использую для таких языков, также приветствуется.

Я услышал немного о выравнивателе слова Uplug... Мог кто-то говорить мне, если этот инструмент полезен для моей цели.

Спасибо.. :)

8
задан Robert Harvey 23 July 2012 в 20:31
поделиться

4 ответа

Berkeley Aligner очень хорош. Выполняя совместное обучение моделей выравнивания слов IBM, он может получить гораздо более низкий уровень ошибок выравнивания (AER), чем старые пакеты, такие как GIZA++.

Он также поддерживает некоторые более продвинутые функции, такие как синтаксические искажения (т. Е. Использование информации о дереве синтаксического анализа для получения лучших выравниваний). Для этого вам понадобятся только деревья синтаксического анализа для одной из языковых пар. Таким образом, вы должны быть в порядке, делая хинди<->английский, так как есть много свободно доступных и хороших английских парсеров.

Если вы решите не использовать Berkeley Aligner, вам, вероятно, следует просто использовать GIZA++. В течение многих лет он был по существу стандартным выравнивателем слов в сообществе машинного перевода.

5
ответ дан 5 December 2019 в 22:17
поделиться

У вас расплывчатый и широкий вопрос.

Попробуйте: http://scholar.google.com/scholar?q=algorithm+language+independent+statistical+word+alignment&hl=en&safe=off&client=firefox-a&hs=hJt&rls=com .ubuntu: en-US: official & um = 1 & ie = UTF-8 & oi = scholart

для получения списка статей в этой области.

-1
ответ дан 5 December 2019 в 22:17
поделиться

Moses - это пакет статистического машинного перевода, на который вам стоит обратить внимание. Его компонент выравнивания слов построен на базе GIZA++, но может быть настроен для лучшей работы с определенными языковыми парами, чем чистый GIZA++. Их список рассылки и ресурсы, которые вы можете найти на http://www.statmt.org/, также могут быть лучшим местом, чтобы задать вопросы по этой теме, чем SO. Одна вещь, о которой вы ничего не сказали, но которую я считаю еще более проблематичной, это где взять параллельный корпус хинди <-> английский.

0
ответ дан 5 December 2019 в 22:17
поделиться

Uplug - отличный инструмент, я использую его для выравнивания англо<->македонских текстов. По сути, он опирается на Giza++, добавляя так называемые выравнивания подсказок. Его расширенная настройка фактически сочетает в себе выравнивания подсказок и Giza++ и выполняет 3 такие итерации.Чем больше подсказок (pos-тегов, лемм...) вы предоставите лучше, тем результаты будут. Но я должен отметить, что вы не должны ожидать получения принципиально иных результатов, чем просто используя Giza++.

Так или иначе, если вы планируете серьезно изучить тему СМТ, предлагаю вам прочитать статью (кандидатскую диссертацию) об Уплуге, это будет очень полезно для вас.

2
ответ дан 5 December 2019 в 22:17
поделиться
Другие вопросы по тегам:

Похожие вопросы: