Создайте модель естественного языка, которая фиксирует орфографические ошибки

Question

Создайте модель естественного языка, которая фиксирует орфографические ошибки

Что является книгами о том, как создать программу синтаксического анализа естественных языков как это:

input: I got to TALL you
output: I got to TELL you

input: Big RAT box
output: Big RED box

in: hoo un thum zend three
out: one thousand three

Это должно иметь языковую модель, которая позволяет предсказывать, какие слова пишутся c орфографическими ошибками!

Каковы лучшие книги по тому, как создать такой инструмент??

p.s. Там бесплатные веб-сервисы состоят в том, чтобы проверить правописание? От Google, возможно?..

9

java parsing nlp linguistics

задан EugeneP 10 February 2010 в 13:14

5 ответов

У вас есть как минимум три варианта

Вы можете написать программу, которая понимает язык (то есть, что означает слово). Сегодня это тема для исследования. Ожидайте первых результатов, когда вы сможете купить компьютер, достаточно быстрый для запуска такой программы (что, вероятно, произойдет через 10 лет, когда компьютеры станут в 1000 раз быстрее, чем сегодня).
Используйте огромный корпус (текстовые документы) для обучения Скрытой модели Маркова .
Используйте огромный корпус и генерируйте статистику о ~~четверных~~ n-граммах, то есть о том, как часто появляется кортеж из N слов. У меня нет удобной ссылки для этого, но идея состоит в том, что одни слова всегда появляются в контексте других слов. Поэтому, когда вы разбираете свой текст на 4 грамма и просматриваете их в своей базе данных, но не можете их найти, есть вероятность, что с текущим кортежем что-то не так. Следующий шаг - найти все возможные совпадения (другие 4-граммы, которые имеют небольшой звуковой индекс или подобное расстояние от текущего) и попробовать тот, который имеет наибольшую частоту.

У Google есть эти данные для нескольких языков, и вы можете найти больше по этому поводу в лабораториях Google.

[EDIT] После некоторого поиска в Google я наконец нашел ссылку: На этой странице , Вы можете купить английские от 1 до 5 граммов, которые Google собрал по всему Интернету на 6 DVD.

Поиск в Google по запросу "н-граммы статистики правописания Google" также обнаружит некоторые интересные ссылки.

4

ответ дан 4 December 2019 в 13:01

soundex ( wiki ) - один из вариантов

2

ответ дан 4 December 2019 в 13:01

Существует довольно много библиотек Java для обработки естественного языка, которые помогут вам реализовать корректор орфографии. Но вы спросили о книге. Основы статистической обработки естественного языка Кристофера Д. Мэннинга и Хинриха Шютце выглядят как хороший вариант. Первый автор - профессор Стэнфордского университета, возглавляющий группу, занимающуюся обработкой естественного языка и разработкой библиотек Java и ресурсов НЛП, которыми пользуются многие люди.

2

ответ дан 4 December 2019 в 13:01

В

В Dev Days London Майкл Спаркс представил сценарий Python, закодированный именно для этого. Это было удивительно просто! Посмотрите, сможете ли вы найти его в Google. Может, у кого-нибудь здесь будет ссылка.

1

ответ дан 4 December 2019 в 13:01

Другие вопросы по тегам:

java parsing nlp linguistics

Создайте модель естественного языка, которая фиксирует орфографические ошибки

5 ответов

Похожие вопросы: