Создайте модель естественного языка, которая фиксирует орфографические ошибки

Что является книгами о том, как создать программу синтаксического анализа естественных языков как это:

input: I got to TALL you
output: I got to TELL you

input: Big RAT box
output: Big RED box

in: hoo un thum zend three
out: one thousand three

Это должно иметь языковую модель, которая позволяет предсказывать, какие слова пишутся c орфографическими ошибками!

Каковы лучшие книги по тому, как создать такой инструмент??

p.s. Там бесплатные веб-сервисы состоят в том, чтобы проверить правописание? От Google, возможно?..

9
задан EugeneP 10 February 2010 в 13:14
поделиться

5 ответов

Питер Норвиг написал потрясающую программу проверки орфографии . Может быть, это поможет тебе.

7
ответ дан 4 December 2019 в 13:01
поделиться

У вас есть как минимум три варианта

  1. Вы можете написать программу, которая понимает язык (то есть, что означает слово). Сегодня это тема для исследования. Ожидайте первых результатов, когда вы сможете купить компьютер, достаточно быстрый для запуска такой программы (что, вероятно, произойдет через 10 лет, когда компьютеры станут в 1000 раз быстрее, чем сегодня).

  2. Используйте огромный корпус (текстовые документы) для обучения Скрытой модели Маркова .

  3. Используйте огромный корпус и генерируйте статистику о четверных n-граммах, то есть о том, как часто появляется кортеж из N слов. У меня нет удобной ссылки для этого, но идея состоит в том, что одни слова всегда появляются в контексте других слов. Поэтому, когда вы разбираете свой текст на 4 грамма и просматриваете их в своей базе данных, но не можете их найти, есть вероятность, что с текущим кортежем что-то не так. Следующий шаг - найти все возможные совпадения (другие 4-граммы, которые имеют небольшой звуковой индекс или подобное расстояние от текущего) и попробовать тот, который имеет наибольшую частоту.

    У Google есть эти данные для нескольких языков, и вы можете найти больше по этому поводу в лабораториях Google.

[EDIT] После некоторого поиска в Google я наконец нашел ссылку: На этой странице , Вы можете купить английские от 1 до 5 граммов, которые Google собрал по всему Интернету на 6 DVD.

Поиск в Google по запросу "н-граммы статистики правописания Google" также обнаружит некоторые интересные ссылки.

4
ответ дан 4 December 2019 в 13:01
поделиться

soundex ( wiki ) - один из вариантов

2
ответ дан 4 December 2019 в 13:01
поделиться

Существует довольно много библиотек Java для обработки естественного языка, которые помогут вам реализовать корректор орфографии. Но вы спросили о книге. Основы статистической обработки естественного языка Кристофера Д. Мэннинга и Хинриха Шютце выглядят как хороший вариант. Первый автор - профессор Стэнфордского университета, возглавляющий группу, занимающуюся обработкой естественного языка и разработкой библиотек Java и ресурсов НЛП, которыми пользуются многие люди.

2
ответ дан 4 December 2019 в 13:01
поделиться
В

В Dev Days London Майкл Спаркс представил сценарий Python, закодированный именно для этого. Это было удивительно просто! Посмотрите, сможете ли вы найти его в Google. Может, у кого-нибудь здесь будет ссылка.

1
ответ дан 4 December 2019 в 13:01
поделиться
Другие вопросы по тегам:

Похожие вопросы: