Что является книгами о том, как создать программу синтаксического анализа естественных языков как это:
input: I got to TALL you output: I got to TELL you input: Big RAT box output: Big RED box in: hoo un thum zend three out: one thousand three
Это должно иметь языковую модель, которая позволяет предсказывать, какие слова пишутся c орфографическими ошибками!
Каковы лучшие книги по тому, как создать такой инструмент??
p.s. Там бесплатные веб-сервисы состоят в том, чтобы проверить правописание? От Google, возможно?..
Питер Норвиг написал потрясающую программу проверки орфографии . Может быть, это поможет тебе.
У вас есть как минимум три варианта
Вы можете написать программу, которая понимает язык (то есть, что означает слово). Сегодня это тема для исследования. Ожидайте первых результатов, когда вы сможете купить компьютер, достаточно быстрый для запуска такой программы (что, вероятно, произойдет через 10 лет, когда компьютеры станут в 1000 раз быстрее, чем сегодня).
Используйте огромный корпус (текстовые документы) для обучения Скрытой модели Маркова .
Используйте огромный корпус и генерируйте статистику о четверных n-граммах, то есть о том, как часто появляется кортеж из N слов. У меня нет удобной ссылки для этого, но идея состоит в том, что одни слова всегда появляются в контексте других слов. Поэтому, когда вы разбираете свой текст на 4 грамма и просматриваете их в своей базе данных, но не можете их найти, есть вероятность, что с текущим кортежем что-то не так. Следующий шаг - найти все возможные совпадения (другие 4-граммы, которые имеют небольшой звуковой индекс или подобное расстояние от текущего) и попробовать тот, который имеет наибольшую частоту.
У Google есть эти данные для нескольких языков, и вы можете найти больше по этому поводу в лабораториях Google.
[EDIT] После некоторого поиска в Google я наконец нашел ссылку: На этой странице , Вы можете купить английские от 1 до 5 граммов, которые Google собрал по всему Интернету на 6 DVD.
Поиск в Google по запросу "н-граммы статистики правописания Google" также обнаружит некоторые интересные ссылки.
Существует довольно много библиотек Java для обработки естественного языка, которые помогут вам реализовать корректор орфографии. Но вы спросили о книге. Основы статистической обработки естественного языка Кристофера Д. Мэннинга и Хинриха Шютце выглядят как хороший вариант. Первый автор - профессор Стэнфордского университета, возглавляющий группу, занимающуюся обработкой естественного языка и разработкой библиотек Java и ресурсов НЛП, которыми пользуются многие люди.
В Dev Days London Майкл Спаркс представил сценарий Python, закодированный именно для этого. Это было удивительно просто! Посмотрите, сможете ли вы найти его в Google. Может, у кого-нибудь здесь будет ссылка.