Java Стэнфорд обработка естественного языка: Проверка правописания

Question

Java Стэнфорд обработка естественного языка: Проверка правописания

REST является в основном просто способом реализовать веб-сервисы. Это - просто способ использовать HTTP правильно для запросов веб-сервисов, которые Вы пытаетесь поразить.

http://www.xfront.com/REST-Web-Services.html http://en.wikipedia.org/wiki/Representational_State_Transfer

5

java nlp stanford-nlp spell-checking

задан skaffman 17 May 2010 в 22:40

2 ответа

Похоже, ваш ответ / ошибки разделены между собственными именами , настоящие слова (которые, как я полагаю, не существуют в лексиконе) и правильные орфографические ошибки. Ложноотрицательный результат на «Искренность» также предполагает, что использование заглавных букв может сбрасывать его с толку, хотя можно надеяться, что это будет достаточно умен, чтобы не делать этого - в любом случае стоит проверить. Множественное число тоже не должно быть проблемой, но ложно-отрицательный ответ на «боги»? Правильно ли он определяет «бога»?

Если вы пытаетесь проверить орфографию, зачем проверять это косвенно? что такое lp. getLexicon (). isKnown (w.word ()) работает внутри? это не зависит от загруженного корпуса? Почему бы просто не загрузить словарь, нормализовать регистр в большой хэш и выполнить проверку "содержит"? Поскольку вы находитесь в контексте НЛП, также должно быть достаточно легко исключить собственные имена, особенно с учетом того, что вы не ищете 100% точности.

0

ответ дан 14 December 2019 в 01:10

Другие вопросы по тегам:

java nlp stanford-nlp spell-checking

Похожие вопросы:

score 9 · Accepted Answer

Использование лексики парсера isKnown(String) в качестве метода проверки орфографии не является жизнеспособным случаем использования парсера. Метод правильный: "false" означает, что это слово не было замечено (с данной заглавной буквы) примерно в 1 млн. слов текста, из которого производится обучение парсера. Но 1 миллиона слов просто не хватает текста, чтобы обучить всесторонней проверке правописания на основе данных. Обычно люди используют по крайней мере на два порядка больше текста, и вполне могут добавить некоторой ловкости в работе с заглавными буквами. Синтаксический анализатор включает в себя некоторую часть этой ловкости для работы со словами, которые были невидимы в обучающих данных, но это не отражено в том, что возвращает метод isKnown(String)

.