Что предпосылки к изучению обработки естественного языка? [закрытый]

Я планирую изучить обработку естественного языка в этом году.

Но когда я начинаю читать вводные книги по этой теме, я нашел, что упускаю много сути, имеющей отношение главным образом к математике.

Таким образом, я здесь ищу то, что я должен изучить, прежде чем я смогу изучить nlp, ну, в общем, более гладко?

Заранее спасибо.

25
задан Jon Seigel 5 January 2010 в 14:58
поделиться

3 ответа

Сейчас существует два основных подхода к NLP - один - это языковой подход, подробно описанный Юрафски и Мартином (Speech and Language Processing), а другой - вероятностный и статистический подход (Foundations of Statistical Natural Language Processing).

Большинство людей, с которыми я общался, склонны отдавать предпочтение последнему в плане легкости наращивания и полезности результатов. Поэтому я бы порекомендовал сначала пройтись по теории вероятностей, а затем обратиться к книге о NLP (как и ко второй, с которой я связался и которую сейчас использую на проекте с довольно неплохими результатами).

Хотя я согласен с Лаурой в том, что теория формального языка очень полезна, я на самом деле думаю, что в настоящее время, если Вы просто хотите попасть в настоящие NL части NLP, Вы можете оставить формальные языки на потом, так как существует достаточно инструментов, которые сделают Ваш лексический анализ / парсинг / токенирование / преобразование текста, которые Вы можете использовать вместо того, чтобы сворачивать свои собственные.

Вот книга, описывающая три таких инструмента - я владею ею и рекомендую ее в качестве хорошего введения во все три. Построение поисковых приложений: Lucene, LingPipe и Gate

Edit: отвечая на Ваш вопрос, я бы сказал, что первым шагом будет тщательное обоснование основ вероятности (первые 3-5 глав любой книги по тестированию/статистике должны быть в порядке), а затем оттуда искать новые темы, как они появляются в книге по NLP. Например, вчера мне пришлось узнать о t-значениях или о чем-то подобном (я плохо разбираюсь в названиях), потому что они имеют отношение к определению частоты коллокации

.
42
ответ дан 28 November 2019 в 20:33
поделиться

Я бы также порекомендовал для начала изучать логику - логику предикатов первого порядка, а также логику более высокого порядка (которая полезна для рассуждений об убеждениях, намерениях, знаниях и т.д.). - Т.е. рассмотрим утверждение "Луна сделана из зеленого сыра" против "Я думаю, что луна сделана из зеленого сыра".

Изучение логики полезно для работы со смысловыми представлениями. Грамматика, языки и т.д. полезны для разбора и т.п., но язык не очень хорошо вписывается в приятную легкую для разбора грамматику, потому что, ну, мы люди :)

Предыдущий плакат отмечал о статистике и вероятности - очень важен в современных подходах. Вы также можете посмотреть на работу Иудеи Перл над вероятностными сетями вывода.

Вы также можете посмотреть на некоторые проекты, такие как CYC. Он начался как проект по представлению знаний здравого смысла (в конечном счете, язык используется для ввода смысла, и этот смысл должен быть представлен, поэтому представление знаний очень важно). Изначально он начинал с фреймворкового подхода, но к концу все выглядело так, как будто он в основном использовал вариант логики первого порядка.

Некоторые люди из проекта CYC работали над семантической паутиной, которая также связана со смысловым представлением, и вы заметите, что семантическое представление паутины снова является XML-эквивалентом предикатной логики первого порядка.

6
ответ дан 28 November 2019 в 20:33
поделиться

Одна из вещей, которая вам определенно понадобится, это хорошее знание формальной языковой области (автоматы, контекстно-свободные грамматики, контекстно-чувствительные грамматические грамматические грамматики). Большинство вещей, которые я видел, в значительной степени полагаются на это - лучшая книга для начинающих, на мой взгляд, "Введение в формальные языки" от Hopcroft, Ullman &co.

Я также видел некоторые техники, относящиеся к нейронным сетям, но я мало что знаю об этом.

Третья техника (в некоторой степени разработанная из области формальных языков) основана на молекулярных вычислениях - не уверен, насколько широко они используются. Для этого я бы посмотрел книги А. Пауна

.
2
ответ дан 28 November 2019 в 20:33
поделиться
Другие вопросы по тегам:

Похожие вопросы: