“Стоп-слова” перечисляют для английского языка? [закрытый]

Question

“Стоп-слова” перечисляют для английского языка? [закрытый]

Дайте им некоторых (~500 строк, минимум) ужасный, непрокомментированный запутанный код для рефакторинга. Удостоверьтесь, что переменные логически не называют. Дополнительный пробел.

И посмотрите как они как он!

Чрезмерно резкий, но это объясняет две точки сразу.

Запись Ваш код хорошо.
Комментарий это так Вы и другие знаете то, что это означает.

я должен подчеркнуть, что этот код не должен был происходить от них. Комментарии действительно полезны для понимания Вашего собственного кода, месяцы по линии, но они также почти - на основе для понимания сложных частей другие люди код. Они должны понять, что кому-то еще, возможно, придется понять то, что они делают.

Одно заключительное редактирование: качество Комментария также довольно важно. Некоторые разработчики имеют почти 2:1 отношение кода к комментарию в их работе, но это не делает их хорошими комментариями. Вы можете иметь удивительно немного комментариев в своем коде и все еще иметь его имеют много смысла.

Объясняют , что Вы делаете . Ваше качество кода должно делать большую часть этой работы для Вас все же.
, Что еще более важно, объясните , почему Вы делаете что-то ! Я видел так много кода, который говорит точно, что что-то делает без реальной идеи, почему разработчик (к сожалению, меня большую часть времени) думал, что это была хорошая идея во-первых.

21

language-agnostic indexing filtering stop-words nlp

задан Mark Harrison 26 October 2012 в 23:47

6 ответов

Мне кажется, я использовал список запрещенных слов для немецкого языка из здесь , когда недавно создавал поисковое приложение с lucene.net. Сайт также содержит список для английского языка, и списки на сайте, по-видимому, те же, что и в проекте lucene по умолчанию.

2

ответ дан 29 November 2019 в 20:43

они называются стоп-словами , проверьте этот образец

5

ответ дан 29 November 2019 в 20:43

Получение статистики о частоте слов в больших текстовых корпусах. Игнорировать все слова с частотой> некоторого числа.

4

ответ дан 29 November 2019 в 20:43

В зависимости от поддомена английского языка, на котором вы работаете, вы можете / захотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут иметь значение в домене. Например, слово «есть» могло быть аббревиатурой / акронимом в некотором домене . И наоборот, вы можете захотеть игнорировать некоторые специфичные для домена слова в зависимости от вашего приложения , которые вы, возможно, не захотите игнорировать в области общего английского. Например, если вы анализируете корпус больничных отчетов, вы можете игнорировать такие слова, как «история» и «симптомы». поскольку они могут быть найдены в каждом отчете и могут оказаться бесполезными (с точки зрения простого инвертированного индекса).

В противном случае списки, возвращаемые Google, будут в порядке. Porter Stemmer использует это , а реализация поискового движка Lucene использует это .

5

ответ дан 29 November 2019 в 20:43

Обычно эти слова будут появляться в документах наиболее часто. и создавать уникальные списки слов для элементов в коллекциях

Стоп-слова могут быть пересчитаны позже (с этим может быть кэширование и статистическое определение того, что стоп-слова могли измениться с момента их вычисления)

Это также может устранить привязанные ко времени или неформальные слова и имена (например, сленг, или если у вас была куча документов, в которых название компании было заголовком)

Лучше использовать словарь:

Время поиска намного быстрее
Результаты предварительно кэшируются
Это просто
Некоторые другие придумали стоп-слова.

2

ответ дан 29 November 2019 в 20:43

Другие вопросы по тегам:

language-agnostic indexing filtering stop-words nlp

“Стоп-слова” перечисляют для английского языка? [закрытый]

6 ответов

Похожие вопросы: