“Стоп-слова” перечисляют для английского языка? [закрытый]

Дайте им некоторых (~500 строк, минимум) ужасный, непрокомментированный запутанный код для рефакторинга. Удостоверьтесь, что переменные логически не называют. Дополнительный пробел.

И посмотрите как они как он!

Чрезмерно резкий, но это объясняет две точки сразу.

  1. Запись Ваш код хорошо.
  2. Комментарий это так Вы и другие знаете то, что это означает.

я должен подчеркнуть, что этот код не должен был происходить от них. Комментарии действительно полезны для понимания Вашего собственного кода, месяцы по линии, но они также почти - на основе для понимания сложных частей другие люди код. Они должны понять, что кому-то еще, возможно, придется понять то, что они делают.

Одно заключительное редактирование: качество Комментария также довольно важно. Некоторые разработчики имеют почти 2:1 отношение кода к комментарию в их работе, но это не делает их хорошими комментариями. Вы можете иметь удивительно немного комментариев в своем коде и все еще иметь его имеют много смысла.

  1. Объясняют , что Вы делаете . Ваше качество кода должно делать большую часть этой работы для Вас все же.
  2. , Что еще более важно, объясните , почему Вы делаете что-то ! Я видел так много кода, который говорит точно, что что-то делает без реальной идеи, почему разработчик (к сожалению, меня большую часть времени) думал, что это была хорошая идея во-первых.
21
задан Mark Harrison 26 October 2012 в 23:47
поделиться

6 ответов

Волшебное слово, которое нужно ввести в Google, - это «стоп-слова». В результате получается разумно выглядящий список .

MySQL также имеет встроенный список стоп-слов , но на мой вкус он слишком исчерпывающий. Например, в нашей университетской библиотеке у нас были проблемы, потому что слово «третий» в «третьем мире» считалось стоп-словом.

21
ответ дан 29 November 2019 в 20:43
поделиться

Мне кажется, я использовал список запрещенных слов для немецкого языка из здесь , когда недавно создавал поисковое приложение с lucene.net. Сайт также содержит список для английского языка, и списки на сайте, по-видимому, те же, что и в проекте lucene по умолчанию.

2
ответ дан 29 November 2019 в 20:43
поделиться

они называются стоп-словами , проверьте этот образец

5
ответ дан 29 November 2019 в 20:43
поделиться

Получение статистики о частоте слов в больших текстовых корпусах. Игнорировать все слова с частотой> некоторого числа.

4
ответ дан 29 November 2019 в 20:43
поделиться

В зависимости от поддомена английского языка, на котором вы работаете, вы можете / захотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут иметь значение в домене. Например, слово «есть» могло быть аббревиатурой / акронимом в некотором домене . И наоборот, вы можете захотеть игнорировать некоторые специфичные для домена слова в зависимости от вашего приложения , которые вы, возможно, не захотите игнорировать в области общего английского. Например, если вы анализируете корпус больничных отчетов, вы можете игнорировать такие слова, как «история» и «симптомы». поскольку они могут быть найдены в каждом отчете и могут оказаться бесполезными (с точки зрения простого инвертированного индекса).

В противном случае списки, возвращаемые Google, будут в порядке. Porter Stemmer использует это , а реализация поискового движка Lucene использует это .

5
ответ дан 29 November 2019 в 20:43
поделиться

Обычно эти слова будут появляться в документах наиболее часто. и создавать уникальные списки слов для элементов в коллекциях

  • Стоп-слова могут быть пересчитаны позже (с этим может быть кэширование и статистическое определение того, что стоп-слова могли измениться с момента их вычисления)
  • Это также может устранить привязанные ко времени или неформальные слова и имена (например, сленг, или если у вас была куча документов, в которых название компании было заголовком)
  • Лучше использовать словарь:

    • Время поиска намного быстрее
    • Результаты предварительно кэшируются
    • Это просто
    • Некоторые другие придумали стоп-слова.
    2
    ответ дан 29 November 2019 в 20:43
    поделиться
    Другие вопросы по тегам:

    Похожие вопросы: