Дайте им некоторых (~500 строк, минимум) ужасный, непрокомментированный запутанный код для рефакторинга. Удостоверьтесь, что переменные логически не называют. Дополнительный пробел.
И посмотрите как они как он!
Чрезмерно резкий, но это объясняет две точки сразу.
я должен подчеркнуть, что этот код не должен был происходить от них. Комментарии действительно полезны для понимания Вашего собственного кода, месяцы по линии, но они также почти - на основе для понимания сложных частей другие люди код. Они должны понять, что кому-то еще, возможно, придется понять то, что они делают.
Одно заключительное редактирование: качество Комментария также довольно важно. Некоторые разработчики имеют почти 2:1 отношение кода к комментарию в их работе, но это не делает их хорошими комментариями. Вы можете иметь удивительно немного комментариев в своем коде и все еще иметь его имеют много смысла.
Волшебное слово, которое нужно ввести в Google, - это «стоп-слова». В результате получается разумно выглядящий список .
MySQL также имеет встроенный список стоп-слов , но на мой вкус он слишком исчерпывающий. Например, в нашей университетской библиотеке у нас были проблемы, потому что слово «третий» в «третьем мире» считалось стоп-словом.
Мне кажется, я использовал список запрещенных слов для немецкого языка из здесь , когда недавно создавал поисковое приложение с lucene.net. Сайт также содержит список для английского языка, и списки на сайте, по-видимому, те же, что и в проекте lucene по умолчанию.
они называются стоп-словами , проверьте этот образец
Получение статистики о частоте слов в больших текстовых корпусах. Игнорировать все слова с частотой> некоторого числа.
В зависимости от поддомена английского языка, на котором вы работаете, вы можете / захотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут иметь значение в домене. Например, слово «есть» могло быть аббревиатурой / акронимом в некотором домене . И наоборот, вы можете захотеть игнорировать некоторые специфичные для домена слова в зависимости от вашего приложения , которые вы, возможно, не захотите игнорировать в области общего английского. Например, если вы анализируете корпус больничных отчетов, вы можете игнорировать такие слова, как «история» и «симптомы». поскольку они могут быть найдены в каждом отчете и могут оказаться бесполезными (с точки зрения простого инвертированного индекса).
В противном случае списки, возвращаемые Google, будут в порядке. Porter Stemmer использует это , а реализация поискового движка Lucene использует это .
Обычно эти слова будут появляться в документах наиболее часто. и создавать уникальные списки слов для элементов в коллекциях
Лучше использовать словарь: