Я пытаюсь отфильтровать имена из текстовых блобов. В настоящее время я просто генерирую список слов и фильтрую его вручную, но у меня есть ~8k слова для движения так, я ищу лучший путь. Я мог захватить словарь и фильтровать их, но это отберет имена как кузнец и утес.
То, в чем я нуждаюсь, имеет любой следующее:
Я фигурирую между ними, я могу сделать объединенный черный список/белый список для получения то, в чем я нуждаюсь.
Список названий переписи США: http://www.census.gov/genealogy/www/
, которые должны принести вам один угол проблемы, в любом случае.
Отредактировано Изменен URL, за комментарий ниже о перемещении страницы. Никто не верит в HTTP 302 больше?