Список имен собственных?

Я пытаюсь отфильтровать имена из текстовых блобов. В настоящее время я просто генерирую список слов и фильтрую его вручную, но у меня есть ~8k слова для движения так, я ищу лучший путь. Я мог захватить словарь и фильтровать их, но это отберет имена как кузнец и утес.

То, в чем я нуждаюсь, имеет любой следующее:

  • список общих названий (мне было бы нужно> 5k наиболее распространенные имена),
  • список имен, которые также, оказывается, слова

Я фигурирую между ними, я могу сделать объединенный черный список/белый список для получения то, в чем я нуждаюсь.

5
задан Abhay 30 April 2012 в 14:30
поделиться

1 ответ

Список названий переписи США: http://www.census.gov/genealogy/www/

, которые должны принести вам один угол проблемы, в любом случае.

Отредактировано Изменен URL, за комментарий ниже о перемещении страницы. Никто не верит в HTTP 302 больше?

5
ответ дан 14 December 2019 в 08:50
поделиться
Другие вопросы по тегам:

Похожие вопросы: