Устранение неоднозначности имен людей

В настоящее время я работаю над проектом по устранению неоднозначности имени человека. Идея, лежащая в основе проекта, заключается в том, что он сможет идентифицировать правильного человека, когда есть несколько человек с одним и тем же именем. Я использовал для этого википедию. Я хочу оценить свой проект на некоторых стандартных данных. Я ищу данные тестирования. Я не знаком с популярными именами в Википедии. Есть идеи, где я могу найти эти данные? Я не ищу больших объемов данных. Я просто ищу около 100-500 примеров.

Спасибо

Добавление дополнительной информации к вопросу.

Я ищу людей с одинаковыми именами, но на самом деле разных. Например, Майкл Джордон - известный баскетболист, и есть статистик с таким именем. Я ищу подобные примеры.

http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan

Надеюсь, теперь вы понимаете вопрос.

1
задан Boolean 4 October 2010 в 03:38
поделиться