У меня есть список имен, некоторые из них являются фальшивкой, я должен использовать обработку естественного языка и Python 3.1, чтобы сохранить настоящие имена и вывести поддельные имена

Question

У меня есть список имен, некоторые из них являются фальшивкой, я должен использовать обработку естественного языка и Python 3.1, чтобы сохранить настоящие имена и вывести поддельные имена

У меня нет подсказки того, где запустить на этом. Я никогда не делал никакой обработки естественного языка и только программировал в Python 3.1, который я должен использовать. Я смотрю на сайт http://www.linkedin.com, и я должен собрать все общедоступные профили, и у некоторых из них есть очень поддельные имена, как 'aaaaaa k dudujjek', и мне сказали, что я могу использовать обработку естественного языка для нахождения настоящих имен, где я даже запустил бы?

5

python-3.x nlp

задан VolatileRig 8 March 2010 в 04:49

3 ответа

Здесь несколько возможностей, но наиболее очевидная, кажется, связана с HMM, т.е. Скрытые марковские модели . В комплект NLTK входит [по крайней мере] один модуль для HMM, хотя я должен признать, что никогда не использовал его.

Другая возможная загвоздка заключается в том, что AFAIK, NTLK еще не портирован на Python 3.0

Это сказано, и хотя я весьма заинтересован в использовании техник NLP, где это возможно, я думаю, что процесс, который будет использовать несколько парадигм, включая некоторые уловки НЛП могут быть лучшим решением этой конкретной проблемы. Например, хранение даже сокращенного словаря общих фамилий (и имен) в традиционной базе данных может предложить как более надежный, так и более эффективный с вычислительной точки зрения способ фильтрации значительной части входных данных, оставляя драгоценные ресурсы ЦП, которые нужно тратить на менее очевидные случаи.

1

ответ дан 15 December 2019 в 00:58

Боюсь, эта проблема не решаема, если ваш список хотя бы минимально "открыт" - если имена являются eg-клиентами из небольшого традиционно действующего населения, вы можете получить в итоге несколько сотен имен для тысяч людей. Но в целом вы вряд ли сможете предсказать, что является настоящим именем, а что нет, как бы необычно ни выглядело арабское, китайское или банту имя в выборке, скажем, южноанглийских сельских фамилий. Я имею в виду, что "Ng" - распространенная кантонская фамилия, а "O" распространена в Корее, так что предположения могут не сработать. В Австрии есть место под названием "fucking", так что даже поиск слов из четырех букв не гарантирует успеха.

что можно сделать, так это проработать достаточно большую выборку таких имен и отсортировать их вручную. затем использовать всевозможные инструменты обработки текста и собрать метрики. возможно, вы сможете вывести определенную вероятность того, что имя будет признано поддельным, возможно, это окажется нежизнеспособным. однако здесь вы никогда не выйдете за рамки вероятности.

в качестве примера, много лет назад мы использовали карты google и телефонный справочник для проверки данных клиентов. если карты google могли найти это место, мы называли адрес проверенным. очевидно, что при более строгих требованиях настоящая проверка должна идти гораздо дальше. не стоит забывать, что проверка таких данных - это больше социальный вопрос, чем лингвистический.

0

ответ дан 15 December 2019 в 00:58

Другие вопросы по тегам:

python-3.x nlp

Похожие вопросы:

score 3 · Accepted Answer

Это трудная проблема для решения, и одна который начинается с получения действительных списков имен и фамилий.

Насколько велик набор имен, которые вы оцениваете, и откуда они взялись? Обе эти вещи важны для вас. Если вы оцениваете небольшой набор «американских» имен, ваши действительные списки имен будут сильно отличаться от списков, например, японских или индийских имен.

Ваша идея очистить LinkedIn верна, но вы были правы, обнаружив фальшивую ошибку в профиле / имени. Лучшим веб-сайтом, вероятно, был бы что-то вроде IMDB (возможно, извлечение имен путем итерации по разным годам рождения ) или списки в Википедии самых популярных имен и наиболее распространенных фамилий ].

Когда дело доходит до этого, это проблема точности и запоминания: чтобы пропустить меньше подделок, вы неизбежно выбрасываете некоторые настоящие имена. Если вы ослабите свои ограничения, вы получите больше фейков, но вы также выбросите меньше настоящих имен.