наиболее эффективный способ найти частичные совпадения строк в большом файле строк (python)

Я загрузил файл заголовков статей из Википедии, который содержит название каждой статьи из Википедии. Мне нужно найти все названия статей, которые могут совпадать. Например, у меня может быть слово «хоккей», но статья в Википедии о хоккее, которая мне нужна, - «Ice_hockey». Это также должен быть поиск без учета регистра.

Я использую Python, и есть ли более эффективный способ, чем простой поиск по строкам? Я' В идеале я буду выполнять этот поиск примерно 500 или 1000 раз в минуту. Если построчно - мой единственный вариант, могу ли я что-то оптимизировать в этом?

Я думаю, что в файле несколько миллионов строк.

Есть идеи?

Спасибо.

6
задан apexdodge 29 January 2011 в 21:36
поделиться