Оценка строки в зависимости от того, насколько она похожа на английский

Я не уверен, как точно сформулировать этот вопрос, поэтому вот пример:

string1 = "THEQUICKBROWNFOX" string2 = "KLJHQKJBKJBHJBJLSDFD"

Мне нужна функция, которая оценивала бы строку 1 выше, чем строку 2, и миллион других бессмысленных строк. Обратите внимание на отсутствие пробелов, поэтому это будет символ засимвольную функцию, а не слово за словом.

В 90-х годах я написал функцию оценки триграмм в Delphi и заполнил ее триграммами от Гека Финна, и я рассматриваю возможность переноса кода на C или Python или его включения в автономный инструмент, но к настоящему времени должны быть более эффективные способы. Я буду делать это миллионы раз, так что скорость - это хорошо. Я попробовал библиотеку Python Reverend.Thomas Beyse () и обучил ее нескольким строкам, состоящим только из заглавных букв, но, похоже, между словами требуются пробелы, и поэтому возвращается оценка []. Я нашел несколько библиотек цепей Маркова, но они, похоже, также требуют пробелов между словами. Хотя, насколько я понимаю, я не понимаю, почему это должно быть так ...

В любом случае, я много занимаюсь криптоанализом, поэтому в будущем функции оценки, использующие пробелы и знаки препинания, будут полезны, но верно теперь мне нужны только ВСЕ ЗАПИСИ.

Спасибо за помощь!

12
задан Derek Ploor 30 July 2011 в 02:40
поделиться