Генерация Nграмм (Unigrams, Bigrams и т. Д.) Из большого массива файлов .txt и их частоты

[A-z] будет соответствовать символам ASCII в диапазоне от A до z, а [a-zA-Z] будет соответствовать символам ASCII в диапазоне от A до Z и в диапазоне от a до z. На первый взгляд это может показаться эквивалентным - однако, если вы посмотрите на эту таблицу символов ASCII, вы увидите, что A-z включает несколько других символов. В частности, это [, \, ], ^, _ и `` `(которые вам явно не нужны).

18
задан Kasramvd 7 September 2015 в 15:04
поделиться