Я хочу рассчитать частоту слов из файла, где слова построчно. Файл действительно большой, поэтому проблема может заключаться в нем (, в этом примере он насчитывает 300 тысяч строк ).
Я делаю эту команду:
cat.temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
и проблема в том, что он дает мне небольшую ошибку :он считает одни и те же слова разными.
Например, первые записи::
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
с giochi
, повторенным дважды, как вы можете видеть.
Внизу файла становится еще хуже и выглядит так:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
для всех слов.
Что я делаю не так?