Почему «uniq» считает одинаковые слова разными?

Я хочу рассчитать частоту слов из файла, где слова построчно. Файл действительно большой, поэтому проблема может заключаться в нем (, в этом примере он насчитывает 300 тысяч строк ).

Я делаю эту команду:

cat.temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

и проблема в том, что он дает мне небольшую ошибку :он считает одни и те же слова разными.

Например, первые записи::

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi 

с giochi, повторенным дважды, как вы можете видеть.

Внизу файла становится еще хуже и выглядит так:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind 

для всех слов.

Что я делаю не так?

6
задан Benjamin W. 12 September 2019 в 22:42
поделиться