Пакет R tm неверный ввод в 'utf8towcs'

Я пытаюсь использовать пакет tm в R для выполнения некоторого анализа текста. Я связал следующее:

require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'

Проблема в том, что некоторые символы недействительны. Я бы например, исключить недопустимые символы из анализа либо из R, либо перед импортом файлов для обработки.

Я попытался использовать iconv для преобразования всех файлов в utf-8 и исключить все, что не может быть преобразовано в это, следующим образом:

find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \; 

, как указано здесь Пакетное преобразование файлов latin-1 в utf-8 с помощью iconv

Но я все равно получаю ту же ошибку.

Буду признателен за любую помощь.

27
задан Community 23 May 2017 в 11:47
поделиться