странные символы: взаимодействие R и локали Windows?

WinXP-x32, R-2.13.0

Уважаемый список,

У меня есть проблема, которая (я думаю) связана с взаимодействием между Windows и R.

Я пытаюсь очистить таблица с данными по Гавайским островам. Это мой код R:

library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]

Вывод (первый набор столбцов):

  Псевдоним острова>> Острова
 Название острова>> Местоположение 1 Гавайи Haw »i [7] The Big

Остров 19 ° 34 "с. Ш. 155 ° 30" з. Д. "¿/ • ¿19,567 ° N 155,5 ° Wï »¿/ 19,567; -155,5 2 Мауи [8] Остров Вэлли 20 ° 48 ² с.ш. 156 ° 20 ² Вт »/ ï »¿20,8 ° N 156,333 ° Wï» / 20,8; -156.333 3 KahoÊ olawe [9] Целевой остров 20 ° 33â € ²N 156 ° 36â € ²Wï »¿/ ï» ¿20,55 ° N 156,6 ° Wï »¿/ 20,55; -156.6 4 LÄnaÊ »i [10] Ананасовый остров 20 ° 50â € ²N 156 ° 56â € ²Wï »¿/ ï »20,833 ° N 156,933 ° Wï» ¿/ 20,833; -156.933 5 MolokaÊ i [11] The Friendly Isle 21 ° 08â € ²N 157 ° 02â € ²Wï »¿/ ï» ¿21,133 ° N 157,033 ° Wï »¿/ 21,133; -157.033 6 OÊ »ahu [12] Место сбора 21 ° 28â € ²N 157 ° 59â € ²Wï »¿/ ï »21,467 ° N 157,983 ° Wï» ¿/ 21,467; -157.983 7 KauaÊ »i [13] The Garden Isle 22 ° 05â € ²N 159 ° 30â € ²Wï »¿/ ï» ¿22.083Â ° N 159,5 ° Wï »¿/ 22,083; -159,5 8 NiÊ »ihau [14] Запретный остров
21 ° 54–2 с. Ш. 160 ° 10–2 з. Д. / Ï »¿21,9 ° с. 160,167 ° Wï »¿/ 21,9; -160.167

Как видите, там есть «странные» персонажи. Я также пробовал readHTMLTable (u, encoding = "UTF-16") и readHTMLTable (u, encoding = "UTF-8") но это не помогло.

Мне кажется, что может быть проблема с взаимодействием настроек Windows набора символов и R.

sessionInfo () дает

> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)

locale:
[1] LC_COLLATE=Dutch_Netherlands.1252  LC_CTYPE=Dutch_Netherlands.1252    LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C                       LC_TIME=Dutch_Netherlands.1252  

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base    

other attached packages:
[1] XML_3.2-0.2

У меня также есть попытался разрешить R использовать другой параметр, введя: Sys.setlocale ("LC_ALL", "en_US.UTF-8") , но это дало ответ:

> Sys.setlocale("LC_ALL", "en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL", "en_US.UTF-8") :
  OS reports request to set locale to "en_US.UTF-8" cannot be honored

Кроме того, я попытался сделать изменение прямо из командной строки Windows, используя: chcp 65001 и его варианты, но это ничего не изменило.

Я заметил при поиске в Интернете, что у других тоже есть проблема, но не смогли найти решения. Похоже, это проблема взаимодействия Windows и R. К сожалению, эта проблема есть на всех трех компьютерах, находящихся в моем распоряжении. Это происходит как под WinXP-x32, так и под Win7-x86. Я также пробовал другие веб-сайты, и проблема возникает каждый раз, когда в тексте, который нужно очистить, есть é, ü, ä, î и так далее.

Спасибо, Роджер

12
задан Fred 15 July 2011 в 00:48
поделиться