На SO есть хорошие ответы о том, как использовать readHTMLTable из пакета XML, и я сделал это с обычными http-страницами, однако я не могу решить свою проблему с https-страницами.
Я пытаюсь прочитать таблицу на этом веб-сайте (строка URL):
library(RTidyHTML)
library(XML)
url <- "https://ned.nih.gov/search/ViewDetails.aspx?NIHID=0010121048"
h = htmlParse(url)
tables <- readHTMLTable(url)
Но я получаю эту ошибку: Файл https://ned.nih.gov/search/Vi...doesне существует.
Я попытался решить проблему https с помощью этого (первые 2 строки ниже) (используя Google для поиска решения (например, здесь: http://tonybreyal.wordpress.com/2012/01/13/ra). -quick-scrape-of-top-grossing-films-from-boxofficemojo-com/).
Этот трюк помогает увидеть больше страницы, но любые попытки извлечь таблицу не работают. Любой совет Мне нужны поля таблицы, такие как Организация, Название организации, Менеджер.
#attempt to get past the https problem
raw <- getURL(url, followlocation = TRUE, cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl"))
head(raw)
[1] "\r\n\n\n\n