Как я могу использовать R (пакеты Rcurl/XML?!) для очистки этой веб-страницы?

У меня есть (несколько сложная) веб-проблема очистки, которую я хочу выполнить и любил бы в некоторое направление (к любому уровню, который Вы испытываете желание совместно использовать), здесь идет:

Я хотел бы пройти все "страницы разновидностей", существующие в этой ссылке:

http://gtrnadb.ucsc.edu/

Таким образом для каждого из них я перейду в:

  1. Ссылка страницы разновидностей (например: http://gtrnadb.ucsc.edu/Aero_pern/)
  2. И затем к ссылке страницы "Secondary Structures" (например: http://gtrnadb.ucsc.edu/Aero_pern/Aero_pern-structs.html)

В той ссылке я хочу фрагментировать данные на странице так, чтобы у меня был длинный список, содержащий эти данные (например):

chr.trna3 (1-77)    Length: 77 bp
Type: Ala   Anticodon: CGC at 35-37 (35-37) Score: 93.45
Seq: GGGCCGGTAGCTCAGCCtGGAAGAGCGCCGCCCTCGCACGGCGGAGGcCCCGGGTTCAAATCCCGGCCGGTCCACCA
Str: >>>>>>>..>>>>.........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<<....

Где каждая строка будет иметь свой собственный список (в списке для каждого "trna" в списке для каждого животного)

Я не забываю сталкиваться с пакетами Rcurl и XML (в R), который может допускать такую задачу. Но я не знаю, как использовать их. Таким образом, то, что я хотел бы иметь: 1. Некоторое предложение о том, как создать такой код. 2. И рекомендация для того, как изучить знание, необходимое для выполнения такой задачи.

Спасибо за любую справку,

Tal

10
задан bmargulies 22 October 2012 в 21:05
поделиться

3 ответа

Tal,

Для этого можно использовать R и пакет XML, но (черт возьми) это плохо сформированный HTML, который вы пытаетесь разобрать. На самом деле, в большинстве случаев лучше использовать функцию readHTMLTable(), которая рассматривается в этой предыдущей теме.

Однако, учитывая этот уродливый HTML, нам придется использовать пакет RCurl для получения необработанного HTML и создать несколько пользовательских функций для его разбора. Эта проблема состоит из двух компонентов:

  1. Получите все URL-адреса геномов с базовой веб-страницы (http://gtrnadb.ucsc.edu/) с помощью функции getURLContent() в пакете RCurl и некоторой магии regex :-)
  2. Затем возьмите этот список URL-адресов и соберите данные, которые вы ищете, а затем поместите их в data.frame.

Итак, поехали...

library(RCurl)

### 1) First task is to get all of the web links we will need ##
base_url<-"http://gtrnadb.ucsc.edu/"
base_html<-getURLContent(base_url)[[1]]
links<-strsplit(base_html,"a href=")[[1]]

get_data_url<-function(s) {
    u_split1<-strsplit(s,"/")[[1]][1]
    u_split2<-strsplit(u_split1,'\\"')[[1]][2]
    ifelse(grep("[[:upper:]]",u_split2)==1 & length(strsplit(u_split2,"#")[[1]])<2,return(u_split2),return(NA))
}

# Extract only those element that are relevant
genomes<-unlist(lapply(links,get_data_url))
genomes<-genomes[which(is.na(genomes)==FALSE)]

### 2) Now, scrape the genome data from all of those URLS ###

# This requires two complementary functions that are designed specifically
# for the UCSC website. The first parses the data from a -structs.html page
# and the second collects that data in to a multi-dimensional list
parse_genomes<-function(g) {
    g_split1<-strsplit(g,"\n")[[1]]
    g_split1<-g_split1[2:5]
    # Pull all of the data and stick it in a list
    g_split2<-strsplit(g_split1[1],"\t")[[1]]
    ID<-g_split2[1]                             # Sequence ID
    LEN<-strsplit(g_split2[2],": ")[[1]][2]     # Length
    g_split3<-strsplit(g_split1[2],"\t")[[1]]
    TYPE<-strsplit(g_split3[1],": ")[[1]][2]    # Type
    AC<-strsplit(g_split3[2],": ")[[1]][2]      # Anticodon
    SEQ<-strsplit(g_split1[3],": ")[[1]][2]     # ID
    STR<-strsplit(g_split1[4],": ")[[1]][2]     # String
    return(c(ID,LEN,TYPE,AC,SEQ,STR))
}

# This will be a high dimensional list with all of the data, you can then manipulate as you like
get_structs<-function(u) {
    struct_url<-paste(base_url,u,"/",u,"-structs.html",sep="")
    raw_data<-getURLContent(struct_url)
    s_split1<-strsplit(raw_data,"<PRE>")[[1]]
    all_data<-s_split1[seq(3,length(s_split1))]
    data_list<-lapply(all_data,parse_genomes)
    for (d in 1:length(data_list)) {data_list[[d]]<-append(data_list[[d]],u)}
    return(data_list)
}

# Collect data, manipulate, and create data frame (with slight cleaning)
genomes_list<-lapply(genomes[1:2],get_structs) # Limit to the first two genomes (Bdist & Spurp), a full scrape will take a LONG time
genomes_rows<-unlist(genomes_list,recursive=FALSE) # The recursive=FALSE saves a lot of work, now we can just do a straigh forward manipulation
genome_data<-t(sapply(genomes_rows,rbind))
colnames(genome_data)<-c("ID","LEN","TYPE","AC","SEQ","STR","NAME")
genome_data<-as.data.frame(genome_data)
genome_data<-subset(genome_data,ID!="</PRE>")   # Some malformed web pages produce bad rows, but we can remove them

head(genome_data)

Полученный кадр данных содержит семь столбцов, относящихся к каждой записи генома: ID, длина, тип, последовательность, строка и имя. Колонка "имя" содержит базовый геном, что было моим лучшим предположением для организации данных. Вот как это выглядит:

head(genome_data)
                                   ID   LEN TYPE                           AC                                                                       SEQ
1     Scaffold17302.trna1 (1426-1498) 73 bp  Ala     AGC at 34-36 (1459-1461) AGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTTTTCCA
2   Scaffold20851.trna5 (43038-43110) 73 bp  Ala   AGC at 34-36 (43071-43073) AGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTTCTCCA
3   Scaffold20851.trna8 (45975-46047) 73 bp  Ala   AGC at 34-36 (46008-46010) TGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTTCTCCA
4     Scaffold17302.trna2 (2514-2586) 73 bp  Ala     AGC at 34-36 (2547-2549) GGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACAGGGATCGATGCCCGGGTTCTCCA
5 Scaffold51754.trna5 (253637-253565) 73 bp  Ala AGC at 34-36 (253604-253602) CGGGGGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTCCTCCA
6     Scaffold17302.trna4 (6027-6099) 73 bp  Ala     AGC at 34-36 (6060-6062) GGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGAGTTCTCCA
                                                                        STR  NAME
1 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
2 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
3 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
4 >>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>.>>>.......<<<.<<<<<<<<. Spurp
5 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
6 >>>>>>>..>>>>........<<<<.>>>>>.......<<<<<......>>>>.......<<<<.<<<<<<<. Spurp

Надеюсь, это поможет, и спасибо за забавный воскресный день с R!

17
ответ дан 3 December 2019 в 20:41
поделиться

Интересная проблема, и согласен с тем, что R - это круто, но почему-то я считаю R немного громоздким в этом отношении. Кажется, я предпочитаю сначала получать данные в промежуточной текстовой форме, чтобы иметь возможность проверять правильность данных на каждом этапе ... Если данные готовы в своей окончательной форме или для загрузки ваших данных куда-нибудь, RCurl очень полезный.

Самым простым, на мой взгляд, было бы (в linux / unix / mac / или в cygwin) просто отразить весь сайт http://gtrnadb.ucsc.edu/ (используя wget) и взять файлы с именами / -structs.html, sed или awk - данные, которые вам нужны, и отформатируйте их для чтения в R.

Я уверен, что есть и другие способы.

0
ответ дан 3 December 2019 в 20:41
поделиться

Только что попробовал, используя Mozenda ( http://www.mozenda.com ). Примерно через 10 минут у меня появился агент, который мог очистить данные, как вы описали. Вы можете получить все эти данные, просто используя их бесплатную пробную версию. Кодирование - это весело, если у вас есть время, но похоже, что у вас уже есть готовое решение. Хорошая работа, Дрю.

1
ответ дан 3 December 2019 в 20:41
поделиться
Другие вопросы по тегам:

Похожие вопросы: