Полный HTML не анализируется с BeautifulSoup - это из-за динамического HTML?

Просто соедините векторы (например, с помощью c) и используйте tapply:

v3 <- c(v1, v2)
tapply(v3, names(v3), sum)
# a b c d e 
# 1 2 6 9 4 

Или, для удовольствия (поскольку вы просто делаете sum), продолжая «v3»:

xtabs(v3 ~ names(v3))
# names(v3)
# a b c d e 
# 1 2 6 9 4

Я полагаю, что с «data.table» вы также можете сделать что-то вроде:

library(data.table)
as.data.table(Reduce(c, mget(ls(pattern = "v\\d"))), 
              keep.rownames = TRUE)[, list(V2 = sum(V2)), by = V1]
#    V1 V2
# 1:  a  1
# 2:  b  2
# 3:  c  6
# 4:  d  9
# 5:  e  4

(я разделил последнее не так много для «data.table», но чтобы показать автоматизированный способ захвата интересующих векторов.)

1
задан Ioannes 16 January 2019 в 11:30
поделиться

2 ответа

К вашему сведению (если вы хотите знать основную причину вашей проблемы) цель table имеет недопустимую разметку:

<table class ="tab" cellpadding= "5" ... STYLE="border-spacing: 0px;border-style: line ;
 <tr bgcolor="#DAD5BF"></tr>

Обратите внимание, что начальный тег не закрыт: <table ... (должно быть [ 113]), а также предком является <div>, а закрывающий тег - </p>

. Поэтому BeautifulSoup не распознает это как table и, следовательно, он не возвращается soup.find_all('table')

[ 1116] Однако в современных браузерах есть встроенные инструменты для «исправления» сломанных тегов, и поэтому в браузере table не выглядит «сломанным»: закрытие </div> добавляется к предку div, в то время как тег p превращается в пустой узел <p></p>

0
ответ дан Andersson 16 January 2019 в 11:30
поделиться

Не уверен, почему он не отображается.

Так как это тоже стол, я просто пошел вперед и использовал Панд для .read_html

import pandas as pd

url = 'https://webs.iiitd.edu.in/raghava/antitbpdb/display.php?details=antitb_1001'

tables = pd.read_html(url)
table = tables[-1]

Вывод:

print (table)
                           0                                                  1
0        Primary information                                                NaN
1                         ID                                        antitb_1001
2               Peptide Name                                          Polydim-I
3                   Sequence                             AVAGEKLWLLPHLLKMLLTPTP
4    N-terminal Modification                                               Free
5    C-terminal Modification                                               Free
6      Chemical Modification                                               None
7             Linear/ Cyclic                                             Linear
8                     Length                                                 22
9                  Chirality                                                  L
10                    Nature                                        Amphipathic
11                    Source                                            Natural
12                    Origin  Isolated from the venom of the Neotropical was...
13                   Species         Mycobacterium abscessus subsp. massiliense
14                    Strain  Mycobacterium abscessus subsp. massiliense iso...
15  Inhibition Concentartion                                  MIC = 60.8 μg/mL
16          In vitro/In vivo                                               Both
17                 Cell Line  Peritoneal macrophages, J774 macrophages cells...
18  Inhibition Concentartion  Treatment of infected macrophages with 7.6 μg...
19              Cytotoxicity  Non-cytotoxic, 10% cytotoxicity on J774 cells ...
20             In vivo Model  6 to 8 weeks old BALB/c and IFN-γKO (Knockout...
21               Lethal Dose  2 mg/kg/mLW shows 90% reduction in bacterial load
22           Immune Response                                                NaN
23       Mechanism of Action                               Cell wall disruption
24                    Target                                          Cell wall
25       Combination Therapy                                               None
26          Other Activities                                                NaN
27                 Pubmed ID                                           26930596
28       Year of Publication                                               2016
29             3-D Structure                 View in Jmol or Download Structure
0
ответ дан chitown88 16 January 2019 в 11:30
поделиться
Другие вопросы по тегам:

Похожие вопросы: