Как я могу очистить HTML-таблицу к CSV?

Question

Как я могу очистить HTML-таблицу к CSV?

Здесь вы можете найти все коды формата строки: http://au2.php.net/strftime

In [1]: import datetime

In [2]: today=datetime.date.today()

In [3]: yesterday=today-datetime.timedelta(1)

In [4]: yesterday.strftime('%m%d%y')
Out[4]: '110909'

40

screen-scraping

задан Nathan Long 4 November 2008 в 02:10

7 ответов

Еще легче (потому что это сохраняет его для Вас в следующий раз)...

In Excel

Data/Import Внешние Данные / Новый Веб-запрос

возьмут Вас к подсказке URL. Введите свой URL, и он разграничит доступные таблицы на странице для импорта. Вуаля.

5

ответ дан dkretz 23 September 2019 в 16:37

использование Python:

, например, предполагают, что Вы хотите очистить кавычки Форекса в форме csv от некоторого сайта как: fxquotes

тогда...

from BeautifulSoup import BeautifulSoup
import urllib,string,csv,sys,os
from string import replace

date_s = '&date1=01/01/08'
date_f = '&date=11/10/08'
fx_url = 'http://www.oanda.com/convert/fxhistory?date_fmt=us'
fx_url_end = '&lang=en&margin_fixed=0&format=CSV&redirected=1'
cur1,cur2 = 'USD','AUD'
fx_url = fx_url + date_f + date_s + '&exch=' + cur1 +'&exch2=' + cur1
fx_url = fx_url +'&expr=' + cur2 +  '&expr2=' + cur2 + fx_url_end
data = urllib.urlopen(fx_url).read()
soup = BeautifulSoup(data)
data = str(soup.findAll('pre', limit=1))
data = replace(data,'[<pre>','')
data = replace(data,'</pre>]','')
file_location = '/Users/location_edit_this'
file_name = file_location + 'usd_aus.csv'
file = open(file_name,"w")
file.write(data)
file.close()

<час>

редактирование: получить значения от таблицы: пример от: palewire

from mechanize import Browser
from BeautifulSoup import BeautifulSoup

mech = Browser()

url = "http://www.palewire.com/scrape/albums/2007.html"
page = mech.open(url)

html = page.read()
soup = BeautifulSoup(html)

table = soup.find("table", border=1)

for row in table.findAll('tr')[1:]:
    col = row.findAll('td')

    rank = col[0].string
    artist = col[1].string
    album = col[2].string
    cover_link = col[3].img['src']

    record = (rank, artist, album, cover_link)
    print "|".join(record)

12

ответ дан Thorvaldur 23 September 2019 в 16:37

Быстрый и грязный:

Копия из браузера в Excel, сохраните как CSV.

Лучшее решение (для долгосрочного использования):

Запись немного кода на языке по Вашему выбору, который раскроет содержимые HTML и очистит биты, которые Вы хотите. Вы могли, вероятно, добавить все операции данных (сортировка, усреднение, и т.д.) сверх поиска данных. Тем путем просто необходимо выполнить код, и Вы получаете фактический отчет, что Вы хотите.

Все это зависит от того, как часто Вы будете выполнять эту конкретную задачу.

2

ответ дан James Van Huis 23 September 2019 в 16:37

Excel может открыть http страницу.

, Например:

Нажимают File, имя файла Open
Under, вставляют URL т.е.: , Как я могу очистить HTML-таблицу к CSV?
Нажимают ОК

, Excel прилагает все усилия для преобразования HTML в таблицу.

не самое изящное решение, но действительно работает!

2

ответ дан Community 23 September 2019 в 16:37

Вы попытались открыть его с Excel? При сохранении электронной таблицы в Excel как HTML, Вы будете видеть, что формат превосходит использование. Из веб-приложения я записал, что выложил этот формат HTML, таким образом, пользователь может экспортировать в Excel.

0

ответ дан Will Rickards 23 September 2019 в 16:37

Если Вы - анализ экранных данных и таблица, Вы пытаетесь преобразовать, имеет данный идентификатор, Вы могли всегда делать regex синтаксический анализ HTML наряду с некоторыми сценариями для генерации CSV.

0

ответ дан andy 23 September 2019 в 16:37

Другие вопросы по тегам:

screen-scraping

Как я могу очистить HTML-таблицу к CSV?

7 ответов

Похожие вопросы: