Запись большого списка в dataframe [дубликат]

NB: Если идея не очевидна, это плохая идея использовать псевдонимы для чего угодно, кроме псевдонимов, первая из которых является «функцией в псевдониме», а вторая - «трудно читаемой переадресацией / источник'. Кроме того, есть недостатки (которые, по мнению i , были очевидны, но на всякий случай вы сбиты с толку: я не хочу, чтобы они действительно использовались ... где угодно!) [/ ​​G2]

.................................................. .................................................. ............................................

Я уже говорил об этом раньше, и в прошлом это всегда было так:

alias foo='__foo() { unset -f $0; echo "arg1 for foo=$1"; }; __foo()'

, что прекрасно и хорошо, если только вы не избегаете использования функций вместе. в этом случае вы можете воспользоваться огромной способностью bash перенаправлять текст:

alias bar='cat <<< '\''echo arg1 for bar=$1'\'' | source /dev/stdin'

Они оба примерно одинаковой длины дают или принимают несколько символов.

real кикер - это разница во времени, верхняя часть - это «метод функции», а нижняя - метод «перенаправление-источник». Чтобы доказать эту теорию, время говорит само за себя:

arg1 for foo=FOOVALUE
 real 0m0.011s user 0m0.004s sys 0m0.008s  # <--time spent in foo
 real 0m0.000s user 0m0.000s sys 0m0.000s  # <--time spent in bar
arg1 for bar=BARVALUE
ubuntu@localhost /usr/bin# time foo FOOVALUE; time bar BARVALUE
arg1 for foo=FOOVALUE
 real 0m0.010s user 0m0.004s sys 0m0.004s
 real 0m0.000s user 0m0.000s sys 0m0.000s
arg1 for bar=BARVALUE
ubuntu@localhost /usr/bin# time foo FOOVALUE; time bar BARVALUE
arg1 for foo=FOOVALUE
 real 0m0.011s user 0m0.000s sys 0m0.012s
 real 0m0.000s user 0m0.000s sys 0m0.000s
arg1 for bar=BARVALUE
ubuntu@localhost /usr/bin# time foo FOOVALUE; time bar BARVALUE
arg1 for foo=FOOVALUE
 real 0m0.012s user 0m0.004s sys 0m0.004s
 real 0m0.000s user 0m0.000s sys 0m0.000s
arg1 for bar=BARVALUE
ubuntu@localhost /usr/bin# time foo FOOVALUE; time bar BARVALUE
arg1 for foo=FOOVALUE
 real 0m0.010s user 0m0.008s sys 0m0.004s
 real 0m0.000s user 0m0.000s sys 0m0.000s
arg1 for bar=BARVALUE

Это нижняя часть около 200 результатов, выполненных с произвольными интервалами. Кажется, что создание / уничтожение функции занимает больше времени, чем перенаправление. Надеюсь, это поможет будущим посетителям в этом вопросе (не хотел держать это в себе).

117
задан 26 December 2012 в 09:43
поделиться

7 ответов

Встроенный CSV-модуль Python может легко справиться с этим:

import csv

with open("output.csv", "wb") as f:
    writer = csv.writer(f)
    writer.writerows(a)

Это предполагает, что ваш список определен как a, как и в вашем вопросе. Вы можете настроить точный формат выходного CSV с помощью различных необязательных параметров на csv.writer(), как описано на странице ссылки на библиотеку, приведенной выше.

216
ответ дан Amber 21 August 2018 в 02:51
поделиться
  • 1
    Для совместимости с Python 3 удалите & quot; b & quot; от "wb". – Vlad V 14 May 2015 в 11:54
  • 2
    С Python 3 - open ('output.csv', 'w', newline = ''). Я получаю дополнительную строку, если я опускаю параметр новой строки. docs.python.org/3/library/csv.html#csv.writer – Spas 2 July 2015 в 15:50
  • 3
    В python3 мне пришлось использовать open ('output.csv', 'w', newline = & quot; & quot;) – Tim Mottram 6 April 2017 в 09:25
  • 4
    WOW, что ошибка python 3 очень бесполезна. Спасибо @vladV (необходим байтовый объект, а не «str»). Это имеет смысл в ретроспективе, но не информативно, где смотреть на все. – Rambatino 25 May 2018 в 07:30

Вы можете использовать pandas:

In [1]: import pandas as pd

In [2]: a = [[1.2,'abc',3],[1.2,'werew',4],[1.4,'qew',2]]

In [3]: my_df = pd.DataFrame(a)

In [4]: my_df.to_csv('my_csv.csv', index=False, header=False)
20
ответ дан Akavall 21 August 2018 в 02:51
поделиться
  • 1
    Я не думаю, что следует использовать pandas, если встроенная библиотека csv может это сделать. – Simin Jie 28 September 2017 в 02:19
  • 2
    Мне нравятся панды, потому что – dorbodwolf 10 December 2017 в 14:24

Обязательно укажите lineterinator='\n' при создании записи; в противном случае лишняя пустая строка может быть записана в файл после каждой строки данных, когда источники данных из другого файла csv ...

Вот мое решение:

with open('csvfile', 'a') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter='    ',quotechar='|', quoting=csv.QUOTE_MINIMAL, lineterminator='\n')
for i in range(0, len(data)):
    spamwriter.writerow(data[i])
0
ответ дан JonasCz 21 August 2018 в 02:51
поделиться
import csv
with open(file_path, 'a') as outcsv:   
    #configure writer to write standard csv file
    writer = csv.writer(outcsv, delimiter=',', quotechar='|', quoting=csv.QUOTE_MINIMAL, lineterminator='\n')
    writer.writerow(['number', 'text', 'number'])
    for item in list:
        #Write item to outcsv
        writer.writerow([item[0], item[1], item[2]])

Официальные документы: http://docs.python.org/2/library/csv.html

23
ответ дан Mike H-R 21 August 2018 в 02:51
поделиться
  • 1
    Это получило бы мой +1, если бы вы могли объяснить свой ответ некоторыми комментариями. – Burhan Khalid 26 December 2012 в 09:50
  • 2
    writerow не принимает несколько аргументов. – Amber 26 December 2012 в 09:51
  • 3
    @Amber writerow отлично работает с несколькими аргументами – Dmitry Zagorulkin 26 December 2012 в 09:55
  • 4
    & GT; & GT; & GT; w.writerow («a», «b», «c») Traceback (последний последний последний вызов): «Файл» и «ltdin»), строка 1, в модуле & gt; TypeError: writow () принимает ровно один аргумент (3) – Amber 26 December 2012 в 11:26
  • 5
    @Amber извините меня. я скучал [] – Dmitry Zagorulkin 26 December 2012 в 11:32

Решение Ambers также хорошо работает для массивов numpy:

from pylab import *
import csv

array_=arange(0,10,1)
list_=[array_,array_*2,array_*3]
with open("output.csv", "wb") as f:
    writer = csv.writer(f)
    writer.writerows(list_)
2
ответ дан Semjon Mössinger 21 August 2018 в 02:51
поделиться

Если по какой-либо причине вы хотели сделать это вручную (без использования модуля, такого как csv, pandas, numpy и т. д.):

with open('myfile.csv','w') as f:
    for sublist in mylist:
        for item in sublist:
            f.write(item + ',')
        f.write('\n')

Конечно, версия может быть подвержена ошибкам и неэффективна ... обычно для этого есть модуль. Но иногда писать свои собственные могут помочь вам понять, как они работают, а иногда просто проще.

3
ответ дан tegan 21 August 2018 в 02:51
поделиться

Использование csv.writer в моем очень большом списке заняло довольно много времени. Я решил использовать панды, это было быстрее и легче контролировать и понимать:

 import pandas

 yourlist = [[...],...,[...]]
 pd = pandas.DataFrame(yourlist)
 pd.to_csv("mylist.csv")

Хорошая часть, которую вы можете изменить, чтобы создать лучший файл csv:

 yourlist = [[...],...,[...]]
 columns = ["abcd","bcde","cdef"] #a csv with 3 columns
 index = [i[0] for i in yourlist] #first element of every list in yourlist
 not_index_list = [i[1:] for i in yourlist]
 pd = pandas.DataFrame(not_index_list, columns = columns, index = index)

 #Now you have a csv with columns and index:
 pd.to_csv("mylist.csv")
5
ответ дан Tiny Giant 21 August 2018 в 02:51
поделиться
Другие вопросы по тегам:

Похожие вопросы: