Простая кросс-табуляция в pandas

Я наткнулся на pandas, и он выглядит идеально для простых расчеты, которые я хотел бы сделать. У меня есть опыт работы с SAS, и я думал, что он заменит proc freq — похоже, он масштабируется до того, что я, возможно, захочу делать в будущем. Тем не менее, я просто не могу понять простую задачу (я не уверен, должен ли я смотреть на pivot/crosstab/indexing - должен ли я иметь Панель или DataFrames и т. д.). Может ли кто-нибудь дать мне несколько советов о том, как сделать следующее:

У меня есть два файла CSV (один за 2010 год, один за 2011 год — простые данные о транзакциях) — столбцы — это категория и сумма

2010:

AB,100.00
AB,200.00
AC,150.00
AD,500.00

2011:

AB,500.00
AC,250.00
AX,900.00

Они загружаются в отдельные объекты DataFrame.

Я хотел бы получить категорию, сумму категории и частоту категории, например:

2010:

AB,300.00,2
AC,150.00,1
AD,500.00,1

2011:

AB,500.00,1
AC,250.00,1
AX,900.00,1

Я не могу решить, является ли Я должен использовать pivot/crosstab/groupby/index и т. д... Я могу получить либо сумму, либо частоту - я не могу получить и то, и другое... Это становится немного сложнее, потому что я хотел бы делать это ежемесячно, но я думаю, что если кто-то был бы так любезен указать мне правильную технику/направление, в котором я смогу двигаться дальше.

23
задан cs95 30 December 2017 в 10:17
поделиться