Я наткнулся на pandas, и он выглядит идеально для простых расчеты, которые я хотел бы сделать. У меня есть опыт работы с SAS, и я думал, что он заменит proc freq — похоже, он масштабируется до того, что я, возможно, захочу делать в будущем. Тем не менее, я просто не могу понять простую задачу (я не уверен, должен ли я смотреть на pivot/crosstab/indexing
- должен ли я иметь Панель
или DataFrames
и т. д.). Может ли кто-нибудь дать мне несколько советов о том, как сделать следующее:
У меня есть два файла CSV (один за 2010 год, один за 2011 год — простые данные о транзакциях) — столбцы — это категория и сумма
2010:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011:
AB,500.00
AC,250.00
AX,900.00
Они загружаются в отдельные объекты DataFrame.
Я хотел бы получить категорию, сумму категории и частоту категории, например:
2010:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011:
AB,500.00,1
AC,250.00,1
AX,900.00,1
Я не могу решить, является ли Я должен использовать pivot/crosstab/groupby/index
и т. д... Я могу получить либо сумму, либо частоту - я не могу получить и то, и другое... Это становится немного сложнее, потому что я хотел бы делать это ежемесячно, но я думаю, что если кто-то был бы так любезен указать мне правильную технику/направление, в котором я смогу двигаться дальше.