Как сгруппировать DataFrame по Период времени?

У меня есть некоторые данные из файлов журналов, и я хотел бы сгруппировать записи по минутам:

 def gen(date, count=10):
     while count > 0:
         yield date, "event{}".format(randint(1,9)), "source{}".format(randint(1,3))
         count -= 1
         date += DateOffset(seconds=randint(40))

 df = DataFrame.from_records(list(gen(datetime(2012,1,1,12, 30))), index='Time', columns=['Time', 'Event', 'Source'])

df:

 Event  Source
 2012-01-01 12:30:00     event3  source1
 2012-01-01 12:30:12     event2  source2
 2012-01-01 12:30:12     event2  source2
 2012-01-01 12:30:29     event6  source1
 2012-01-01 12:30:38     event1  source1
 2012-01-01 12:31:05     event4  source2
 2012-01-01 12:31:38     event4  source1
 2012-01-01 12:31:44     event5  source1
 2012-01-01 12:31:48     event5  source2
 2012-01-01 12:32:23     event6  source1

Я пробовал следующие варианты:

  1. df.resample('Min')имеет слишком высокий уровень и требует агрегирования.
  2. df.groupby(date_range(datetime(2012,1,1,12, 30), freq='Min', периоды=4))терпят неудачу с исключением.
  3. df.groupby(TimeGrouper(freq='Min'))работает нормально и возвращает объект DataFrameGroupByдля дальнейшей обработки, например:

    grouped = df.groupby(TimeGrouper(freq ='Мин'))
    grouped.Source.value_counts()
    01.01.2012 12:30:00 источник1 1
    01.01.2012, 12:31:00 источник2 2
    источник1 2
    01.01.2012, 12:32:00 источник2 2
    источник1 2
    01.01.2012 12:33:00 источник1 1
    

Однакокласс TimeGrouperне задокументирован.

Как правильно группировать по периоду времени? Как я могу сгруппировать данные по минутам И по столбцу Источник, например. groupby([TimeGrouper(freq='Min'), df.Source])?

44
задан Gabriel 16 June 2017 в 18:48
поделиться