Как объединить кадры данных временных рядов, 15 минут и 10 минут, в 30 минут

from urllib.request import urlopen, Request

urlopen(Request(url, headers={'User-Agent': 'Mozilla'}))
0
задан deku 29 March 2019 в 10:17
поделиться

1 ответ

Чтобы избежать каких-либо проблем, которые могут остаться незамеченными во время агрегации, я бы рекомендовал сначала перевести столбец времени в фактические даты. Тогда это простая группа по операции, которую вы ищете.

Вот мое предложение:

Загрузить данные:

a = '''TIME    LEVELS_A
0   0   0
1   900 0
2   1800    0
3   2700    0
4   3600    0
5   4500    0
'''
b = '''TIME    LEVELS_B
0   0   2.16
1   600 2.16
2   1200    2.12
3   1800    1.989382667
4   2400    1.989382667
5   3000    1.989382667
'''

df_a = pd.DataFrame.from_csv(io.StringIO(a), sep='\s+')
df_b = pd.DataFrame.from_csv(io.StringIO(b), sep='\s+')

Решение

import datetime as dt
import pandas as pd

reference_date = dt.datetime(2019,1,1) # Arbitrary date used for reference
df_a.index = reference_date + df_a['TIME'].astype('timedelta64[s]')
df_b.index = reference_date + df_b['TIME'].astype('timedelta64[s]')

new_a = df_a['LEVELS_A'].groupby(pd.TimeGrouper(freq='30T')).apply(lambda x: x.tolist())
new_b = df_b['LEVELS_B'].groupby(pd.TimeGrouper(freq='30T')).apply(lambda x: x.tolist())

merged_df = pd.concat({'LEVELS_A': new_a, 'LEVELS_B': new_b}, axis = 1, sort=True)

merged_df.index = (merged_df.index - reference_date).seconds # Return to original Time format

Выход:

       LEVELS_A     LEVELS_B
0       [0, 0]     [2.16, 2.16, 2.12]
1800    [0, 0]     [1.989, 1.989, 1.989]
3600    [0, 0]     NaN
[ 1110] Sidenote:

Если все, что вам нужно, это максимальный элемент в каждом списке, добавьте следующее.

merged_df.applymap(lambda x: max(x) if isinstance(x, list) else np.nan)

Вывод:

    LEVELS_A    LEVELS_B    
0       0       2.160000
1800    0       1.989383
3600    0       NaN
0
ответ дан ecortazar 29 March 2019 в 10:17
поделиться
Другие вопросы по тегам:

Похожие вопросы: