Как истечь состояние dropDuplicates в структурированной потоковой передаче с помощью оконной функции в Java, чтобы избежать OOM?

Это немного противоречит философии Пандса, которая, похоже, видит Series как одномерную структуру данных. Поэтому вам нужно создать Series вручную, сказать им, что у них есть тип данных "object". Это означает, что не применяются автоматические преобразования данных.

Вы можете сделать это так (переупорядоченный сеанс Ipython):

In [9]: import pandas as pd

In [1]: point = {'x': array(-0.47652306228698005),
   ...:          'y': array([[-0.41809043],
   ...:                      [ 0.48407823]])}

In [2]: points = 10 * [ point]

In [5]: lx = [p["x"] for p in points]

In [7]: ly = [p["y"] for p in points]

In [40]: sx = pd.Series(lx, dtype=numpy.dtype("object"))

In [38]: sy = pd.Series(ly, dtype=numpy.dtype("object"))

In [43]: df = pd.DataFrame({"x":sx, "y":sy})

In [45]: df['x'][1].shape
Out[45]: ()

In [46]: df['y'][1].shape
Out[46]: (2, 1)
0
задан Laura Stockinger 17 January 2019 в 07:42
поделиться