как выполнить операцию над dataframe [duplicate]

Когда вы объявляете ссылочную переменную (т. е. объект), вы действительно создаете указатель на объект. Рассмотрим следующий код, в котором вы объявляете переменную примитивного типа int:

int x;
x = 10;

В этом примере переменная x является int, и Java инициализирует ее для 0. Когда вы назначаете его 10 во второй строке, ваше значение 10 записывается в ячейку памяти, на которую указывает x.

Но когда вы пытаетесь объявить ссылочный тип, произойдет что-то другое. Возьмите следующий код:

Integer num;
num = new Integer(10);

Первая строка объявляет переменную с именем num, но она не содержит примитивного значения. Вместо этого он содержит указатель (потому что тип Integer является ссылочным типом). Поскольку вы еще не указали, что указать на Java, он устанавливает значение null, что означает «Я ничего не указываю».

Во второй строке ключевое слово new используется для создания экземпляра (или создания ) объекту типа Integer и переменной указателя num присваивается этот объект. Теперь вы можете ссылаться на объект, используя оператор разыменования . (точка).

Exception, о котором вы просили, возникает, когда вы объявляете переменную, но не создавали объект. Если вы попытаетесь разыменовать num. Перед созданием объекта вы получите NullPointerException. В самых тривиальных случаях компилятор поймает проблему и сообщит вам, что «num не может быть инициализирован», но иногда вы пишете код, который непосредственно не создает объект.

Например, вы можете имеют следующий метод:

public void doSomething(SomeObject obj) {
   //do something to obj
}

В этом случае вы не создаете объект obj, скорее предполагая, что он был создан до вызова метода doSomething. К сожалению, этот метод можно вызвать следующим образом:

doSomething(null);

В этом случае obj имеет значение null. Если метод предназначен для того, чтобы что-то сделать для переданного объекта, целесообразно бросить NullPointerException, потому что это ошибка программиста, и программисту понадобится эта информация для целей отладки.

Альтернативно, там могут быть случаи, когда цель метода заключается не только в том, чтобы работать с переданным в объекте, и поэтому нулевой параметр может быть приемлемым. В этом случае вам нужно будет проверить нулевой параметр и вести себя по-другому. Вы также должны объяснить это в документации. Например, doSomething может быть записано как:

/**
  * @param obj An optional foo for ____. May be null, in which case 
  *  the result will be ____.
  */
public void doSomething(SomeObject obj) {
    if(obj != null) {
       //do something
    } else {
       //do something else
    }
}

Наконец, Как определить исключение & amp; причина использования Трассировки стека

107
задан Abhishek Thakur 6 March 2014 в 10:31
поделиться

4 ответа

Вы можете сделать это, используя groupby для группировки в интересующей колонке, а затем apply list для каждой группы:

In [1]:
# create the dataframe    
df = pd.DataFrame( {'a':['A','A','B','B','B','C'], 'b':[1,2,5,5,4,6]})
df
Out[1]:
   a  b
0  A  1
1  A  2
2  B  5
3  B  5
4  B  4
5  C  6

[6 rows x 2 columns]

In [76]:
df.groupby('a')['b'].apply(list)

Out[76]:
a
A       [1, 2]
B    [5, 5, 4]
C          [6]
Name: b, dtype: object
147
ответ дан EdChum 18 August 2018 в 21:01
поделиться
  • 1
    Это занимает много времени, если набор данных огромен, скажем, 10 миллионов строк. Есть ли более быстрый способ сделать это? Число uniques в 'a', однако, составляет около 500 тыс. – Abhishek Thakur 6 March 2014 в 13:12
  • 2
    groupby, как известно, медленный и голодный голод, что вы можете сделать, это сортировать по столбцу A, а затем найти idxmin и idxmax (возможно, сохранить это в dict) и использовать это, чтобы нарезать ваш фреймворк будет быстрее, я думаю – EdChum 6 March 2014 в 13:32
  • 3
    @AbhishekThakur на самом деле это не сработает, так как idxmin не будет работать для строк, вам нужно будет сохранить значения начального и конечного индексов – EdChum 6 March 2014 в 13:40
  • 4
    Если я что-то не пропустил (еще не утренний кофе), вы делаете отдельный groupby для каждой строки. – DSM 6 March 2014 в 14:21
  • 5
    Когда я попробовал это решение с моей проблемой (имея несколько столбцов для groupBy и для группировки), это не сработало - pandas sent «Функция не уменьшает». Затем я использовал tuple после второго ответа здесь: stackoverflow.com/questions/19530568/… . См. Второй ответ в stackoverflow.com/questions/27439023/… для объяснения. – Andarin 24 June 2016 в 10:54

Как вы говорили, метод groupby объекта pd.DataFrame может выполнять задание.

Пример

 L = ['A','A','B','B','B','C']
 N = [1,2,5,5,4,6]

 import pandas as pd
 df = pd.DataFrame(zip(L,N),columns = list('LN'))


 groups = df.groupby(df.L)

 groups.groups
      {'A': [0, 1], 'B': [2, 3, 4], 'C': [5]}

, который дает и индексное описание групп.

Чтобы получить элементы отдельных групп, вы можете сделать, например

 groups.get_group('A')

     L  N
  0  A  1
  1  A  2

  groups.get_group('B')

     L  N
  2  B  5
  3  B  5
  4  B  4
8
ответ дан Acorbe 18 August 2018 в 21:01
поделиться

Если производительность важна, переходите к уровню numpy:

import numpy as np

df = pd.DataFrame( {'a':np.random.randint(0,60,600), 'b':[1,2,5,5,4,6]*100})

def f(df):
         keys,values=df.sort_values('a').values.T
         ukeys,index=np.unique(keys,True)
         arrays=np.split(values,index[1:])
         df2=pd.DataFrame({'a':ukeys,'b':[list(a) for a in arrays]})
         return df2

Тесты:

In [301]: %timeit f(df)
1000 loops, best of 3: 1.64 ms per loop

In [302]: %timeit df.groupby('a')['b'].apply(list)
100 loops, best of 3: 5.26 ms per loop
16
ответ дан danday74 18 August 2018 в 21:01
поделиться
1
ответ дан Anamika Modi 30 October 2018 в 09:04
поделиться
Другие вопросы по тегам:

Похожие вопросы: