Проверьте равенство нескольких столбцов в Pandas DataFrame [дубликат]

задан A.L 28 March 2014 в 02:32

4 ответа

Я думаю, что самый чистый способ - проверить все столбцы на первый столбец, используя eq:

In [11]: df
   a  b  c  d
0  C  C  C  C
1  C  C  A  A
2  A  A  A  A

In [12]: df.iloc[:, 0]
0    C
1    C
2    A
Name: a, dtype: object

In [13]: df.eq(df.iloc[:, 0], axis=0)
      a     b      c      d
0  True  True   True   True
1  True  True  False  False
2  True  True   True   True

Теперь вы можете использовать все (если все они равны первому элементу, все они равны ):

In [14]: df.eq(df.iloc[:, 0], axis=0).all(1)
0     True
1    False
2     True
dtype: bool
ответ дан Andy Hayden 21 August 2018 в 00:58
  • 1
    Это кажется мне самым интуитивным и я, как и я. Благодарю. – Lisa L 29 March 2014 в 06:29

Сравнить array по первому столбцу и проверить, все ли True s для строки:

То же решение в numpy для лучшей производительности:

a = df.values
b = (a == a[:, [0]]).all(axis=1)
print (b)
[ True  True False]

И при необходимости Series:

s = pd.Series(b, axis=df.index)

Сравнение решений:

data = [[10,10,10],[12,12,12],[10,12,10]]
df = pd.DataFrame(data,columns=['Col1','Col2','Col3'])

#[30000 rows x 3 columns]
df = pd.concat([df] * 10000, ignore_index=True)

#jez - numpy array
In [14]: %%timeit
    ...: a = df.values
    ...: b = (a == a[:, [0]]).all(axis=1)
141 µs ± 3.23 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

#jez - Series 
In [15]: %%timeit
    ...: a = df.values
    ...: b = (a == a[:, [0]]).all(axis=1)
    ...: pd.Series(b, index=df.index)
169 µs ± 2.02 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

#Andy Hayden
In [16]: %%timeit
    ...: df.eq(df.iloc[:, 0], axis=0).all(axis=1)
2.22 ms ± 68.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [17]: %%timeit
    ...: list(map(lambda x : len(set(x))==1,df.values))
56.8 ms ± 1.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

#K.-Michael Aye
In [18]: %%timeit
    ...: df.apply(lambda x: len(set(x)) == 1, axis=1)
686 ms ± 23.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [19]: %%timeit
    ...: df.nunique(1).eq(1)
2.87 s ± 115 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
ответ дан jezrael 21 August 2018 в 00:58
df = pd.DataFrame.from_dict({'a':'C C A'.split(),
                        'b':'C C A'.split(),
                        'c':'C A A'.split(),
                        'd':'C A A'.split()})
df.apply(lambda x: len(set(x)) == 1, axis=1)
0     True
1    False
2     True
dtype: bool

Объяснение: set (x) имеет только 1 элемент, если все элементы строки одинаковы. Опция оси = 1 применяет любую заданную функцию к строкам.

ответ дан K.-Michael Aye 21 August 2018 в 00:58

nunique: Новое в версии 0.20.0. (Базовая установка benchmark из Jez, если производительность не важна, вы можете использовать этот)

df.nunique(axis = 1).eq(1)
0     True
1    False
2     True
dtype: bool

Или вы можете использовать map с set

list(map(lambda x : len(set(x))==1,df.values))
ответ дан Wen 21 August 2018 в 00:58
