Почему производительность выбора данных & ldquo; намного лучше & rdquo; на лексикографически отсортированных кадрах данных? [Дубликат]

Question

Почему производительность выбора данных & ldquo; намного лучше & rdquo; на лексикографически отсортированных кадрах данных? [Дубликат]

Вы можете использовать query, т. е .:

b = df.query('a > 1 & a < 5')

29

python pandas dataframe

задан smci 16 August 2013 в 09:58

1 ответ

Другие вопросы по тегам:

python pandas dataframe

Похожие вопросы:

score 60 · Accepted Answer

Когда индекс уникален, панды используют хэш-таблицу для сопоставления ключа со значением O (1). Когда индекс не является уникальным и сортируется, pandas используют двоичный поиск O (logN), когда индексу случайным упорядоченным pandas необходимо проверить все ключи в индексе O (N).

Вы можете вызвать sort_index:

import numpy as np
import pandas as pd
x = np.random.randint(0, 200, 10**6)
df1 = pd.DataFrame({'x':x})
df2 = df1.set_index('x', drop=False)
df3 = df2.sort_index()
%timeit df1.loc[100]
%timeit df2.loc[100]
%timeit df3.loc[100]

результат:

10000 loops, best of 3: 71.2 µs per loop
10 loops, best of 3: 38.9 ms per loop
10000 loops, best of 3: 134 µs per loop

60

ответ дан kmm 22 August 2018 в 08:46

1

Очень рекомендуемый ответ! Ценить это. – Neerav 3 September 2014 в 21:22
2

Я не понимаю таймингов в конце. df3 должен быть быстрее? – lucid_dreamer 21 August 2018 в 08:44
3

– Max Taggart 17 October 2018 в 21:26
4

– lucid_dreamer 18 October 2018 в 09:55
5

– HYRY 19 October 2018 в 01:26