Сравните 2 большие таблицы данных (70 тыс. Записей)

Предполагая, что объект действительно является numpy массивом, он известен как расширенная индексация и выбирает указанные столбцы:

>>> import numpy as np
>>> a = np.arange(12).reshape(3,4)
>>> a
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>> a[:, [1,2,3]]
array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])
>>> a[:, [1,3]]
array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

Обратите внимание, что это выиграло Не работайте со стандартным списком Python:

>>> a.tolist()
[[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]]
>>> a.tolist()[:,[1,2,3]]
Traceback (most recent call last):
  File "", line 1, in 
    a.tolist()[:,[1,2,3]]
TypeError: list indices must be integers, not tuple

0
задан JohnB 17 January 2019 в 06:55
поделиться

1 ответ

Вам нужно профилировать приложение, чтобы найти, что именно медленно: перебирая столбцы и сравнивая значения или находя совпадающие записи (строки), которые необходимо сравнить.

Что касается записи, решение может быть преобразовать таблицу в словарь. Это работает, если в ваших таблицах есть уникальный столбец, тогда вы можете преобразовать их в словарь, где ключ - это уникальное значение столбца для записи, а значение - целая строка. Затем выполните итерацию первого DataTable, получите уникальное значение столбца и получите строку из 2nd Datatable, но из словаря.

Если проблема заключается в сравнении двух строк, то лучше показать код, который можно увидеть, возможно, есть дополнительные сравнения или приведение. Трудно сказать без кода.

0
ответ дан dlxeon 17 January 2019 в 06:55
поделиться
Другие вопросы по тегам:

Похожие вопросы: