Python как переключаться между узлом дерева и столбцами таблицы

Мне пришлось управлять сценарием, в котором процент дубликатов, предоставленных в новых записях данных, был очень высоким, и было сделано так много тысяч вызовов базы данных для проверки дубликатов (так что ЦП отправил много времени на 100 %). В конце концов я решил сохранить последние 100 000 записей в кэше в памяти. Таким образом, я мог проверить наличие дубликатов в кэшированных записях, которые были чрезвычайно быстрыми по сравнению с запросом LINQ к базе данных SQL, а затем записывать любые действительно новые записи в базу данных (а также добавлять их в кеш данных, что также сортировать и обрезать, чтобы поддерживать его длину).

Обратите внимание, что необработанные данные были CSV-файлом, который содержал много отдельных записей, которые нужно было проанализировать. Записи в каждом последовательном файле (который приходил со скоростью примерно 1 раз в 5 минут) значительно перекрывались, следовательно, высокий процент дубликатов.

Короче говоря, если у вас есть timestamped необработанные данные, в порядке, то использование кеша памяти может помочь с проверкой дублирования записи.

0
задан DMD-OS 19 March 2019 в 08:51
поделиться