Более эффективный способ считать пересечения?

Question

Более эффективный способ считать пересечения?

У меня есть список 300 000 списков (оптоволоконные дорожки), где каждая дорожка является списком (x, y, z) кортежи/координаты:

tracks=
[[(1,2,3),(3,2,4),...]
 [(4,2,1),(5,7,3),...]
 ...
]

У меня также есть группа масок, где каждая маска определяется как список (x, y, z) кортежи/координаты:

mask_coords_list=
[[(1,2,3),(8,13,4),...]
 [(6,2,2),(5,7,3),...]
 ...
]

Я пытаюсь найти для всех возможных пар масок:

количество дорожек, которые пересекают каждую пару маски маски (для создания матрицы смежности)
подмножество дорожек, которые пересекают каждую маску, чтобы добавить 1 к каждому (x, y, z) координата для каждой дорожки в подмножестве (для создания изображения "плотности")

Я в настоящее время делаю часть 1 как так:

def mask_connectivity_matrix(tracks,masks,masks_coords_list):
    connect_mat=zeros((len(masks),len(masks)))
    for track in tracks:
        cur=[]
        for count,mask_coords in enumerate(masks_coords_list):
            if any(set(track) & set(mask_coords)):
                cur.append(count)
            for x,y in list(itertools.combinations(cur,2)):
                connect_mat[x,y] += 1

и часть 2 как так:

def mask_tracks(tracks,masks,masks_coords_list):
    vox_tracks_img=zeros((xdim,ydim,zdim,len(masks)))
    for track in tracks:
        for count,mask in enumerate(masks_coords_list):
            if any(set(track) & set(mask)):
                for x,y,z in track:
                    vox_tracks_img[x,y,z,count] += 1

Используя наборы для нахождения пересечений значительно ускорил этот процесс, но обе части все еще принимают час, когда у меня есть список 70 или больше масок. Существует ли более эффективный способ сделать это, чем итерация для каждой дорожки?

5

python algorithm set

задан McPherrinM 15 December 2009 в 22:26

6 ответов

Хорошо, я думаю, что наконец-то у меня есть кое-что, что снизит сложность. Этот код должен действительно летать по сравнению с тем, что у вас есть.

Похоже, сначала вам нужно узнать, какие треки совпадают с какими масками, матрица инцидентности .

import numpy
from collections import defaultdict

def by_point(sets):
    d = defaultdict(list)
    for i, s in enumerate(sets):
        for pt in s:
            d[pt].append(i)
    return d

def calc(xdim, ydim, zdim, mask_coords_list, tracks):
    masks_by_point = by_point(mask_coords_list)
    tracks_by_point = by_point(tracks)

    a = numpy.zeros((len(mask_coords_list), len(tracks)), dtype=int)
    for pt, maskids in masks_by_point.iteritems():
        for trackid in tracks_by_point.get(pt, ()):
            a[maskids, trackid] = 1
    m = numpy.matrix(a)

Матрица смежности , который вы ищете, это m * mT .

Код, который у вас есть, вычисляет только верхний треугольник. Вы можете использовать triu , чтобы захватить только эту половину.

    am = m * m.T  # calculate adjacency matrix
    am = numpy.triu(am, 1)  # keep only upper triangle
    am = am.A  # convert matrix back to array

При вычислении вокселей также можно использовать матрицу инцидентности.

    vox_tracks_img = numpy.zeros((xdim, ydim, zdim, len(mask_coords_list)), dtype=int)
    for trackid, track in enumerate(tracks):
        for x, y, z in track:
            vox_tracks_img[x, y, z, :] += a[:,trackid]
    return am, vox_tracks_img

Для меня это занимает менее секунды для наборов данных, содержащих сотни масок и треков.

1