1
ответ

Существует ли способ отфильтровать django queryset на основе строкового подобия (а-ля Python difflib)?

У меня есть потребность соответствовать холоду, ведет против базы данных наших клиентов. Приведение, прибывшее от стороннего поставщика оптом (тысячи записей) и продажи, спрашивает нас к (в их словах), "отфильтровывают...
вопрос задан: 23 May 2017 11:45
1
ответ

Вычислить сходство между предложениями с помощью Spark [duplicate]

У меня есть следующий ввод для моей задачи: - ID - & gt; Список слов (101 - & gt; Массив («a1», «b2», «c4», «d2»)) (102 - & gt; Array («a6», «b1», «c5», «d3») ) (103 - & gt; Array ("a1", "b4", "c4", "d2")) (...
вопрос задан: 12 May 2017 13:14
1
ответ

о подобии косинуса

Я нахожу подобие косинуса между документами.. Я сделал это как этот D1 = (8,0,0,1), где 8,0,0,1 tf-idf множество условий t1, t2, t3, t4 D2 = (7,0,0,1) because(тета), = (56 + 0 + 0 + 1)/...
вопрос задан: 19 February 2015 13:06
1
ответ

Как соответствовать и отсортировать по подобию в MySQL?

В настоящее время я делаю поисковую функцию. Позволяет говорят в моей базе данных, у меня есть эти данные: Ключ Keyword1 Keyword2 Keyword3 Keysomething и пользователь вводятся: "Ключ" как ключевое слово для поиска. Это - мой...
вопрос задан: 18 February 2015 08:24
1
ответ

Совместная Фильтрация: неперсонализированное подобие от объекта к объекту

Я пытаюсь вычислить подобие от объекта к объекту вроде "Клиентов Amazon, которые просмотрели/купили X, также просмотрели/купили Y и Z". Все примеры и ссылки, которые я видел, для...
вопрос задан: 9 December 2013 05:19
1
ответ

Подобие косинуса

Я вычислил tf/idf значения двух документов. Следующее является значениями tf/idf: 1.txt 0.0 0.5 2.txt 0.0 0.5 документы похожи: 1.txt => кошка собаку 2.txt => слон кошки, Как я могу использовать...
вопрос задан: 14 August 2013 21:12
1
ответ

получите подобие косинуса между двумя документами в lucene

я создал индекс в Lucene. Я хочу, не указывая запрос, только для получения счета (подобие косинуса или другое расстояние?) между двумя документами в индексе. Например, я добираюсь от...
вопрос задан: 14 July 2011 22:32
1
ответ

Очень быстрое подобие документа

Я пытаюсь определить подобие документа между единым документом и каждым большим количеством документов (n ~ = 1 миллион) как можно быстрее. Строго говоря, документы я выдерживаю сравнение...
вопрос задан: 13 May 2010 18:23
0
ответов

Анализировать текст (лемматизация, редактировать расстояние)

Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет много форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «...
вопрос задан: 7 July 2019 14:27
0
ответов

Проверка изображений на сходство с OpenCV

Поддерживает ли OpenCV сравнение двух изображений, возвращая некоторое значение (возможно, в процентах), которое указывает, насколько похожи эти изображения? Например. 100% будет возвращено, если одно и то же изображение было передано дважды, ...
вопрос задан: 22 May 2019 11:40
0
ответов

Эффективный способ найти подобный набор в списке наборов

У меня есть массив наборов, который может быть очень большого размера, содержащий наборы или кортежи из 3 чисел от 0 до 1. Моя цель - найти, какой из них наиболее похож на новый данный набор, сходство ...
вопрос задан: 17 January 2019 00:37
0
ответов

Как рассчитать меру сходства расстояний для данных двух строк?

Мне нужно вычислить сходство между двумя строками. Итак, что именно нужно делать Я имею в виду? Позвольте мне объяснить на примере: Настоящее слово: больница. Ошибочное слово: haspita Теперь моя цель - определить, сколько ...
вопрос задан: 8 February 2018 17:15
0
ответов

Какой алгоритм хеширования следует использовать для сравнения фрагментов текста?

У меня есть большое количество фрагментов текста, которые мне нужно сравнить между собой, чтобы проверить, похожи они или нет. Каждый кусок составляет около 10000 слов. Следовательно, я предварительно вычислю хеш ...
вопрос задан: 14 August 2017 10:27
0
ответов

Алгоритм сходства текста Javascript

Я создаю веб-сайт, который должен собирать различные новостные ленты и хотел бы, чтобы тексты были сравнил на сходство. Мне нужен какой-то алгоритм подобия текста новостей. Я знаю, что php ...
вопрос задан: 1 August 2017 16:18
0
ответов

Сходство / расстояние цветов в цветовом пространстве RGBA

Как вычислить сходство между двумя цветами в цветовом пространстве RGBA? (где цвет фона, конечно, неизвестен) Мне нужно переназначить изображение RGBA в палитру цветов RGBA, найдя лучший ...
вопрос задан: 23 May 2017 12:09
0
ответов

Обратный процесс стемминга

Я использую анализатор lucene snowball для выполнения стемминга. В результате не получается осмысленных слов. Я обратился к этому вопросу. Одним из решений является использование базы данных, которая содержит карту между ...
вопрос задан: 23 May 2017 12:06
0
ответов

Анализ имён n-грамм на не-английских языках (CJK и т.д.)

Я работаю над дедупликацией базы данных людей. Для первого прохода я следую основному 2-этапному процессу, чтобы избежать операции O(n^2)по всей базе данных, как описано в литературе. Во-первых, я "...
вопрос задан: 23 May 2017 11:49
0
ответов

Эффективная кластеризация матрицы подобия

моя тема — сходство и кластеризация (группы)текста(s). В двух словах:я хочу сгруппировать собранные тексты вместе, и они должны появиться в осмысленных кластерах в конце. Для этого моя...
вопрос задан: 23 May 2017 10:33
0
ответов

Сравнение наборов 2D-данных / диаграмм рассеяния

У меня есть 2000 наборов данных, каждый из которых содержит немногим более 1000 2D-переменных. Я хочу сгруппировать эти наборы данных в любую из 20-100 кластеров на основе сходства. Однако у меня проблемы ...
вопрос задан: 23 May 2017 10:32
0
ответов

Найти похожие изображения в (чистом )PHP/MySQL

Мои пользователи загружают изображения на мой веб-сайт, и я хотел бы сначала предложить им уже загруженные изображения. Моя идея состоит в том, чтобы 1. создать своего рода "хэш" изображения каждого существующего изображения 2. создать...
вопрос задан: 28 April 2017 07:00
0
ответов

PostgreSQL, триграммы и сходство

Просто тестирую PostgreSQL 9.6.2 на моем Mac и играю с Ngrams. Предполагая, что есть индекс триграммы GIN на поле винодельни. Предел сходства (я знаю, что это устарело): SELECT set_limit (0.5); ...
вопрос задан: 1 April 2017 12:40
0
ответов

Почему между двумя векторами может быть косинусное сходство быть отрицательным?

У меня есть 2 вектора с 11 измерениями. a <- c (-0,012813841, -0,024518383, -0,002765056, 0,079496744, 0,063928973, 0,476156960, 0,122111977, 0,322930189, 0,400701256, 0,454048860, ...
вопрос задан: 30 March 2017 20:44
0
ответов

Выясните, действительно ли название компании похоже на другое - Python

Я работаю с большой базой данных предприятий. Я хотел бы иметь возможность сравнить два названия компании на предмет схожести, чтобы увидеть, могут ли они быть дубликатами.Ниже приведен список названий компаний, которые ...
вопрос задан: 8 November 2016 23:18
0
ответов

Процесс сравнения двух наборов данных

У меня сейчас есть два набора данных (в форме векторов), и я рисую их на одной оси, чтобы увидеть, как они соотносятся друг с другом, и Я специально отмечаю и ищу места, где оба графика имеют ...
вопрос задан: 23 November 2015 12:17
0
ответов

Оценка сходства между двумя обнаруженными изображениями

В настоящее время я внедряю систему обнаружения и слежения, отслеживая головы. Я пытался выяснить некоторую оценку сходства между двумя обнаруженными изображениями, чтобы я мог проанализировать, если обнаружение ...
вопрос задан: 25 February 2015 13:46
0
ответов

Быстрый поиск похожих строк с помощью PostgreSQL

Мне нужно создать ранжирование похожих строк в таблице. У меня есть следующая таблица, создающая имена таблиц ( переменный характер имени(255) ); В настоящее время я использую модуль pg_trgm, который предлагает ...
вопрос задан: 24 January 2015 19:12
0
ответов

Как нормализовать расстояние Левенштейна для максимальной длины выравнивания, а не для длины строки?

Проблема: В нескольких пакетах R есть реализации расстояния Левенштейна для вычисления подобия двух строк, например. http://finzi.psych.upenn.edu/R/library/RecordLinkage/html/strcmp.html. ...
вопрос задан: 20 June 2014 11:30
0
ответов

Методы определения акустического сходства (но не снятия отпечатков пальцев)

Я ищу методы, которые работают на практике для определения некоторого акустического сходства между разными песнями. Большинство методов, которые я видел до сих пор (MFCC и т. Д.), Похоже, на самом деле нацелены на ...
вопрос задан: 24 February 2013 16:09
0
ответов

Сходство строк -> расстояние Левенштейна

Я использую алгоритм Левенштейна, чтобы найти сходство между двумя строками. Это очень важная часть программы, которую я делаю, поэтому она должна быть эффективной. Проблема в том, что алгоритм...
вопрос задан: 26 July 2012 18:02
0
ответов

Сходство строк :Как именно работает Bitap?

Я пытаюсь разобраться в алгоритме Bitap, но мне трудно понять причины, лежащие в основе шагов алгоритма. Я понимаю основную предпосылку алгоритма, а именно (...
вопрос задан: 3 July 2012 19:38