У меня есть потребность соответствовать холоду, ведет против базы данных наших клиентов. Приведение, прибывшее от стороннего поставщика оптом (тысячи записей) и продажи, спрашивает нас к (в их словах), "отфильтровывают...
Я нахожу подобие косинуса между документами.. Я сделал это как этот D1 = (8,0,0,1), где 8,0,0,1 tf-idf множество условий t1, t2, t3, t4 D2 = (7,0,0,1) because(тета), = (56 + 0 + 0 + 1)/...
В настоящее время я делаю поисковую функцию. Позволяет говорят в моей базе данных, у меня есть эти данные: Ключ Keyword1 Keyword2 Keyword3 Keysomething и пользователь вводятся: "Ключ" как ключевое слово для поиска. Это - мой...
Я пытаюсь вычислить подобие от объекта к объекту вроде "Клиентов Amazon, которые просмотрели/купили X, также просмотрели/купили Y и Z". Все примеры и ссылки, которые я видел, для...
Я вычислил tf/idf значения двух документов. Следующее является значениями tf/idf: 1.txt 0.0 0.5 2.txt 0.0 0.5 документы похожи: 1.txt => кошка собаку 2.txt => слон кошки, Как я могу использовать...
я создал индекс в Lucene. Я хочу, не указывая запрос, только для получения счета (подобие косинуса или другое расстояние?) между двумя документами в индексе. Например, я добираюсь от...
Я пытаюсь определить подобие документа между единым документом и каждым большим количеством документов (n ~ = 1 миллион) как можно быстрее. Строго говоря, документы я выдерживаю сравнение...
Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет много форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «...
Поддерживает ли OpenCV сравнение двух изображений, возвращая некоторое значение (возможно, в процентах), которое указывает, насколько похожи эти изображения? Например. 100% будет возвращено, если одно и то же изображение было передано дважды, ...
У меня есть массив наборов, который может быть очень большого размера, содержащий наборы или кортежи из 3 чисел от 0 до 1. Моя цель - найти, какой из них наиболее похож на новый данный набор, сходство ...
Мне нужно вычислить сходство между двумя строками. Итак, что именно нужно делать Я имею в виду? Позвольте мне объяснить на примере: Настоящее слово: больница.
Ошибочное слово: haspita Теперь моя цель - определить, сколько ...
У меня есть большое количество фрагментов текста, которые мне нужно сравнить между собой, чтобы проверить, похожи они или нет. Каждый кусок составляет около 10000 слов. Следовательно, я предварительно вычислю хеш ...
Я создаю веб-сайт, который должен собирать различные новостные ленты и хотел бы, чтобы тексты были сравнил на сходство. Мне нужен какой-то алгоритм подобия текста новостей. Я знаю, что php ...
Как вычислить сходство между двумя цветами в цветовом пространстве RGBA? (где цвет фона, конечно, неизвестен) Мне нужно переназначить изображение RGBA в палитру цветов RGBA, найдя лучший ...
Я использую анализатор lucene snowball для выполнения стемминга. В результате не получается осмысленных слов. Я обратился к этому вопросу. Одним из решений является использование базы данных, которая содержит карту между ...
Я работаю над дедупликацией базы данных людей. Для первого прохода я следую основному 2-этапному процессу, чтобы избежать операции O(n^2)по всей базе данных, как описано в литературе. Во-первых, я "...
моя тема — сходство и кластеризация (группы)текста(s). В двух словах:я хочу сгруппировать собранные тексты вместе, и они должны появиться в осмысленных кластерах в конце. Для этого моя...
У меня есть 2000 наборов данных, каждый из которых содержит немногим более 1000 2D-переменных. Я хочу сгруппировать эти наборы данных в любую из 20-100 кластеров на основе сходства. Однако у меня проблемы ...
Мои пользователи загружают изображения на мой веб-сайт, и я хотел бы сначала предложить им уже загруженные изображения. Моя идея состоит в том, чтобы 1. создать своего рода "хэш" изображения каждого существующего изображения 2. создать...
Просто тестирую PostgreSQL 9.6.2 на моем Mac и играю с Ngrams. Предполагая, что есть индекс триграммы GIN на поле винодельни. Предел сходства (я знаю, что это устарело): SELECT set_limit (0.5); ...
У меня есть 2 вектора с 11 измерениями. a <- c (-0,012813841, -0,024518383, -0,002765056, 0,079496744, 0,063928973, 0,476156960, 0,122111977, 0,322930189, 0,400701256, 0,454048860, ...
Я работаю с большой базой данных предприятий. Я хотел бы иметь возможность сравнить два названия компании на предмет схожести, чтобы увидеть, могут ли они быть дубликатами.Ниже приведен список названий компаний, которые ...
У меня сейчас есть два набора данных (в форме векторов), и я рисую их на одной оси, чтобы увидеть, как они соотносятся друг с другом, и Я специально отмечаю и ищу места, где оба графика имеют ...
В настоящее время я внедряю систему обнаружения и слежения, отслеживая головы. Я пытался выяснить некоторую оценку сходства между двумя обнаруженными изображениями, чтобы я мог проанализировать, если обнаружение ...
Мне нужно создать ранжирование похожих строк в таблице. У меня есть следующая таблица, создающая имена таблиц (
переменный характер имени(255)
); В настоящее время я использую модуль pg_trgm, который предлагает ...
Проблема:
В нескольких пакетах R есть реализации расстояния Левенштейна для вычисления подобия двух строк, например. http://finzi.psych.upenn.edu/R/library/RecordLinkage/html/strcmp.html.
...
Я ищу методы, которые работают на практике для определения некоторого акустического сходства между разными песнями. Большинство методов, которые я видел до сих пор (MFCC и т. Д.), Похоже, на самом деле нацелены на ...
Я использую алгоритм Левенштейна, чтобы найти сходство между двумя строками. Это очень важная часть программы, которую я делаю, поэтому она должна быть эффективной. Проблема в том, что алгоритм...
Я пытаюсь разобраться в алгоритме Bitap, но мне трудно понять причины, лежащие в основе шагов алгоритма. Я понимаю основную предпосылку алгоритма, а именно (...