4
ответа

Как я вычисляю подобие косинуса двух векторов?

Как я нахожу подобие косинуса между векторами? Я должен найти, что подобие измеряет связанность между двумя строками текста. Например, у меня есть два предложения как: система для пользователя...
вопрос задан: 3 November 2011 16:59
3
ответа

Создайте набор данных: функции извлечения из текстовых документов (TF-IDF)

Я должен создать набор данных из некоторых текстовых файлов, пишущий им как векторы функций. Что-то вроде этого: doc1: 1,0.45 6,0.001 94 0.1... doc2: 3 0.5 98 0.2...... каждых положения вектора...
вопрос задан: 8 December 2015 16:19
3
ответа

Простая реализация n-граммы, tf-idf и подобия Косинуса в Python

Я должен сравнить документы, хранившие в DB и придумывать счет подобия между 0 и 1. Метод, который я должен использовать, должен быть очень простым. Реализация ванильной версии n-грамм (где это...
вопрос задан: 25 October 2012 19:00
2
ответа

Подобие косинуса Векторов различных длин?

Я пытаюсь использовать TF-IDF для сортировки документов в категории. Я вычислил tf_idf для некоторых документов, но теперь когда я пытаюсь вычислить Подобие Косинуса между двумя из этих документов, я добираюсь...
вопрос задан: 23 May 2017 11:54
2
ответа

Как слить результат из & ldquo; Group-By & rdquo; с оригинальным фреймворком данных в Pandas [дубликат]

У меня есть dataframe с 9 столбцами и 89K строк. Мне нужно выполнить TF-IDF с 2 строковыми столбцами. emp-name text Однако конечный результат состоит только из чисел из Tf-idf ...
вопрос задан: 15 April 2015 04:13
2
ответа

tf-idf и ранее невидимые условия

TF-IDF (частотность термина - обратная частота документа) является главным продуктом информационного поиска. Это не надлежащая модель, хотя, и это, кажется, ломается, когда новые условия вводятся в корпус...
вопрос задан: 2 November 2009 23:02
1
ответ

Является ли tf-idf scikit-learn в этом примере правильным? Самые частые слова имеют высокий балл

from sklearn.feature_extraction.text import TfidfVectorizer documents = [«Автомобиль едет по дороге», «Грузовик едет по шоссе», «Грузовой автомобиль»] ...
вопрос задан: 10 March 2019 08:41
1
ответ

о подобии косинуса

Я нахожу подобие косинуса между документами.. Я сделал это как этот D1 = (8,0,0,1), где 8,0,0,1 tf-idf множество условий t1, t2, t3, t4 D2 = (7,0,0,1) because(тета), = (56 + 0 + 0 + 1)/...
вопрос задан: 19 February 2015 13:06
1
ответ

Вес функции tf-idf с использованием sklearn.feature_extraction.text.TfidfVectorizer

На этой странице: http://scikit-learn.org/stable/modules/feature_extraction.html упоминается: поскольку tf – idf очень часто используется для текстовых функций, существует также другой класс, называемый TfidfVectorizer, который ...
вопрос задан: 21 May 2014 20:05
1
ответ

Подобие косинуса

Я вычислил tf/idf значения двух документов. Следующее является значениями tf/idf: 1.txt 0.0 0.5 2.txt 0.0 0.5 документы похожи: 1.txt => кошка собаку 2.txt => слон кошки, Как я могу использовать...
вопрос задан: 14 August 2013 21:12
1
ответ

получите подобие косинуса между двумя документами в lucene

я создал индекс в Lucene. Я хочу, не указывая запрос, только для получения счета (подобие косинуса или другое расстояние?) между двумя документами в индексе. Например, я добираюсь от...
вопрос задан: 14 July 2011 22:32
0
ответов

Что я должен делать после выполнения tf-idf и chi-squared в текстовом майнинге?

В области интеллектуального анализа данных иногда обнаруживается, что один документ может быть заполнен несколькими терминами, например, повторяющееся слово повторяется Сначала я просто хотел проверить использование квадрата ци ...
вопрос задан: 19 March 2019 00:46
0
ответов

Оценка того, насколько близко слово относится к ключевым словам в документе с использованием tf-idf и машинного обучения

Я использую Python. На высоком уровне у меня есть набор документов, связанных с исходным ключевым словом, и я хочу ранжировать документы в порядке соответствия этому исходному ключевому слову (я привел пример ...
вопрос задан: 5 March 2019 17:18
0
ответов

Косинусное сходство и tf-idf

Меня смущает следующий комментарий о TF-IDF и косинусном сходстве. Я читал и то, и другое, а затем в вики в разделе «Косинусное сходство» нахожу это предложение «В случае поиска информации ...
вопрос задан: 24 April 2018 02:15
0
ответов

Elasticsearch слово частота и отношения

Мне интересно, можно ли вообще получить десятку наиболее часто встречающихся слов в поле Elasticsearch по всему индексу или псевдониму. Вот что я пытаюсь сделать: я индексирую текстовые документы ...
вопрос задан: 4 May 2015 05:50
0
ответов

Lucene custom scoring for numeric fields

I would like to have, in addition to standard term search with tf-idf similarity over text content field, scoring based on "similarity" of numeric fields. This similarity will be depending on distance ...
вопрос задан: 24 March 2014 19:40
0
ответов

Влияние стемминга на частоту термина?

Как термин частоты (TF )и обратная частота документа (IDF )затронуты удалением стоп-слова -и выделением корней? Спасибо!
вопрос задан: 11 March 2014 18:36
0
ответов

Расчет IDF (как в TF-IDF)при тестировании?

Насколько я понимаю, IDF используется для подсчета количества документов, в которых есть термин (вроде просто идеи). Вы можете вычислить IDF (вместе с TF)в обучающем наборе, так как у вас есть все документы...
вопрос задан: 18 October 2012 08:22
0
ответов

Вычисление IDF (Обратная частота документа )для категоризации документа

У меня есть сомнения в вычислении IDF (Обратной частоты документа )при категоризации документов. У меня более одной категории с несколькими документами для обучения. Я вычисляю IDF для каждого члена в...
вопрос задан: 29 August 2012 07:27
0
ответов

TF *IDF для поисковых запросов

Итак, я следил за этими двумя постами на TF *IDF, но немного запутался:http://css.dzone.com/articles/machine-learning-text-featureПо сути, я хочу создать поисковый запрос, содержащий...
вопрос задан: 11 August 2012 02:44
0
ответов

TF -IDF Simple Use -NLTK/Scikit Learn

Хорошо, поэтому я немного смущен. Однако это должен быть простой прямой вопрос. После вычисления TF -IDF Matrix of the Document по всему корпусу я получаю очень похожий результат...
вопрос задан: 8 August 2012 17:47
0
ответов

Python и алгоритм tfidf, сделать его быстрее?

Я реализую алгоритм tf-idf в веб-приложении с использованием Python , однако он работает очень медленно. В основном я делаю следующее: 1) Создаю 2 словаря: Первый словарь: ключ (идентификатор документа), значение ...
вопрос задан: 27 August 2011 16:38
0
ответов

Java API: загрузка и вычисление tf-idf для данная веб-страница

Я новичок в ИК-методах. Я ищу API на основе Java или инструмент, который делает следующее. Загрузите указанный набор URL-адресов Извлеките токены Удалите стоп-слова Выполнить стемминг Создать перевернутый ...
вопрос задан: 14 February 2011 11:00
0
ответов

как мне нормализовать оценку solr / lucene?

Я пытаюсь понять, как улучшить оценку результатов поиска solr. Моему приложению необходимо взять оценку из результатов поиска и отобразить ряд «звездочек» в зависимости от того, насколько хороши ...
вопрос задан: 21 October 2010 09:56
0
ответов

Вычислите использование TF-IDF Sql

У меня есть таблица в моем DB, содержащем бесплатный столбец текстового поля. Я хотел бы знать частоту, каждое слово появляется по всем строкам, или возможно даже calc TF-IDF для всех слов, где мои документы...
вопрос задан: 31 July 2010 10:54