10
ответов

Проверка Интернета

Я хочу проверить для определенных вещей. Конкретно события, которые происходят как концерты, фильмы, открытия художественной галереи, и т.д., и т.д. Что-либо, во что можно было бы провести время, идя. Как я реализую...
вопрос задан: 14 May 2009 21:52
8
ответов

Что лучший способ состоит в том, чтобы вычислить актуальные темы или теги?

Много сайтов предлагают некоторую статистику как "Самые горячие темы в последнем 24-м". Например, Topix.com показывает это в его разделе "News Trends". Там, Вы видите темы, которые имеют наиболее быстро растущее...
вопрос задан: 11 June 2019 09:05
8
ответов

Как исправить ввод данных пользователем (Вид Google, “Вы имели в виду?”)

У меня есть следующее требование: - у меня есть многие (скажите что 1 миллион), значения (имена). Пользователь введет строку поиска. Я не ожидаю, что пользователь запишет имена правильно. Так, я хочу сделать отчасти...
вопрос задан: 23 May 2017 12:13
7
ответов

Платформы анализа текста открытого исходного кода Java [закрываются]

Я хочу знать то, что является лучшей основанной на Java платформой с открытым исходным кодом для Анализа текста, для использования botg Машинного обучения и Методов словаря. Я использую Молоток, но нет так большого количества документации и меня...
вопрос задан: 19 September 2011 12:20
7
ответов

Подобие между пользователями на основе голосов

позволяет говорят, что у меня есть ряд пользователей, ряд песен и ряда голосов по каждой песне: Пользовательский =========== =========== ======= user1 song1 Голосования Песни =========== =========== ======= [...
вопрос задан: 2 December 2009 22:34
7
ответов

Что некоторые хорошие методы состоят в том, чтобы найти “связанностью” двух тел текста?

Вот проблема - у меня есть несколько тысяч маленьких текстовых отрывков, где угодно от нескольких слов до нескольких предложений - самый большой отрывок о 2k на диске. Я хочу смочь сравнить каждого с каждым, и...
вопрос задан: 31 August 2009 18:19
7
ответов

Что должны немного выстроить некоторые альтернативы?

У меня есть приложение информационного поиска, которое создает битовые массивы на порядке 10-х миллиона битов. Число битов "набора" в массиве значительно различается, от всех очищаются ко всему набору. В настоящее время я...
вопрос задан: 30 August 2008 18:35
5
ответов

Что попробовало, и истинные алгоритмы для предложения похожих статей там?

Довольно общая ситуация, я держал бы пари. У Вас есть блог-сайт или новостной сайт, и у Вас есть много статей или билетов, полученных бесплатно или независимо от того, что Вы называете их, и Вы хотите, у основания каждого, предложить других, которые кажут
вопрос задан: 6 December 2009 04:46
4
ответа

Текстовая загрузка Википедии

Я надеюсь загружать полный текст Википедии для своего проекта колледжа. Я должен записать своего собственного паука для загрузки этого или есть ли общедоступный набор данных Википедии, доступной онлайн? Просто дать Вам...
вопрос задан: 13 April 2017 22:04
3
ответа

Создайте набор данных: функции извлечения из текстовых документов (TF-IDF)

Я должен создать набор данных из некоторых текстовых файлов, пишущий им как векторы функций. Что-то вроде этого: doc1: 1,0.45 6,0.001 94 0.1... doc2: 3 0.5 98 0.2...... каждых положения вектора...
вопрос задан: 8 December 2015 16:19
3
ответа

Как быстро 2 iPhone могут обмениваться информацией относительно наклона/положения?

Я задавался вопросом, что количество времени требуется, чтобы передавать информации относительно наклона и положения (не gps) одного конкретного iPhone другому. Могли 2 iPhone отправлять и получать эту информацию...
вопрос задан: 30 April 2009 02:47
2
ответа

Программно установить адрес прокси, порт, пользователя, пароль через реестр Windows

I ' Я пишу небольшое приложение на C #, которое будет использовать Internet Explorer для взаимодействия с парой веб-сайтов с помощью WatiN. Однако время от времени также потребуется использовать прокси. Я ...
вопрос задан: 20 August 2018 17:45
2
ответа

Подобие косинуса Векторов, с <O (n^2) сложность

Осмотрев этот сайт для подобных проблем, я нашел это: http://math.nist.gov/javanumerics/jama/ и это: http://sujitpal.blogspot.com/2008/09/ir-math-with-java-similarity-measures.html...
вопрос задан: 27 July 2010 18:07
2
ответа

Получите информацию статьи title/author/date с JavaScript

Я пытаюсь создать bookmarklet, который получит текущего автора страницы/статьи и информацию о дате для ссылки на цели. Я знаю, что могу получить название страницы и URL с document.title и...
вопрос задан: 12 July 2010 09:18
1
ответ

Пакетная структура для обучения модели ранжирования с контрастной потерей?

Как выбрать свою партию, если я тренирую модель с высоким рейтингом, например, потеря контраста где у меня на запрос 1 положительный документ и 2 отрицательных образца? Таким образом, речь идет о рейтинге (потере), который относится, например, к ....
вопрос задан: 18 March 2019 15:50
1
ответ

Apache Lucene QueryParser.parse не использует Analyzer в FuzzyQuery

С TermQuery и PhraseQuery вызывается мой SerbianAnalyzer, но не с FuzzyQuery. Я пытался использовать lucene 4 и lucene 7 с одинаковым поведением. У меня есть следующий код: Query query; Строковое поле = ...
вопрос задан: 16 January 2019 22:26
1
ответ

Как проанализировать данные из Google Alerts?

Во-первых, Как Вы получили бы информацию Google Alerts в базу данных кроме проанализировать текст электронного письма, которое Google отправляет Вам? Кажется, что нет никакого Google Alerts API. Если Вы...
вопрос задан: 18 August 2018 02:02
1
ответ

Как создать более сложные строки запроса Lucene?

Этим вопросом является ответвление от этого вопроса. Мой запрос является двукратным, но потому что оба связаны, я думаю, что это - хорошая идея соединить их. Как программно создать запросы. Я знаю меня...
вопрос задан: 23 May 2017 10:32
1
ответ

Хорошая документация относительно структуры tcp_info [закрытый]

Я работаю над получением эксплуатационных параметров соединения TCP, и этот параметр пропускная способность. Я намереваюсь использовать tcp_info структуру, поддерживаемую от linux 2.6 вперед, который...
вопрос задан: 30 July 2014 05:51
1
ответ

Как очистить кеш в Solr ?

Я пытаюсь сравнить производительность различных запросов Solr. Чтобы получить честный тест, я хочу очищать кеш между запросами. Как это делается? Конечно, можно перезапустить сервер, я был ...
вопрос задан: 1 February 2012 14:32
1
ответ

Как я могу получить свою историю поиска Google?

В интерфейсе Google Web History I видят все поисковые запросы, которые я использовал за эти годы, и страницы, которые я посетил для конкретного запроса. Есть ли способ, которым я могу получить эту историю с помощью...
вопрос задан: 28 June 2010 06:35
1
ответ

Самоиндексация (и традиционная индексация) алгоритмы - Реализации и совет совместно использовать?

Как часть исследовательского проекта я в настоящее время ищу реализации с открытым исходным кодом самоиндексации алгоритмов, т.е. сжатой формы традиционного инвертированного индекса, приводящего к хорошим характеристикам...
вопрос задан: 2 February 2010 09:51
0
ответов

Существует ли «стандартный» набор данных для музыки в символической форме? [закрыто]

Для музыкальных данных в аудиоформате существует, например, набор данных «Миллион песен» (http://labrosa.ee.columbia.edu/millionsong/). Есть ли аналогичный для музыки в символической форме (то есть где ноты ...
вопрос задан: 12 March 2019 19:49
0
ответов

Быстрый инвертированный индекс в памяти

Я ищу быструю реализацию в памяти общего инвертированного индекса. Все, что мне нужно, это хранить функции с весами для пары миллионов сущностей и использовать инвертированный индекс для вычисления ...
вопрос задан: 27 May 2018 18:49
0
ответов

Lucene&#Алгоритм 39;s

Я прочитал статью Дуга Каттинга; «Оптимизация пространства для общего рейтинга». Поскольку это было написано давным-давно, мне интересно, какие алгоритмы использует lucene (в отношении обхода списка сообщений и оценки...
вопрос задан: 27 May 2018 18:48
0
ответов

Косинусное сходство и tf-idf

Меня смущает следующий комментарий о TF-IDF и косинусном сходстве. Я читал и то, и другое, а затем в вики в разделе «Косинусное сходство» нахожу это предложение «В случае поиска информации ...
вопрос задан: 24 April 2018 02:15
0
ответов

Как я могу извлечь только основное текстовое содержимое из HTML-страницы?

Обновление Boilerpipe, похоже, работает очень хорошо, но я понял, что мне не нужно только основное содержимое, потому что на многих страницах нет статьи , но только ссылки с кратким описанием на ...
вопрос задан: 23 May 2017 12:33
0
ответов

В чем разница между запросом с фразой и использованием фильтра shingle?

В настоящее время я индексирую веб-страницу с помощью lucene. Цель состоит в том, чтобы иметь возможность быстро извлечь, какая страница содержит определенное выражение (обычно 1, 2 или 3 слова), а какие другие слова (или группу от 1 до 3 из ...
вопрос задан: 23 May 2017 12:17
0
ответов

Эффективное извлечение 1-5 грамм с питоном

У меня есть огромные файлы по 3 000 000 строк, и каждая строка содержит 20-40 слов. Я должен извлечь от 1 до 5 нграмм из корпуса. Мои входные файлы представляют собой простой текстовый токен, например: это предложение в строке foo. ...
вопрос задан: 23 May 2017 12:01
0
ответов

Что такое формат TREC?

Я ищу спецификации формата TREC. Я много гуглил, но не нашел подсказки. Кто-нибудь знает, где найти информацию о нем?
вопрос задан: 10 October 2016 06:42