8
ответов

Как я делаю выделение основы слова или Лемматизацию?

Я попробовал PorterStemmer и Снежок, но оба не работают над всеми словами, пропуская некоторые очень общие. Мои тестовые слова: "выполнение кошек выполнило сообщества сообщества кактусов кактусов кактуса", и оба добираются...
вопрос задан: 23 May 2017 11:55
8
ответов

Подсчет количества случаев слов в текстовом файле

Как я мог пойти об отслеживании количества раз, слово появляется в текстовом файле? Я хотел бы сделать это для каждого слова. Например, если вход - что-то как: "человек сказал привет...
вопрос задан: 6 May 2012 07:33
8
ответов

Синтаксический анализатор StringToken, который дает стиль Google Search, “Сделал Вы имеете в виду”: предложения

Поиск метода к: Возьмите разделенные маркеры пробела в Строке; возвратите предложенный Word т.е.: Поиск Google может взять "фонетический wrd nterpreterr", и на страницы результатов, которую он показывает, "Сделал Вы имеете в виду:...
вопрос задан: 22 May 2010 20:35
7
ответов

Связанный с переполнением стека алгоритм вопросов

Связанные вопросы, которые появляются после ввода заголовка, и те, которые находятся в панели правой стороны при просмотре вопроса, кажется, предлагают очень способные вопросы. Переполнение стека только делает поиск SQL...
вопрос задан: 23 February 2018 04:31
7
ответов

Алгоритм частотности слова для обработки естественного языка

Не получая степень в области информационного поиска, я хотел бы знать, существует ли там какие-либо алгоритмы для подсчета частоты, что слова происходят в данном теле текста. Цель состоит в том, чтобы получить "общий...
вопрос задан: 22 June 2015 13:56
7
ответов

Как я могу разделить несколько слов, к которым присоединяются?

У меня есть массив приблизительно 1000 записей с примерами ниже: wickedweather liquidweather driveourtrucks gocompact slimprojector я хотел бы смочь разделить их на их соответствующие слова, как:...
вопрос задан: 6 May 2012 07:34
7
ответов

Платформы анализа текста открытого исходного кода Java [закрываются]

Я хочу знать то, что является лучшей основанной на Java платформой с открытым исходным кодом для Анализа текста, для использования botg Машинного обучения и Методов словаря. Я использую Молоток, но нет так большого количества документации и меня...
вопрос задан: 19 September 2011 12:20
7
ответов

Парсинг строки для дат в PHP

Учитывая произвольную строку, например ("я собираюсь играть в крокет в следующую пятницу" или "Gadzooks, 17-го июня уже это?"), как Вы пошли бы об извлечении дат оттуда? Если это смотрит...
вопрос задан: 16 June 2010 13:51
7
ответов

Построение человекочитаемых предложений на основе обзора

Следующее является обзором, данным посетителям курса для оценки преподавателя в конце курса. Коммуникативные способности 1. Преподаватель передал материал курса ясно и точно. Да...
вопрос задан: 30 March 2010 03:41
7
ответов

C++ - Как считать символы Unicode (Сценарий хинди для, например) использующий C++ или является там лучшим Путем через некоторый другой язык программирования?

У меня есть файл сценария хинди как это: 3. भारत का इतिहास काफी समृद्ध एवं विस्तृत है।, который я должен записать программе, которая добавляет положение к каждому слову в каждом предложении. Таким образом нумерация для...
вопрос задан: 18 February 2010 17:39
7
ответов

найдите некоторые предложения

Я хотел бы найти хороший способ найти некоторых (позвольте ему быть два), предложения в некотором тексте. Что будет лучше - используют regexp или метод разделения? Ваши идеи? Согласно просьбе Jeremy Stein - существуют некоторые примеры...
вопрос задан: 11 November 2009 20:39
7
ответов

Алгоритмы, распознающие физический адрес на веб-странице

Каковы лучшие алгоритмы для распознавания структурированных данных на странице HTML? Например, Google распознает адрес дома/компании в электронном письме и предлагает карту этому адресу.
вопрос задан: 28 January 2009 00:12
7
ответов

Есть ли алгоритм, который говорит семантическую близость двух фраз

вход: фраза 1, фраза 2 вывода: значение семантической близости (между 0 и 1), или вероятность эти две фразы говорят о том же самом
вопрос задан: 15 September 2008 13:02
7
ответов

Синтаксический анализатор даты/времени естественного языка для.NET? [закрытый]

Кто-либо знает о синтаксическом анализаторе даты/времени.NET, подобном Хроническому для Ruby (материал дескрипторов как "завтра" или "15:00 в следующий четверг")?Примечание: Я действительно пишу Ruby (который является, как я знаю о Хро
вопрос задан: 22 August 2008 22:45
6
ответов

Проверьте, содержит ли строка в текстовом файле буквы [duplicate]

Как проверить, содержит ли строка в текстовом файле буквы? Я пытаюсь сделать код ниже, но не могу проверить: с open (inputfile, 'r') как f: для строки в f: if re.search (r '[a-zA-Z0-9]', str (.. ,
вопрос задан: 19 September 2017 15:22
6
ответов

Парсинг значения из текста

Я понимаю, что это - широкая тема, но я ищу хорошую краткую информацию о парсинге значения из текста, идеально в Python. Как пример того, что я надеюсь делать, если пользователь делает сообщение в блоге как: "Manny...
вопрос задан: 23 May 2017 12:07
6
ответов

Обработка естественного языка: Создание (маленьких) корпусов, или, “Где получить много not-too-specialized англоязычных текстовых файлов?”

У кого-либо есть предложение для того, где найти архивы или наборы повседневного английского текста для использования в маленьком корпусе? Я использовал книги Проекта Gutenberg для рабочего прототипа, и...
вопрос задан: 23 May 2017 12:01
6
ответов

Синтаксический анализатор естественных языков для дат (.NET)?

Я хочу смочь позволить пользователям ввести даты (включая повторяющиеся даты) использующий естественный язык (например, "следующая пятница", "каждый рабочий день"). Во многом как примеры по http://todoist.com/Help/timeInsert я нашел...
вопрос задан: 23 May 2017 11:48
6
ответов

Программирование подсказок с японским [закрытым] Языком/Символами

У меня есть идея для нескольких веб-приложений для записи, чтобы помочь мне и возможно другим, выучить японский язык лучше, так как я изучаю язык. Моей проблемой является сайт, будет в главным образом английском, таким образом, это должно смешаться...
вопрос задан: 11 December 2016 12:46
6
ответов

Как начать на Извлечении информации?

Вы могли рекомендовать учебному пути запуститься и стать очень хорошим в Извлечении информации. Я начал читать об этом, чтобы сделать один из моего проекта хобби и скоро понял, что должен буду быть способным...
вопрос задан: 1 May 2013 13:38
6
ответов

“Стоп-слова” перечисляют для английского языка? [закрытый]

Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и. Где я могу найти некоторые списки этих неинтересных слов? Список...
вопрос задан: 26 October 2012 23:47
6
ответов

Можно ли программно обнаружить плюрализацию английских слов и получить ли форму единственного числа?

Учитывая некоторое (английское) слово, которое мы примем, множественное число, действительно ли возможно получить форму единственного числа? Я хотел бы избежать таблиц поиска/словаря, если это возможно. Некоторые примеры: Примеры-> Пример...
вопрос задан: 30 June 2012 04:57
6
ответов

как создать восклицания для конкретного предложения

Я хотел бы создать восклицания для конкретного предложения с помощью API Java? например, Это удивляет ==, Не это удивление! например, холодно ==, Не это холод! Есть ли любые поставщики или инструменты который...
вопрос задан: 30 July 2010 12:38
6
ответов

Я хочу, чтобы машина училась категоризировать краткие тексты

У меня есть тонна рассказов приблизительно 500 слов долго, и я хочу категоризировать их в один из, скажем, 20 категорий: Продовольственная Музыка Развлечений и т.д., которую я могу вручить - классифицирует набор их, но я хочу...
вопрос задан: 30 April 2010 02:52
6
ответов

Существительные извлечения из текста (Java)

Кто-либо знает самый легкий способ извлечь только существительные из тела текста? Я услышал об инструменте TreeTagger, и я пытался дать ему выстрел, но не мог заставить его работать по некоторым причинам. Любой...
вопрос задан: 11 December 2009 18:11
6
ответов

Автоматически определите естественный язык страницы веб-сайта, учитывая ее URL

Я ищу способ автоматически определить естественный язык, используемый страницей веб-сайта, учитывая ее URL. В Python, функции как: определение LanguageUsed (URL): #stuff, Который возвращает язык...
вопрос задан: 23 July 2009 20:53
6
ответов

Что было бы лучший инструмент для создания естественного DSL в Java?

Несколько дней назад я прочитал запись в блоге (http://ayende.com/Blog/archive/2008/09/08/Implementing-generic-natural-language-DSL.aspx), где автор обсуждает идею универсального естественного языка DSL...
вопрос задан: 28 January 2009 00:05
6
ответов

Алгоритмы или библиотеки для текстового анализа, конкретно: доминирующие слова, фразы через текст и набор текста

Я работаю над проектом, где я должен проанализировать страницу текста и наборы страниц текста для определения доминирующих слов. Я хотел бы знать, существует ли библиотека (предпочтите c# или Java), который будет...
вопрос задан: 21 October 2008 01:34
5
ответов

Распознавание языка краткого текста? [закрытый]

У меня есть список статей, и каждая статья имеет свой собственный заголовок и описание. К сожалению, из источников я использую, нет никакого способа знать, в каком языке они записаны. Кроме того...
вопрос задан: 8 March 2017 09:03
5
ответов

Существуют ли в Java API для анализа / интеллектуального анализа текста? [закрыто]

Я хочу знать, есть ли API для анализа текста в Java. Что-то, что может извлекать все слова в тексте, отдельные слова, выражения и т. Д. Что-то, что может сообщить, является ли найденное слово числом, ...
вопрос задан: 25 July 2011 18:41