Я попробовал PorterStemmer и Снежок, но оба не работают над всеми словами, пропуская некоторые очень общие. Мои тестовые слова: "выполнение кошек выполнило сообщества сообщества кактусов кактусов кактуса", и оба добираются...
Как я мог пойти об отслеживании количества раз, слово появляется в текстовом файле? Я хотел бы сделать это для каждого слова. Например, если вход - что-то как: "человек сказал привет...
Поиск метода к: Возьмите разделенные маркеры пробела в Строке; возвратите предложенный Word т.е.: Поиск Google может взять "фонетический wrd nterpreterr", и на страницы результатов, которую он показывает, "Сделал Вы имеете в виду:...
Связанные вопросы, которые появляются после ввода заголовка, и те, которые находятся в панели правой стороны при просмотре вопроса, кажется, предлагают очень способные вопросы. Переполнение стека только делает поиск SQL...
Не получая степень в области информационного поиска, я хотел бы знать, существует ли там какие-либо алгоритмы для подсчета частоты, что слова происходят в данном теле текста. Цель состоит в том, чтобы получить "общий...
У меня есть массив приблизительно 1000 записей с примерами ниже: wickedweather liquidweather driveourtrucks gocompact slimprojector я хотел бы смочь разделить их на их соответствующие слова, как:...
Я хочу знать то, что является лучшей основанной на Java платформой с открытым исходным кодом для Анализа текста, для использования botg Машинного обучения и Методов словаря. Я использую Молоток, но нет так большого количества документации и меня...
Учитывая произвольную строку, например ("я собираюсь играть в крокет в следующую пятницу" или "Gadzooks, 17-го июня уже это?"), как Вы пошли бы об извлечении дат оттуда? Если это смотрит...
Следующее является обзором, данным посетителям курса для оценки преподавателя в конце курса. Коммуникативные способности 1. Преподаватель передал материал курса ясно и точно. Да...
У меня есть файл сценария хинди как это: 3. भारत का इतिहास काफी समृद्ध एवं विस्तृत है।, который я должен записать программе, которая добавляет положение к каждому слову в каждом предложении. Таким образом нумерация для...
Я хотел бы найти хороший способ найти некоторых (позвольте ему быть два), предложения в некотором тексте. Что будет лучше - используют regexp или метод разделения? Ваши идеи? Согласно просьбе Jeremy Stein - существуют некоторые примеры...
Каковы лучшие алгоритмы для распознавания структурированных данных на странице HTML? Например, Google распознает адрес дома/компании в электронном письме и предлагает карту этому адресу.
Кто-либо знает о синтаксическом анализаторе даты/времени.NET, подобном Хроническому для Ruby (материал дескрипторов как "завтра" или "15:00 в следующий четверг")?Примечание: Я действительно пишу Ruby (который является, как я знаю о Хро
Как проверить, содержит ли строка в текстовом файле буквы? Я пытаюсь сделать код ниже, но не могу проверить: с open (inputfile, 'r') как f: для строки в f: if re.search (r '[a-zA-Z0-9]', str (.. ,
Я понимаю, что это - широкая тема, но я ищу хорошую краткую информацию о парсинге значения из текста, идеально в Python. Как пример того, что я надеюсь делать, если пользователь делает сообщение в блоге как: "Manny...
У кого-либо есть предложение для того, где найти архивы или наборы повседневного английского текста для использования в маленьком корпусе? Я использовал книги Проекта Gutenberg для рабочего прототипа, и...
Я хочу смочь позволить пользователям ввести даты (включая повторяющиеся даты) использующий естественный язык (например, "следующая пятница", "каждый рабочий день"). Во многом как примеры по http://todoist.com/Help/timeInsert я нашел...
У меня есть идея для нескольких веб-приложений для записи, чтобы помочь мне и возможно другим, выучить японский язык лучше, так как я изучаю язык. Моей проблемой является сайт, будет в главным образом английском, таким образом, это должно смешаться...
Вы могли рекомендовать учебному пути запуститься и стать очень хорошим в Извлечении информации. Я начал читать об этом, чтобы сделать один из моего проекта хобби и скоро понял, что должен буду быть способным...
Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и. Где я могу найти некоторые списки этих неинтересных слов? Список...
Учитывая некоторое (английское) слово, которое мы примем, множественное число, действительно ли возможно получить форму единственного числа? Я хотел бы избежать таблиц поиска/словаря, если это возможно. Некоторые примеры: Примеры-> Пример...
Я хотел бы создать восклицания для конкретного предложения с помощью API Java? например, Это удивляет ==, Не это удивление! например, холодно ==, Не это холод! Есть ли любые поставщики или инструменты который...
У меня есть тонна рассказов приблизительно 500 слов долго, и я хочу категоризировать их в один из, скажем, 20 категорий: Продовольственная Музыка Развлечений и т.д., которую я могу вручить - классифицирует набор их, но я хочу...
Кто-либо знает самый легкий способ извлечь только существительные из тела текста? Я услышал об инструменте TreeTagger, и я пытался дать ему выстрел, но не мог заставить его работать по некоторым причинам. Любой...
Я ищу способ автоматически определить естественный язык, используемый страницей веб-сайта, учитывая ее URL. В Python, функции как: определение LanguageUsed (URL): #stuff, Который возвращает язык...
Несколько дней назад я прочитал запись в блоге (http://ayende.com/Blog/archive/2008/09/08/Implementing-generic-natural-language-DSL.aspx), где автор обсуждает идею универсального естественного языка DSL...
Я работаю над проектом, где я должен проанализировать страницу текста и наборы страниц текста для определения доминирующих слов. Я хотел бы знать, существует ли библиотека (предпочтите c# или Java), который будет...
У меня есть список статей, и каждая статья имеет свой собственный заголовок и описание. К сожалению, из источников я использую, нет никакого способа знать, в каком языке они записаны. Кроме того...
Я хочу знать, есть ли API для анализа текста в Java. Что-то, что может извлекать все слова в тексте, отдельные слова, выражения и т. Д. Что-то, что может сообщить, является ли найденное слово числом, ...