text-mining - список вопросов по программированию text-mining

10

ответов

Как определить (естественный) язык документа?

У меня есть ряд документов на двух языках: английский и немецкий язык. Нет никакой применимой метаинформации об этих документах, программа может посмотреть на содержание только. На основе этого программа имеет к...

.net nlp text-mining

вопрос задан: 6 September 2009 13:32

10

ответов

Проверка Интернета

Я хочу проверить для определенных вещей. Конкретно события, которые происходят как концерты, фильмы, открытия художественной галереи, и т.д., и т.д. Что-либо, во что можно было бы провести время, идя. Как я реализую...

text-mining information-retrieval web-crawler nlp

вопрос задан: 14 May 2009 21:52

6

ответов

Крупномасштабное Машинное обучение [закрывается]

Я должен выполнить различные методы машинного обучения на большом наборе данных (10-100 миллиардов записей), проблемы являются главным образом вокруг анализа текста / извлечением информации и включают различные методы ядра, но...

java c++ machine-learning mapreduce text-mining

вопрос задан: 8 July 2010 23:58

5

ответов

Существуют ли в Java API для анализа / интеллектуального анализа текста? [закрыто]

Я хочу знать, есть ли API для анализа текста в Java. Что-то, что может извлекать все слова в тексте, отдельные слова, выражения и т. Д. Что-то, что может сообщить, является ли найденное слово числом, ...

java api nlp analysis text-mining

вопрос задан: 25 July 2011 18:41

4

ответа

Как найти и извлечь слова с заглавной буквы из текста в r [duplicate]

У меня есть свод документов. Теперь я хочу найти правильные имена и отдельные имена, извлекая из текста слова с заглавной буквы из первой буквы. Например: Input_String & lt; - c ("Purple Rain is ...

r regex text-mining

вопрос задан: 15 September 2017 13:00

4

ответа

Что такое “энтропийное и увеличение информации”?

Я читаю эту книгу (NLTK), и это сбивает с толку. Энтропия определяется как: Энтропия является суммой вероятности каждой маркировки времена вероятность журнала того же самого маркировала How, я могу подать заявку...

math text computer-science nltk text-mining

вопрос задан: 1 September 2016 06:17

4

ответа

Алгоритм классификации / категоризации текста [закрыт]

Моя цель - [полу] автоматически присваивать тексты различным категориям. Существует набор пользовательских категорий и набор текстов для каждой категории. Идеальный алгоритм должен уметь учиться ...

algorithm text-mining document-classification

вопрос задан: 27 August 2010 13:12

4

ответа

Реальный по сравнению с плавающей точкой по сравнению с деньгами

Почему, когда я сохраняю значение, говорят 40.54 в SQL Server к столбцу типа, Реального, это возвращает мне значение, которое похоже на больше 40.53999878999 вместо 40,54? Я видел это несколько раз, но никогда не имею...

text-mining

вопрос задан: 13 June 2009 03:00

3

ответа

Удалить конкретные слова с определенной пунктуацией в R

Я работаю над корпусом в R, который содержит опросы на русском языке. В начале каждого вопроса указываются имена говорящего человека. К примеру: президент. - Ты Николай ...

r string text-mining tm

вопрос задан: 20 March 2019 16:06

3

ответа

Лучше всего кластеризируя алгоритм? (просто объясненный)

Вообразите следующую проблему: у Вас есть база данных, содержащая приблизительно 20 000 текстов в таблице, названной "статьями", Вы хотите соединить связанные с помощью кластеризирующегося алгоритма для отображения...

algorithm text cluster-analysis data-mining text-mining

вопрос задан: 19 May 2017 13:19

3

ответа

Как определить идеи и понятия в данном тексте

Я работаю над проектом в данный момент, где было бы действительно полезно смочь обнаружить, когда определенная тема/идея упоминается в теле текста. Например, если текст содержал: Возможно, если...

artificial-intelligence nlp nltk text-mining

вопрос задан: 18 May 2010 09:45

2

ответа

текстовая шахта файлы PDF с Python?

Существует ли пакет/библиотека для Python, который позволил бы мне открывать PDF и искал бы текст определенные слова?

python pdf text-mining

вопрос задан: 3 August 2014 05:06

2

ответа

R: Шпалы? Как бороться с ошибками при извлечении с использованием больших циклов? [Дубликат]

Я был бы так благодарен за любой совет - даже источник для расследования. Я являюсь количественным исследователем социальных наук, и мои навыки программирования быстро улучшаются, но я все еще новичок. ...

r loops nlp warnings text-mining

вопрос задан: 7 February 2013 16:52

2

ответа

Анализ кластерного графика. Как вы направляетесь вправо, а не вверх по линии? [Дубликат]

Ниже приведен рабочий код Text Mining (Opinion Mining). Когда вы сделаете это с помощью кластерного анализа, линия будет направлена вверх. В некоторых иллюстративных работах были графики, которые указывают линию на ...

r matrix plot cluster-analysis text-mining

вопрос задан: 2 January 2013 09:26

2

ответа

Индексация и поиск по слоям комментариев уровня слова в Lucene

Я имею набор данных с несколькими слоями аннотации по базовому тексту, такими как часть тегов, блоки от поверхностного синтаксического анализатора, называю объекты и других от различной обработки естественного языка (...

java lucene nlp data-mining text-mining

вопрос задан: 22 May 2010 06:49

1

ответ

Анализ текста, извлечение факта, использование семантического анализа [закрытый] .NET

Я ищу любые свободные инструменты/компоненты/библиотеки, которые позволяют мне брать anvantage анализа текста, извлечения факта и семантического анализа в моем приложении.NET. Проект ЛОГИЧЕСКОГО ЭЛЕМЕНТА - то, в чем я нуждаюсь, но...

.net nlp text-mining semantic-analysis

вопрос задан: 26 February 2010 21:55

1

ответ

Perl в рамках Python?

Существует библиотека Perl, к которой я хотел бы получить доступ из Python. Как я могу использовать его? К вашему сведению программное обеспечение является NCleaner. Я хотел бы использовать его из Python для преобразования строки HTML в текст. (...

python perl text-mining

вопрос задан: 16 December 2009 21:12

1

ответ

Какой инструментарий обработки естественного языка использовать в JAVA? [закрытый]

я работаю над проектом, который состоит из веб-сайта, который соединяется с NCBI (Национальный Центр информации о Биотехнологии) и ищет статьи там. Вещь состоит в том, что я должен сделать некоторый текст...

java nlp text-mining

вопрос задан: 22 May 2009 00:09

1

ответ

Анализ мнений C# [закрывается]

Кто-либо знает о (предпочтительно открытый исходный код) библиотека C#, которая может быть реализована для вычисления полного чувства некоторого данного текста?

text-mining c#

вопрос задан: 30 January 2009 02:15

0

ответов

Перемещение слов в ячейке в отдельные столбцы [закрыто]

У меня есть CSV-файл, который имеет столбец с несколькими словами в каждой ячейке. Интересно, есть ли функция R для перемещения слов в каждой ячейке в отдельные ячейки. Ниже приведены данные в двух ячейках в ...

r text text-mining

вопрос задан: 22 March 2019 14:43

0

ответов

определение арабского языка в R

Я работаю над текстом Mining in R на арабском языке, и у меня возникли проблемы с определением арабского языка в R studio. Я установил локальный арабский, как показано здесь: Sys.setlocale ("LC_CTYPE", "arabic") ...

text-mining r

вопрос задан: 17 January 2019 09:23

0

ответов

Корреляция слов в R

Я вижу некоторые подобные вопросы, но никто из них не помог мне. У меня есть корпус, и я хочу иметь список, таблицу или фрейм данных с самой высокой и самой низкой позитивной и отрицательной корреляцией ...

r correlation text-mining word-count text-analysis

вопрос задан: 13 July 2018 17:54

0

ответов

Java-реализация разложения по сингулярным значениям для больших разреженных матриц

Мне просто интересно, знает ли кто-нибудь о реализации java сингулярного разложения (SVD) для больших разреженных матриц? Мне нужна эта реализация для скрытого семантического анализа (LSA). Я ...

java text-mining large-data-volumes large-data

вопрос задан: 22 September 2017 17:44

0

ответов

Пакет R tm неверный ввод в 'utf8towcs'

Я пытаюсь использовать пакет tm в R для выполнения некоторых текстовый анализ. Я связал следующее: require(tm) dataSet <- Корпус (DirSource ('tmp/')) набор данных <- tm_map (набор данных, ниже) Ошибка в FUN(X[[...

iconv r text-mining utf-8

вопрос задан: 23 May 2017 11:47

0

ответов

Извлечение слов с помощью nltk из немецкого текста

Я пытаюсь извлечь слова из немецкого документа, когда я использую следующий метод, описанный в учебнике nltk, мне не удается получить слова со специальными символами, специфичными для языка. ptcr = nltk....

python nlp nltk text-mining

вопрос задан: 13 February 2017 02:33

0

ответов

Текстовый файл R и интеллектуальный анализ текста… как загрузить данные

Я использую пакет R tm и хочу выполнить анализ текста. Это один документ, который рассматривается как набор слов. Я не понимаю документацию о том, как загрузить текстовый файл и создать ...

r load text-mining tm

вопрос задан: 5 November 2015 16:11

0

ответов

Как получить доступ к Википедии из R?

Есть ли какой-нибудь пакет для R, который позволяет запрашивать Википедию (скорее всего, используя Mediawiki API), чтобы получить список доступных статей, относящихся к такому запросу, а также импортировать выбранные статьи для текста ...

r wikipedia text-mining wikipedia-api mediawiki-api

вопрос задан: 18 October 2015 17:42

0

ответов

R tm removeWords функция не удаляет слова

Я пытаюсь удалить некоторые слова из корпуса, который я построил, но, похоже, он не работает. Сначала я пробегаю все и создаю фрейм данных, в котором перечислены мои слова в порядке их частоты. Я ...

r text text-mining tm corpus

вопрос задан: 26 August 2015 12:07

0

ответов

Как найти шаблон в текстовом файле, используя Python, объединяющий регулярные выражения & amp; строковые / файловые операции и хранить экземпляры шаблона?

По сути, я ищу конкретно 4-значный код в двух угловых скобках в текстовом файле. Я знаю, что мне нужно открыть текстовый файл, а затем анализировать построчно, но я не уверен ...

string-parsing text-mining file-io regex python

вопрос задан: 1 April 2014 23:11

0

ответов

R Regular Expression Lookbehind

У меня есть вектор, заполненный строками следующего формата: первые записи вектора выглядят следующим образом: 199719982001 199719982002 199719982003 ...

regex r package text-mining

вопрос задан: 4 November 2013 20:21