10
ответов

Как определить (естественный) язык документа?

У меня есть ряд документов на двух языках: английский и немецкий язык. Нет никакой применимой метаинформации об этих документах, программа может посмотреть на содержание только. На основе этого программа имеет к...
вопрос задан: 6 September 2009 13:32
10
ответов

Проверка Интернета

Я хочу проверить для определенных вещей. Конкретно события, которые происходят как концерты, фильмы, открытия художественной галереи, и т.д., и т.д. Что-либо, во что можно было бы провести время, идя. Как я реализую...
вопрос задан: 14 May 2009 21:52
6
ответов

Крупномасштабное Машинное обучение [закрывается]

Я должен выполнить различные методы машинного обучения на большом наборе данных (10-100 миллиардов записей), проблемы являются главным образом вокруг анализа текста / извлечением информации и включают различные методы ядра, но...
вопрос задан: 8 July 2010 23:58
5
ответов

Существуют ли в Java API для анализа / интеллектуального анализа текста? [закрыто]

Я хочу знать, есть ли API для анализа текста в Java. Что-то, что может извлекать все слова в тексте, отдельные слова, выражения и т. Д. Что-то, что может сообщить, является ли найденное слово числом, ...
вопрос задан: 25 July 2011 18:41
4
ответа

Как найти и извлечь слова с заглавной буквы из текста в r [duplicate]

У меня есть свод документов. Теперь я хочу найти правильные имена и отдельные имена, извлекая из текста слова с заглавной буквы из первой буквы. Например: Input_String & lt; - c ("Purple Rain is ...
вопрос задан: 15 September 2017 13:00
4
ответа

Что такое “энтропийное и увеличение информации”?

Я читаю эту книгу (NLTK), и это сбивает с толку. Энтропия определяется как: Энтропия является суммой вероятности каждой маркировки времена вероятность журнала того же самого маркировала How, я могу подать заявку...
вопрос задан: 1 September 2016 06:17
4
ответа

Алгоритм классификации / категоризации текста [закрыт]

Моя цель - [полу] автоматически присваивать тексты различным категориям. Существует набор пользовательских категорий и набор текстов для каждой категории. Идеальный алгоритм должен уметь учиться ...
вопрос задан: 27 August 2010 13:12
4
ответа

Реальный по сравнению с плавающей точкой по сравнению с деньгами

Почему, когда я сохраняю значение, говорят 40.54 в SQL Server к столбцу типа, Реального, это возвращает мне значение, которое похоже на больше 40.53999878999 вместо 40,54? Я видел это несколько раз, но никогда не имею...
вопрос задан: 13 June 2009 03:00
3
ответа

Удалить конкретные слова с определенной пунктуацией в R

Я работаю над корпусом в R, который содержит опросы на русском языке. В начале каждого вопроса указываются имена говорящего человека. К примеру: президент. - Ты Николай ...
вопрос задан: 20 March 2019 16:06
3
ответа

Лучше всего кластеризируя алгоритм? (просто объясненный)

Вообразите следующую проблему: у Вас есть база данных, содержащая приблизительно 20 000 текстов в таблице, названной "статьями", Вы хотите соединить связанные с помощью кластеризирующегося алгоритма для отображения...
вопрос задан: 19 May 2017 13:19
3
ответа

Как определить идеи и понятия в данном тексте

Я работаю над проектом в данный момент, где было бы действительно полезно смочь обнаружить, когда определенная тема/идея упоминается в теле текста. Например, если текст содержал: Возможно, если...
вопрос задан: 18 May 2010 09:45
2
ответа

текстовая шахта файлы PDF с Python?

Существует ли пакет/библиотека для Python, который позволил бы мне открывать PDF и искал бы текст определенные слова?
вопрос задан: 3 August 2014 05:06
2
ответа

R: Шпалы? Как бороться с ошибками при извлечении с использованием больших циклов? [Дубликат]

Я был бы так благодарен за любой совет - даже источник для расследования. Я являюсь количественным исследователем социальных наук, и мои навыки программирования быстро улучшаются, но я все еще новичок. ...
вопрос задан: 7 February 2013 16:52
2
ответа

Анализ кластерного графика. Как вы направляетесь вправо, а не вверх по линии? [Дубликат]

Ниже приведен рабочий код Text Mining (Opinion Mining). Когда вы сделаете это с помощью кластерного анализа, линия будет направлена ​​вверх. В некоторых иллюстративных работах были графики, которые указывают линию на ...
вопрос задан: 2 January 2013 09:26
2
ответа

Индексация и поиск по слоям комментариев уровня слова в Lucene

Я имею набор данных с несколькими слоями аннотации по базовому тексту, такими как часть тегов, блоки от поверхностного синтаксического анализатора, называю объекты и других от различной обработки естественного языка (...
вопрос задан: 22 May 2010 06:49
1
ответ

Анализ текста, извлечение факта, использование семантического анализа [закрытый] .NET

Я ищу любые свободные инструменты/компоненты/библиотеки, которые позволяют мне брать anvantage анализа текста, извлечения факта и семантического анализа в моем приложении.NET. Проект ЛОГИЧЕСКОГО ЭЛЕМЕНТА - то, в чем я нуждаюсь, но...
вопрос задан: 26 February 2010 21:55
1
ответ

Perl в рамках Python?

Существует библиотека Perl, к которой я хотел бы получить доступ из Python. Как я могу использовать его? К вашему сведению программное обеспечение является NCleaner. Я хотел бы использовать его из Python для преобразования строки HTML в текст. (...
вопрос задан: 16 December 2009 21:12
1
ответ

Какой инструментарий обработки естественного языка использовать в JAVA? [закрытый]

я работаю над проектом, который состоит из веб-сайта, который соединяется с NCBI (Национальный Центр информации о Биотехнологии) и ищет статьи там. Вещь состоит в том, что я должен сделать некоторый текст...
вопрос задан: 22 May 2009 00:09
1
ответ

Анализ мнений C# [закрывается]

Кто-либо знает о (предпочтительно открытый исходный код) библиотека C#, которая может быть реализована для вычисления полного чувства некоторого данного текста?
вопрос задан: 30 January 2009 02:15
0
ответов

Перемещение слов в ячейке в отдельные столбцы [закрыто]

У меня есть CSV-файл, который имеет столбец с несколькими словами в каждой ячейке. Интересно, есть ли функция R для перемещения слов в каждой ячейке в отдельные ячейки. Ниже приведены данные в двух ячейках в ...
вопрос задан: 22 March 2019 14:43
0
ответов

определение арабского языка в R

Я работаю над текстом Mining in R на арабском языке, и у меня возникли проблемы с определением арабского языка в R studio. Я установил локальный арабский, как показано здесь: Sys.setlocale ("LC_CTYPE", "arabic") ...
вопрос задан: 17 January 2019 09:23
0
ответов

Корреляция слов в R

Я вижу некоторые подобные вопросы, но никто из них не помог мне. У меня есть корпус, и я хочу иметь список, таблицу или фрейм данных с самой высокой и самой низкой позитивной и отрицательной корреляцией ...
вопрос задан: 13 July 2018 17:54
0
ответов

Java-реализация разложения по сингулярным значениям для больших разреженных матриц

Мне просто интересно, знает ли кто-нибудь о реализации java сингулярного разложения (SVD) для больших разреженных матриц? Мне нужна эта реализация для скрытого семантического анализа (LSA). Я ...
вопрос задан: 22 September 2017 17:44
0
ответов

Пакет R tm неверный ввод в 'utf8towcs'

Я пытаюсь использовать пакет tm в R для выполнения некоторых текстовый анализ. Я связал следующее: require(tm) dataSet <- Корпус (DirSource ('tmp/')) набор данных <- tm_map (набор данных, ниже) Ошибка в FUN(X[[...
вопрос задан: 23 May 2017 11:47
0
ответов

Извлечение слов с помощью nltk из немецкого текста

Я пытаюсь извлечь слова из немецкого документа, когда я использую следующий метод, описанный в учебнике nltk, мне не удается получить слова со специальными символами, специфичными для языка. ptcr = nltk....
вопрос задан: 13 February 2017 02:33
0
ответов

Текстовый файл R и интеллектуальный анализ текста… как загрузить данные

Я использую пакет R tm и хочу выполнить анализ текста. Это один документ, который рассматривается как набор слов. Я не понимаю документацию о том, как загрузить текстовый файл и создать ...
вопрос задан: 5 November 2015 16:11
0
ответов

Как получить доступ к Википедии из R?

Есть ли какой-нибудь пакет для R, который позволяет запрашивать Википедию (скорее всего, используя Mediawiki API), чтобы получить список доступных статей, относящихся к такому запросу, а также импортировать выбранные статьи для текста ...
вопрос задан: 18 October 2015 17:42
0
ответов

R tm removeWords функция не удаляет слова

Я пытаюсь удалить некоторые слова из корпуса, который я построил, но, похоже, он не работает. Сначала я пробегаю все и создаю фрейм данных, в котором перечислены мои слова в порядке их частоты. Я ...
вопрос задан: 26 August 2015 12:07
0
ответов

Как найти шаблон в текстовом файле, используя Python, объединяющий регулярные выражения & amp; строковые / файловые операции и хранить экземпляры шаблона?

По сути, я ищу конкретно 4-значный код в двух угловых скобках в текстовом файле. Я знаю, что мне нужно открыть текстовый файл, а затем анализировать построчно, но я не уверен ...
вопрос задан: 1 April 2014 23:11
0
ответов

R Regular Expression Lookbehind

У меня есть вектор, заполненный строками следующего формата: первые записи вектора выглядят следующим образом: 199719982001 199719982002 199719982003 ...
вопрос задан: 4 November 2013 20:21