Предположим, у меня есть данные как упомянуто ниже. 11:00 user1 Brush 11:05 AM user1 Prep Brakfast 11:10 AM user1 съесть завтрак 11:15 AM user1 Принять ванну 11:30 AM user1 Уйти в офис 12:00 user2 Brush 12: ...
У меня есть termDocumentMatrix, созданный с использованием пакета tm в R. Я пытаюсь создать матрицу/фрейм данных, в которой есть 50 наиболее часто встречающихся терминов. Когда я пытаюсь преобразовать в матрицу, я получаю это...
У меня проблема трех классов с несбалансированными данными (90%, 5%, 5% ). Теперь я хочу обучить классификатор с помощью LIBSVM. Проблема в том, что LIBSVM оптимизирует параметры gamma и Cost для оптимального...
Я работаю с API, который сопоставляет мои запросы GTIN/EAN с данными о продукте. Поскольку возвращаемые данные поступают из каналов торговых продуктов, почти повсеместно используется следующее: Множественные результаты ...
Я использую пакеты tm и lda в R для тематического моделирования свода новостных статей. Тем не менее, я получаю проблему «не символа -», представленную как «», которая портит мои темы. Вот мой рабочий процесс :...
Я хочу присвоить несколько разных оценок читабельности тексту в R, например, Flesh Kincaid. Кто-нибудь знает, как с помощью R разбивать слова на слоги? Мне не обязательно нужен ...
Я использую скрытое распределение Дирихле с корпусом новостных данных из шести различных источников. Меня интересует эволюция темы, появление, и я хочу сравнить, насколько источники похожи и различны...
, пытаясь воспроизвести здесь пример; http://onertipaday.blogspot.com/2011/07/word-cloud-in-r.html Нужна помощь в выяснении того, как увеличить площадь облака слов. Изменение высоты и ...
Я пытаюсь найти код, который действительно работает, чтобы найти наиболее часто используемые фразы из двух и трех слов в пакете интеллектуального анализа текста R (возможно, для него есть другой пакет этого я не знаю). У меня ...
Я наткнулся на термин под названием «Явный семантический анализ», который использует Википедию в качестве справочного материала, находит сходство в документах и классифицирует их (поправьте меня если я ошибаюсь). ...
Я хочу создать список из ~ 6 ключевых слов (или даже лучше: пары ключевых словосочетаний) для каждого сообщения на форуме сообщений. В основном ключевые слова используются для замены строк темы в некоторых случаях. Для ...
Я пытаюсь создать систему, которая принимает текст и выводит фонетическое написание слов этого текста. Есть идеи, какие библиотеки можно использовать в Python и Java?
В R У меня есть список твитов, и я хотел бы оставить только те, которые на английском языке. Мне интересно, знает ли кто-нибудь из вас пакет R, который обеспечивает простой способ определения языка строки. ...
Я ищу библиотеку Java, которая может выполнять распознавание именованных объектов (NER) с настраиваемым контролируемым словарем, без сначала нужны помеченные данные для обучения. Я искал кое-что на SE, но большинство вопросов ...
Во время работы над проектом мне нужно загрузить и обработать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю ввести набор идентификаторов PubMed и загрузок ...
Я читал об использовании разложения по сингулярным значениям (SVD) для выполнения скрытого семантического анализа (LSA) в корпусе текстов. Я понял, как это сделать, а также понимаю математические концепции SVD. Но ...
Я хочу использовать WordNet для поиска коллекции похожих терминов из базового набора терминов. Например, слово «разочарованный» - потенциальными синонимами могут быть: напуганный, мрачный, сдержанный, пессимистический. ...
Я хотел бы пояснить взаимосвязь между скрытым распределением Дирихле (LDA) и общей задачей кластеризации документов. Анализ LDA имеет тенденцию выводить пропорции тем для каждого ...
Я скоро начну новый проект, в котором я собираюсь сделать много задач обработки текста, таких как поиск, категоризация / классификация, кластеризация и т. д. Будет огромное количество ...
I ' m создание сайта, который позволяет пользователям разобраться в дебатах, графически представляя аргументы за и против конкретной проблемы. (Wrangl) Я хотел бы классифицировать эти дебаты, чтобы они были ...