Я могу использовать NLTK, чтобы определить, является ли комментарий положительным или отрицательным?

Можно ли показать мне простой пример с помощью http://www.nltk.org/code, чтобы определить если строка о счастливом настроении или настроении нарушения?

8
задан Juanjo Conti 11 August 2010 в 22:25
поделиться

3 ответа

NLTK не может быть готов из коробки, но если вы ищете какое-либо исследование в этой области, ознакомьтесь с этой статьей о Обнаружении оскорбительных слов . Те же методы могут быть адаптированы для обнаружения комментариев, которые не являются оскорбительными / безобидными, а вместо этого являются счастливыми / несчастными. Основной программный пакет, используемый в этом проекте для классификации текста, называется WEKA и использует несколько классификаторов, обученных на предыдущих примерах, чтобы определить, является ли язык оскорбительным или нет (и в этом методе используется настраиваемый порог).

4
ответ дан 5 December 2019 в 22:15
поделиться

Нет.

Это задача, выходящая за рамки возможностей NLTK или любого известного грамматического парсера, который известен или может быть реалистично представлен. Посмотрите NLTK Book , чтобы узнать, какие задачи он может выполнять, что далеки от заявленной вами цели.

В качестве дешевого примера:

Мне очень понравилось использовать вашу бумагу для дрессировки моей собаки.

Проанализируйте это с помощью NLTK, и вы получите

[('I', 'PRP'), ('really', 'RB'), ('enjoyed', 'VBD'), 
 ('using', 'VBG'), ('your', 'PRP$'), ('paper', 'NN'), 
 ('to', 'TO'), ('train', 'VB'), ('my', 'PRP$'), ('dog', 'NN')]

Где дерево синтаксического анализа скажет мне, что «пользовался» - это центральный глагол (прошедшее время) в простом предложении. Получать удовольствие - это хорошо. Тренировать что-либо - это вообще хорошо. Герунды, существительные, сравнительные и т. Д. Относительно нейтральны. Так что дайте этому хороший балл 0,90.

За исключением того, что я действительно имею в виду, что я либо ударил свою собаку вашей бумагой, либо позволил ей вылиться на бумагу, что вы, вероятно, сочли бы плохим.

Наймите человека для этой задачи распознавания.

Добавлено для тех, кто считает, что даже обученные классификаторы очень полезны :

Классифицируйте эту реальную запись из реального корпуса отзывов клиентов, используя любой классификатор, который вам нравится обучать на любом наборе данных, который вам нравится:

Эта камера продолжает автофокусировку в автоматический режим с жужжащим звуком, который не остановить. Было бы действительно хорошо, если они дали возможность остановить эту автофокусировку. Если ты хочешь иметь дату и время на имидж, это только через их программное обеспечение, которое считывает дату изображения и время из метаданных изображения. Итак, если вы используете свой кардридер и копировать изображения - вам нужно еще раз открыть их через их программное обеспечение, чтобы поставить дату и время.И в этом тоже нет прямого способа добавить дату и время - вы должны сказать «печатать изображения» в другой каталог, в котором есть возможность указать дату и время . Даже малейшая дрожь полностью искажает ваше изображение. В помещении изображения были не такими четкими. Ты должен включите вспышку, чтобы получить это, даже если ваша комната хорошо освещена. Крышка объектива действительно раздражает. видеоклипы взятые всегда будут иметь некоторый "шум" в это - вы не можете этого избежать.

Классификация наихудшего настроения, которую я получил, была «совершенно двусмысленной», но люди могут легко определить, что это совсем не комплимент. Это не были случайно выбранные данные, а те, которые были выбраны из-за отрицательной предвзятости без «ненависти», «суки» или чего-то подобного.

0
ответ дан 5 December 2019 в 22:15
поделиться

Вы ищете метод, который использует классификатор машинного обучения, чтобы определить, является ли фрагмент текста положительным или отрицательным. Ряд исследовательских групп предпринимали различные попытки сделать это (например, http://research.yahoo.com/pub/2387 и http://lingcog.iit.edu/doc /appraisal_sentiment_cikm.pdf ) мы можем получить от 80% до 90% точности при определении того, является ли отзыв о продукте положительным или отрицательным.

Из-за краткости вашего вопроса мне не очевидно, является ли определение того, является ли отзыв о продукте положительным или отрицательным, той же задачей, которую вы пытаетесь выполнить, или просто сопутствующей задачей, но я бы посоветовал начать с простого с классификацией по мешку слов с байесовским классификатором (который NLTK должен уметь обрабатывать), а затем улучшите свои методы оттуда в зависимости от того, насколько точность окажется.

К сожалению, я никогда не использовал NLTK (или Python, если на то пошло), поэтому я не могу дать вам пример кода, как использовать NLTK для этого.

0
ответ дан 5 December 2019 в 22:15
поделиться
Другие вопросы по тегам:

Похожие вопросы: