Как я могу найти только 'интересные' слова из корпуса?

Я разбираю предложения. Я хочу знать соответствующее содержание каждого предложения, определенного свободно как "полууникальные слова" относительно остальной части корпуса. Что-то подобное "статистически невероятным фразам Amazon", которые, кажется, (часто) передают символ книги через чудные строки слов.

Моя первичная обработка должна была начать входить в список общих слов. Это выводит легкие из строя как a, the, from, и т.д., Очевидно, оказывается, что этот список становится довольно длинным.

Одна идея состоит в том, чтобы генерировать этот список: Сделайте гистограмму частотности слова корпуса и сократите лучшие 10% или что-то подобное (IE the происходит 700 раз, from 600 раз, но micropayments только 50, который является объектом сокращения и поэтому релевантный).

Другим algorithim, о котором я просто узнал от Hacker News сегодня, является Tf idf, который похож на него, могло быть полезным.

Что другие подходы работали бы лучше, чем мои две идеи?

10
задан Alex Mcp 13 August 2010 в 20:19
поделиться

4 ответа

Взгляните в этой статье ( Уровень статистики слов: поиск ключевых слов в литературных текстах и ​​символических последовательностях , опубликовано в Phys. Rev. E ).

Изображение на первой странице вместе с подписью объясняет важное наблюдение. В Дон Кихоте слова «но» и «Кихот» встречаются с одинаковой частотой, но их спектры сильно различаются (вхождения «Дон Кихот» сгруппированы, а вхождения «но» расположены более равномерно). Поэтому «Дон Кихот» можно классифицировать как интересное слово (ключевое слово), тогда как «но» игнорируется.

Это может быть то, что вы ищете, а может и не быть, но я думаю, вам не помешает ознакомиться с этим результатом.

6
ответ дан 4 December 2019 в 00:22
поделиться

Скрытый семантический анализ (LSA) http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.html

0
ответ дан 4 December 2019 в 00:22
поделиться

Я думаю, что то, что Amazon называет «статистически невероятными фразами», - это слова, которые невероятны с учетом их огромного массива данных. Фактически, даже если слово повторяется 1000 раз в данной книге A, если эта книга - единственное место, где оно встречается, тогда это SIP, потому что вероятность его появления в любой данной книге ничтожна (потому что это относится к книге A). Вы не сможете действительно скопировать это множество данных для сравнения информации, если вы сами не работаете с большим количеством данных.

Что такое много данных? Что ж, если вы анализируете литературные тексты, то вам захочется скачать и обработать пару тысяч книг из Гутенберга. Но если вы анализируете юридические тексты, вам придется специально кормить содержание юридических книг.

Если, что, вероятно, так и есть, у вас нет большого количества данных в качестве роскоши, вам придется, так или иначе, положиться на частотный анализ. Но вместо того, чтобы рассматривать относительные частоты (как часто считается, части текста), рассмотрите абсолютные частоты.

Например, hapax legomenon , также известный в области сетевого анализа как 1-мыши , может представлять особый интерес. Это слова, которые встречаются в данном тексте только один раз. Например, в книге Джеймса Джойса Ulysses эти слова встречаются только один раз: posttexilic, corrosive, romanys, macrocosm, diaconal, сжимаемость, aungier. Это не статистически невероятные фразы (как «Леопольд Блум»), поэтому они не характеризуют книгу.Но это термины, которые встречаются достаточно редко, поэтому они появляются только один раз в выражении этого автора, так что вы можете считать, что они в некотором роде характеризуют его выражение. Это слова, которые, в отличие от таких общих слов, как «тот», «цвет», «плохой» и т. Д., Он явно стремился использовать.

Это интересный артефакт, и дело в том, что их довольно легко извлечь (подумайте, O (N) с постоянной памятью), в отличие от других, более сложных индикаторов. (А если вам нужны элементы, которые встречаются немного чаще, тогда вы можете обратиться к 2-мышам, ..., 10-мышам, которые также легко извлечь.)

3
ответ дан 4 December 2019 в 00:22
поделиться

TF-IDF - это один из способов. Если вы хотите говорить о предложениях, а не о словах, в дополнение к отличным ссылкам выше, вот простая схема:

Создайте цепь Маркова из большого корпуса образцов. В двух словах, вы строите цепь Маркова, записывая частоту каждого n-кортежа в вашем входном тексте. Например, предложение "это тест" с 3 кортежами будет иметь вид (this, is, a), (is, a, test). Затем вы группируете каждый n-кортеж по первым n-1 терминам, что позволяет вам ответить на вопрос: "Учитывая предшествующие n-1 слова, какова вероятность того, что следующим словом будет это?"

Теперь для каждого предложения во входном документе пройдите по цепи Маркова. Рассчитайте вероятность увидеть это предложение, перемножив все вероятности, с которыми вы столкнулись при прохождении цепи. Это даст вам оценку того, насколько "вероятным" является данное предложение во входном корпусе. Возможно, вы захотите умножить эту вероятность на длину предложения, так как длинные предложения статистически менее вероятны.

Теперь у вас есть вероятность, связанная с каждым предложением во входных данных. Выберите n наименее вероятных предложений - это и есть "интересные" предложения, при определенном определении понятия "интересный".

3
ответ дан 4 December 2019 в 00:22
поделиться
Другие вопросы по тегам:

Похожие вопросы: