Как Статистически Невероятные Фразы Amazon работают?

Как чему-то нравится Статистически Невероятная работа Фраз?

По словам амазонки:

Статистически Невероятные Фразы Amazon.com или "ГЛОТКИ", являются самыми отличительными фразами в тексте книг в Поиске Внутри! Программа ™. Для идентификации ГЛОТКОВ наши компьютеры сканируют текст всех книг в Поиске Внутри! программа. Если они находят фразу, которая происходит большое количество раз в конкретной книге относительно всего Поиска Внутри! книги, та фраза является SIP в той книге.

ГЛОТКИ являются не обязательно невероятными в рамках конкретной книги, но они являются невероятными относительно всех книг в Поиске Внутри!. Например, большинство ГЛОТКОВ для книги по налогам является связанным налогом. Но потому что мы отображаем ГЛОТКИ в порядке их счета неправдоподобия, первые ГЛОТКИ будут по налоговым темам, которые эта книга упоминает чаще, чем другие налоговые книги. Для художественных произведений ГЛОТКИ имеют тенденцию быть отличительными словосочетаниями, которые часто намекают на важные элементы графика.

Например, для первой книги Joel, ГЛОТКИ: текучие абстракции, сглаженный текст, собственный корм для собак, количество ошибки, ежедневно создают, база данных ошибки, расписания программного обеспечения

Одна интересная сложность - то, что это фразы или 2 или 3 слов. Это делает вещи немного более интересными, потому что эти фразы могут наложиться с или содержать друг друга.

27
задан PeterAllenWebb 6 January 2010 в 03:24
поделиться

5 ответов

Это очень похоже на то, как Люсьен ранжирует документы по заданному поисковому запросу. Они используют метрику, называемую TF-IDF, где TF - это частота термина, а idf - обратная частота документа. Первый ставит документ в более высокую категорию, чем больше терминов в запросе, встречающихся в этом документе, а второй ставит документ в более высокую категорию, если в нем есть термины из запроса, которые редко встречаются во всех документах. Конкретным способом его вычисления является журнал (количество документов / количество документов с термином) - т.е. обратная частота, с которой встречается этот термин.

Так что в вашем примере, Эти фразы являются SIP-фразой относительно книги Джоэла, потому что это редкие фразы (появляющиеся в нескольких книгах) и они появляются в его книге несколько раз.

Edit: в ответ на вопрос о 2-х и 3-х граммах перекрытие не имеет значения. Рассмотрим предложение "две мои собаки коричневые". Здесь список 2-х граммов - ["мои две", "две собаки", "собаки есть", "коричневые"], а список 3-х граммов - ["мои две собаки", "две собаки есть", "собаки есть коричневые"]. Как я уже упоминал в своем комментарии, с перекрытием вы получаете N-1 2 грамма и N-2 3 грамма за поток N слов. Поскольку 2 грамма могут быть равны только другим 2 граммам, а также 3 граммам, вы можете обрабатывать каждый из этих случаев по отдельности. При обработке 2-х граммов каждое "слово" будет 2 грамма и т.д.

.
17
ответ дан 28 November 2019 в 05:23
поделиться

Вероятно, они используют вариацию на весе tf-idf, обнаруживая фразы, которые встречаются большое количество раз в конкретной книге, но несколько раз во всём корпусе за минусом конкретной книги. Повторяем для каждой книги.

Таким образом, "невероятность" относительно всего тела и может быть понята как "уникальность", или "то, что делает книгу уникальной по сравнению с остальной библиотекой"

Конечно, я просто догадываюсь.

.
10
ответ дан 28 November 2019 в 05:23
поделиться

Я вполне уверен, что это комбинация SIP, которая идентифицирует книгу как уникальную. В Вашем примере очень редко почти невозможно, чтобы в другой книге были "протекающие абстракции" и "собственный корм для собак" в той же книге.

Я, однако, делаю здесь предположение, так как не знаю наверняка

.
1
ответ дан 28 November 2019 в 05:23
поделиться

В качестве отправной точки я бы посмотрел на Цепи Маркова .

Один вариант:

  1. построить текстовый корпус из полного индекса.
  2. построить текстовый корпус из одной книги.
  3. для каждой фразы от m до n слов найдите вероятность того, что каждый корпус создаст ее.
  4. выберите N фраз с наибольшим соотношением вероятностей.

Интересным расширением будет запуск генератора цепей Маркова, в котором ваша таблица весов будет представлять собой увеличение разницы между глобальным и локальным телом. Это сгенерировало бы "карикатуру" (буквально) стилистических особенностей автора.

5
ответ дан 28 November 2019 в 05:23
поделиться

LingPipe имеет Учебное пособие Как это сделать, и они ссылаются на ссылки. Они не обсуждают математику за ним, но их исходный код открыт, так что вы можете посмотреть в их исходный код.

Я не могу сказать, что знаю, что делает Amazon, потому что они, вероятно, сохраняют это секретом (или, по крайней мере, они просто не удосужились никому говорить).

5
ответ дан 28 November 2019 в 05:23
поделиться
Другие вопросы по тегам:

Похожие вопросы: