LSA - латентно-семантический анализ - Как кодировать его в PHP?

Если вы рисуете свою графику, передавая буферы в OpenGL (glVertexPointer () и т. Д.) Вместо прямых вызовов (glVertex3f ()), вам нужно указать OpenGL, какие буферы использовать.

Таким образом, вместо того, чтобы вызывать glVertex и glNormal, вы должны создавать буферы, связывать их и использовать glVertexPointer и glNormalPointer, чтобы указывать OpenGL на ваши данные. После этого вызов glDrawElements (или тому подобное) будет использовать эти буферы для рисования. Тем не менее, еще один обязательный шаг - сообщить драйверу OpenGL, какие буферы вы на самом деле хотите использовать, для чего и используется glEnableClientState ().

Это все очень волнистые. Вы должны прочитать об объектах буфера вершин и попробовать их.

9
задан Community 23 May 2017 в 12:16
поделиться

4 ответа

LSA links:

Here is the complete algorithm. If you have SVD, you are most of the way there. The papers above explain it better than I do.

Assumptions:

  • your SVD function will give the singular values and singular vectors in descending order. If not, you have to do more acrobatics.

M: corpus matrix, w (words) by d (documents) (w rows, d columns). These can be raw counts, or tfidf or whatever. Stopwords may or may not be eliminated, and stemming may happen (Landauer says keep stopwords and don't stem, but yes to tfidf).

U,Sigma,V = singular_value_decomposition(M)

U:  w x w
Sigma:  min(w,d) length vector, or w * d matrix with diagonal filled in the first min(w,d) spots with the singular values
V:  d x d matrix

Thus U * Sigma * V = M  
#  you might have to do some transposes depending on how your SVD code 
#  returns U and V.  verify this so that you don't go crazy :)

Then the reductionality.... the actual LSA paper suggests a good approximation for the basis is to keep enough vectors such that their singular values are more than 50% of the total of the singular values.

More succintly... (pseudocode)

Let s1 = sum(Sigma).  
total = 0
for ii in range(len(Sigma)):
    val = Sigma[ii]
    total += val
    if total > .5 * s1:
        return ii

This will return the rank of the new basis, which was min(d,w) before, and we'll now approximate with {ii}.

(here, ' -> prime, not transpose)

We create new matrices: U',Sigma', V', with sizes w x ii, ii x ii, and ii x d.

That's the essence of the LSA algorithm.

This resultant matrix U' * Sigma' * V' can be used for 'improved' cosine similarity searching, or you can pick the top 3 words for each document in it, for example. Whether this yeilds more than a simple tf-idf is a matter of some debate.

To me, LSA performs poorly in real world data sets because of polysemy, and data sets with too many topics. It's mathematical / probabilistic basis is unsound (it assumes normal-ish (Gaussian) distributions, which don't makes sense for word counts).

Your mileage will definitely vary.

Tagging using LSA (one method!)

  1. Construct the U' Sigma' V' dimensionally reduced matrices using SVD and a reduction heuristic

  2. By hand, look over the U' matrix, and come up with terms that describe each "topic". For example, if the the biggest parts of that vector were "Bronx, Yankees, Manhattan," then "New York City" might be a good term for it. Keep these in a associative array, or list. This step should be reasonable since the number of vectors will be finite.

  3. Assuming you have a vector (v1) of words for a document, then v1 * t(U') will give the strongest 'topics' for that document. Select the 3 highest, then give their "topics" as computed in the previous step.

7
ответ дан 4 December 2019 в 22:29
поделиться

Все выглядит правильно, до последнего шаг. Обычное обозначение для SVD - это то, что он возвращает три матрицы A = USV *. S - это диагональная матрица (то есть все нули по диагонали), которая в этом случае в основном дает меру того, сколько каждое измерение захватывает исходные данные. Числа («единичные значения») будут уменьшаться, и вы можете посмотреть, сколько измерений будет полезно. В противном случае вы захотите просто выбрать произвольное число N.

Здесь я немного запутался. Координаты терминов (слов) в пространстве уменьшенной размерности находятся либо в U, либо в V, я думаю, в зависимости от того, находятся ли они в строках или столбцах входной матрицы. С другой стороны, Я думаю, что координаты слов будут строками U. т.е. первая строка U соответствует первой строке входной матрицы, то есть первому слову. Затем вы просто берете первые N столбцов этой строки в качестве координаты слова в сокращенном пространстве.

HTH

Обновление:

Этот процесс пока не говорит вам точно, как выбирать теги. Я никогда не слышал, чтобы кто-то использовал LSI для выбора тегов (алгоритм машинного обучения может быть более подходящим для этой задачи, например, деревья решений). LSI сообщает вам, похожи ли два слова. Это далеко от назначения тегов.

Есть две задачи: а) какой набор тегов использовать? б) как выбрать три лучших тега ?. Я не очень понимаю, как LSI поможет вам ответить (а). Вы можете выбрать набор тегов вручную. Но если вы используете LSI, теги, вероятно, должны быть словами, которые встречаются в документах. Затем для пункта (b) вы хотите выбрать теги, наиболее близкие к словам, найденным в документе. Вы можете поэкспериментировать с несколькими способами реализации этого. Выберите три тега, которые ближе всего к любому слову в документе, где близость измеряется косинусным сходством (см. Википедию) между координатой тега (его строка в U) и координатой слова (его строка в U).

0
ответ дан 4 December 2019 в 22:29
поделиться

Это ответ не напрямую на вопрос авторов, а на мета-вопрос о том, как автоматически пометить новости. OP упоминает распознавание именованных сущностей, но я считаю, что они имеют в виду нечто большее, чем автоматическая пометка. Если они действительно имеют в виду NER, то этот ответ - чушь:)

Учитывая эти ограничения (600 элементов в день, 100-200 символов / элемент) с различными источниками, вот несколько вариантов тегирования:

  1. Вручную. Аналитик легко мог бы делать 600 таких операций в день, вероятно, за пару часов. Что-то вроде Amazon Mechanical Turk или заставить пользователей делать это также может быть осуществимо. Наличие некоторого количества "помеченных вручную", даже если оно всего 50 или 100, будет хорошей основой для сравнения того, что вам дают автоматически сгенерированные методы ниже.

  2. Уменьшение размерности с использованием LSA, Тематические модели (скрытое распределение Дирихле) и тому подобное .... Мне очень не повезло с LSA на реальных наборах данных, и я не удовлетворен его статистической базой. LDA, на мой взгляд, намного лучше, и у него есть невероятный список рассылки , в котором лучше всего продумано, как назначать темы текстам.

  3. Простая эвристика ... если у вас есть актуальные новости, то использовать структуру новостного сообщения . Сосредоточьтесь на первом предложении, отбросьте все общие слова (стоп-слова) и выберите 3 лучших существительных из первых двух предложений. Или, черт возьми, возьмите все существительные в первом предложении и посмотрите, к чему это приведет. Если все тексты на английском языке, то сделайте часть анализа речи по всему шебангу и посмотрите, что вы получите. С помощью структурированных элементов, таких как новостные отчеты, LSA и другие методы, не зависящие от порядка (tf-idf), выдают много информации.

Удачи!

(если вам нравится этот ответ, возможно, измените теги вопроса, чтобы он соответствовал ему)

1
ответ дан 4 December 2019 в 22:29
поделиться

Существует дополнительная ветка SO об опасностях выполнения всего этого в PHP по адресу текст ссылки .

В частности, там есть ссылка на этот документ на Скрытое семантическое отображение , которое описывает, как получить результирующие «темы» для текста.

0
ответ дан 4 December 2019 в 22:29
поделиться
Другие вопросы по тегам:

Похожие вопросы: