о подобии косинуса

Я нахожу подобие косинуса между документами.. Я сделал это как это

D1 = (8,0,0,1), где 8,0,0,1 tf-idf множество условий t1, t2, t3, t4

D2 = (7,0,0,1)

тета because() = (56 + 0 + 0 + 1) / sqrt (64 + 49) sqrt (1 +1)

который выходит, чтобы быть

тета because() = 5

Теперь, что я оцениваю от этого значения... Я не получаю его, что делает because(тету), =5, имеют значение о подобии между ними... Я делаю вещи правильно?

1
задан Shrayas 19 February 2015 в 13:06
поделиться

1 ответ

Знаменатель неверен.

косинусное сходство определяется как

         D1 · D2
 sim = ———————————
        |D1| |D2|

Здесь

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
           ______________________    __
   |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
           ______________________    __
   |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65

Таким образом, сходство должно быть (57 / √ (50 * 65)) = 0,999846142, а не 5.

2
ответ дан 3 September 2019 в 00:28
поделиться
Другие вопросы по тегам:

Похожие вопросы: