Я нахожу подобие косинуса между документами.. Я сделал это как это
D1 = (8,0,0,1), где 8,0,0,1 tf-idf множество условий t1, t2, t3, t4
D2 = (7,0,0,1)
тета because() = (56 + 0 + 0 + 1) / sqrt (64 + 49) sqrt (1 +1)
который выходит, чтобы быть
тета because() = 5
Теперь, что я оцениваю от этого значения... Я не получаю его, что делает because(тету), =5, имеют значение о подобии между ними... Я делаю вещи правильно?
Знаменатель неверен.
косинусное сходство определяется как
D1 · D2
sim = ———————————
|D1| |D2|
Здесь
D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
______________________ __
|D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
______________________ __
|D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65
Таким образом, сходство должно быть (57 / √ (50 * 65)) = 0,999846142, а не 5.