PageRank и его математика: Объяснение необходимо

$ в конце сетевого имени скрывает долю от людей, просматривающих.

, Например, если Вы принимаете участие "\computer1\share1$", любой, кто просматривает к "\computer1", не будет видеть ту перечисленную долю.

Однако, если у Вас есть созданный "\computer1\share2", они будут в состоянии видеть ту долю.

Это - единственная разница, о которой я знаю.

21
задан ire_and_curses 20 September 2009 в 19:07
поделиться

6 ответов

Формальное определение PageRank, как определено на страница 4 цитируемого документа, выражается математическим уравнением со смешным символом «E» (на самом деле это заглавная греческая буква «сигма». Сигма - это буква «S», которая здесь означает Суммирование ) .

Вкратце эта формула говорит, что для расчета PageRank страницы X ...

   For all the backlinks to this page  (=all the pages that link to X)
   you need to calculate a value that is
         The PageRank of the page that links to X    [R'(v)]
         divided by 
         the number of links found on this page.    [Nv]
         to which you add
           some "source of rank",  [E(u)] normalized by c
             (we'll get to the purpose of that later.)

     And you need to make the sum of all these values [The Sigma thing]
     and finally, multiply it by a constant   [c] 
        (this constant is just to keep the range of PageRank manageable)

Ключевая идея этой формулы заключается в том, что все веб-страницы, которые ссылаются на данную страницу X, добавляют ценить его "ценность". Переходя по ссылке на какую-либо страницу, они «голосуют» за эту страницу. Однако это «голосование» имеет больший или меньший вес в зависимости от двух факторов:

  • Популярность страницы, которая ссылается на X [R ' (v)]
  • Тот факт, что страница, которая ссылается на X, также ссылается на многие другие страницы или нет. [Nv]

Эти два фактора отражают очень интуитивные идеи:

  • Обычно лучше получить рекомендательное письмо от признанного эксперта в этой области, чем от неизвестного человека.
  • Независимо от того, кто дает рекомендацию, автор: также давая рекомендации другим людям, они принижают ценность своих рекомендаций для вас.

Как вы заметили, в этой формуле используется в некотором роде циклическая ссылка , потому что знать диапазон страниц X , вам необходимо знать PageRank всех страниц, ссылающихся на X. Тогда как вы рассчитываете эти значения PageRank? ... Вот где возникает следующая проблема конвергенции, описанная в разделе документа.

По сути, с начала с некоторым "случайным" (или предпочтительно " Эффективное вычисление PageRank Haveliwala 1999 /// Использование блочной структуры Интернета для вычислений PR Kamvar et al 2003 /// Быстрый двухэтапный алгоритм вычисления PageRank Lee et al. 2002

Хотя многие из авторов приведенных выше ссылок из Стэнфорда, не нужно много времени, чтобы понять, что поиск эффективных методов расчета PageRank - это горячая область исследований. Я понимаю, что этот материал выходит за рамки OP, но важно намекнуть на тот факт, что базовый алгоритм не подходит для больших сетей.

Чтобы закончить с очень доступным текстом (но со множеством ссылок на in -depth info), я хотел бы упомянуть отличную статью в Википедии

Если вы серьезно относитесь к такого рода вещам, вы можете рассмотреть вводный / повторный курс по математике, особенно линейной алгебре, а также компьютер научный класс, который занимается графами в целом. Кстати, отличное предложение от Майкла Дорфмана в этом посте для OCW '

26
ответ дан 29 November 2019 в 20:06
поделиться

Это документ, который вам нужен: http://infolab.stanford.edu/~backrub/google.html (Если вы не узнаете названия авторов, вы найдете более подробную информацию о них здесь: http://www.google.com/corporate/execs.html ).

Символы, используемые в документе, описаны в документе в Lay English.

Спасибо, что заставили меня погуглить.

5
ответ дан 29 November 2019 в 20:06
поделиться

Если вы серьезно относитесь к разработке алгоритма для поисковой системы, я серьезно рекомендую вам пройти курс линейной алгебры. В отсутствие очного курса вполне хорош курс MIT OCW Гилберта Стрэнга (видеолекции на http://ocw.mit.edu/OcwWeb/Mat Mathematics/18-06Spring-2005/VideoLectures/ ).

Класс, подобный этому, безусловно, позволит вам понять математические символы в документе, который вы предоставляете - в этой статье нет ничего, что не было бы рассмотрено на первом году курса линейной алгебры.

Я знаю, что это не тот ответ, который вы ищете, но это действительно лучший вариант для вас. Когда кто-то пытается объяснить вам отдельные символы или алгоритмы, когда вы плохо разбираетесь в базовых концепциях, это никому не нужно ''

9
ответ дан 29 November 2019 в 20:06
поделиться

Вы также можете прочитать вводное руководство по математике, лежащее в основе построения матрицы рейтинга страниц, написанное Дэвидом Остином под названием Как Google находит вашу иглу в стоге сена Интернета ; он начинается с простого примера и дорабатывается до полного определения.

3
ответ дан 29 November 2019 в 20:06
поделиться

«Собственный вектор стоимостью 25 000 000 000 долларов: линейная алгебра в основе Google». от Rose-Hulman немного устарела, потому что теперь Page Rank - это задача линейной алгебры на $ 491 млрд. Я думаю, что статья написана очень хорошо.

В "Программировании коллективного разума" также есть хорошее обсуждение Page Rank.

3
ответ дан 29 November 2019 в 20:06
поделиться

На мой взгляд, Даффимо опубликовал лучшую ссылку. Я изучал алгоритм ранжирования страниц в старших классах. Page Rank выполняет следующее:

  1. Определите набор текущих веб-страниц как состояния конечной цепи Маркова.
  2. Определите вероятность перехода с сайта u на v, где есть исходящая ссылка на v от u до be

    1 / u_ {n}, где u_ {n} - количество исходящих звеньев от u.

  3. Предположим, что марковская цепь, определенная выше, нередуцируема (это может быть реализовано только с небольшим ухудшением результатов)

  4. Можно показать, что каждая конечная неприводимая марковская цепь имеет стационарное распределение. Определите рейтинг страницы как стационарное распределение, то есть вектор, который содержит вероятность того, что случайная частица окажется в каждом заданном месте по мере того, как число переходов между состояниями стремится к бесконечности.

Google использует небольшое изменение метода мощности, чтобы найти стационарное распределение ( степенной метод находит доминирующие собственные значения). Кроме этого в этом нет ничего. Это довольно простое и элегантное и, вероятно, одно из самых простых приложений цепей Маркова, которое я могу придумать, но это просто большие деньги!

Таким образом, все, что делает алгоритм ранжирования страниц - это учитывает топологию сети как показатель должен ли сайт быть важным. Чем больше входящих ссылок на сайт, тем больше вероятность того, что случайная частица будет проводить время на сайте в течение бесконечного количества времени.

Google использует небольшой вариант метода мощности для нахождения стационарного распределения (метод мощности находит доминирующие собственные значения). Кроме этого в этом нет ничего. Это довольно простое и элегантное и, вероятно, одно из самых простых приложений цепей Маркова, которое я могу придумать, но это просто большие деньги!

Таким образом, все, что делает алгоритм ранжирования страниц, - это учитывает топологию сети как показатель должен ли сайт быть важным. Чем больше входящих ссылок на сайт, тем больше вероятность того, что случайная частица будет проводить время на сайте в течение бесконечного количества времени.

Google использует небольшой вариант метода мощности для нахождения стационарного распределения (метод мощности находит доминирующие собственные значения). Кроме этого в этом нет ничего. Это довольно простое и элегантное и, вероятно, одно из самых простых приложений цепей Маркова, которое я могу придумать, но это не так уж и много денег!

Таким образом, все, что делает алгоритм ранжирования страниц, это учитывает топологию сети как показатель должен ли сайт быть важным. Чем больше входящих ссылок на сайт, тем выше вероятность того, что случайная частица будет проводить время на сайте в течение бесконечного количества времени.

но это не так уж и много денег!

Таким образом, все, что делает алгоритм ранжирования страниц, - это учитывает топологию сети как показатель того, должен ли веб-сайт быть важным. Чем больше входящих ссылок на сайт, тем больше вероятность того, что случайная частица будет проводить время на сайте в течение бесконечного количества времени.

но это не так уж и много денег!

Таким образом, все, что делает алгоритм ранжирования страниц, - это учитывает топологию сети как показатель того, должен ли веб-сайт быть важным. Чем больше входящих ссылок на сайт, тем больше вероятность того, что случайная частица будет проводить время на сайте в течение бесконечного количества времени.

3
ответ дан 29 November 2019 в 20:06
поделиться
Другие вопросы по тегам:

Похожие вопросы: