Какой поиск алгоритма/понятия используется в Google?

Из того, что я понимаю, вы можете попытаться сделать:

df['new_status']=(df.groupby('Customer')['Status'].
  transform(lambda x: x.eq('canceled').all()).map({True:'cancelled'})).fillna(df.new_status)
print(df)

    Customer    Status new_status  duplicated
0   X         canceled             0         
1   X         canceled             1         
2   X         active               2         
3   Y         canceled  cancelled  0         
4   A         canceled  cancelled  0         
5   A         canceled  cancelled  1         
6   B         active               0         
7   B         canceled             1   

РЕДАКТИРОВАТЬ, так как ожидаемое o / p было изменено:

df['new_status']=(df.groupby('Customer')['Status'].
             transform(lambda x: x.duplicated(keep=False)&(x.eq('canceled').all()))
                         .map({True:'cancelled',False:''}))
print(df)

  Customer    Status new_status  duplicated
0   X         canceled             0         
1   X         canceled             1         
2   X         active               2         
3   Y         canceled             0         
4   A         canceled  cancelled  0         
5   A         canceled  cancelled  1         
6   B         active               0         
7   B         canceled             1   
5
задан j_random_hacker 1 April 2009 в 10:04
поделиться

7 ответов

Google запатентовал PigeonRank™

Ничего себе, они первоначально отправили это 7 лет назад со среды...

4
ответ дан 18 December 2019 в 06:03
поделиться

PageRank является аналитическим алгоритмом ссылки, используемым Google для поисковой системы, но патент был присвоен Стэнфордскому университету.

3
ответ дан 18 December 2019 в 06:03
поделиться

Индексация

Если Вы хотите перейти к основам:

Google использует инвертированный индекс Интернета. То, что это означает, - то, что Google имеет индекс всех страниц, он проверяется на основе условий на каждой странице. Например, термин Google отображается на эту страницу, домашнюю страницу Google и статью Wikipedia для Google, среди других.

Таким образом, когда Вы переходите к Google и вводите "Google" в поле поиска, Google проверяет свой индекс всех условий, доступных в Интернете, и находит запись для термина "Google" и с ним список всех страниц, которым сослались на тот термин в нем.

Для старых пользователей:

Индекс Google идет вне Вашего простого инвертированного индекса, как бы то ни было. Поэтому Google является лучшим. Поисковые роботы Google (пауки) умны. Очень умный. Вне просто отслеживания условий, которые находятся на любой данной веб-странице, они также отслеживают слова, которые находятся на связанных страницах и связывают тех, которые к данному документу.

Другими словами, если страница имеет термин Google в ней, и страница имеет ссылку на или связана от другой веб-страницы, на другую страницу можно сослаться в индексе в термин Google также. Все это и больше входят, почему данная страница возвращается для данного запроса.

Если Вы хотите войти, почему страницы заказаны путем, они находятся в Ваших результатах поиска, который входит в еще более интересный материал.

Рейтинг

Перейти к основам:

Возможно, один из наиболее основных алгоритмов, которые поисковая система может использовать для сортировки результатов, известен как обратная частотностью термина частота документа (tf-idf). Проще говоря, это означает, что Ваши результаты будут заказаны относительной важностью Ваших критериев поиска в документе. Другими словами, документ, который имеет 10 страниц и перечисляет Google слова однажды, совсем не так же важен как документ, который имеет 1 страницу и перечисляет Google слова десять раз.

Для старых пользователей:

Снова, Google делает вполне немного больше, чем Ваша основная поисковая система когда дело доходит до рейтинга результатов. Google реализовал вышеупомянутое, запатентованное, алгоритм PageRank. В краткой форме PageRank улучшает tf-idf алгоритм путем принятия во внимание populatirty/importance данной страницы. На данном этапе популярность/важность может быть оценена по любому ряду факторов, который Google просто привычка говорит нам. Однако самое большее основной из уровней, Google может сказать, что одна страница более важна, чем другой, потому что загрузки и загрузки других страниц связываются с ним.

6
ответ дан 18 December 2019 в 06:03
поделиться

Инвертированный индекс и MapReduce являются основами большинства поисковых систем (я верю). Вы создаете индекс на довольном и выполнении запросов против того индекса для отображения уместности. Google однако делает намного больше, чем просто простой индекс того, где каждое слово происходит, они также делают, сколько раз появилось, где появляется, где это появляется относительно других слов, упорядочивания, и т.д. Другое простое понятие это используется, является "стоп-словами", которые могут включать вещи как "и", и так далее (в основном "простые" слова, которые происходят часто и обычно не фокус запроса). Кроме того, они используют вещи как Разряд Страницы (упомянутый TStamper) для упорядочивания страниц уместностью и важностью.

MapReduce в основном устраивается на одну работу и делит ее на меньшие задания и позволяет тем меньшим заданиям работать на многих системах (в частях для масштабируемости и в частях для скорости). Если я вспоминаю правильно, Google смог использовать "средние" компьютеры для распределения заданий вместо компьютеров класса сервера. Так как возможность обработки одного компьютера достигает пика, многие, технология направляется к облачным вычислениям, где задание сделано многими реальными машинами.

Я не уверен, сколько делает поиск Google, это более точно сканирования. Различие заключается в этом, они только запускают в отдельных моментах и проверке к чему-либо достижимому и повторному, пока они не поражают своего рода тупик.

0
ответ дан 18 December 2019 в 06:03
поделиться

Я думаю, что «Анатомия крупномасштабной гипертекстовой поисковой системы» немного устарела. Вот недавний доклад о масштабируемости: Проблемы построения крупномасштабных систем поиска информации

1
ответ дан 18 December 2019 в 06:03
поделиться

Интересуясь алгоритмом ранжирования страниц и подобными вещами, я был встревожен, обнаружив, что введение персонального поиска в начале года (не получившего широкого обсуждения), похоже, сильно изменится - см. Неудача Золотой стандарт Google и Персонализированные результаты Google

0
ответ дан 18 December 2019 в 06:03
поделиться
Другие вопросы по тегам:

Похожие вопросы: