Что лучший способ состоит в том, чтобы считать уникальными посетителями с Hadoop?

Question

Что лучший способ состоит в том, чтобы считать уникальными посетителями с Hadoop?

эй все, просто начав на hadoop и любопытный, что лучший способ в mapreduce состоял бы в том, чтобы считать уникальными посетителями, если бы Ваши файлы журнала были похожи на это...

DATE       siteID  action   username
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview tom
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview bob
05-05-2010 siteA   pageview mike

и для каждого сайта Вы хотели узнать уникальных посетителей к каждому сайту?

Я думал, что картопостроитель испустит имя пользователя siteID \t, и редуктор сохранил бы набор () уникального usersnames на ключ и затем испустил бы длину того набора. Однако это потенциально сохранило бы миллионы имен пользователей в памяти, которая не кажется правильным. У кого-либо есть лучший путь?

Я использую Python, передающий потоком между прочим

спасибо

9

python hadoop mapreduce

задан James 21 May 2010 в 09:37

3 ответа

Используйте вторичную сортировку для сортировки по идентификатору пользователя. Таким образом, вам не нужно ничего хранить в памяти - просто передавайте данные и увеличивайте свой отдельный счетчик каждый раз, когда вы видите изменение значения для определенного идентификатора сайта.

Вот некоторая документация .

1

ответ дан 3 November 2019 в 07:12

Мой подход аналогичен тому, что дал tzaman, с небольшим изменением

вывода карты: (username, siteid) => ("")
уменьшить вывод: (siteid) => (1)
map : identity mapper
reduce: longsumreducer (т.е. просто резюмируйте)

Обратите внимание, что при первом сокращении не нужно переходить по какой-либо из представленных записей. Вы можете просто изучить ключ и произвести вывод.

HTH

1

ответ дан 3 November 2019 в 07:12

Другие вопросы по тегам:

python hadoop mapreduce

Что лучший способ состоит в том, чтобы считать уникальными посетителями с Hadoop?

3 ответа

Похожие вопросы: