Как извлечь данные из Google Analytics и создать хранилище данных (webhouse) из него?

У меня есть потоковые данные щелчка, такие как относящийся URL, главные целевые страницы, главные страницы выхода и метрики, такие как просмотры страницы, количество посещений, возвращают все в Google Analytics. Еще нет никакой базы данных, где вся эта информация могла бы храниться. Я обязан создавать хранилище данных с нуля (которому я верю, известен как веб-дом) от этих данных. Таким образом, я должен извлечь данные из Google Analytics и загрузить его в склад на ежедневной автоматизированной основе. Моими вопросами является:-

1) Действительно ли это возможно? Каждый день увеличения данных (некоторые с точки зрения метрик или мер, таких как посещения и некоторые с точки зрения новых сайтов обращения), как был бы процесс загрузки склада, идут о?

2) Какой инструмент ETL помог бы мне достигнуть этого? Pentaho, которому я верю, имеет способ вытащить данные из Google Analytics, кто-либо использовал его? Как тот процесс идет? Любые ссылки, ссылки ценились бы помимо ответов.

19
задан nkaur301 18 May 2010 в 15:22
поделиться

3 ответа

Как всегда, знание структуры базовых данных транзакции - атомарных компонентов, используемых для построения DW - является первым и самым большим шагом.

По сути, есть два варианта, в зависимости от того, как вы извлекаете данные. Один из них, уже упомянутый в предыдущем ответе на этот вопрос, - это доступ к вашим данным GA через API GA. Это довольно похоже на форму, в которой данные отображаются в отчете GA, а не на данные транзакций. Преимущество использования этого в качестве источника данных состоит в том, что ваш "ETL" очень прост, достаточно лишь синтаксического анализа данных из контейнера XML.

Второй вариант предполагает захват данных намного ближе к источнику.

Ничего сложного, тем не менее, несколько строк предыстории здесь, возможно, будут полезны.

  • Веб-панель управления Google Analytics создана парсинг / фильтрация журнала транзакций GA (контейнер который содержит данные GA, которые соответствует одному профилю в одном Счет).

  • Каждая строка в этом журнале представляет собой разовая транзакция и доставляется на сервер GA в виде HTTP-запрос от клиента.

  • Прилагается к этому запросу (который номинально для однопиксельного GIF ) составляет одна строка, содержащая все данные, возвращенные из этого Вызов функции _TrackPageview плюс данные из клиентской DOM, файлы cookie GA установлен для этого клиента, а содержимое местоположения браузера бар ( http: // www ... .).

  • Хотя этот запрос от клиент, он вызывается GA скрипт (который находится на клиенте) сразу после выполнения первичного функция сбора данных (_TrackPageview).

Таким образом, работа напрямую с этими данными транзакции, вероятно, является наиболее естественным способом создания хранилища данных; другим преимуществом является то, что вы избегаете дополнительных накладных расходов на промежуточный API).

Отдельные строки журнала GA обычно недоступны для пользователей GA. Тем не менее, получить их просто. Этих двух шагов должно быть достаточно:

  1. измените код отслеживания GA на каждой странице вашего сайта , чтобы он отправляет копию каждого запроса GIF (одна строка в файле журнала GA) на ваш собственный сервер, в частности, непосредственно до звонка _trackPageview () добавьте эту строку:

     pageTracker._setLocalRemoteServerMode ();
    
  2. Затем просто поместите однопиксельный gif изображение в корне вашего документа и вызовите это "__utm.gif" .

Итак, теперь ваш журнал активности сервера будет содержать эти отдельные строки транзакции, снова построенные из строки, добавленной к HTTP-запросу для пикселя отслеживания GA, а также из других данных в запросе (например, строки пользовательского агента). Эта бывшая строка представляет собой просто конкатенацию пар ключ-значение, каждый ключ начинается с букв «utm» (вероятно, для «трекера слежения»). Не каждый параметр utm появляется в каждом запросе GIF, некоторые из них, например, используются только для транзакций электронной коммерции - это зависит от транзакции.

Вот настоящий запрос GIF (идентификатор учетной записи был очищен, в противном случае он не поврежден):

http://www.google-analytics.com/__utm.gif? utmwv = 1 & utmn = 1669045322 & utmcs = UTF-8 & utmsr = 1280x800 & utmsc = 24-бит & utmul = en-us & utmje = 1 & utmfl = 10.0% 20r45 & utmcn = 1 & utmdt = Позиция% 20Listings% 20% http. uthnldin & lt; //lindenlab.com/employment&utmp=/employment/openings.php?sort=da&&utmac=UA-XXXXXX-X&utmcc=__utmcc=__utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%3__B__MB__MB%3B%3B__MB__MB4256051.1274256051.1%3B%3__MB__MB_MB_MB_MB_3B_MB_MB_MB_MB_M_B_M_B_MB_M_B_MB_MB_3_B_M_B_MB_M_B_M_3_B_2 % 3D87045125.1274256051.1.1.utmccn% 3D (referral)% 7Cutmcsr% 3Dlindenlab.com% 7Cutmcct% 3D% 2Femployment% 7Cutmcmd% 3Dreferral% 3B% 2B

Как видите, эта строка состоит из набора ключей -значение пары, каждая из которых разделена знаком «&». Всего два тривиальных шага: (i) Разделение этой строки на амперсанд; и (ii) замена каждого параметра (ключа) gif на короткую описательную фразу, чтобы упростить чтение:

gatc_version 1

GIF_req_unique_id 1669045322

language_encoding UTF-8

screen_resolution 1280x800

screen_color_depth 24-бит

browser_language en-us

java_enabled 1

flash_version 10,0% 20r45

campaign_session_session_ 1

page_title Позиция% 20Listings% 20% 7C% 20Linden% 20Lab

имя_хоста lindenlab.hrmdirect.com

referral_url http: // lindenlab. ru / usage

page_request /employment/openings.php?sort=da

account_string UA-XXXXXX-X

cookies __utma% 3D87045125.1669045322.1274256051.1274256051.1274256051.1% 3B% 2B__utmb% 3D87045125% 3B% 2B__utmc% 3D87045125% 3B% 2B__utmz% 3D87045125.1274256051.1.1.utmccn% 3D (referral)% 7Cutmcsr% 3DCutmcsr% 3Dlindenlab.com% 7Cutmcsr% 3Dlindenlab.com% 7 % 2B

Файлы cookie также легко анализировать (см. Краткое описание Google здесь ): например,

  • __ utma - файл cookie уникального посетителя,

  • __ utmb, __utmc - файлы cookie сеанса, а

  • __ utmz - тип перехода.

Файлы cookie Google Analytics хранят большую часть данных, которые регистрируют каждое взаимодействие пользователя (например, нажатие на ссылку для скачивания с тегами, переход по ссылке на другую страницу на Сайте, последующее посещение на следующий день и т. Д.). Так, например, файл cookie __utma состоит из групп целых чисел, каждая из которых разделена знаком "."; последняя группа - это количество посещений для этого пользователя (в данном случае «1»).

15
ответ дан 30 November 2019 в 04:33
поделиться

Вы можете использовать Data Export API от Google или службу, подобную той, которую мы создали специально для ваших нужд: www.analyticspros.com/products/analytics-data-warehouse.html.

Бест,

-Калеб Уитмор www.analyticspros.com / www.analyticsformarketers.com

3
ответ дан 30 November 2019 в 04:33
поделиться

Вы можете в любое время получить данные GA (Google Analytics) через их API и создать собственное хранилище данных (DW). Прежде чем начать, вам, возможно, захочется пообщаться с бизнес-пользователем и получить четкое понимание бизнес-требований. В среде DW чрезвычайно важно иметь четкие цели и понимание требований бизнес-пользователя, поскольку вы будете хранить историю транзакций, которые живут долгое время и часто используются.

Предполагая, что бизнес-пользователь определил KPI (ключевые показатели эффективности), метрики, измерения, гранулярность, необходимые для работы, вы можете проверить различные измерения и метрики, доступные через GA API по адресу code.google.com/apis/analytics/docs/. Затем остается только сделать правильный вызов API и получить то, что вам нужно. Деятельность DW включает в себя очистку, извлечение, преобразование и загрузку данных (ETL) или ELT, а также обобщение фактов по различным параметрам. Поскольку данные намного чище, чем в разрозненных системах (из веб-журналов, от внешних поставщиков, из excel или файлов и т.д.), вы можете просто загрузить данные через любые инструменты ETL (например, Talend, Pentaho, SSIS и т.д.) или через приложение по вашему выбору (Perl, Java, Ruby, C# и т.д.).

Для ежедневной загрузки необходимо разработать процесс инкрементальной загрузки в период низкой посещаемости (ночная загрузка), извлекая только последние данные, удаляя дубликаты, очищая несоответствующие данные, обрабатывая ошибочные строки и т.д.

Я предоставил образец приложения GA API на http://www.hiregion.com/2009/10/google-analytics-data-retriever-api-sem_25.html, и он предоставит вам основную информацию для начала работы.

2
ответ дан 30 November 2019 в 04:33
поделиться
Другие вопросы по тегам:

Похожие вопросы: