Как отслеживающие cookie работают?

Обходной путь путем изменения конфигурации

sql("set spark.sql.hive.convertMetastoreParquet = false")

Документация Spark

«При чтении и записи в таблицы паркета Hive metastore, Spark SQL будет пытаться использовать собственную поддержку Parquet вместо Hive SerDe для повышения производительности. Это поведение контролируется конфигурацией spark.sql.hive.convertMetastoreParquet и включено по умолчанию. "

5
задан RibaldEddie 15 May 2009 в 23:41
поделиться

3 ответа

They likely are using cookies in this manner to determine the frequency of visits to the domain. If you visit the site and it notes that you still have the day-expiring cookie, then that is significant in terms of your frequency of visitation. If all you have are the weekly and monthly, then it is clear that you haven't visited the site for at least a day, and last within the week.

There is no rule that says that this is the only way to do this. One could track with a single cookie and store statistics on the server.

5
ответ дан 14 December 2019 в 01:16
поделиться

Очень интересный вопрос. Я думаю, что это решение проблемы отелей . Давайте посмотрим с точки зрения запросов к БД. Если пользователю отправляется один файл cookie (со сроком действия, например, равным одному году), количество ежедневных посещений сайта будет примерно таким:

SELECT COUNT(DISTINCT CookieId) FROM Visits 
WHERE VisitDate = '2009-01-01' AND SiteId = 548

В системе с несколькими файлами cookie вы должны хранить только количество файлов cookie. выдается в день для каждого сайта и увеличивается каждый раз при отправке нового файла cookie:

SELECT NoOfVisits FROM Visits 
WHERE VisitDate = '2009-01-01' AND SiteId = 548

Это явное преимущество в производительности, когда ежегодно создаются сотни миллионов файлов cookie.

3
ответ дан 14 December 2019 в 01:16
поделиться

Использование 3 файлов cookie для каждого дня, недели и месяца означает, что клиентская сторона отправляет вам 3 файла cookie на каждый запрос, что явно плохо с точки зрения пропускной способности сети и задержки.

Итак, вы должны четко соблюдать баланс ... используйте только один файл cookie, если вы больше заботитесь о задержке пользователя, чем об использовании ЦП сервера в базе данных, используйте метод 3 cookie, если вас больше интересует использование ЦП сервера, чем задержка пользователя.

Настоящее решение - создать гибрид: использовать только один файл cookie, а затем в конце каждого дня выполнять первый запрос и сохранять результат в отдельной таблице или столбце, чтобы ваш интерфейс статистики запрашивал только этот отдельный результат. .

1
ответ дан 14 December 2019 в 01:16
поделиться
Другие вопросы по тегам:

Похожие вопросы: