Какая-либо масштабируемая база данных OLAP (масштаб веб-приложения)?

У меня есть приложение, которое требует аналитики для другого уровня агрегирования, и это - рабочая нагрузка OLAP. Я хочу обновить свою базу данных довольно часто также.

например, вот то, на что мое обновление похоже (схема похожа: время, dest, исходный IP, браузер-> посещения)

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) -->  105

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110

...

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110

И затем я хочу спросить, что является общим посещением www.stackoverflow.com от браузера Firefox в прошлом месяце.

Я понимаю, что система Vertica может сделать это относительно дешевым способом (производительность и мудрая масштабируемость, но не рентабельная, вероятно). У меня есть два вопроса здесь.

1) Существует ли продукт с открытым исходным кодом, на который я могу положиться для решения этой проблемы? В частности, как хорошо система Mondrian работает? (масштабируемость и производительность), 2) там HBase или решение для основы Гипертаблицы (очевидно, явный HBase/Hypertable не может сделать этого) для этого? - но если существует проект на основе HBase/Hypertable, масштабируемость, вероятно, не будет проблемой IMO)?

Спасибо!

10
задан Draemon 28 January 2010 в 19:55
поделиться

4 ответа

Необходимо создать диспетчер пространства имен, настроить все пространства имен, которые вы хотите использовать, и их префикс, а затем в XPath, вы должны использовать префикс.

var doc = new XmlDocument(); 
doc.Load("myfile.xml");

var xmlnsManager = new System.Xml.XmlNamespaceManager(doc.NameTable);
xmlnsManager.AddNamespace("ns", "http://example.org/schema.xsd");

doc.SelectNodes("//ns:MyElement",xmlnsManager);

Внимание: я не скомпилировал этот код.

-121--4780366-

Если не используется переключатель -r , необходимо удалить знак «плюс».

-121--3049956-

Вы можете скачать бесплатное издание (одноузловое издание) базы данных greenplum. Я сам не пробовал, но я думаю, что это мощный зверь. Читайте здесь: http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

Еще один вариант - MongoDB, это быстро и бесплатно, и вы можете написать функции MapReduce с JavaScript, чтобы сделать аналитику.

Моя репутация здесь низка, чтобы добавить гиперссылку на mongodb, так что вы должны гуглить. Я могу добавить только один гипер- ссылку на сообщение.

2
ответ дан 4 December 2019 в 03:16
поделиться

Проект ZOHMG направлен на решение этой проблемы с использованием Hadoop и HBase.

2
ответ дан 4 December 2019 в 03:16
поделиться

Facebook также построил улей наверху Hadoop. Довольно простое, чтобы добраться - разумное запрос API тоже.

http://mirror.facebook.net/facebook/hive/

2
ответ дан 4 December 2019 в 03:16
поделиться

Ваша модель данных сложнее? Если нет, то лучше просто написать для нее индивидуальный код. Тогда вы действительно можете настроить его на свои данные. Реальные продукты должны обладать большой гибкостью, для этого нужно много сложностей, и в результате страдать от скорости.

Ваш вопрос неясен в одном аспекте: когда вы говорите о масштабируемости, что вы под этим подразумеваете? Вы собираете данные со множества сайтов, но имеете только ограниченное количество пользователей запросов, или у вас тоже много пользователей? Такая ситуация приводит к значительному изменению модели.

0
ответ дан 4 December 2019 в 03:16
поделиться
Другие вопросы по тегам:

Похожие вопросы: