Большие наборы данных - NoSQL, NewSQL, SQL ..? Brain Fried

Мне нужен совет. Я работаю над новым стартапом в области интеллектуального анализа данных. По сути, это ответвление исследовательского проекта.

В любом случае, когда у нас есть большой объем неструктурированных данных, мы проводим различные НЛП, классификационный и кластерный анализ этих данных.

У нас есть миллионы сообщений, начиная от сообщений в Твиттере, в блогах, на форумах, в новых бумажных статьях, в отчетах и ​​т.д. и т.д. Весь текст. Всего мы берем около 300 ГБ + текстовых данных и увеличиваемся каждый день (рост около 10 ГБ в день)!

Итак, нам нужно где-то хранить всю эту информацию в формате, который мы можем обрабатывать, запрашивать и получать относительные реальные- время результаты.

В любом случае, нам нужно где-то хранить эти данные ...

Поскольку это новый стартап, мы действительно не можем / не хотим платить за лицензионный продукт, например Enterprise edition VoltDB, Oracle и т. д. вне досягаемости.

Я подумал, что это может быть идеальным приложением для базы данных «NoSQL», не связанной с отношениями, такой как Apache Cassandra или Hadoop / HBase (семейство столбцов), MongoDB (документ), VoltDB (сообщество edn ) или MySQL.

В настоящее время все данные находятся в текстовых файлах TSV и обрабатываются по мере записи в файл. Излишне говорить, что это болезненно, и это означает, что все застряло в одном процессе, и мы не можем запросить его. Это работает, но его способ ограничен из-за разнообразия того, что мы могли бы делать с этим набором данных.

В любом случае, я надеялся, что кто-то сможет поделиться своим опытом, используя любой из вышеперечисленных инструментов или какие-либо рекомендации для этого варианта использования (большой набор неструктурированных текстовых данных) для обработки естественного языка, классификации, кластеризации, сбора частот, анализа в реальном времени и т. д.?

Я больше всего опасаюсь, что MySQL не сможет обрабатывать огромные объемы данных в будущем. В конце года эта штука будет в диапазоне терабайт, поэтому мы частично пытаемся выйти на первый план и развиваться, реализуя масштабируемое решение, которое позволит нам легко запрашивать данные ...

Я думаю, что база данных семейства столбцов, отличная от rel / NoSQL, такая как HBase, является лучшей , для нас, постоянно добавляющих новые источники данных (сканеры, потоковые API и т. д.), будет намного проще, если у нас будет неструктурированная модель.

Любая помощь будет принята с благодарностью! Черт, в этом может быть даже работа :)

Ура!

8
задан NightWolf 23 February 2012 в 12:13
поделиться