Мне нужен совет. Я работаю над новым стартапом в области интеллектуального анализа данных. По сути, это ответвление исследовательского проекта.
В любом случае, когда у нас есть большой объем неструктурированных данных, мы проводим различные НЛП, классификационный и кластерный анализ этих данных.
У нас есть миллионы сообщений, начиная от сообщений в Твиттере, в блогах, на форумах, в новых бумажных статьях, в отчетах и т.д. и т.д. Весь текст. Всего мы берем около 300 ГБ + текстовых данных и увеличиваемся каждый день (рост около 10 ГБ в день)!
Итак, нам нужно где-то хранить всю эту информацию в формате, который мы можем обрабатывать, запрашивать и получать относительные реальные- время результаты.
В любом случае, нам нужно где-то хранить эти данные ...
Поскольку это новый стартап, мы действительно не можем / не хотим платить за лицензионный продукт, например Enterprise edition VoltDB, Oracle и т. д. вне досягаемости.
Я подумал, что это может быть идеальным приложением для базы данных «NoSQL», не связанной с отношениями, такой как Apache Cassandra или Hadoop / HBase (семейство столбцов), MongoDB (документ), VoltDB (сообщество edn ) или MySQL.
В настоящее время все данные находятся в текстовых файлах TSV и обрабатываются по мере записи в файл. Излишне говорить, что это болезненно, и это означает, что все застряло в одном процессе, и мы не можем запросить его. Это работает, но его способ ограничен из-за разнообразия того, что мы могли бы делать с этим набором данных.
В любом случае, я надеялся, что кто-то сможет поделиться своим опытом, используя любой из вышеперечисленных инструментов или какие-либо рекомендации для этого варианта использования (большой набор неструктурированных текстовых данных) для обработки естественного языка, классификации, кластеризации, сбора частот, анализа в реальном времени и т. д.?
Я больше всего опасаюсь, что MySQL не сможет обрабатывать огромные объемы данных в будущем. В конце года эта штука будет в диапазоне терабайт, поэтому мы частично пытаемся выйти на первый план и развиваться, реализуя масштабируемое решение, которое позволит нам легко запрашивать данные ...
Я думаю, что база данных семейства столбцов, отличная от rel / NoSQL, такая как HBase, является лучшей , для нас, постоянно добавляющих новые источники данных (сканеры, потоковые API и т. д.), будет намного проще, если у нас будет неструктурированная модель.
Любая помощь будет принята с благодарностью! Черт, в этом может быть даже работа :)
Ура!