0
ответов

Запросы Cassandra Range к значениям карты с использованием отметки времени

У меня ниже таблицы Кассандры. создать табличную персону (id int PRIMARY KEY, имя, текст, imp_dates map < text, timestamp >); Данные, вставленные, как показано ниже, вставляют в лицо (идентификатор, имя, ...
вопрос задан: 15 January 2019 16:17
0
ответов

Путаница между оперативными и аналитическими большими данными и в какой категории работает Hadoop?

Я не могу обернуть голову вокруг основной теоретической концепции «Оперативные и аналитические большие данные». По мне: Оперативные Большие Данные: Филиал, где мы можем выполнять операции чтения / записи на больших ...
вопрос задан: 12 January 2019 06:50
0
ответов

Apache crunch не может записать вывод

Может быть, это упущение, но я не могу определить, почему Apache Crunch не записывает вывод в файл для очень простой программы, которую я пишу для изучения Crunch. Вот код: import org.apache.crunch ....
вопрос задан: 31 December 2018 15:57
0
ответов

Подходит ли SPA-решение для разработки приложений с большими данными? [закрыто]

Допустим, у нас есть система, которая содержит сложный пользовательский интерфейс, и я должен показывать данные во многих видах форматов, таких как таблицы данных, диаграммы, списки, подробный просмотр и т. Д. И мы должны загружать огромные .. ,
вопрос задан: 23 October 2018 11:09
0
ответов

Полезные функции, используемые в сентиментальном анализе

Я работаю над проектом «Анализ текста», а именно «Сентиментальное обнаружение». Я новичок в этом вопросе, поэтому я хотел бы спросить вас, какие самые важные, необходимые и полезные функции используются для чистых ...
вопрос задан: 13 July 2018 20:39
0
ответов

Обнаружение сообщества

Я работаю над своими исследовательскими мемуарами: в основном, шаги, необходимые для их выполнения, - это, во-первых, работа с твиттером для извлечения данных пользователей и сохранения их в файл csv. Во-вторых, преобразование этого csv-файла в ...
вопрос задан: 13 July 2018 09:48
0
ответов

Spark-кластер в Docker с использованием экземпляров AWS

Пожалуйста, помогите мне в создании Spark-кластера в Docker с использованием экземпляров AWS. Это будет использоваться для обучения моделей глубокого обучения. Я выполнил следующие шаги. Создано 4 экземпляра ubuntu в AWS (1 ...
вопрос задан: 13 July 2018 09:28
0
ответов

Как получить среднее значение больших данных в MongoDB и CouchDB?

Я смотрю на эту диаграмму ... http: //www.mongodb. org / display / DOCS / MongoDB, + CouchDB, + MySQL + Compare + Grid ... в котором говорится: Метод запроса CouchDB - Сопоставление / сокращение функций javascript для ленивого построения ...
вопрос задан: 22 September 2017 18:01
0
ответов

Лучшее решение для нахождения пересечения множества 1 x 1 миллион? Редис, Монго, прочее

Привет всем и заранее спасибо. Я новичок в игре NoSQL, но мое нынешнее место работы поставило передо мной задачу сравнивать наборы некоторых больших данных. В нашей системе есть набор тегов клиентов и целевые наборы тегов....
вопрос задан: 22 September 2017 18:01
0
ответов

База данных для проекта НЛП [закрыто]

Может кто-нибудь посоветовать, какая база данных лучше для хранения текстовой информации, такой как часть речевых последовательностей, зависимостей, предложений, используемых в проекте NLP, написанном на python. Теперь эта информация ...
вопрос задан: 22 September 2017 17:48
0
ответов

«Контейнер убит YARN за превышение пределов памяти. 10,4 ГБ из 10,4 ГБ используемой физической памяти »в кластере EMR с 75 ГБ памяти

Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...
вопрос задан: 22 September 2017 17:48
0
ответов

использование RavenDB для массовых вставок данных

Я пытаюсь импортировать большие объемы данных (поток Twitter со скоростью около 20-25 твитов в секунду) в RavenDB для тестирования и крупномасштабного тестирования данных.У меня есть код, который довольно хорошо записывает данные, ...
вопрос задан: 22 September 2017 17:48
0
ответов

Как вернуть большое количество строк из mongodb с помощью http-сервера node.js?

У меня есть база данных пользователей в mongodb, которую я хотел бы экспортировать через интерфейс REST в JSON. Проблема в том, что в худшем случае количество возвращаемых строк превышает 2 миллиона. Сначала я...
вопрос задан: 22 September 2017 17:48
0
ответов

Стратегии чтения CSV-файлов по частям?

У меня есть файл среднего размера (CSV 4 ГБ) на компьютере, на котором недостаточно оперативной памяти для его чтения (8 ГБ в 64-битной Windows). Раньше я просто загружал его на узел кластера и читал ...
вопрос задан: 23 May 2017 11:46
0
ответов

Самый быстрый способ построения перекрестных таблиц двух массивных логических векторов в R

Для двух логических векторов, x и y, длиной> 1E8, каков самый быстрый способ вычисления перекрестных таблиц 2x2? Я подозреваю, что ответ - написать его на C / C ++, но мне интересно, есть ли что-нибудь в ...
вопрос задан: 23 May 2017 10:29
0
ответов

Какой формат используют сайты, такие как Facebook, для хранения данных для личных профилей?

Недавно я начал иметь дело с большими наборами данные, хранящиеся в файлах XML. Мне всегда было интересно, как Facebook и другие сетевые сайты хранят всю информацию, связанную с отдельными профилями (...
вопрос задан: 12 January 2016 16:58
0
ответов

Что мне нужно знать о работе с огромными базами данных?

Я хочу знать, какие конкретные проблемы / решения / советы / лучшие практики [не наказывайте меня за слово] возникают при работе с огромными базами данных. Под огромными я подразумеваю базы данных, в которых есть таблицы ...
вопрос задан: 27 December 2015 21:02
0
ответов

Обработка больших списков строк в java

У меня есть задача, в которой мне нужно просмотреть несколько миллиардов строк и проверить, уникальна ли каждая из них. Сами линии не могут быть размещены в оперативной памяти ПК. ...
вопрос задан: 9 December 2015 09:54
0
ответов

PySpark DataFrames - способ перечисления без преобразования в панды?

У меня есть очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи с определенным индексом. (или выберите группу записей с индексами ...
вопрос задан: 7 December 2015 19:07
0
ответов

Hbase быстро подсчитывает количество строк

Прямо сейчас я реализую подсчет строк в ResultScanner следующим образом: (Result rs = scan.next (); rs != ноль; rs = scan.next ()){ число++; } Если данные достигают миллионов, время вычислений велико. I...
вопрос задан: 6 October 2015 02:31
0
ответов

Эффективно расширяйте цифровую маску на n ячеек вправо для каждого плохого значения

Допустим, у меня есть массив длиной 30 с 4 неверными значениями. Я хочу создать маску для этих плохих значений, но так как я буду использовать функции скользящего окна, мне бы также хотелось фиксированное число последующих ...
вопрос задан: 22 September 2015 22:04
0
ответов

Найти наиболее повторяющуюся фразу на огромном тексте

У меня огромные текстовые данные. Вся моя база данных имеет текстовый формат в UTF-8. Мне нужно иметь список наиболее повторяющихся фраз во всех моих текстовых данных. Например, мое желание вывести что-то вроде этого: {'a': ...
вопрос задан: 7 May 2015 18:57
0
ответов

Jmeter большой JTL файл отчета

В настоящее время я испытываю нагрузочное тестирование веб-приложения с парой компьютеров (4 старых компьютера), каждый из которых имеет около 200 потоков в течение 6 часов. Как рекомендуется везде в Интернете, я использовал лучшие практики для ...
вопрос задан: 26 February 2015 15:10
0
ответов

«Большие» данные CSV поиск из 2 файлов

У меня есть вычислительная проблема. Я использую Python для перебора 2 CSV-файлов. csv file1 = содержит (6-7) столбцов .. и важный столбец - это столбец "rs ID" из dbSNP. CSV файл2 = 3 столбца, ...
вопрос задан: 26 February 2015 10:39
0
ответов

Hbase или hdfs, которые будут лучше

У меня есть сценарий использования, в котором у нас есть большой объем данных, по которым необходимо выполнить аналитику. Данные будут непрерывно выбираться и анализироваться для выполнения во время выполнения. Для этого варианта использования ...
вопрос задан: 25 February 2015 14:28
0
ответов

Песочницы Hortonworks в кластере

Я новичок в экосистеме Hadoop и пытаюсь понять, как работает кластер. До сих пор я использовал дистрибутив Hortonworks для тестирования чего-либо в режиме с одним узлом. Теперь мне интересно - если это ...
вопрос задан: 25 February 2015 11:06
0
ответов

анализ безработицы через социальные сети

анализ безработицы через социальные медиа в концепции больших данных. В моем приложении мне нужно получить информацию о человеке из Facebook. Как и статус конкретного человека и его степень, учеба ...
вопрос задан: 16 February 2015 09:27
0
ответов

Как быстро экспортировать данные из R в SQL Server

Функция sqlSave стандартного пакета RODBC даже в виде одного оператора INSERT (параметр fast = TRUE) ужасно медленная для больших объемов данных из-за минимальной загрузки. Как бы я записать данные в ...
вопрос задан: 5 January 2015 22:30
0
ответов

Лучший способ удалить миллионы строк по идентификатору

Мне нужно удалить около 2 миллионов строк из моей базы данных PG. У меня есть список идентификаторов, которые мне нужно удалить. Однако любой способ, которым я пытаюсь это сделать, занимает дни. Я попытался поместить их в таблицу и сделать это ...
вопрос задан: 17 October 2013 21:37
0
ответов

Является ли hadoop единственной структурой в большом пространстве данных? [закрыто]

В настоящее время я изучаю Hadoop, но я часто задаюсь вопросом, является ли Hadoop единственной программной средой, поддерживающей распределенные приложения. Я хочу понять, существует ли какая-либо другая структура, другая ...
вопрос задан: 11 October 2013 04:44