bigdata - список вопросов по программированию bigdata

0

ответов

Запросы Cassandra Range к значениям карты с использованием отметки времени

У меня ниже таблицы Кассандры. создать табличную персону (id int PRIMARY KEY, имя, текст, imp_dates map < text, timestamp >); Данные, вставленные, как показано ниже, вставляют в лицо (идентификатор, имя, ...

вопрос задан: 15 January 2019 16:17

0

ответов

Путаница между оперативными и аналитическими большими данными и в какой категории работает Hadoop?

Я не могу обернуть голову вокруг основной теоретической концепции «Оперативные и аналитические большие данные». По мне: Оперативные Большие Данные: Филиал, где мы можем выполнять операции чтения / записи на больших ...

bigdata hadoop

вопрос задан: 12 January 2019 06:50

0

ответов

Apache crunch не может записать вывод

Может быть, это упущение, но я не могу определить, почему Apache Crunch не записывает вывод в файл для очень простой программы, которую я пишу для изучения Crunch. Вот код: import org.apache.crunch ....

apache-crunch bigdata hadoop java

вопрос задан: 31 December 2018 15:57

0

ответов

Подходит ли SPA-решение для разработки приложений с большими данными? [закрыто]

Допустим, у нас есть система, которая содержит сложный пользовательский интерфейс, и я должен показывать данные во многих видах форматов, таких как таблицы данных, диаграммы, списки, подробный просмотр и т. Д. И мы должны загружать огромные .. ,

multi-page-application single-page-application bigdata

вопрос задан: 23 October 2018 11:09

0

ответов

Полезные функции, используемые в сентиментальном анализе

Я работаю над проектом «Анализ текста», а именно «Сентиментальное обнаружение». Я новичок в этом вопросе, поэтому я хотел бы спросить вас, какие самые важные, необходимые и полезные функции используются для чистых ...

python bigdata data-mining data-analysis text-analysis

вопрос задан: 13 July 2018 20:39

0

ответов

Обнаружение сообщества

Я работаю над своими исследовательскими мемуарами: в основном, шаги, необходимые для их выполнения, - это, во-первых, работа с твиттером для извлечения данных пользователей и сохранения их в файл csv. Во-вторых, преобразование этого csv-файла в ...

python-3.x bigdata data-analysis

вопрос задан: 13 July 2018 09:48

0

ответов

Spark-кластер в Docker с использованием экземпляров AWS

Пожалуйста, помогите мне в создании Spark-кластера в Docker с использованием экземпляров AWS. Это будет использоваться для обучения моделей глубокого обучения. Я выполнил следующие шаги. Создано 4 экземпляра ubuntu в AWS (1 ...

amazon-web-services docker bigdata artificial-intelligence

вопрос задан: 13 July 2018 09:28

0

ответов

Как получить среднее значение больших данных в MongoDB и CouchDB?

Я смотрю на эту диаграмму ... http: //www.mongodb. org / display / DOCS / MongoDB, + CouchDB, + MySQL + Compare + Grid ... в котором говорится: Метод запроса CouchDB - Сопоставление / сокращение функций javascript для ленивого построения ...

mongodb mapreduce couchdb bigdata nosql

вопрос задан: 22 September 2017 18:01

0

ответов

Лучшее решение для нахождения пересечения множества 1 x 1 миллион? Редис, Монго, прочее

Привет всем и заранее спасибо. Я новичок в игре NoSQL, но мое нынешнее место работы поставило передо мной задачу сравнивать наборы некоторых больших данных. В нашей системе есть набор тегов клиентов и целевые наборы тегов....

bigdata mongodb nosql redis

вопрос задан: 22 September 2017 18:01

0

ответов

База данных для проекта НЛП [закрыто]

Может кто-нибудь посоветовать, какая база данных лучше для хранения текстовой информации, такой как часть речевых последовательностей, зависимостей, предложений, используемых в проекте NLP, написанном на python. Теперь эта информация ...

bigdata nlp mongodb mysql python

вопрос задан: 22 September 2017 17:48

0

ответов

«Контейнер убит YARN за превышение пределов памяти. 10,4 ГБ из 10,4 ГБ используемой физической памяти »в кластере EMR с 75 ГБ памяти

Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...

apache-spark emr amazon-emr bigdata

вопрос задан: 22 September 2017 17:48

0

ответов

использование RavenDB для массовых вставок данных

Я пытаюсь импортировать большие объемы данных (поток Twitter со скоростью около 20-25 твитов в секунду) в RavenDB для тестирования и крупномасштабного тестирования данных.У меня есть код, который довольно хорошо записывает данные, ...

bigdata ravendb twitter large-data

вопрос задан: 22 September 2017 17:48

0

ответов

Как вернуть большое количество строк из mongodb с помощью http-сервера node.js?

У меня есть база данных пользователей в mongodb, которую я хотел бы экспортировать через интерфейс REST в JSON. Проблема в том, что в худшем случае количество возвращаемых строк превышает 2 миллиона. Сначала я...

bigdata http mongodb node.js rest

вопрос задан: 22 September 2017 17:48

0

ответов

Стратегии чтения CSV-файлов по частям?

У меня есть файл среднего размера (CSV 4 ГБ) на компьютере, на котором недостаточно оперативной памяти для его чтения (8 ГБ в 64-битной Windows). Раньше я просто загружал его на узел кластера и читал ...

r bigdata

вопрос задан: 23 May 2017 11:46

0

ответов

Самый быстрый способ построения перекрестных таблиц двух массивных логических векторов в R

Для двух логических векторов, x и y, длиной> 1E8, каков самый быстрый способ вычисления перекрестных таблиц 2x2? Я подозреваю, что ответ - написать его на C / C ++, но мне интересно, есть ли что-нибудь в ...

performance r statistics crosstab bigdata

вопрос задан: 23 May 2017 10:29

0

ответов

Какой формат используют сайты, такие как Facebook, для хранения данных для личных профилей?

Недавно я начал иметь дело с большими наборами данные, хранящиеся в файлах XML. Мне всегда было интересно, как Facebook и другие сетевые сайты хранят всю информацию, связанную с отдельными профилями (...

xml database facebook storage bigdata

вопрос задан: 12 January 2016 16:58

0

ответов

Что мне нужно знать о работе с огромными базами данных?

Я хочу знать, какие конкретные проблемы / решения / советы / лучшие практики [не наказывайте меня за слово] возникают при работе с огромными базами данных. Под огромными я подразумеваю базы данных, в которых есть таблицы ...

sql database database-design bigdata

вопрос задан: 27 December 2015 21:02

0

ответов

Обработка больших списков строк в java

У меня есть задача, в которой мне нужно просмотреть несколько миллиардов строк и проверить, уникальна ли каждая из них. Сами линии не могут быть размещены в оперативной памяти ПК. ...

java data-structures bigdata hashset

вопрос задан: 9 December 2015 09:54

0

ответов

PySpark DataFrames - способ перечисления без преобразования в панды?

У меня есть очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи с определенным индексом. (или выберите группу записей с индексами ...

rdd pyspark bigdata apache-spark python

вопрос задан: 7 December 2015 19:07

0

ответов

Hbase быстро подсчитывает количество строк

Прямо сейчас я реализую подсчет строк в ResultScanner следующим образом: (Result rs = scan.next (); rs != ноль; rs = scan.next ()){ число++; } Если данные достигают миллионов, время вычислений велико. I...

bigdata hadoop hbase

вопрос задан: 6 October 2015 02:31

0

ответов

Эффективно расширяйте цифровую маску на n ячеек вправо для каждого плохого значения

Допустим, у меня есть массив длиной 30 с 4 неверными значениями. Я хочу создать маску для этих плохих значений, но так как я буду использовать функции скользящего окна, мне бы также хотелось фиксированное число последующих ...

python numpy bigdata

вопрос задан: 22 September 2015 22:04

0

ответов

Найти наиболее повторяющуюся фразу на огромном тексте

У меня огромные текстовые данные. Вся моя база данных имеет текстовый формат в UTF-8. Мне нужно иметь список наиболее повторяющихся фраз во всех моих текстовых данных. Например, мое желание вывести что-то вроде этого: {'a': ...

bigdata full-text-search text search

вопрос задан: 7 May 2015 18:57

0

ответов

Jmeter большой JTL файл отчета

В настоящее время я испытываю нагрузочное тестирование веб-приложения с парой компьютеров (4 старых компьютера), каждый из которых имеет около 200 потоков в течение 6 часов. Как рекомендуется везде в Интернете, я использовал лучшие практики для ...

bigdata reporting jmeter command-line

вопрос задан: 26 February 2015 15:10

0

ответов

«Большие» данные CSV поиск из 2 файлов

У меня есть вычислительная проблема. Я использую Python для перебора 2 CSV-файлов. csv file1 = содержит (6-7) столбцов .. и важный столбец - это столбец "rs ID" из dbSNP. CSV файл2 = 3 столбца, ...

bigdata csv python

вопрос задан: 26 February 2015 10:39

0

ответов

Hbase или hdfs, которые будут лучше

У меня есть сценарий использования, в котором у нас есть большой объем данных, по которым необходимо выполнить аналитику. Данные будут непрерывно выбираться и анализироваться для выполнения во время выполнения. Для этого варианта использования ...

apache-zookeeper bigdata hbase hive hadoop

вопрос задан: 25 February 2015 14:28

0

ответов

Песочницы Hortonworks в кластере

Я новичок в экосистеме Hadoop и пытаюсь понять, как работает кластер. До сих пор я использовал дистрибутив Hortonworks для тестирования чего-либо в режиме с одним узлом. Теперь мне интересно - если это ...

bigdata hadoop

вопрос задан: 25 February 2015 11:06

0

ответов

анализ безработицы через социальные сети

анализ безработицы через социальные медиа в концепции больших данных. В моем приложении мне нужно получить информацию о человеке из Facebook. Как и статус конкретного человека и его степень, учеба ...

bigdata hadoop facebook

вопрос задан: 16 February 2015 09:27

0

ответов

Как быстро экспортировать данные из R в SQL Server

Функция sqlSave стандартного пакета RODBC даже в виде одного оператора INSERT (параметр fast = TRUE) ужасно медленная для больших объемов данных из-за минимальной загрузки. Как бы я записать данные в ...

bigdata r sql-server sql

вопрос задан: 5 January 2015 22:30

0

ответов

Лучший способ удалить миллионы строк по идентификатору

Мне нужно удалить около 2 миллионов строк из моей базы данных PG. У меня есть список идентификаторов, которые мне нужно удалить. Однако любой способ, которым я пытаюсь это сделать, занимает дни. Я попытался поместить их в таблицу и сделать это ...

sql postgresql bigdata sql-delete postgresql-performance

вопрос задан: 17 October 2013 21:37

0

ответов

Является ли hadoop единственной структурой в большом пространстве данных? [закрыто]

В настоящее время я изучаю Hadoop, но я часто задаюсь вопросом, является ли Hadoop единственной программной средой, поддерживающей распределенные приложения. Я хочу понять, существует ли какая-либо другая структура, другая ...

bigdata hadoop

вопрос задан: 11 October 2013 04:44