bigdata - список вопросов по программированию bigdata

0

ответов

В чем разница между Apache Pig и Apache Hive?

В чем точная разница между свиньей и ульем? Я обнаружил, что оба имеют одинаковое функциональное значение, потому что они используются для выполнения одной и той же работы. Единственное, это реализация, которая отличается для...

вопрос задан: 18 March 2013 22:54

0

ответов

Как я могу сказать, когда мой набор данных в R будет слишком большим?

Я собираюсь провести некоторый анализ файла журнала в R (если я не могу сделать это в R), и я понимаю, что мои данные должны помещаться в ОЗУ (если я не использую какое-то исправление, такое как интерфейс для keyval .. ,

logfile-analysis bigdata r

вопрос задан: 3 November 2012 16:01

0

ответов

Как начать работу с анализом больших данных [закрыто]

Я долгое время пользовался R и недавно начал работать с Python. Используя обычные системы РСУБД для хранения данных и R / Python для обработки чисел, я чувствую необходимость сейчас получить свои ...

python r hadoop bigdata

вопрос задан: 25 September 2012 16:34

0

ответов

Работа с большим CSV-файлом в MATLAB

Мне приходится работать с большим CSV-файлом, до 2 ГБ. В частности, мне нужно загрузить все эти данные в базу данных mySQL, но прежде, чем я должен сделать несколько вычислений, мне нужно сделать все это ...

mysql matlab file-io csv bigdata

вопрос задан: 28 August 2012 13:02

0

ответов

NumPy :3 -байта, 6 -типов байтов (, также известных как uint24, uint48)

NumPy, похоже, не имеет встроенной -поддержки 3 -байт и 6 -байтов, также известных как uint24 и uint48. У меня есть большой набор данных, использующий эти типы, и я хочу передать его в numpy. Что я сейчас делаю (для uint24 ):...

bigdata numpy python

вопрос задан: 15 August 2012 09:59

0

ответов

Лучший способ подготовиться к вопросам дизайна и архитектуры, связанным с большими данными [закрыто]

Недавно я присутствовал на собеседовании в компании, и мне задавали вопросы по дизайну, связанные с большими данными, например, :получить список пользователей, заходивших на веб-сайт (, скажем, Google )между временем t1 и t2....

algorithm bigdata data-structures

вопрос задан: 11 August 2012 19:00

0

ответов

Postgresql -производительность при использовании массива в большой базе данных

Допустим, у нас есть таблица с 6 миллионами записей. Имеется 16 целочисленных столбцов и несколько текстовых столбцов. Это таблица -только для чтения, поэтому каждый целочисленный столбец имеет индекс. Каждая запись занимает около 50 -60 байт. В...

arrays bigdata performance postgresql join

вопрос задан: 3 August 2012 17:43

0

ответов

Haskell: Могу ли я выполнить несколько сверток одного и того же ленивого списка, не сохраняя список в памяти?

Мой контекст — биоинформатика, в частности секвенирование следующего поколения, но проблема общая; поэтому я буду использовать файл журнала в качестве примера. Файл очень большой (гигабайты большие, сжатые, поэтому он...

bigdata haskell performance lazy-evaluation

вопрос задан: 29 May 2012 17:17

0

ответов

Расчет воронки. Как бы вы рассчитали воронку?

Предположим, я отслеживаю «событие», которое пользователь совершает на веб-сайте. Событиями могут быть такие вещи, как: просмотр главной страницы добавил товар в корзину проверить оплаченный заказ Теперь каждое из этих событий хранится в базе данных...

bigdata hadoop java math mapreduce

вопрос задан: 12 May 2012 19:20

0

ответов

Быстрое ограничение данных в R

Предположим, у меня есть длинный вектор vec (, начинающийся с 1E8 элементов ), и я хочу ограничить его диапазоном [а, б]. Я, конечно, могу закодировать vec[vec < a] = a и vec[vec > b] = b, но это...

bigdata data.table performance r rcpp

вопрос задан: 6 May 2012 22:17

0

ответов

Выбор базы данных для больших данных [закрыто]

У меня есть много текстовых файлов, их общий размер составляет около 300–400 ГБ. Все они в таком формате key1 value_a ключ1 значение_b ключ1 значение_с ключ2 значение_d ключ3 значение_е .... каждая строка состоит из ключа и ...

bigdata database distributed mysql nosql

вопрос задан: 5 April 2012 08:09

0

ответов

Akka для симуляций

Я новичок в akka и шаблоне актера, поэтому я не уверен, что он подходит для моих нужд. Я хочу создать симуляцию с akka и миллионами сущностей (думаю, как объекты предметной области — позже акторы), которые могут ...

bigdata simulation akka

вопрос задан: 23 March 2012 08:38

0

ответов

важность PCA или SVD в машинном обучении

Все это время (особенно в конкурсе Netflix) я всегда сталкиваюсь с этим блогом (или форумом таблицы лидеров), где они упоминают, как применение простого шага SVD к данным помогло их в уменьшении разреженности в ...

machine-learning data-mining bigdata svd netflix

вопрос задан: 6 March 2012 19:00

0

ответов

Серьезная утечка памяти при итеративном анализе файлов XML.

Контекст При итерации по набору файлов Rdata (каждый из которых содержит вектор символов HTML-кода), которые загружаются, анализируются (с помощью функций XML) и затем снова удаляются из памяти, У меня возникает ...

xml r memory-leaks web-scraping bigdata

вопрос задан: 17 February 2012 19:52

0

ответов

R: Возможно ли распараллелить / ускорить чтение CSV с 20 миллионами строк в R?

После загрузки CSV через read.csv довольно тривиально использовать multicore, segue и т.д. для работы с данными в CSV. Однако считывание данных в CSV отнимает много времени. Понял, что лучше ...

r csv parallel-processing bigdata

вопрос задан: 30 January 2012 07:04

0

ответов

Как получить большой объем данных?

Я провожу небольшое тестирование с помощью nutch и hadoop, и мне нужен большой объем данных. Я хочу начать с 20 ГБ, перейти к 100 ГБ, 500 ГБ и в конечном итоге достичь 1-2 ТБ. Проблема в том, что у меня этого нет ...

java hadoop nutch bigdata

вопрос задан: 31 December 2011 20:40

0

ответов

Как работает предложение stackoverflow?

Какова теория, лежащая в основе алгоритмов, которые, например, генерируют предложения на сайте stackoverflow по аналогичным вопросам, пока вы их пишете? Не могли бы вы порекомендовать несколько книг по этой теме?

algorithm computer-science theory bigdata

вопрос задан: 28 December 2011 22:04

0

ответов

Лучшее хранилище данных для огромных данных с большим количеством операций чтения и записи

Мне нужно хранить около 100 миллионов записей в базе данных. Около 60-70% из них будут удаляться ежедневно, и столько же записей вставляется ежедневно. Я чувствую базу данных документов, такую как Hbase, Big ...

database hbase datastore document-database bigdata

вопрос задан: 23 December 2011 08:10

0

ответов

Обработка и анализ больших данных в R

Я знаю, что это не новая концепция в R, и я просмотрел представление задач высокой производительности и параллельных вычислений . С учетом сказанного, я задаю этот вопрос с точки зрения незнания, поскольку ...

r bigdata

вопрос задан: 1 December 2011 14:32

0

ответов

Похоже, у меня закончилось 32-битное адресное пространство.Какие у меня есть варианты?

Я пытаюсь получить ковариацию большой матрицы с помощью numpy.cov. Я получаю следующую ошибку: Python (22498,0xa02e3720) malloc: *** mmap (size = 1340379136) не удалось (код ошибки = 12) *** error: cannot ...

python numpy bigdata

вопрос задан: 27 November 2011 09:49

0

ответов

Обертывание функции построения графика R (или ggplot2) для предотвращения построения больших наборов данных

Вместо того, чтобы спрашивать, как для построения больших наборов данных я хочу обернуть график так, чтобы код, который создает много графиков, не искажался, когда он рисует большой объект. Как я могу обернуть график очень ...

r plot ggplot2 bigdata

вопрос задан: 15 October 2011 18:03

0

ответов

Проверка, были ли очищены буферы в R

У меня есть несколько больших файлов, с которыми я работаю, и я использую несколько разных файлов. / O для доступа к ним. Самый распространенный - это пакет bigmemory. При записи в файлы я усвоил ...

r io memory-mapped-files buffer bigdata

вопрос задан: 26 September 2011 18:13

0

ответов

] Большие данные преобразуются в «транзакции» из пакета arules [

] Пакет arules в R использует класс «транзакции». Итак, чтобы использовать функцию apriori (), мне нужно преобразовать мои существующие данные. У меня есть матрица с 2 столбцами и строками примерно 1,6 мм, и я пробовал ... [

r transactions bigdata apriori

вопрос задан: 7 September 2011 14:12

0

ответов

сортировка больших текстовых данных

У меня есть большой файл (100 миллионов строк значений, разделенных табуляцией - размером около 1,5 ГБ). Каков самый быстрый из известных способов отсортировать это по одному из полей? Я пробовал улей. Я бы хотел посмотреть, есть ли ...

python sorting bigdata

вопрос задан: 16 August 2011 14:08

0

ответов

Оптимизация Java на высоком уровне

Существует много вопросов, ответов и мнений о том, как выполнять оптимизацию Java на низком уровне с помощью циклов for, while и do-while, и нужно ли это вообще . Мой вопрос скорее высокий ...

java algorithm language-agnostic distributed bigdata

вопрос задан: 13 August 2011 23:04

0

ответов

Могут ли одноранговые узлы BitTorrent обрабатывать раздачу большого количества неактивных торрентов

Я рассматриваю возможность использования BitTorrent для решения большой проблемы распространения данных, когда источником данных является петафактор, а пользователям потребуется до нескольких терабайт. Некоторые подробности Количество торрентов, потенци

bittorrent bigdata

вопрос задан: 24 July 2011 20:50

0

ответов

Советы по созданию очень большой базы данных хешей

Вопрос: Какое решение или советы вы должны иметь дело с очень большой (многотерабайтной) базой данных, проиндексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли ...

database hash inverted-index bigdata

вопрос задан: 15 March 2011 14:42

0

ответов

Создание очень большой матрицы комбинаций строк с использованием combn () и пакета bigmemory

У меня есть вектор x из 1344 уникальных строк. Я хочу сгенерировать матрицу, которая дает мне все возможные группы из трех значений, независимо от порядка, и экспортировать ее в CSV. Я запускаю R на EC2 на m1 ....

r combinatorics bigdata

вопрос задан: 20 December 2010 19:47