0
ответов

В чем разница между Apache Pig и Apache Hive?

В чем точная разница между свиньей и ульем? Я обнаружил, что оба имеют одинаковое функциональное значение, потому что они используются для выполнения одной и той же работы. Единственное, это реализация, которая отличается для...
вопрос задан: 18 March 2013 22:54
0
ответов

Как я могу сказать, когда мой набор данных в R будет слишком большим?

Я собираюсь провести некоторый анализ файла журнала в R (если я не могу сделать это в R), и я понимаю, что мои данные должны помещаться в ОЗУ (если я не использую какое-то исправление, такое как интерфейс для keyval .. ,
вопрос задан: 3 November 2012 16:01
0
ответов

Как начать работу с анализом больших данных [закрыто]

Я долгое время пользовался R и недавно начал работать с Python. Используя обычные системы РСУБД для хранения данных и R / Python для обработки чисел, я чувствую необходимость сейчас получить свои ...
вопрос задан: 25 September 2012 16:34
0
ответов

Работа с большим CSV-файлом в MATLAB

Мне приходится работать с большим CSV-файлом, до 2 ГБ. В частности, мне нужно загрузить все эти данные в базу данных mySQL, но прежде, чем я должен сделать несколько вычислений, мне нужно сделать все это ...
вопрос задан: 28 August 2012 13:02
0
ответов

NumPy :3 -байта, 6 -типов байтов (, также известных как uint24, uint48)

NumPy, похоже, не имеет встроенной -поддержки 3 -байт и 6 -байтов, также известных как uint24 и uint48. У меня есть большой набор данных, использующий эти типы, и я хочу передать его в numpy. Что я сейчас делаю (для uint24 ):...
вопрос задан: 15 August 2012 09:59
0
ответов

Лучший способ подготовиться к вопросам дизайна и архитектуры, связанным с большими данными [закрыто]

Недавно я присутствовал на собеседовании в компании, и мне задавали вопросы по дизайну, связанные с большими данными, например, :получить список пользователей, заходивших на веб-сайт (, скажем, Google )между временем t1 и t2....
вопрос задан: 11 August 2012 19:00
0
ответов

Postgresql -производительность при использовании массива в большой базе данных

Допустим, у нас есть таблица с 6 миллионами записей. Имеется 16 целочисленных столбцов и несколько текстовых столбцов. Это таблица -только для чтения, поэтому каждый целочисленный столбец имеет индекс. Каждая запись занимает около 50 -60 байт. В...
вопрос задан: 3 August 2012 17:43
0
ответов

Рекомендуемый пакет для обработки очень больших наборов данных и машинного обучения в R

Похоже, что R действительно предназначен для обработки наборов данных, которые он может полностью загрузить в память. Какие пакеты R рекомендуются для обработки сигналов и машинного обучения на очень больших наборах данных, которые могут ...
вопрос задан: 15 June 2012 18:21
0
ответов

Haskell: Могу ли я выполнить несколько сверток одного и того же ленивого списка, не сохраняя список в памяти?

Мой контекст — биоинформатика, в частности секвенирование следующего поколения, но проблема общая; поэтому я буду использовать файл журнала в качестве примера. Файл очень большой (гигабайты большие, сжатые, поэтому он...
вопрос задан: 29 May 2012 17:17
0
ответов

Расчет воронки. Как бы вы рассчитали воронку?

Предположим, я отслеживаю «событие», которое пользователь совершает на веб-сайте. Событиями могут быть такие вещи, как: просмотр главной страницы добавил товар в корзину проверить оплаченный заказ Теперь каждое из этих событий хранится в базе данных...
вопрос задан: 12 May 2012 19:20
0
ответов

Быстрое ограничение данных в R

Предположим, у меня есть длинный вектор vec (, начинающийся с 1E8 элементов ), и я хочу ограничить его диапазоном [а, б]. Я, конечно, могу закодировать vec[vec < a] = a и vec[vec > b] = b, но это...
вопрос задан: 6 May 2012 22:17
0
ответов

Выбор базы данных для больших данных [закрыто]

У меня есть много текстовых файлов, их общий размер составляет около 300–400 ГБ. Все они в таком формате key1 value_a ключ1 значение_b ключ1 значение_с ключ2 значение_d ключ3 значение_е .... каждая строка состоит из ключа и ...
вопрос задан: 5 April 2012 08:09
0
ответов

Akka для симуляций

Я новичок в akka и шаблоне актера, поэтому я не уверен, что он подходит для моих нужд. Я хочу создать симуляцию с akka и миллионами сущностей (думаю, как объекты предметной области — позже акторы), которые могут ...
вопрос задан: 23 March 2012 08:38
0
ответов

важность PCA или SVD в машинном обучении

Все это время (особенно в конкурсе Netflix) я всегда сталкиваюсь с этим блогом (или форумом таблицы лидеров), где они упоминают, как применение простого шага SVD к данным помогло их в уменьшении разреженности в ...
вопрос задан: 6 March 2012 19:00
0
ответов

Серьезная утечка памяти при итеративном анализе файлов XML.

Контекст При итерации по набору файлов Rdata (каждый из которых содержит вектор символов HTML-кода), которые загружаются, анализируются (с помощью функций XML) и затем снова удаляются из памяти, У меня возникает ...
вопрос задан: 17 February 2012 19:52
0
ответов

R: Возможно ли распараллелить / ускорить чтение CSV с 20 миллионами строк в R?

После загрузки CSV через read.csv довольно тривиально использовать multicore, segue и т.д. для работы с данными в CSV. Однако считывание данных в CSV отнимает много времени. Понял, что лучше ...
вопрос задан: 30 January 2012 07:04
0
ответов

Как получить большой объем данных?

Я провожу небольшое тестирование с помощью nutch и hadoop, и мне нужен большой объем данных. Я хочу начать с 20 ГБ, перейти к 100 ГБ, 500 ГБ и в конечном итоге достичь 1-2 ТБ. Проблема в том, что у меня этого нет ...
вопрос задан: 31 December 2011 20:40
0
ответов

Как работает предложение stackoverflow?

Какова теория, лежащая в основе алгоритмов, которые, например, генерируют предложения на сайте stackoverflow по аналогичным вопросам, пока вы их пишете? Не могли бы вы порекомендовать несколько книг по этой теме?
вопрос задан: 28 December 2011 22:04
0
ответов

Лучшее хранилище данных для огромных данных с большим количеством операций чтения и записи

Мне нужно хранить около 100 миллионов записей в базе данных. Около 60-70% из них будут удаляться ежедневно, и столько же записей вставляется ежедневно. Я чувствую базу данных документов, такую ​​как Hbase, Big ...
вопрос задан: 23 December 2011 08:10
0
ответов

Обработка и анализ больших данных в R

Я знаю, что это не новая концепция в R, и я просмотрел представление задач высокой производительности и параллельных вычислений . С учетом сказанного, я задаю этот вопрос с точки зрения незнания, поскольку ...
вопрос задан: 1 December 2011 14:32
0
ответов

Похоже, у меня закончилось 32-битное адресное пространство.Какие у меня есть варианты?

Я пытаюсь получить ковариацию большой матрицы с помощью numpy.cov. Я получаю следующую ошибку: Python (22498,0xa02e3720) malloc: *** mmap (size = 1340379136) не удалось (код ошибки = 12) *** error: cannot ...
вопрос задан: 27 November 2011 09:49
0
ответов

Обертывание функции построения графика R (или ggplot2) для предотвращения построения больших наборов данных

Вместо того, чтобы спрашивать, как для построения больших наборов данных я хочу обернуть график так, чтобы код, который создает много графиков, не искажался, когда он рисует большой объект. Как я могу обернуть график очень ...
вопрос задан: 15 October 2011 18:03
0
ответов

Проверка, были ли очищены буферы в R

У меня есть несколько больших файлов, с которыми я работаю, и я использую несколько разных файлов. / O для доступа к ним. Самый распространенный - это пакет bigmemory. При записи в файлы я усвоил ...
вопрос задан: 26 September 2011 18:13
0
ответов

] Большие данные преобразуются в «транзакции» из пакета arules [

] Пакет arules в R использует класс «транзакции». Итак, чтобы использовать функцию apriori (), мне нужно преобразовать мои существующие данные. У меня есть матрица с 2 столбцами и строками примерно 1,6 мм, и я пробовал ... [
вопрос задан: 7 September 2011 14:12
0
ответов

сортировка больших текстовых данных

У меня есть большой файл (100 миллионов строк значений, разделенных табуляцией - размером около 1,5 ГБ). Каков самый быстрый из известных способов отсортировать это по одному из полей? Я пробовал улей. Я бы хотел посмотреть, есть ли ...
вопрос задан: 16 August 2011 14:08
0
ответов

Оптимизация Java на высоком уровне

Существует много вопросов, ответов и мнений о том, как выполнять оптимизацию Java на низком уровне с помощью циклов for, while и do-while, и нужно ли это вообще . Мой вопрос скорее высокий ...
вопрос задан: 13 August 2011 23:04
0
ответов

Могут ли одноранговые узлы BitTorrent обрабатывать раздачу большого количества неактивных торрентов

Я рассматриваю возможность использования BitTorrent для решения большой проблемы распространения данных, когда источником данных является петафактор, а пользователям потребуется до нескольких терабайт. Некоторые подробности Количество торрентов, потенци
вопрос задан: 24 July 2011 20:50
0
ответов

Советы по созданию очень большой базы данных хешей

Вопрос: Какое решение или советы вы должны иметь дело с очень большой (многотерабайтной) базой данных, проиндексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли ...
вопрос задан: 15 March 2011 14:42
0
ответов

Создание очень большой матрицы комбинаций строк с использованием combn () и пакета bigmemory

У меня есть вектор x из 1344 уникальных строк. Я хочу сгенерировать матрицу, которая дает мне все возможные группы из трех значений, независимо от порядка, и экспортировать ее в CSV. Я запускаю R на EC2 на m1 ....
вопрос задан: 20 December 2010 19:47