В чем точная разница между свиньей и ульем? Я обнаружил, что оба имеют одинаковое функциональное значение, потому что они используются для выполнения одной и той же работы. Единственное, это реализация, которая отличается для...
Я собираюсь провести некоторый анализ файла журнала в R (если я не могу сделать это в R), и я понимаю, что мои данные должны помещаться в ОЗУ (если я не использую какое-то исправление, такое как интерфейс для keyval .. ,
Я долгое время пользовался R и недавно начал работать с Python. Используя обычные системы РСУБД для хранения данных и R / Python для обработки чисел, я чувствую необходимость сейчас получить свои ...
Мне приходится работать с большим CSV-файлом, до 2 ГБ. В частности, мне нужно загрузить все эти данные в базу данных mySQL, но прежде, чем я должен сделать несколько вычислений, мне нужно сделать все это ...
NumPy, похоже, не имеет встроенной -поддержки 3 -байт и 6 -байтов, также известных как uint24 и uint48. У меня есть большой набор данных, использующий эти типы, и я хочу передать его в numpy. Что я сейчас делаю (для uint24 ):...
Недавно я присутствовал на собеседовании в компании, и мне задавали вопросы по дизайну, связанные с большими данными, например, :получить список пользователей, заходивших на веб-сайт (, скажем, Google )между временем t1 и t2....
Допустим, у нас есть таблица с 6 миллионами записей. Имеется 16 целочисленных столбцов и несколько текстовых столбцов. Это таблица -только для чтения, поэтому каждый целочисленный столбец имеет индекс. Каждая запись занимает около 50 -60 байт. В...
Похоже, что R действительно предназначен для обработки наборов данных, которые он может полностью загрузить в память. Какие пакеты R рекомендуются для обработки сигналов и машинного обучения на очень больших наборах данных, которые могут ...
Мой контекст — биоинформатика, в частности секвенирование следующего поколения, но проблема общая; поэтому я буду использовать файл журнала в качестве примера. Файл очень большой (гигабайты большие, сжатые, поэтому он...
Предположим, я отслеживаю «событие», которое пользователь совершает на веб-сайте. Событиями могут быть такие вещи, как: просмотр главной страницы
добавил товар в корзину
проверить
оплаченный заказ Теперь каждое из этих событий хранится в базе данных...
Предположим, у меня есть длинный вектор vec (, начинающийся с 1E8 элементов ), и я хочу ограничить его диапазоном [а, б]. Я, конечно, могу закодировать vec[vec < a] = a и vec[vec > b] = b, но это...
У меня есть много текстовых файлов, их общий размер составляет около 300–400 ГБ. Все они в таком формате key1 value_a
ключ1 значение_b
ключ1 значение_с
ключ2 значение_d
ключ3 значение_е
.... каждая строка состоит из ключа и ...
Я новичок в akka и шаблоне актера, поэтому я не уверен, что он подходит для моих нужд. Я хочу создать симуляцию с akka и миллионами сущностей (думаю, как объекты предметной области — позже акторы), которые могут ...
Все это время (особенно в конкурсе Netflix) я всегда сталкиваюсь с этим блогом (или форумом таблицы лидеров), где они упоминают, как применение простого шага SVD к данным помогло их в уменьшении разреженности в ...
Контекст При итерации по набору файлов Rdata (каждый из которых содержит вектор символов HTML-кода), которые загружаются, анализируются (с помощью функций XML) и затем снова удаляются из памяти, У меня возникает ...
После загрузки CSV через read.csv довольно тривиально использовать multicore, segue и т.д. для работы с данными в CSV. Однако считывание данных в CSV отнимает много времени. Понял, что лучше ...
Я провожу небольшое тестирование с помощью nutch и hadoop, и мне нужен большой объем данных.
Я хочу начать с 20 ГБ, перейти к 100 ГБ, 500 ГБ и в конечном итоге достичь 1-2 ТБ. Проблема в том, что у меня этого нет ...
Какова теория, лежащая в основе алгоритмов, которые, например, генерируют предложения на сайте stackoverflow по аналогичным вопросам, пока вы их пишете? Не могли бы вы порекомендовать несколько книг по этой теме?
Мне нужно хранить около 100 миллионов записей в базе данных. Около 60-70% из них будут удаляться ежедневно, и столько же записей вставляется ежедневно. Я чувствую базу данных документов, такую как Hbase, Big ...
Я знаю, что это не новая концепция в R, и я просмотрел представление задач высокой производительности и параллельных вычислений . С учетом сказанного, я задаю этот вопрос с точки зрения незнания, поскольку ...
Я пытаюсь получить ковариацию большой матрицы с помощью numpy.cov. Я получаю следующую ошибку: Python (22498,0xa02e3720) malloc: *** mmap (size = 1340379136) не удалось (код ошибки = 12)
*** error: cannot ...
Вместо того, чтобы спрашивать, как для построения больших наборов данных я хочу обернуть график так, чтобы код, который создает много графиков, не искажался, когда он рисует большой объект. Как я могу обернуть график очень ...
У меня есть несколько больших файлов, с которыми я работаю, и я использую несколько разных файлов. / O для доступа к ним. Самый распространенный - это пакет bigmemory. При записи в файлы я усвоил ...
] Пакет arules в R использует класс «транзакции». Итак, чтобы использовать функцию apriori (), мне нужно преобразовать мои существующие данные. У меня есть матрица с 2 столбцами и строками примерно 1,6 мм, и я пробовал ... [
У меня есть большой файл (100 миллионов строк значений, разделенных табуляцией - размером около 1,5 ГБ). Каков самый быстрый из известных способов отсортировать это по одному из полей? Я пробовал улей. Я бы хотел посмотреть, есть ли ...
Существует много вопросов, ответов и мнений о том, как выполнять оптимизацию Java на низком уровне с помощью циклов for, while и do-while, и нужно ли это вообще . Мой вопрос скорее высокий ...
Я рассматриваю возможность использования BitTorrent для решения большой проблемы распространения данных, когда источником данных является петафактор, а пользователям потребуется до нескольких терабайт. Некоторые подробности Количество торрентов, потенци
Вопрос: Какое решение или советы вы должны иметь дело с очень большой (многотерабайтной) базой данных, проиндексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли ...
У меня есть вектор x из 1344 уникальных строк. Я хочу сгенерировать матрицу, которая дает мне все возможные группы из трех значений, независимо от порядка, и экспортировать ее в CSV. Я запускаю R на EC2 на m1 ....