Как получить большой объем данных?

Я провожу тестирование с помощью nutch и hadoop, и мне нужен огромный объем данных. Я хочу начать с 20 ГБ, перейти к 100 ГБ, 500 ГБ и в конечном итоге достичь 1-2 ТБ.

Проблема в том, что у меня нет такого количества данных, поэтому я думаю о способах их получения.

Сами данные могут быть любого типа. Одна из идей - взять исходный набор данных и продублировать его. Но этого недостаточно, потому что нужны файлы, которые отличаются друг от друга (идентичные файлы игнорируются).

Другая идея - написать программу, которая будет создавать файлы с фиктивными данными.

Есть еще идеи?

8
задан Charles 31 December 2011 в 20:40
поделиться