У меня есть большой набор данных (c. 40G), что я хочу использовать для некоторой обработки естественного языка (в основном смущающе параллельный) по нескольким компьютерам в лаборатории, к которой у меня нет корневого доступа и только 1G пространства пользователя. Я экспериментировал с hadoop, но конечно это было мертво в воде - данные хранятся на внешнем жестком диске usb, и я не могу загрузить его на DFS из-за ограничения пространства пользователя 1G. Я изучал несколько основанных на Python опций (поскольку я использовал бы NLTK вместо lingpipe Java, если я могу помочь ему), и это кажется распределенным, вычисляют опции, будьте похожи:
После моего опыта hadoop я пытаюсь удостовериться, что я пытаюсь сделать информированный выбор - любая справка на том, что могло бы быть более соответствующим, будет значительно цениться.
EC2 Amazon и т.д. не действительно опция, поскольку я не имею рядом ни с каким бюджетом.
нет фактических ответов; я бы поставил это как комментарий, но на этом сайте вы вынуждены отвечать, только если вы все еще новичок
, если это действительно так же параллельно, и это всего лишь пара компьютеров, не могли бы вы разделить набор данных вручную заблаговременно?
Вы подтвердили, что не будет брандмауэра или чего-то подобного, чтобы остановить вас от использования чего-то подобного?
у вас может быть только 1 ГБ пользовательского пространства, но, если linux что насчет / tmp? (если windows, как насчет% temp%?)
Обязательно поговорите с ИТ-отделом вашей школы. Не рекомендуется использовать ресурсы компьютера, которые вам не принадлежат.
Я нашел JPPF , который позволяет запускать приложения с большими требованиями к вычислительной мощности на любом количестве компьютеров. Я не уверен, нужно ли вам устанавливать программное обеспечение на клиентские машины, но определенные порты должны быть открыты на клиентских машинах.
Поговорите с ИТ-отделом вашей школы (особенно если вы учитесь в колледже), держу пари, если это связано с заданием или исследованием, они будут более чем счастливы предоставить вам больше места на диске.
Если дополнительные ресурсы в вашем вычислительном отделе не подходят, вам придется подумать о том, чтобы разбить набор данных на управляемые фрагменты, прежде чем что-либо делать поработайте над этим, а затем сведите результаты к содержательному набору.
Было бы неплохо получить больше ресурсов от ИТ.
Удачи!
Бен