Java или распределенный Python вычисляют задание (на студенческом бюджете)?

У меня есть большой набор данных (c. 40G), что я хочу использовать для некоторой обработки естественного языка (в основном смущающе параллельный) по нескольким компьютерам в лаборатории, к которой у меня нет корневого доступа и только 1G пространства пользователя. Я экспериментировал с hadoop, но конечно это было мертво в воде - данные хранятся на внешнем жестком диске usb, и я не могу загрузить его на DFS из-за ограничения пространства пользователя 1G. Я изучал несколько основанных на Python опций (поскольку я использовал бы NLTK вместо lingpipe Java, если я могу помочь ему), и это кажется распределенным, вычисляют опции, будьте похожи:

  • Ipython
  • ДИСКОТЕКА

После моего опыта hadoop я пытаюсь удостовериться, что я пытаюсь сделать информированный выбор - любая справка на том, что могло бы быть более соответствующим, будет значительно цениться.

EC2 Amazon и т.д. не действительно опция, поскольку я не имею рядом ни с каким бюджетом.

5
задан midget_sadhu 16 May 2010 в 14:28
поделиться

4 ответа

нет фактических ответов; я бы поставил это как комментарий, но на этом сайте вы вынуждены отвечать, только если вы все еще новичок

, если это действительно так же параллельно, и это всего лишь пара компьютеров, не могли бы вы разделить набор данных вручную заблаговременно?

Вы подтвердили, что не будет брандмауэра или чего-то подобного, чтобы остановить вас от использования чего-то подобного?

у вас может быть только 1 ГБ пользовательского пространства, но, если linux что насчет / tmp? (если windows, как насчет% temp%?)

1
ответ дан 14 December 2019 в 19:05
поделиться

Обязательно поговорите с ИТ-отделом вашей школы. Не рекомендуется использовать ресурсы компьютера, которые вам не принадлежат.

Я нашел JPPF , который позволяет запускать приложения с большими требованиями к вычислительной мощности на любом количестве компьютеров. Я не уверен, нужно ли вам устанавливать программное обеспечение на клиентские машины, но определенные порты должны быть открыты на клиентских машинах.

1
ответ дан 14 December 2019 в 19:05
поделиться

Поговорите с ИТ-отделом вашей школы (особенно если вы учитесь в колледже), держу пари, если это связано с заданием или исследованием, они будут более чем счастливы предоставить вам больше места на диске.

3
ответ дан 14 December 2019 в 19:05
поделиться

Если дополнительные ресурсы в вашем вычислительном отделе не подходят, вам придется подумать о том, чтобы разбить набор данных на управляемые фрагменты, прежде чем что-либо делать поработайте над этим, а затем сведите результаты к содержательному набору.

Было бы неплохо получить больше ресурсов от ИТ.

Удачи!

Бен

0
ответ дан 14 December 2019 в 19:05
поделиться
Другие вопросы по тегам:

Похожие вопросы: