Java или распределенный Python вычисляют задание (на студенческом бюджете)?

Question

Java или распределенный Python вычисляют задание (на студенческом бюджете)?

У меня есть большой набор данных (c. 40G), что я хочу использовать для некоторой обработки естественного языка (в основном смущающе параллельный) по нескольким компьютерам в лаборатории, к которой у меня нет корневого доступа и только 1G пространства пользователя. Я экспериментировал с hadoop, но конечно это было мертво в воде - данные хранятся на внешнем жестком диске usb, и я не могу загрузить его на DFS из-за ограничения пространства пользователя 1G. Я изучал несколько основанных на Python опций (поскольку я использовал бы NLTK вместо lingpipe Java, если я могу помочь ему), и это кажется распределенным, вычисляют опции, будьте похожи:

Ipython
ДИСКОТЕКА

После моего опыта hadoop я пытаюсь удостовериться, что я пытаюсь сделать информированный выбор - любая справка на том, что могло бы быть более соответствующим, будет значительно цениться.

EC2 Amazon и т.д. не действительно опция, поскольку я не имею рядом ни с каким бюджетом.

5

java python nlp hadoop nltk

задан midget_sadhu 16 May 2010 в 14:28

4 ответа

Другие вопросы по тегам:

java python nlp hadoop nltk

Похожие вопросы:

score 1 · Answer 1

нет фактических ответов; я бы поставил это как комментарий, но на этом сайте вы вынуждены отвечать, только если вы все еще новичок

, если это действительно так же параллельно, и это всего лишь пара компьютеров, не могли бы вы разделить набор данных вручную заблаговременно?

Вы подтвердили, что не будет брандмауэра или чего-то подобного, чтобы остановить вас от использования чего-то подобного?

у вас может быть только 1 ГБ пользовательского пространства, но, если linux что насчет / tmp? (если windows, как насчет% temp%?)

score 1 · Answer 2

Обязательно поговорите с ИТ-отделом вашей школы. Не рекомендуется использовать ресурсы компьютера, которые вам не принадлежат.

Я нашел JPPF , который позволяет запускать приложения с большими требованиями к вычислительной мощности на любом количестве компьютеров. Я не уверен, нужно ли вам устанавливать программное обеспечение на клиентские машины, но определенные порты должны быть открыты на клиентских машинах.

score 3 · Answer 3

Поговорите с ИТ-отделом вашей школы (особенно если вы учитесь в колледже), держу пари, если это связано с заданием или исследованием, они будут более чем счастливы предоставить вам больше места на диске.

score 0 · Answer 4

Если дополнительные ресурсы в вашем вычислительном отделе не подходят, вам придется подумать о том, чтобы разбить набор данных на управляемые фрагменты, прежде чем что-либо делать поработайте над этим, а затем сведите результаты к содержательному набору.

Было бы неплохо получить больше ресурсов от ИТ.

Удачи!

Бен