Вы посмотрели на использование потоковая передача Hadoop?
я использую его в Python все время:-).
я начинаю видеть, что неоднородный подход является часто лучшим, и похоже, что другие люди делают то же.
при рассмотрении проектов как буферы протокола или экономия Facebook Вы видите, что иногда просто лучше использовать приложение, записанное на другом языке и создать связующее звено на языке Вашего предпочтения.
См. http://research.microsoft.com/en-us/projects/dryadlinq/default.aspx или http://msdn.microsoft.com/en -us / library / dd179423.aspx
Есть довольно симпатичная реализация MapReduce для .NET по адресу: http://mapsharp.codeplex.com/
Недавно MySpace выпустила свою платформу .NET MapReduce, Qizmt , как открытый исходный код, так что это также потенциальный претендент в этом пространстве.
Я бы сказал, что DrimaDlinq - самая близкая вещь, которую нам народ. Но это зависит от того, что вы хотите использовать Hadoop. Если вы ищете оптимизированную систему, поддерживающее себя распределенного файла (DFS), то DryAdlinq не то, что вы ищете. Он имеет аналог DFS, но вы должны вручную построить разделы и распространять каждый раздел.
, которые говорится, что если его распределенное исполнение аспекта Hadoop, который вы ищете, чем Dymadlinq, действительно замечательно (и нет, я не связан с MS). Пока у вас есть Microsoft HPC нажав кластеров, чем переход с Drimadlinq, действительно просто.
Код, который вы пишете, действительно просто прямой код LINQ, за исключением вместо того, чтобы выполнять LINQ на IEnumerable
, вы должны выполнить его на разделение
(само Создать распределенную структуру данных).
Что действительно было круто о Dymadlinq, является быстрым поворотом времени (попробуйте, тестирование, регулировка, повторение) при разработке алгоритмов. Вы просто пишите код LINQ, чтобы сделать ваши расчеты, а Drimadlinq позаботится обо всех распределенных выполнении. Это самый натуральный аналог, который я сталкивался с тем, что делает запись для написания для распределенной обработки, такую как запись кода для одной обработки процессов.
Возможно, лучше использовать Apache Hadoop и потоковую передачу, поскольку Apache Hadoop активно разрабатывается и поддерживается такими крупными гигантами отрасли, как Yahoo и Facebook. Таким образом, он может делать то, что вы от него ожидаете.
Если вам нужно решение в .NET, проверьте реализацию Myspace @ MySpace Qizmt - MySpace's Open Source Mapreduce Framework