, если вы используете dom4j, это будет dom4JDOM.asString ()
Обновления:
2016-07-04
Поскольку последнее обновление MongoDB Spark Connector созрело довольно много. Он предоставляет обновленные бинарные файлы и API на основе источника данных, но использует конфигурацию SparkConf
, поэтому он субъективно менее гибкий, чем Stratio / Spark-MongoDB.
2016-03-30
После первоначального ответа я нашел два разных способа подключения к MongoDB от Spark:
В то время как первый кажется относительно незрелым, последний выглядит гораздо лучше, чем разъем Mongo-Hadoop, и предоставляет API-интерфейс Spark SQL.
# Adjust Scala and package version according to your setup
# although officially 0.11 supports only Spark 1.5
# I haven't encountered any issues on 1.6.1
bin/pyspark --packages com.stratio.datasource:spark-mongodb_2.11:0.11.0
df = (sqlContext.read
.format("com.stratio.datasource.mongodb")
.options(host="mongo:27017", database="foo", collection="bar")
.load())
df.show()
## +---+----+--------------------+
## | x| y| _id|
## +---+----+--------------------+
## |1.0|-1.0|56fbe6f6e4120712c...|
## |0.0| 4.0|56fbe701e4120712c...|
## +---+----+--------------------+
Кажется, он намного более стабилен, чем mongo-hadoop-spark
, поддерживает предикат pushdown без статической конфигурации и просто
Оригинальный ответ:
Действительно, здесь есть немало движущихся частей. Я попытался сделать это немного более управляемым, построив простое изображение Docker, которое примерно соответствует описанной конфигурации (хотя для краткости я опутал библиотеки Hadoop). Вы можете найти полный источник на GitHub
( DOI 10.5281 / zenodo.47882 ) и построить его с нуля:
git clone https://github.com/zero323/docker-mongo-spark.git
cd docker-mongo-spark
docker build -t zero323/mongo-spark .
или загрузить image Я нажал на Docker Hub , чтобы вы могли просто docker pull zero323/mongo-spark
):
Запустить изображения:
docker run -d --name mongo mongo:2.6
docker run -i -t --link mongo:mongo zero323/mongo-spark /bin/bash
Запустить прохождение оболочки PySpark --jars
и --driver-class-path
:
pyspark --jars ${JARS} --driver-class-path ${SPARK_DRIVER_EXTRA_CLASSPATH}
И, наконец, посмотрите, как это работает:
import pymongo
import pymongo_spark
mongo_url = 'mongodb://mongo:27017/'
client = pymongo.MongoClient(mongo_url)
client.foo.bar.insert_many([
{"x": 1.0, "y": -1.0}, {"x": 0.0, "y": 4.0}])
client.close()
pymongo_spark.activate()
rdd = (sc.mongoRDD('{0}foo.bar'.format(mongo_url))
.map(lambda doc: (doc.get('x'), doc.get('y'))))
rdd.collect()
## [(1.0, -1.0), (0.0, 4.0)]
Обратите внимание, что mongo-hadoop, похоже, закрывает соединение после первого действия. Итак, вызов, например, rdd.count()
после того, как сбор будет вызывать исключение.
Исходя из различных проблем, с которыми я столкнулся при создании этого изображения, я склонен полагать, что передача mongo-hadoop-1.5.0-SNAPSHOT.jar
и mongo-hadoop-spark-1.5.0-SNAPSHOT.jar
в оба --jars
и --driver-class-path
является единственным жестким требованием.
Примечания:
--packages
, скорее всего, лучший вариант. Можете ли вы попробовать использовать опцию --package
вместо --jars ...
в вашей команде spark-submit:
spark-submit --packages org.mongodb.mongo-hadoop:mongo-hadoop-core:1.3.1,org.mongodb:mongo-java-driver:3.1.0 [REST OF YOUR OPTIONS]
Некоторые из этих файлов jar не являются банками Uber и требуют больше зависимостей для загрузки до которые могут работать.
:: USE VERBOSE OR DEBUG MESSAGE LEVEL FOR MORE DETAILS Exception in thread "main" java.lang.RuntimeException: [download failed: com.google.guava#guava;11.0.2!guava.jar, ......
– Philip O'Brien
19 November 2015 в 10:35
У меня была такая же проблема вчера. Удалось зафиксировать его, поместив mongo-java-driver.jar
в $HADOOP_HOME/lib
и mongo-hadoop-core.jar
и mongo-hadoop-spark.jar
в $HADOOP_HOME/spark/classpath/emr
(или в любую другую папку, которая находится в $SPARK_CLASSPATH
).
Сообщите мне если это помогает.
Удачи!
@see https://github.com/mongodb/mongo-hadoop/wiki/Spark-Usage
from pyspark import SparkContext, SparkConf
import pymongo_spark
# Important: activate pymongo_spark.
pymongo_spark.activate()
def main():
conf = SparkConf().setAppName("pyspark test")
sc = SparkContext(conf=conf)
# Create an RDD backed by the MongoDB collection.
# This RDD *does not* contain key/value pairs, just documents.
# If you want key/value pairs, use the mongoPairRDD method instead.
rdd = sc.mongoRDD('mongodb://localhost:27017/db.collection')
# Save this RDD back to MongoDB as a different collection.
rdd.saveToMongoDB('mongodb://localhost:27017/db.other.collection')
# You can also read and write BSON:
bson_rdd = sc.BSONFileRDD('/path/to/file.bson')
bson_rdd.saveToBSON('/path/to/bson/output')
if __name__ == '__main__':
main()
mongo_rdd = sc.mongoRDD('mongodb://username:password@localhost:27017/db.collection')
, но он не работает – Philip O'Brien 20 November 2015 в 11:05sc.mongoRDD(uri, some_config)
, но это всего лишь предположение. – zero323 20 November 2015 в 11:16