Опция сборки Pip для использования многоядерности

И еще одна опция, состоящая в чтении CSV-файла с использованием Pandas, а затем импортировании Pandas DataFrame в Spark.

Например:

from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd

sc = SparkContext('local','example')  # if using locally
sql_sc = SQLContext(sc)

pandas_df = pd.read_csv('file.csv')  # assuming the file contains a header
# pandas_df = pd.read_csv('file.csv', names = ['column 1','column 2']) # if no header
s_df = sql_sc.createDataFrame(pandas_df)
41
задан Jihun 12 November 2014 в 02:27
поделиться