Как создать коэффициент пропущенного значения (10%, 20% и т. д.) из полного набора данных в Python

Я бы предпочел избежать хлопот кодирования и декодирования,

blockquote>

Вы не можете полностью избежать этого. Необходимые метаданные для категориальной переменной на самом деле являются отображением между значением и индексом. Тем не менее, нет необходимости делать это вручную или создавать настраиваемый трансформатор . Предположим, что у вас есть такой кадр данных:

import numpy as np
import pandas as pd

df = sqlContext.createDataFrame(pd.DataFrame({
    "x1": np.random.random(1000),
    "x2": np.random.choice(3, 1000),
    "x4": np.random.choice(5, 1000)
}))

Все, что вам нужно, это ассемблер и индекс:

from pyspark.ml.feature import VectorAssembler, VectorIndexer
from pyspark.ml import Pipeline

pipeline = Pipeline(stages=[
    VectorAssembler(inputCols=df.columns, outputCol="features_raw"),
    VectorIndexer(
        inputCol="features_raw", outputCol="features", maxCategories=10)])

transformed = pipeline.fit(df).transform(df)
transformed.schema.fields[-1].metadata

## {'ml_attr': {'attrs': {'nominal': [{'idx': 1,
##      'name': 'x2',
##      'ord': False,
##      'vals': ['0.0', '1.0', '2.0']},
##     {'idx': 2,
##      'name': 'x4',
##      'ord': False,
##      'vals': ['0.0', '1.0', '2.0', '3.0', '4.0']}],
##    'numeric': [{'idx': 0, 'name': 'x1'}]},
##   'num_attrs': 3}}

В этом примере также показана информация о типе, которую вы предоставляете, чтобы отметить данный элемент вектора как категориальная переменная

{
    'idx': 2,  # Index (position in vector)
    'name': 'x4',  # name
    'ord': False,  # is ordinal?
    # Mapping between value and label
    'vals': ['0.0', '1.0', '2.0', '3.0', '4.0']  
}

Итак, если вы хотите построить это с нуля, все, что вам нужно сделать, это правильная схема:

from pyspark.sql.types import *
from pyspark.mllib.linalg import VectorUDT

# Lets assume we have only a vector
raw = transformed.select("features_raw")

# Dictionary equivalent to transformed.schema.fields[-1].metadata shown abov
meta = ... 
schema = StructType([StructField("features", VectorUDT(), metadata=meta)])

sqlContext.createDataFrame(raw.rdd, schema)

Но это довольно неэффективно из-за требуемой сериализации, десериализации.

Начиная с Spark 2.2 вы также можете использовать аргумент метаданных:

df.withColumn("features", col("features").alias("features", metadata=meta))

См. также Приложить метаданные к столбцу вектора в Spark

-4
задан Arjun Puri 4 April 2019 в 04:37
поделиться