Как работает отображение на rdd в pyspark?

Это короткий метод C #, который работает для меня. Int32 достаточно большой для моих целей.

public static Int32 GetNextID( SqliteConnection AConnection )
{
  Int32 result = -1;

  using ( SqliteCommand cmd = AConnection.CreateCommand() )
  {
    cmd.CommandText = "SELECT last_insert_rowid();";
    using ( SqliteDataReader r = cmd.ExecuteReader() )
    {
      if ( r.Read() )
        result = (Int32) r.GetInt64( 0 );
    }
  }

  return result;
}
2
задан Shilpa 18 January 2019 в 06:32
поделиться

1 ответ

Он составлен как полный список, поскольку вы дали его как единое целое, и вы также определили его в одной колонке «особенности»

, когда говорите

df.rdd.map(lambda row: row[0]*2)

просто спрашиваю спарк: «Я хочу, чтобы все значения в этом списке встречались дважды». Следовательно, вы получаете результат, который получаете.

Теперь, как получить индивидуальные значения в списке.

df = spark.createDataFrame([Row(0,45,63,0,0,0,0),
                       Row(0,0,0,85,0,69,0),
                       Row(0,89,56,0,0,0,0)],
                       ['feature1' , 'feature2' , 'feature3' , 'feature4', 'feature5' , 'feature6' , 'feature7'])

Это должно дать вам доступ к отдельным значениям в выделенном столбце.

Примечание: синтаксис для схемы - это просто представление. пожалуйста, обратитесь к документам для точного синтаксиса.

Надеюсь, что это помогает:)

0
ответ дан Harjeet Kumar 18 January 2019 в 06:32
поделиться
Другие вопросы по тегам:

Похожие вопросы: