Создать новый столбец в кадре данных pandas на основе текущего значения столбца [duplicate]

Question

Создать новый столбец в кадре данных pandas на основе текущего значения столбца [duplicate]

NullPointerException s - исключения, возникающие при попытке использовать ссылку, которая указывает на отсутствие местоположения в памяти (null), как если бы она ссылалась на объект. Вызов метода по нулевой ссылке или попытка получить доступ к полю нулевой ссылки вызовет функцию NullPointerException. Они наиболее распространены, но другие способы перечислены на странице NullPointerException javadoc.

Вероятно, самый быстрый пример кода, который я мог бы придумать для иллюстрации NullPointerException, be:

public class Example {

    public static void main(String[] args) {
        Object obj = null;
        obj.hashCode();
    }

}

В первой строке внутри main я явно устанавливаю ссылку Object obj равной null. Это означает, что у меня есть ссылка, но она не указывает на какой-либо объект. После этого я пытаюсь обработать ссылку так, как если бы она указывала на объект, вызывая метод на нем. Это приводит к NullPointerException, потому что нет кода для выполнения в местоположении, на которое указывает ссылка.

(Это техничность, но я думаю, что она упоминает: ссылка, которая указывает на null, равна 't то же, что и указатель C, указывающий на недопустимую ячейку памяти. Нулевой указатель буквально не указывает на в любом месте , который отличается от указаний на местоположение, которое оказывается недопустимым.)

158

python-3.x pandas

задан TheChymera 1 December 2013 в 06:58

7 ответов

Более подход, основанный на использовании pandas, заключается в применении функции замены, как показано ниже:

def multiple_replace(dict, text):
  # Create a regular expression  from the dictionary keys
  regex = re.compile("(%s)" % "|".join(map(re.escape, dict.keys())))

  # For each match, look-up corresponding value in dictionary
  return regex.sub(lambda mo: dict[mo.string[mo.start():mo.end()]], text)

После того, как вы определили функцию, вы можете применить ее к вашему фреймворку данных.

di = {1: "A", 2: "B"}
df['col1'] = df.apply(lambda row: multiple_replace(di, row['col1']), axis=1)

0

ответ дан Amirhos Imani 19 August 2018 в 02:33

`map` может быть намного быстрее, чем `replace`

Если ваш словарь содержит более двух ключей, использование map может быть намного быстрее, чем replace. Существуют две версии этого подхода, в зависимости от того, исчерпывает ли ваш словарь все возможные значения (а также хотите ли вы заменить несоответствия или оставить их как отсутствующие значения):

Исчерпывающее сопоставление

В этом случае форма очень проста:

df['col1'].map(di)       # note: if the dictionary does not exhaustively map all
                         # entries then non-matched entries are changed to NaNs

Хотя map чаще всего принимает функцию как свой аргумент, она может альтернативно принимать словарь или серию: Документация для Pandas.series.map

Неисчерпывающее сопоставление

Если у вас есть не исчерпывающее отображение и вы хотите сохранить существующие переменные для несоответствий, вы можете добавить fillna:

df['col1'].map(di).fillna(df['col1'])

, как в ответе @ jpp здесь: Заменить значения в серии pandas с помощью словаря эффективно

Тесты

Используя следующие данные с версией pandas 0.23.1:

di = {1: "A", 2: "B", 3: "C", 4: "D", 5: "E", 6: "F", 7: "G", 8: "H" }
df = pd.DataFrame({ 'col1': np.random.choice( range(1,9), 100000 ) })

и тестируя с %timeit, похоже, что map примерно в 10 раз быстрее, чем replace.

Обратите внимание, что ваше ускорение с map будет отличаться в зависимости от ваших данных. Самое большое ускорение, похоже, связано с большими словарями и исчерпывающими заменами. См. Ответ @jpp (см. Выше) для более подробных тестов и обсуждения.

49

ответ дан JohnE 19 August 2018 в 02:33

1

Последний блок кода для этого ответа, конечно, не самый элегантный, но этот ответ заслуживает некоторого кредита. Он на порядок быстрее для больших словарей и не использует всю мою оперативную память. Он переименовал 10 000 строк с использованием словаря, в котором за полминуты было около 9 миллионов записей. Функция df.replace, в то время как аккуратная и полезная для небольших диктонов, потерпела крах после запуска в течение 20 минут или около того. – griffinc 11 May 2017 в 03:29
2

Связано: Заменить значения в серии pandas с помощью словаря эффективно – jpp 19 March 2018 в 22:00
3

@griffinc Спасибо за отзывы и заметьте, что с тех пор я обновил этот ответ с помощью гораздо более простого способа сделать неисчерпывающий случай (благодаря @jpp) – JohnE 3 July 2018 в 10:40
4

– StatsScared 27 August 2018 в 18:14
5

– JohnE 27 August 2018 в 18:48

Добавляя к этому вопросу, если у вас когда-либо было несколько столбцов для переназначения в фрейме данных данных:

def remap(data,dict_labels):
    """
    This function take in a dictionnary of labels : dict_labels 
    and replace the values (previously labelencode) into the string.

    ex: dict_labels = {{'col1':{1:'A',2:'B'}}

    """
    for field,values in dict_labels.items():
        print("I am remapping %s"%field)
        data.replace({field:values},inplace=True)
    print("DONE")

    return data

Надеюсь, что это может быть полезно кому-то.

Cheers

g2]

2

ответ дан Nico Coallier 19 August 2018 в 02:33

В вашем вопросе есть немного двусмысленности. Существует не менее трех двух интерпретаций:

клавиши в di относятся к значениям индекса
, клавиши в di относятся к df['col1'] значениям
ключи в di относятся к местоположению индексов (а не к вопросу OP, но выбрасываются для удовольствия.)

Ниже приведено решение для каждого случая.

Случай 1: Если клавиши di предназначены для обозначения значений индекса, вы можете использовать метод update:

df['col1'].update(pd.Series(di))

Например,

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {0: "A", 2: "B"}

# The value at the 0-index is mapped to 'A', the value at the 2-index is mapped to 'B'
df['col1'].update(pd.Series(di))
print(df)

дает

  col1 col2
1    w    a
2    B   30
0    A  NaN

Я изменил значения из вашего исходного сообщения, чтобы было ясно, что делает update. Обратите внимание, что ключи из di связаны с значениями индекса. Порядок значений индекса, т. Е. Индекс местоположения - не имеет значения.

Случай 2: Если клавиши в di относятся к df['col1'], то @DanAllan и @DSM показывают, как достичь этого с помощью replace:

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
print(df)
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {10: "A", 20: "B"}

# The values 10 and 20 are replaced by 'A' and 'B'
df['col1'].replace(di, inplace=True)
print(df)

дает

  col1 col2
1    w    a
2    A   30
0    B  NaN

Обратите внимание, как в этом случае клавиши в di были изменены в соответствии с значениями в df['col1'].

Случай 3: Если клавиши в di относятся к местоположениям индекса, вы можете использовать

df['col1'].put(di.keys(), di.values())

, поскольку

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
di = {0: "A", 2: "B"}

# The values at the 0 and 2 index locations are replaced by 'A' and 'B'
df['col1'].put(di.keys(), di.values())
print(df)

дает

  col1 col2
1    A    a
2   10   30
0    B  NaN

Здесь первая и третья строки были изменены, поскольку клавиши в di являются 0 ] и 2, которые с индексом на основе индекса Python относятся к первому и третьему местоположениям.

49

ответ дан unutbu 19 August 2018 в 02:33

1

replace одинаково хорош и, возможно, лучшее слово для того, что здесь происходит. – Dan Allan 27 November 2013 в 21:06
2

@DSM позаботился об этом. – Dan Allan 27 November 2013 в 21:11
3

– DSM 27 November 2013 в 22:35
4

@DSM: Ой, вы правы, нет возможности Case3, но я не думаю, что целевая датафрейма OP отличает Case1 от Case2, поскольку значения индекса равны значениям столбца. – unutbu 27 November 2013 в 22:47
5

@unutbu: ах, точка взята. – DSM 27 November 2013 в 22:59

DSM имеет принятый ответ, но в этом ответе немного ошибочно (я не уверен, что ответ когда-либо работал в готовом виде). Вот пример, который работает с текущей версией pandas (0.23.4 с 8/2018):

import pandas as pd

df = pd.DataFrame({'col1': [1, 2, 2, 3, 1],
            'col2': ['negative', 'positive', 'neutral', 'neutral', 'positive']})

conversion_dict = {'negative': -1, 'neutral': 0, 'positive': 1}
df['converted_column'] = df['col2'].replace(conversion_dict)

print(df.head())

Вы увидите, что это выглядит так:

   col1      col2  converted_column
0     1  negative                -1
1     2  positive                 1
2     2   neutral                 0
3     3   neutral                 0
4     1  positive                 1

Документы для pandas.DataFrame.replace здесь .

0

ответ дан wordsforthewise 19 August 2018 в 02:33

1

– JohnE 31 August 2018 в 08:42
2

– wordsforthewise 2 September 2018 в 01:10

0

ответ дан U9-Forward 30 October 2018 в 14:09

Другие вопросы по тегам:

python-3.x pandas

Похожие вопросы:

Последний блок кода для этого ответа, конечно, не самый элегантный, но этот ответ заслуживает некоторого кредита. Он на порядок быстрее для больших словарей и не использует всю мою оперативную память. Он переименовал 10 000 строк с использованием словаря, в котором за полминуты было около 9 миллионов записей. Функция df.replace, в то время как аккуратная и полезная для небольших диктонов, потерпела крах после запуска в течение 20 минут или около того. — griffinc, 11 May 2017 в 03:29
Связано: Заменить значения в серии pandas с помощью словаря эффективно — jpp, 19 March 2018 в 22:00
@griffinc Спасибо за отзывы и заметьте, что с тех пор я обновил этот ответ с помощью гораздо более простого способа сделать неисчерпывающий случай (благодаря @jpp) — JohnE, 3 July 2018 в 10:40
replace одинаково хорош и, возможно, лучшее слово для того, что здесь происходит. — Dan Allan, 27 November 2013 в 21:06
@DSM: Ой, вы правы, нет возможности Case3, но я не думаю, что целевая датафрейма OP отличает Case1 от Case2, поскольку значения индекса равны значениям столбца. — unutbu, 27 November 2013 в 22:47

score 162 · Accepted Answer

Вы можете использовать .replace. Например:

>>> df = pd.DataFrame({'col2': {0: 'a', 1: 2, 2: np.nan}, 'col1': {0: 'w', 1: 1, 2: 2}})
>>> di = {1: "A", 2: "B"}
>>> df
  col1 col2
0    w    a
1    1    2
2    2  NaN
>>> df.replace({"col1": di})
  col1 col2
0    w    a
1    A    2
2    B  NaN

или непосредственно на Series, то есть df["col1"].replace(di, inplace=True).

162

ответ дан DSM 19 August 2018 в 02:33

1

Это не работает для меня, если, если col```` is tuple. The error info is не может сравнивать типы ndarray (dtype = object) 'и' tuple```` – Pengju Zhao 2 August 2017 в 04:54
2

Похоже, что это больше не работает вообще , что неудивительно, учитывая, что ответ был 4 года назад. Этот вопрос требует нового ответа, учитывая, насколько общая операция ... – PrestonH 21 November 2017 в 18:01
3

@PrestonH Он отлично работает для меня. Запуск: '3.6.1 |Anaconda custom (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)]' – Dan 6 December 2017 в 10:47
4

Меня устраивает. Но как, если я хочу заменить значения во ВСЕХ столбцах? – famargar 3 January 2018 в 11:52
5

Единственный метод, который помогал мне в ответах, заключался в том, чтобы сделать прямую замену на Серии. Благодаря! – Dirigo 9 March 2018 в 19:17

Создать новый столбец в кадре данных pandas на основе текущего значения столбца [duplicate]

7 ответов

map может быть намного быстрее, чем replace

Исчерпывающее сопоставление

Неисчерпывающее сопоставление

Тесты

Похожие вопросы:

`map` может быть намного быстрее, чем `replace`