Pandas DataFrame Записи столбца / индекса уровня MultiIndex остаются после нарезки. Как их удалить? [Дубликат]

Question

Pandas DataFrame Записи столбца / индекса уровня MultiIndex остаются после нарезки. Как их удалить? [Дубликат]

Другое решение состоит в том, чтобы выполнить код через последовательный исполнитель nsynjs .

Если базовая функция многозначна

nsynjs будет последовательно оценивать все обещания и ставить обещания результат в свойство data:

function synchronousCode() {

    var getURL = function(url) {
        return window.fetch(url).data.text().data;
    };
    
    var url = 'https://ajax.googleapis.com/ajax/libs/jquery/2.0.0/jquery.min.js';
    console.log('received bytes:',getURL(url).length);
    
};

nsynjs.run(synchronousCode,{},function(){
    console.log('synchronousCode done');
});

Если базовая функция не обещает

Шаг 1. Wrap с обратным вызовом в оболочку, совместимую с nsynjs (если у нее есть обещанная версия, вы можете пропустить этот тест):

var ajaxGet = function (ctx,url) {
    var res = {};
    var ex;
    $.ajax(url)
    .done(function (data) {
        res.data = data;
    })
    .fail(function(e) {
        ex = e;
    })
    .always(function() {
        ctx.resume(ex);
    });
    return res;
};
ajaxGet.nsynjsHasCallback = true;

Шаг 2. Вставить синхронную логику в функцию:

function process() {
    console.log('got data:', ajaxGet(nsynjsCtx, "data/file1.json").data);
}

Шаг 3. Выполнить функцию синхронно через nnsynjs:

nsynjs.run(process,this,function () {
    console.log("synchronous function finished");
});

Nsynjs будет оценивать все операторы и выражения шаг за шагом, приостанавливая выполнение в случае, если результат некоторой медленной функции не готов.

Дополнительные примеры здесь: https://github.com/amaksr/nsynjs/tree/master/examples

11

python python-3.x pandas dataframe indexing

задан Kyle Heuton 27 February 2015 в 20:08

3 ответа

Я удивлюсь, если есть более «встроенный» способ устранить неиспользуемую страну, чем повторить создание индекса так, как вы делаете (или каким-то другим способом). Если вы посмотрите на свой индекс до и после среза:

In [165]: df.index
Out[165]:
MultiIndex(levels=[[u'CAN', u'USA'], [u'total']],
           labels=[[0, 1], [0, 0]],
           names=[u'country', u'sex'])

In [166]: df = df.query('pop > 100')

In [167]: df.index
Out[167]:
MultiIndex(levels=[[u'CAN', u'USA'], [u'total']],
           labels=[[1], [0]],
           names=[u'country', u'sex'])

вы можете видеть, что метки - индексы в значениях уровня - обновлены, но не значения уровня. Это может быть несовершенная аналогия, но мне кажется, что значения уровня аналогичны перечисляемому столбцу в таблице базы данных, тогда как метки аналогичны фактическим значениям строк в таблице. Если вы удалите все строки таблицы со значением «CAN», это не изменит того факта, что «CAN» по-прежнему является допустимым выбором, основанным на определении столбца. Чтобы удалить «CAN» из перечисления, вам нужно изменить определение столбца; это эквивалент переиндексации фрейма данных в пандах.

0

ответ дан Brian from QuantRocket 28 August 2018 в 05:01

Из версии 0.20.0 используйте MultiIndex.remove_unused_levels :

print (df.index)
MultiIndex(levels=[['CAN', 'USA'], ['total']],
           labels=[[1], [0]],
           names=['country', 'sex'])

df.index = df.index.remove_unused_levels()

print (df.index)
MultiIndex(levels=[['USA'], ['total']],
           labels=[[0], [0]],
           names=['country', 'sex'])

6

ответ дан jezrael 28 August 2018 в 05:01

Другие вопросы по тегам:

python python-3.x pandas dataframe indexing

Похожие вопросы:

score 9 · Accepted Answer

Это то, что укусило меня раньше. Удаление столбцов или строк НЕ изменяет базовый MultiIndex по производительности и философским соображениям, и это официально не считается ошибкой ( читайте здесь ). Короткий ответ заключается в том, что разработчики говорят: «Это не то, для чего используется MultiIndex». Если вам понадобится список содержимого уровня MultiIndex после его модификации, например, для итерации или для проверки того, включено ли что-то, вы можете использовать:

df.index.get_level_values(<levelname>)

Это возвращает текущие активные значения в пределах этот индексный уровень.

Итак, я думаю, что «трюк» здесь заключается в том, что для этого API-интерфейс должен использоваться get_level_values, а не только .index или .columns