Размеры модели R h2o на диске

Насколько я понимаю, на самом деле не существует способа, который «будет работать для всех культур». Либо вы хотите сравнить символы для какой-то внутренней причины, а не для отображения для пользователя (в этом случае вы должны использовать InvariantCulture), или вы хотите использовать CurrentCulture для пользователя. Очевидно, что использование текущей культуры пользователя будет означать, что вы получите разные результаты в разных локалях, но они будут соответствовать тем, что ожидают ваши пользователи в этих локалях.

Не зная больше о ПОЧЕМУ вы сравниваете два персонажи, я не могу вам советовать, на каком из них вы должны пользоваться.

2
задан davide 18 January 2019 в 14:15
поделиться

2 ответа

Это две вещи, которые вы ожидаете: количество деревьев и глубина.

Но это также зависит от ваших данных. Для GBM деревья могут быть сокращены в зависимости от данных.

Что бы я сделал, это экспортировал MOJO, а затем визуализировал их, как описано в документе ниже, чтобы получить более подробную информацию о том, что действительно было сделано:

Обратите внимание, что диапазон 60 МБ в общем случае не кажется слишком большим.

0
ответ дан TomKraljevic 18 January 2019 в 14:15
поделиться

Если вы посмотрите на информацию о модели, вы узнаете о количестве деревьев, их средней глубине и так далее. Сравнение этих трех лучших моделей должно дать вам представление о том, что делает модели большими.

Из R, если m - ваша модель, просто распечатка дает вам большую часть этой информации. str(m) дает вам всю информацию, которая хранится.

Я думаю, что стоит , стоит исследовать. Возможно, причина в том, что два из этих окон данных относительно четкие, и только несколько полей могут определять деревья, тогда как третье окно данных является более хаотичным (в математическом смысле), и вы получаете несколько глубоких деревьев как он пытается разделить это на деревья решений.

Более глубокое изучение этого третьего окна может предложить некоторые методы обработки данных, которые вы могли бы сделать, чтобы было легче учиться. Или это может быть разница в ваших данных. Например. один столбец - все NULL в ваших данных за 2016 и 2017 годы, но не в ваших данных за 2018 год, потому что 2018 год был годом, когда вы начали его собирать, и именно этот дополнительный столбец позволяет / заставляет деревья становиться глубже.

Наконец, возможно, сеточные гиперпараметры не важны с точки зрения производительности, и это различие из-за шума. Например. у вас есть max_depth в качестве гиперпараметра, но влияние на MSE незначительное, и шум является значительным фактором. Эти случайные различия могут позволить вашей лучшей модели перейти на глубину 5 для двух ваших наборов данных (но вторая лучшая модель была на 0,01% хуже, но прошла на глубину 20), но перейти на глубину 30 для вашего третьего набора данных (но 2-я лучшая модель было на 0,01% хуже, но только дошло до глубины 5). (Если я правильно понял ваш вопрос, вы исключили это как возможность, так как тогда вы обучили все три набора данных одним и тем же гиперпараметрам? Но я все равно решил включить его).

0
ответ дан Darren Cook 18 January 2019 в 14:15
поделиться
Другие вопросы по тегам:

Похожие вопросы: