Мы часто работаем над проектом, в котором нам передали большой набор данных (скажем, несколько файлов размером 1 ГБ каждый), и мы пишем код для его анализа.
Весь код анализа находится в Git, поэтому каждый может проверять изменения в нашем центральном репозитории и вне его. Но что делать с наборами данных, с которыми работает код?
Мне нужны данные в репозитории:
Однако я не хочу, чтобы данные в репозитории git:
Похоже, мне нужна установка с основным репозиторием для кода и вспомогательным репозиторием для данных. Есть ли какие-либо предложения или уловки для изящной реализации этого, либо в git, либо в POSIX в целом? Все, о чем я думал, так или иначе является кладжем.
Я рекомендую Мерзавец Большое Хранилище файлов , который интегрируется беспрепятственно в экосистему мерзавца. Это настраивает текстовые указатели на большие файлы, но не экспортирует их в Ваш репозиторий.
После установки ( https://packagecloud.io/github/git-lfs/install), можно настроить его в локальном repo с git lfs install
. И затем использование его легко. Скажите это, какие типы файлов Вы хотите отследить (git lfs track "*.gz"
), удостоверьтесь, что Вы отслеживаете .gitattributes
, и это должно просто работать.