Угловой 2 - нгПокажи эквивалент? [Дубликат]

Поскольку я изначально написал этот ответ, я обновил его многими способами, которые теперь доступны для доступа к наборам образцов данных в Python. Лично я склонен придерживаться любого пакета, который я уже использую (обычно морского или панд). Если вам нужен автономный доступ, установка набора данных с помощью Quilt кажется единственной опцией.

Seaborn

В блестящем графическом пакете seaborn имеется несколько встроенных наборов данных выборки.

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

Pandas

Если вы не хотите импортировать seaborn, но все же хотите получить доступ к его выборкам данных , вы может использовать подход @ andrewwowens для данных образцов морского судна:

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

Обратите внимание, что образцы данных, содержащие категориальные столбцы, имеют свой тип столбца , измененный sns.load_dataset() , и результат может не быть тем же самым, получая его непосредственно из URL.

R выборки наборов данных

Так как любой набор данных может быть прочитан через pd.read_csv(), наборы данных образцов диафрагмы и наконечников также доступны в pandas github repo здесь .

], можно получить доступ ко всем наборам данных выборки R, скопировав URL-адреса из этого репозитория данных репозитория R .

Дополнительные способы загрузки наборов данных выборки R включают statsmodel

import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris').data

и PyDataset

from pydataset import data

iris = data('iris')

scikit-learn

scikit-learn возвращает образцы данных как массивы numpy, а не кадр данных pandas.

from sklearn.datasets import load_iris

iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names

Quilt

Quilt - это менеджер набора данных, созданный для облегчения управления набором данных. Он включает в себя множество общих наборов данных выборки, таких как несколько из репозитория образцов uciml . На стартовой странице показано, как установить и импортировать набор диафрагмы:

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

После установки набора данных он доступен локально, поэтому это лучший вариант, если вы хотите работать с данными в автономном режиме.

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()
   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

Quilt также поддерживает управление версиями данных и включает краткое описание для каждого набора данных.

13
задан AngularChef 14 February 2017 в 19:06
поделиться