Наборы данных для работы [закрытого] статистического анализа

Question

Наборы данных для работы [закрытого] статистического анализа

39

statistics r dataset

задан 5 revs, 3 users 62% 11 September 2015 в 08:38

15 ответов

Другие вопросы по тегам:

statistics r dataset

Похожие вопросы:

score 1 · Answer 1

Отвечая на другие ваши вопросы, я заметил, что вы, очевидно, заинтересованы в визуализации данных. Затем взгляните на проект многие глаза (от IBM) и образцы наборов данных .

score 1 · Answer 2

Не удается переопределить свойства ForeColor и BackColor при блокировке?

Не удается создать собственный класс текстового поля, который прослушивает событие KeyUp и перехватывает нажатие клавиши, если свойство ReadOnly (или Locked) имеет значение true (не позволяя добавить его в текст). Тогда вы можете использовать любые стили, которые вам нравятся.

-121--4378675-

Звучит так, будто вы на правильном пути.

Если вы покажете им жесткие числа, они увидят вещи яснее - создадут кодирование задания и предоставят его нескольким различным программистам для каждой работы самостоятельно. Сделай это проверяемым самим.

Запишите, сколько времени занимает каждый из них, сколько дефектов возникает в коде.

Покажите цифры высшему руководству, теперь они должны быть уверены.

-121--811907-

Аналогично data.gov, но европейский центр Евростат

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

и существует китайский отдел статистики, также, как упомянуто Wildebeests

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

Затем есть некоторые «социальные службы данных», которые предлагают загрузку наборов данных, таких как вертлюг, маньяки, расписание, ckan, инфочимпы..

score 3 · Answer 3

Вы можете посмотреть этот пост на FlowingData

3

ответ дан 27 November 2019 в 02:22

score 2 · Answer 4

Вам нужно прочитать эту запись в блоге .

Также, вот очень минимальный скелет «канала» для связи между потоками:

public class Channel<T>
{
    private readonly Queue<T> _queue = new Queue<T>();

    public void Enqueue(T item)
    {
        lock (_queue)
        {
            _queue.Enqueue(item);
            if (_queue.Count == 1)
                Monitor.PulseAll(_queue);
        }
    }

    public T Dequeue()
    {
        lock (_queue)
        {
            while (_queue.Count == 0)
                Monitor.Wait(_queue);

            return _queue.Dequeue();
        }
    }
}

-121--3772230-

Прежде чем использовать инверсию управления, вы должны быть хорошо осведомлены о том, что он имеет свои достоинства и недостатки, и вы должны знать, почему вы используете его, если вы делаете это.

Достоинства:

Ваш код разъединяется, так что вы можете легко обмениваться реализациями интерфейса с альтернативными реализациями
Он является сильным мотиватором для кодирования по интерфейсам вместо реализаций
Очень легко написать единичные тесты для вашего кода, потому что это зависит ни от чего другого, как от объектов, которые он принимает в своем конструкторе/установщике, и вы можете легко инициализировать их с правильными объектами в изоляции.

Недостатки:

IoC не только инвертирует поток управления в программе, но и значительно затуманивает его. Это означает, что вы больше не можете просто читать код и переходить из одного места в другое, потому что соединения, которые обычно находятся в вашем коде, больше не находятся в коде. Вместо этого эти метаданные интерпретируются в файлах конфигурации XML или аннотациях, а также в коде контейнера IoC.
Возникает новый класс ошибок, когда вы ошибаетесь в конфигурации XML или аннотациях, и вы можете потратить много времени на то, чтобы выяснить, почему контейнер IoC вводит нулевую ссылку в один из объектов при определенных условиях.

Лично я вижу сильные точки IoC и мне они очень нравятся, но я склонен избегать IoC, когда это возможно, потому что это превращает ваше программное обеспечение в набор классов, которые больше не составляют «реальная» программа, но только то, что нужно собрать вместе с помощью XML-конфигурации или метаданных аннотаций и будет падать (и разваливаться) без нее.

-121--1747331-

См. конкурс данных, созданный Хэдли Уикхэмом для Data Expo раздела ASA Statistical Computing and Statistical Graphics . Соревнование закончилось, данные все еще есть.

score 2 · Answer 5

Репозиторий машинного обучения Калифорнийского университета в Ирвине в настоящее время содержит 190 наборов данных.

Репозиторий машинного обучения UCI - это набор баз данных, теорий и генераторов данных, которые используются сообществом машинного обучения для эмпирический анализ алгоритмов машинного обучения.

score 3 · Answer 6

Пакет из 268 небольших текстовых файлов (рабочие примеры из "The R Book") можно найти на The R Book's companion website.

score 3 · Answer 7

http://www.data.gov/ , вероятно, есть что-то, что вы можете использовать.

В их каталоге исходных данных вы можете установить критерии для данных и найти то, что ищете http://www.data.gov/catalog/raw

score 5 · Answer 8

http://www.data.gov.uk/data

Недавно установлено Тимом Бернерсом-Ли

Очевидно, данные из Великобритании, но это не имеет значения. Охватывает все, от брошенных автомобилей до прогулов в школе до индексов сельскохозяйственных цен

score 5 · Answer 9

Рассматривали ли вы дампы данных при переполнении стека ?

Вы уже знакомы с тем, что представляют собой данные, то есть с бизнес-логикой, которую они отслеживают

score 6 · Answer 10

Широкий выбор в Интернете. Например, вот огромный каталог спортивных баз данных (все данные предоставляют бесплатно, по крайней мере, по моему опыту). В этом каталоге находится databaseBaseball.com, который, среди прочего, содержит полные наборы данных для каждого игрока, который когда-либо играл в профессиональный бейсбол примерно с 1915 года.

StatLib - еще один отличный ресурс - прекрасно. удобный. На этой единственной веб-странице перечислены 4–5 строковые сводки по более чем сотне баз данных, все из которых доступны в форме плоских файлов, просто щелкнув ссылку «Таблица» в начале сводки каждого набора данных.

Базовый дистрибутив R поставляется с большим и разнообразным набором данных (122 в R 2.10). Чтобы получить их список (а также однострочное описание):

data(package="datasets")

Аналогично, большинство пакетов идут с несколькими наборами данных (иногда намного больше). Вы можете увидеть их таким же образом:

data(package="latticeExtra")
data(package="vcd")

Эти наборы данных упоминаются в руководствах по пакетам и в виньетках для данного пакета и используются для иллюстрации функций пакета.

Несколько пакетов R с большим количеством наборов данных (которые, опять же, легко сканировать, чтобы вы могли выбрать то, что вам интересно): AER, DAAG и vcd.

Еще одна особенность R, которая меня впечатляет, - это ввод / вывод. Предположим, вы хотите получить очень конкретные финансовые данные через финансовый API Yahoo.Скажем, цена закрытия открытия и закрытия S&P 500 для каждого месяца с 2001 по 2009 год, просто сделайте следующее:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))

В этой одной строке кода R извлек тиковые данные, сформировал их в фрейм данных и привязал к 'tick_data ' все . (Вот удобная шпаргалка с символами Yahoo Finance API, используемыми для построения URL-адресов, как указано выше)

score 3 · Answer 11

Еще один хороший сайт - Данные ООН .

Статистический отдел Организации Объединенных Наций (UNSD) Департамента по экономическим и социальным вопросам (DESA) запустил новую интернет-службу данных для мировое сообщество пользователей. Благодаря ему статистические базы данных ООН становятся доступными пользователям с помощью единой точки входа ( http://data.un.org/ ). Теперь пользователи могут искать и загружать различные статистические ресурсы системы ООН .

score 4 · Answer 12

Хорошим началом поиска экономических данных всегда являются следующие три адреса:

Хорошее резюме набора данных ссылки для экономистов по вопросам развития можно найти по адресу:

Devecondata

Edit:

На прошлой неделе Всемирный банк решил открыть множество своих ранее платных наборов данных и опубликовал их в Интернете на своей обновленной домашней странице. Новый внешний вид Интернета тоже выглядит неплохо.

Всемирный банк - Открытые данные

score 46 · Answer 13

Пакет datasets включен в базовую версию R. Выполните эту команду, чтобы увидеть полный список:

library(help="datasets")

Кроме этого, существует множество пакетов, которые могут извлекать данные, и множество других, содержащих важные данные. Из них вы, возможно, захотите начать с пакета HistData , который "предоставляет коллекцию небольших наборов данных, интересных и важных для истории статистики и визуализации данных".

Для финансовых данных пакет quantmod предоставляет общий интерфейс для получения данных временных рядов из google, yahoo, FRED и других:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED

FRED (Федеральная резервная система Сент-Луиса) - это настоящая мина бесплатных экономических данных.

Многие пакеты R поставляются в комплекте с данными, специфичными для их цели. Так, если вы интересуетесь генетикой, многоуровневыми моделями и т.д., соответствующие пакеты часто будут иметь канонический пример для этого анализа. Кроме того, пакеты книг обычно поставляются с данными, необходимыми для воспроизведения всех примеров.

Вот некоторые примеры соответствующих пакетов:

alr3: включает данные, сопровождающие Applied Linear Regression (http://www.stat.umn.edu/alr)
arm: включает часть данных из книги Гельмана "Data Analysis Using Regression and Multilevel/Hierarchical Models" (остальные данные и код находятся на сайте книги)
BaM: включает данные из книги "Bayesian Methods: A Social and Behavioral Sciences Approach"
BayesDA: включает данные из "Bayesian Data Analysis" Гельмана
cat: включает данные для анализа наборов данных с категориальными переменными
cimis: получение данных из CIMIS, California Irrigation Management Information System
cshapes: включает границы и данные ГИС
ecdat: наборы данных для эконометрики
ElemStatLearn: включает данные из "The Elements of Statistical Learning, Data Mining, Inference, and Prediction"
emdbook: данные из "Ecological Models and Data"
Fahrmeir: данные из книги "Multivariate Statistical Modelling Based on Generalized Linear Models"
fEcoFin: "Наборы экономических и финансовых данных" для Rmetrics
fds: функциональные наборы данных
fma: наборы данных из книги "Прогнозирование: методы и приложения"
gamair: данные для книги "Generalized Additive Models: An Introduction with R"
geomapdata: данные для топографических и геологических карт
nutshell: содержит все данные из книги "R in a Nutshell"
nytR: предоставляет доступ к данным голосования в Конгрессе через API NY Times
openintro: данные из книги
primer: включает данные для "A Primer of Ecology with R"
qtlbook: включает данные для книги R/qtl
RGraphics: включает данные из книги "R Graphics"
Read. isi: доступ к старым данным World Fertility Survey

score 1 · Answer 14

ФАО предлагает базу данных аквастат с данными с различными показателями, связанными с водой, дифференцированными по странам.

Портал морской океанографии предлагает, например, Доля освещенной Луны .

В блоге «Curving normalality» есть список интересных источников данных .

score 3 · Answer 15

Коллекция более 800 наборов данных в формате ARFF понимается Weka и другими пакетами анализа данных, собранными в репозитории TunedIT.org.