Наборы данных для работы [закрытого] статистического анализа

39
задан 5 revs, 3 users 62% 11 September 2015 в 08:38
поделиться

15 ответов

Отвечая на другие ваши вопросы, я заметил, что вы, очевидно, заинтересованы в визуализации данных. Затем взгляните на проект многие глаза (от IBM) и образцы наборов данных .

1
ответ дан 27 November 2019 в 02:22
поделиться

Не удается переопределить свойства ForeColor и BackColor при блокировке?

Не удается создать собственный класс текстового поля, который прослушивает событие KeyUp и перехватывает нажатие клавиши, если свойство ReadOnly (или Locked) имеет значение true (не позволяя добавить его в текст). Тогда вы можете использовать любые стили, которые вам нравятся.

-121--4378675-

Звучит так, будто вы на правильном пути.

Если вы покажете им жесткие числа, они увидят вещи яснее - создадут кодирование задания и предоставят его нескольким различным программистам для каждой работы самостоятельно. Сделай это проверяемым самим.

Запишите, сколько времени занимает каждый из них, сколько дефектов возникает в коде.

Покажите цифры высшему руководству, теперь они должны быть уверены.

-121--811907-

Аналогично data.gov, но европейский центр Евростат

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

и существует китайский отдел статистики, также, как упомянуто Wildebeests

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

Затем есть некоторые «социальные службы данных», которые предлагают загрузку наборов данных, таких как вертлюг, маньяки, расписание, ckan, инфочимпы..

1
ответ дан 27 November 2019 в 02:22
поделиться

Вы можете посмотреть этот пост на FlowingData

3
ответ дан 27 November 2019 в 02:22
поделиться

Вам нужно прочитать эту запись в блоге .

Также, вот очень минимальный скелет «канала» для связи между потоками:

public class Channel<T>
{
    private readonly Queue<T> _queue = new Queue<T>();

    public void Enqueue(T item)
    {
        lock (_queue)
        {
            _queue.Enqueue(item);
            if (_queue.Count == 1)
                Monitor.PulseAll(_queue);
        }
    }

    public T Dequeue()
    {
        lock (_queue)
        {
            while (_queue.Count == 0)
                Monitor.Wait(_queue);

            return _queue.Dequeue();
        }
    }
}
-121--3772230-

Прежде чем использовать инверсию управления, вы должны быть хорошо осведомлены о том, что он имеет свои достоинства и недостатки, и вы должны знать, почему вы используете его, если вы делаете это.

Достоинства:

  • Ваш код разъединяется, так что вы можете легко обмениваться реализациями интерфейса с альтернативными реализациями
  • Он является сильным мотиватором для кодирования по интерфейсам вместо реализаций
  • Очень легко написать единичные тесты для вашего кода, потому что это зависит ни от чего другого, как от объектов, которые он принимает в своем конструкторе/установщике, и вы можете легко инициализировать их с правильными объектами в изоляции.

Недостатки:

  • IoC не только инвертирует поток управления в программе, но и значительно затуманивает его. Это означает, что вы больше не можете просто читать код и переходить из одного места в другое, потому что соединения, которые обычно находятся в вашем коде, больше не находятся в коде. Вместо этого эти метаданные интерпретируются в файлах конфигурации XML или аннотациях, а также в коде контейнера IoC.
  • Возникает новый класс ошибок, когда вы ошибаетесь в конфигурации XML или аннотациях, и вы можете потратить много времени на то, чтобы выяснить, почему контейнер IoC вводит нулевую ссылку в один из объектов при определенных условиях.

Лично я вижу сильные точки IoC и мне они очень нравятся, но я склонен избегать IoC, когда это возможно, потому что это превращает ваше программное обеспечение в набор классов, которые больше не составляют «реальная» программа, но только то, что нужно собрать вместе с помощью XML-конфигурации или метаданных аннотаций и будет падать (и разваливаться) без нее.

-121--1747331-

См. конкурс данных, созданный Хэдли Уикхэмом для Data Expo раздела ASA Statistical Computing and Statistical Graphics . Соревнование закончилось, данные все еще есть.

2
ответ дан 27 November 2019 в 02:22
поделиться

Репозиторий машинного обучения Калифорнийского университета в Ирвине в настоящее время содержит 190 наборов данных.

Репозиторий машинного обучения UCI - это набор баз данных, теорий и генераторов данных, которые используются сообществом машинного обучения для эмпирический анализ алгоритмов машинного обучения.

2
ответ дан 27 November 2019 в 02:22
поделиться

Пакет из 268 небольших текстовых файлов (рабочие примеры из "The R Book") можно найти на The R Book's companion website.

3
ответ дан 27 November 2019 в 02:22
поделиться

http://www.data.gov/ , вероятно, есть что-то, что вы можете использовать.

В их каталоге исходных данных вы можете установить критерии для данных и найти то, что ищете http://www.data.gov/catalog/raw

3
ответ дан 27 November 2019 в 02:22
поделиться

http://www.data.gov.uk/data

Недавно установлено Тимом Бернерсом-Ли

Очевидно, данные из Великобритании, но это не имеет значения. Охватывает все, от брошенных автомобилей до прогулов в школе до индексов сельскохозяйственных цен

5
ответ дан 27 November 2019 в 02:22
поделиться

Рассматривали ли вы дампы данных при переполнении стека ?

Вы уже знакомы с тем, что представляют собой данные, то есть с бизнес-логикой, которую они отслеживают

5
ответ дан 27 November 2019 в 02:22
поделиться

Широкий выбор в Интернете. Например, вот огромный каталог спортивных баз данных (все данные предоставляют бесплатно, по крайней мере, по моему опыту). В этом каталоге находится databaseBaseball.com, который, среди прочего, содержит полные наборы данных для каждого игрока, который когда-либо играл в профессиональный бейсбол примерно с 1915 года.

StatLib - еще один отличный ресурс - прекрасно. удобный. На этой единственной веб-странице перечислены 4–5 строковые сводки по более чем сотне баз данных, все из которых доступны в форме плоских файлов, просто щелкнув ссылку «Таблица» в начале сводки каждого набора данных.

Базовый дистрибутив R поставляется с большим и разнообразным набором данных (122 в R 2.10). Чтобы получить их список (а также однострочное описание):

data(package="datasets")

Аналогично, большинство пакетов идут с несколькими наборами данных (иногда намного больше). Вы можете увидеть их таким же образом:

data(package="latticeExtra")
data(package="vcd")

Эти наборы данных упоминаются в руководствах по пакетам и в виньетках для данного пакета и используются для иллюстрации функций пакета.

Несколько пакетов R с большим количеством наборов данных (которые, опять же, легко сканировать, чтобы вы могли выбрать то, что вам интересно): AER, DAAG и vcd.

Еще одна особенность R, которая меня впечатляет, - это ввод / вывод. Предположим, вы хотите получить очень конкретные финансовые данные через финансовый API Yahoo.Скажем, цена закрытия открытия и закрытия S&P 500 для каждого месяца с 2001 по 2009 год, просто сделайте следующее:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

В этой одной строке кода R извлек тиковые данные, сформировал их в фрейм данных и привязал к 'tick_data ' все . (Вот удобная шпаргалка с символами Yahoo Finance API, используемыми для построения URL-адресов, как указано выше)

6
ответ дан 27 November 2019 в 02:22
поделиться

Еще один хороший сайт - Данные ООН .

Статистический отдел Организации Объединенных Наций (UNSD) Департамента по экономическим и социальным вопросам (DESA) запустил новую интернет-службу данных для мировое сообщество пользователей. Благодаря ему статистические базы данных ООН становятся доступными пользователям с помощью единой точки входа ( http://data.un.org/ ). Теперь пользователи могут искать и загружать различные статистические ресурсы системы ООН .

3
ответ дан 27 November 2019 в 02:22
поделиться

Хорошим началом поиска экономических данных всегда являются следующие три адреса:

Хорошее резюме набора данных ссылки для экономистов по вопросам развития можно найти по адресу:

Edit:

На прошлой неделе Всемирный банк решил открыть множество своих ранее платных наборов данных и опубликовал их в Интернете на своей обновленной домашней странице. Новый внешний вид Интернета тоже выглядит неплохо.

4
ответ дан 27 November 2019 в 02:22
поделиться

Пакет datasets включен в базовую версию R. Выполните эту команду, чтобы увидеть полный список:

library(help="datasets")

Кроме этого, существует множество пакетов, которые могут извлекать данные, и множество других, содержащих важные данные. Из них вы, возможно, захотите начать с пакета HistData , который "предоставляет коллекцию небольших наборов данных, интересных и важных для истории статистики и визуализации данных".

Для финансовых данных пакет quantmod предоставляет общий интерфейс для получения данных временных рядов из google, yahoo, FRED и других:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED (Федеральная резервная система Сент-Луиса) - это настоящая мина бесплатных экономических данных.

Многие пакеты R поставляются в комплекте с данными, специфичными для их цели. Так, если вы интересуетесь генетикой, многоуровневыми моделями и т.д., соответствующие пакеты часто будут иметь канонический пример для этого анализа. Кроме того, пакеты книг обычно поставляются с данными, необходимыми для воспроизведения всех примеров.

Вот некоторые примеры соответствующих пакетов:

  • alr3: включает данные, сопровождающие Applied Linear Regression (http://www.stat.umn.edu/alr)
  • arm: включает часть данных из книги Гельмана "Data Analysis Using Regression and Multilevel/Hierarchical Models" (остальные данные и код находятся на сайте книги)
  • BaM: включает данные из книги "Bayesian Methods: A Social and Behavioral Sciences Approach"
  • BayesDA: включает данные из "Bayesian Data Analysis" Гельмана
  • cat: включает данные для анализа наборов данных с категориальными переменными
  • cimis: получение данных из CIMIS, California Irrigation Management Information System
  • cshapes: включает границы и данные ГИС
  • ecdat: наборы данных для эконометрики
  • ElemStatLearn: включает данные из "The Elements of Statistical Learning, Data Mining, Inference, and Prediction"
  • emdbook: данные из "Ecological Models and Data"
  • Fahrmeir: данные из книги "Multivariate Statistical Modelling Based on Generalized Linear Models"
  • fEcoFin: "Наборы экономических и финансовых данных" для Rmetrics
  • fds: функциональные наборы данных
  • fma: наборы данных из книги "Прогнозирование: методы и приложения"
  • gamair: данные для книги "Generalized Additive Models: An Introduction with R"
  • geomapdata: данные для топографических и геологических карт
  • nutshell: содержит все данные из книги "R in a Nutshell"
  • nytR: предоставляет доступ к данным голосования в Конгрессе через API NY Times
  • openintro: данные из книги
  • primer: включает данные для "A Primer of Ecology with R"
  • qtlbook: включает данные для книги R/qtl
  • RGraphics: включает данные из книги "R Graphics"
  • Read. isi: доступ к старым данным World Fertility Survey
46
ответ дан 27 November 2019 в 02:22
поделиться

ФАО предлагает базу данных аквастат с данными с различными показателями, связанными с водой, дифференцированными по странам.

Портал морской океанографии предлагает, например, Доля освещенной Луны .

В блоге «Curving normalality» есть список интересных источников данных .

1
ответ дан 27 November 2019 в 02:22
поделиться

Коллекция более 800 наборов данных в формате ARFF понимается Weka и другими пакетами анализа данных, собранными в репозитории TunedIT.org.

3
ответ дан 27 November 2019 в 02:22
поделиться
Другие вопросы по тегам:

Похожие вопросы: