29 декабря 2011

Где найти данные для анализа в системе R?



Один из постоянных участников R-сообщества inside-R.org Джо Рикерт (Joe Rickert) опубликовал интересный список сайтов, на которых можно найти данные, пригодные для анализа в системе R. Составление этого списка было обусловлено, прежде всего, желанием облегчить поиск надежных и бесплатных данных для тестирования новых методов анализа (подробнее см. здесь). Очевидно, что такой список будет полезен и для других целей - например, при разработке новых алгоритмов анализа, в преподавании статистики, изучении трендов развития экономики, написании научных работ, и т.п. Ниже приведен несколько дополненный мною список из оригинальной статьи Джо. Значок (R) напротив того или иного источника указывает на возможность загрузки данных либо непосредственно в формате R, либо в формате, который может быть легко преобразован в таковой непосредственно из R консоли (см. примеры здесь). В остальных случаях данные относительно просто могут быть конвертированы в формат csv при помощи сторонних приложений и затем загружены в R (об импортировании csv-файлов в R см. здесь).



Экономика

EconData - временные ряды по экономике, собранные проектом Inforum (Университет Мэриленда)
World Development Indicators - данные по 298 индикаторам мирового развития, собранные Всемирным банком


Финансы

CBOE Futures Exchange - маркетинговые данные, собранные корпорацией Chicago Board Options Exchange
Dukascopy - данные котировок от швейцарского проекта Dukascopy
Forexite - архив истории котировок Forex
GAIN Capital - истории котировок от компании GAIN Capital
Google Finance - разнообразные финансовые показатели от Google (R)
Google Trends - мировые финансовые тренды от Google
St. Louis Fed - данные Банка Федерального Резерва США в Сан-Луисе (R)
NASDAQ - финансовые данные биржи NASDAQ
OANDA - данные по котировкам валют от корпорации OANDA (R)
Yahoo Finance - разнообразные финансовые показатели от Yahoo (R)


Правительственные данные

Archive-It - архив данных правительств Мира по различным статистическим показателям
Australian Bureau of Statistics - данные по рождаемости в Австралии, собранные Австралийским Статистическим Бюро
Buzzdata - платформа для публикации различного рода данных и организации совместной работы аналитиков
Government of Canada Open Data - статистические данные Правительства Канады
DataMarket - проект, предоставляющий как открытый, так и ограниченный (платный) доступ к разного рода данным
Fed Stats - статистические данные Федерального Правительства США
The Guardian World Governments - статистические данные правительств Мира, собранные изданием The Guardian
London, U.K. data - открытые данные по городу Лондону
New Zealand Government Data  - статистические данные правительства Новой Зеландии
NYC Open Data - открытые данные по городу Нью-Йорку
OECD - данные Организации Экономического Сотрудничества и Развития
DataSF - открытые данные по городу Сан-Франциско
U.K. Government Data - статистические данные правительства Великобритании
United Nations - статистические данные Организации Объединенных Наций
data.gov - данные статистических агенств Федерального Правительства США
US CDC - данные Центров по контролю и предотвращению болезней США
The World Bank - данные Всемирного банка


Машинное обучение

Causality Workbench - проект, финансируемый Национальным Научным Фондом США; на сайте проекта представлены наборы данных из разных областей науки, предназначенные для тестирования методов машинного обучения
Kaggle - платформа, на которой собираются международные команды аналитиков для решения практических статистических задач за вознаграждение
KDNuggets data repositories - достаточно большой список источников открытых данных от проекта KDNuggets
University College Irvine Machine Learning Repository - коллекция наборов данных, используемых для проверки алгоритмов машинного обучения
mldata.org - еще один репозиторий данных для отладки алгоритмов машинного обучения
Microsoft Research - наборы данных, используемые лабораториями Microsoft для отладки разрабатываемых ими алгоритмов машинного обучения
The Million Song Dataset - набор данных, используемый исследователями и инженерами, которые работают над проблемами извлечения музыкальной информации (Music Information Retrieval)
The Ancestry.com Forum Dataset - набор данных, созданный для проведения исследований в области извлечения информации, анализа текста и анализа социальных сетей; содержит более 22 миллионов сообщений форума Ancestry.com от ~3.5 миллионов авторов


Данные, принадлежащие общественности

Data360 - статистические отчеты по экономике и образованию в США; как правило, отчет выглядит в виде графика и в подавляющем числе случаев имеется возможность скачать данные, использованные для его построения (в формате csv)
Datamob.org - более 220 наборов данных разной тематики
Factual - большая коллекция данных из таких областей, как развлечения, образование, здравоохранение, и т.п.
Freebase - сайт сообщества "любителей открытых данных"
Goggle Public Data Explorer - Google-поиск публичных данных
Infochimps - большая коллекция данных разной тематики, однако не все данные находятся в свободном доступе
Numbray - сервис по поиску открытых данных и обмену ими
Sample R Datasets - наборы данных непосредственно от R Project (R)
SourceForge Research Data - тестовые данные проекта SourceForge.net
National UFO Reporting Center - данные по наблюдениям НЛО :)
9/11 Pager Intercepts Data - данные перехвата пейджер-сообщений в день трагедии 11 сентября 2001 г. в Нью-Йорке (проект Wikileaks)
Stats4Stem.org - коллекция данных в формате R, созданная для облегчения работы преподавателей статистики (R)
The Washington Post List - базы данных разной тематики от издания The Washington Post


Наука

R-пакет agridat - содержит большую коллекцию данных, полученных в ходе сельскохозяйственных экспериментов (R)
Климатические данные, собранные Отделом климатических исследований Университета Восточной Англии
Климатические данные Национального управления океанических и атмосферных исследований США (US NOAA)
Gene Expression Omnibus - хранилище данных по экспрессии генов
GeoDa Center - коллекция географических данных
Human Microbiome Project - данные по геному микроорганизмов, населяющих тело человека
MIT Cancer Genomics Data - данные, полученные в ходе выполнения Программы исследований рака Массачусетского Технологического Института (R, Bioconductor)
NASA - данные Национального управления по воздухоплаванию и исследованию космического пространства США
ICOS - данные по структуре белков, полученные Междисциплинарной группой вычислений и сложных систем (Interdisciplinary Computing and Complex Systems) Ноттингемского Университета
Stanford Microarray Dabase - база данных, полученных в ходе экспериментов с использованием технологии биочипов


Социология

General Social Survey - сайт Национальной программы США по сбору данных для социальных наук
ICPSR - коллекция данных Межуниверситетского консорциума политических и социологических исследований
Social Science Data Archive - архив социологических данных (проект Университета Лос-Анджелеса)
Upjohn Institute - коллекция данных по трудовой занятости в США и Европе


Временные ряды

Time Series Data Library - коллекция проф. Роба Хиндмана (Rob Hyndman), содержащая около 800 временных рядов разной тематики


Университеты

Enron Email Dataset - набор данных, содержащий около 0.5 миллиона электронных писем 150 авторов (проект Университета Карнеги-Меллон)
Carnegie Mellon University StatLab - коллекция данных Статистической лаборатории Университета Карнеги-Меллон
Carnegie Mellon University JASA data archive - архив данных, предоставленных авторами Журнала Статистической Ассоциации Америки (Journal of the American Statistical Association)
Stanford Large Network Dataset Collection - коллекция Стенфордского Университета, содержащая данные по большим социальным и другим видам сетей
UC Berkeley - коллекция социологических данных Калифорнийского университета в Беркли
UCLA - коллекция данных разной тематики, собранных в рамках проекта SOCR Калифорнийского университета в Лос-Анджелесе
UCR Time Series Classification/Clustering - коллекция данных для тестирования новых алгоритмов классификации/кластеризации временных рядов (проект Калифорнийского университета в Риверсайде)
Delve - коллекция данных для тестирования разных методов обучения (проект Торонтского Университета)
Gapminder - очень большая коллекция данных, собранная в рамках проекта проф. Ханса Рослинга (Hans Rosling) Gapminder


По мере обнаружения новых источников, приведенный список будет мною обновляться.


Комментариев нет :

Отправить комментарий