14 декабря 2014

Методическое пособие "Статистический анализ и визуализация данных с помощью R"



Друзья!

Блог "R: Анализ и визуализация данных" существует уже более трех с половиной лет. Несколько месяцев назад родилась идея обобщить методические сообщения, опубликованные здесь за всё это время, в виде электронной книги. Автором идеи, а впоследствии и соавтором книги, стал доктор биологических наук Владимир Кириллович Шитиков (Институт экологии Волжского бассейна РАН). С удовольствием представляем вам полученный результат в качестве нашего новогоднего подарка.

Методическое пособие "Статистический анализ и визуализация данных с помощью R" адресовано преимущественно студентам, аспирантам, молодым и состоявшимся ученым, а также профессиональным аналитикам, прежде не имевшим опыта работы с R. Следуя традициям блога, мы старались, по возможности, обойтись без злоупотребления "ритуальными" словооборотами, характерными для многочисленных руководств по прикладной статистике, цитирования общеизвестных теорем и приведения многоэтажных расчетных формул. Акцент делался, в первую очередь, на практическое применение – на то, чтобы читатель, руководствуясь прочитанным, смог проанализировать свои данные и изложить результаты коллегам. Книга включает 9 глав, которые охватывают следующие темы:
  • Глава 1: Основные компоненты статистической среды R
  • Глава 2: Описание языка R
  • Глава 3: Базовые графические возможности R
  • Глава 4: Описательная статистика и подгонка распределений
  • Глава 5: Классические методы и критерии статистики
  • Глава 6: Линейные модели в дисперсионном анализе
  • Глава 7: Регрессионные модели зависимостей между количественными переменными
  • Глава 8: Обобщенные, структурные и иные модели регрессии
  • Глава 9: Пространственный анализ и создание картограмм
Кроме того, представлены обширная библиография и список полезных интернет-ресурсов по R.

Официальная текущая версия книги в формате PDF (~11 МБ) доступна для свободного скачивания с двух сайтов:
На тех же двух ресурсах можно найти скрипты R-кода и наборы данных, необходимые для воспроизведения рассматриваемых в книге примеров.

Мы будем благодарны за любые ваши замечания и пожелания касательно этой работы - отправляйте их, пожалуйста, по электронной почте rtutorialsbook["собака"]gmail.com

Как отмечено выше, книга распространяется совершенно бесплатно. Однако если она окажется вам полезной и вы сочтете уместным отблагодарить авторов за их работу, вы можете перечислить пожертвование любого размера, воспользовавшись следующей кнопкой (все транзакции выполняются через систему электронных платежей PayPal; наличие у вас аккаунта в этой системе необязательно):


С наилучшими пожеланиями,
С. Мастицкий, В. Шитиков

07 декабря 2014

Интересное из мира R (1-7 декабря 2014 г.)



  • Компания RStudio на базе платформы DataСamp запустила онлайн-курс по пакету ggvis, который позволяет создавать интерактивные графики в стиле ggplot2. Курс стоит 95 евро, однако первую его часть можно пройти бесплатно. Подробности здесь.

30 ноября 2014

Интересное из мира R (24-30 ноября 2014)



  • 18-19 ноября компанией Oxdata в Калифорнии (Mountain View) была проведена конференция H2O World, главной целью которой было продвижение разработанных Oxdata многочисленных Java-библиотек, реализующих алгоритмы машинного обучения (набор этих библиотек известен как H2O - отсюда название конференции). Значительное внимание также было уделено использованию этих библиотек из среды R посредством пакета одноименного пакета - h2o. На сайте компании, в частности, можно ознакомиться с материалами семинаров, на которых обсуждались такие темы, как разведочный анализ данных, регрессионный анализ, глубокое обучение, кластерный анализ и методы снижения размерности. Более подробный отчет о конференции можно найти в статье Джозефа Рикерта (Joseph Rickert) в блоге компании Revolution Analytics.

27 ноября 2014

Делимся опытом: особенности подготовки русскоязычных текстовых документов к анализу в среде R



Сегодня я запускаю еще одну новую рубрику – «Делимся опытом», идея которой состоит в публикации гостевых сообщений, написанных читателями блога. Как следует из названия, в этих сообщениях будут публиковаться небольшие «рецепты» решения конкретных задач и проблем, возникающих при работе с R. Если у вас информация, которой, как вам кажется, стоит поделиться с другими – пожалуйста, свяжитесь со мной по электронной почте (адрес можно найти в разделе «Обо мне»). Я с удовольствием рассмотрю любое предложение. Главным критерием при отборе потенциальных публикаций является их оригинальность - в том смысле, что они предлагают описание нетривиальных проблем, решение которых не удается найти путем быстрого Google-поиска или на Q&A-форумах вроде StackOverflow и CrossValidated (т.е. включая запросы на английском языке). Дисклеймер: я оставляю за собой право отклонить любое предложение без объяснения причин. 

С радостью представляю первое гостевое сообщение, автором которого является Михаил Сидоренко (Украина). Михаил – психолог по образованию. Он использовал R в последние два года при работе над проектами, имеющими отношение к психологическим и маркетинговым исследованиям, а с недавних пор – также к исследованиям социальных медиа.

23 ноября 2014

Интересное из мира R (17-23 ноября 2014)



  • Стало известно, что 19 января 2015 г. проф. Тревор Хасти (Trevor Hastie; Стэнфордский Университет) и проф. Роберт Тибширани (Robert Tibshirany; Стэнфордский Университет) начнут очередной цикл своего бесплатного онлайн-курса "Статистическое обучение" (Statistical Learning). Это вводный курс с упором на регрессионные модели и алгоритмы классификации, основанный на книге "An introduction to statistical modeling" (настоятельно рекомендую ее всем, кто интересуется современными методами статистики и машинного обучения!). Все рассматриваемые в ходе курса примеры реализованы в R. Зарегистрироваться можно уже сайчас.

17 ноября 2014

Интересное из мира R (10-16 ноября 2014)



Этим сообщением я начинаю новую рубрику "Интересное из мира R" (вдохновил меня на это еженедельный "обзор наиболее интересных материалов по анализу данных и машинному обучению", публикуемый на Хабрахабре). По мере возможностей, каждую неделю я планирую публиковать краткий обзор пяти событий и/или публикаций, имеющих отношение к R, которые, по моему субъективному мнению, заслуживают внимания. Вот список за эту неделю: