04 декабря 2016

Новые книги по R на русском языке



Осенью этого года в московском издательстве "ДМК Пресс" вышли две новые книги по R на русском языке. Краткое описание этих книг приводится ниже.


Визуализация данных играет важную роль на всех этапах статистического анализа – от первичного ознакомления со свойствами данных до диагностики качества построенных моделей и представления полученных результатов. Из всего разнообразия статистических программ выделяется R - интенсивно развивающаяся и свободно распространяемая система статистических вычислений, в которой реализовано множество классических и современных методов анализа данных. Программные реализации алгоритмов, входящих в базовую версию R, проверены на практике не одним поколением пользователей и ученых. Кроме того, пользователи R постоянно разрабатывают многочисленные дополнения (т.н. «пакеты») для этой системы. Настоящая книга посвящена ggplot2 - одному из таких пакетов, который значительно расширяет и без того богатые базовые графические возможности R. В 2015 г. ggplot2 был установлен более миллиона раз. Такая популярность этого пакета обусловлена несколькими причинами, среди которых можно отметить эстетическую привлекательность и пригодное для публикации качество получаемых с его помощью графиков, возможность создавать пользовательские типы диаграмм, а также большой набор опций для тонкой настройки внешнего вида графиков. В этой книге описаны основы работы с ggplot2 и приведены многочисленные примеры кода, которые читатели легко могут модифицировать для собственных нужд. Книга окажется полезной для всех пользователей R, желающих освоить новый мощный инструмент анализа данных.



Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Часть из них находится в специальных хранилищах, готовые к использованию. Но гораздо чаще случается так, что данные разбросаны по всемирной сети на многочисленных страницах онлайновых магазинов, заметках в со­циальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга. Основной материал книги разделён на две части. В первой части дано краткое введение в R - описание среды разра­ботки, языка и основных пакетов-расширений. Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из соци­альных сетей. Также рассмотрены необходимые технические вопро­сы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных. Издание предназначено специалистам по анализу данных, а также программистам, интересующихся сбором данных в Интернете.

Распространение информации об этих книгах приветствуется!

Сергей Мастицкий


19 ноября 2016

Перезагрузка



В июне этого года я объявил о прекращении ведения блога "R: Анализ и визуализация данных" в связи с хронической нехваткой у меня свободного времени. Оказалось, однако, что многие читатели хотели бы продолжения этого проекта. Сегодня я рад сообщить о его "возвращении к жизни", хотя и в несколько измененном виде. У сайта появился новый редактор - доктор биологических наук, профессор Андрей Викторович Коросов, который любезно согласился взять на себя основной труд по подготовке новых публикаций. Я также буду участвовать в написании новых материалов, однако не так активно, как в прошлом. Вместе с Андреем Викторовичем мы постараемся привлечь и других авторов, желающих поделиться своим опытом работы с R. Если бы вы хотели бы стать одним из таких авторов, то свяжитесь с нами, пожалуйста,  по адресу электронной почты, приведенному в разделе "О проекте".

Сергей Мастицкий

15 июня 2016

Проект "R: Анализ и визуализация данных" - подводя итоги



Динамика количества просмотров страниц сайта (за месяц)
в период с апреля 2011 г. по июнь 2016 г.
Пять лет назад я начал вести этот блог с целью "...сделать посильный вклад в продвижение R среди русскоязычных пользователей". За это время было опубликовано >190 статей, и количество посетителей сайта постоянно росло (см. рисунок). Кроме того, в рамках этого же проекта был выполнен перевод официального руководства по работе с RStudio, опубликована книга, обобщающая и значительно дополняющая представленные здесь материалы, а также выполнен перевод одной из наиболее значимых работ по методам статистического обучения и R. Хочется думать, что указанная выше цель была, хотя бы отчасти, достигнута.

Как известно, все имеет свое начало и свой конец. Мои личные обстоятельства в последнее время складываются таким образом, что, к сожалению, я больше не могу уделять должного внимания этому блогу и всему, что с ним связано (что неизбежно сказывается на качестве). В связи с этим я вынужден сообщить, что блог "R: Анализ и визуализация данных" прекращает свое существование и больше не будет обновляться, хотя сам сайт и все его содержимое по-прежнему будут доступны для всех желающих. Кроме того, по-прежнему будет существовать страница этого проекта в Facebook, где я буду время от времени "появляться". Многое из задуманного не получилось довести до конца (см., например, здесь и здесь), но надеюсь, друзья, что вы отнесетесь к этому с пониманием. Ваша поддержка всегда для меня много значила, и я безмерно за нее благодарен.

Успехов вам в дальнейшем освоении R!

12 июня 2016

Интересное из мира R (23 мая - 12 июня 2016 г.)



  • Согласно последним данным, собранным Бобом Мюнхеном (Bob Muenchen), в прошлом году язык R превзошел SAS по частоте использования в научных публикациях и занял второе место после SPSS Statistics. Подробнее о том, как Боб собирает эти данные уже в течение 4 лет, а также о получаемых результатах можно узнать здесь.
  • На прошедшем в начале июня в Сан-Франциско саммите по Spark'у компания IBM официально объявила о том, что она присоединилась к R Consortium в качестве "платинового спонсора". Это стало еще одним сигналом растущей значимости R в корпоративном мире. Ожидается, что участие IBM придаст дальнейший толчок проектам, над которыми работает R Консорциум.
  • На сайте издательства Manning Publications можно бесплатно (после регистрации) скачать электронную книгу "Exploring Data Science", в которую входят пять глав по таким темам, как разведочный анализ данных, глубокое обучение и нейронные сети, анализ текстов, а также моделирование зависимостей с помощью методов байесовской статистики.
  • Тал Галили (Tal Galili) сообщил о релизе своего нового пакета - heatmaply, позволяющего создавать интерактивные "тепловые карты" (heatmaps; см. пример ниже). Руководство по использованию этого пакета можно найти здесь.



  • В декабре 2015 г. компания Microsoft объявила о релизе своего сервиса по распознаванию эмоций на фотографиях людей (бесплатно можно анализировать до 30000 изображений в месяц). В статье Дэниела Боллера (Daniel Boller) на сайте thinktostart.com можно ознакомиться с примерами использования этого сервиса из среды R через соответствующий API.


22 мая 2016

Интересное из мира R (25 апреля - 22 мая 2016 г.)



  • Работа с GitHub из командной строки может оттолкнуть многих потенциальных пользователей этого замечательного инструмента. Но отчаиваться не стоит - для Git/GitHub существует несколько графических оболочек. Об одной из них, а также об основах работы с GitHub в RStudio, детально можно узнать в серии уроков "GitHub for Data Scientists without the terminal", подготовленных Сахиром Бхатнагаром (Sahir Bhatnagar).
  • Через несколько недель выйдет новая версия Apache Spark - v2.0 - чрезвычайно популярной платформы для работы с большими данными, которая, как обещают разработчики, теперь будет обеспечивать еще большую скорость вычислений. Уже сейчас для ознакомления доступна предварительная версия этого нового релиза. Напомню, что со Spark'ом можно работать непосредственно из среды R при помощи пакета SparkR.
  • Компания RStudio объявила о разработанном ими новом R-пакете - flexdashboard, который позволяет создавать очень эффектные "панели индикаторов", используя простой Markdown-синтаксис.
  • Вышла новая версия OpenCPU - v1.6. OpenCPU - это хорошо отлаженная и популярная система, позволяющая выполнять функции R посредством API-запросов по HTTP-протоколу. Подробнее о OpenCPU можно узнать из приведенного ниже видео.



  • Стоило Google выпустить API для своего (прекрасно работающего!) сервиса распознавания изображений, как спустя несколько месяцев вышел пакет для работы с этим сервисом из среды R - RoogleVision. С примерами использования этого пакета можно ознакомиться в блоге его создателя - Флориана Тешнера (Florian Teschner).