24 апреля 2016

Интересное из мира R (14 марта - 24 апреля 2016 г.)



  • Компания Microsoft официально объявила о выходе SQL Server 2016. Как известно, одна из особенностей этого нового продукта заключается в его тесной интеграции c R. Eсли быть точнее, то речь идет о Microsoft R Server - модифицированной версии R, разработку которой до недавнего времени выполняла компания Revolution Analytics (приобретена Microsoft в начале прошлого года). Подробности об этой интересной связке R c SQL Server можно узнать из приведенного ниже видео, снятого в ходе презентации продукта. Отмечу также, что Microsoft R Server уже доступен в Azure Marketplace.



  • Тех из вас, кто много работает с текстовыми данными, может заинтересовать новый пакет hunspell, позволяющий выполнять проверку на наличие ошибок в написании слов. По сути, этот пакет является R-интерфейсом к известному движку Hunspell, на основе которого работает проверка орфографии в LibreOffice, OpenOffice, Mozilla Firefox, Google Chrome, Mac OS X, InDesign и др. программном обеспечении.
  • Если вы работаете на компьютере под управлением Windows и сталкиваетесь с необходимостью автоматического запуска R-скриптов, обратите внимание на новый пакет taskscheduleR. Более того, для этого пакета уже написан соответствующий add-in для RStudio, облегчающий работу благодаря наличию удобного графического интерфейса.
  • fidlr - это еще один дополнительный модуль для RStudio, на который стоит обратить внимание. Он предназначен для облегчения процесса загрузки в R финансовых данных от Google, Yahoo и др. сервисов.
  • Вышла новая версия rmarkdown (v0.9.5) - пакета, предназначенного для создания динамических и статических документов средствами R. В частности, среди нововведений в HTML формате таких документов следует отметить появление нескольких дополнительных шаблонов, возможность создавать "плавающие" модули с оглавлением документа, сворачивать и разворачивать блоки кода, а также представлять содержимое документа на разных закладках.

26 марта 2016

Опрос: в каком виде печатать книгу "Введение в статистическое обучение (с примерами на языке R)"?



Друзья, в продолжение предыдущего сообщения я хотел бы посоветоваться с вами по поводу того, в каком виде следует печатать книгу "Введение в статистическое обучение (с примерами на R)". Сейчас с "ДМК Пресс" обсуждаются два варианта - либо черное-белое, либо цветное издание. 

В оригинале многое завязано на цвет, и, конечно, хотелось бы эту особенность сохранить также в переводном издании. Однако стоимость цветной книги, естественно, будет выше. (Здесь следует еще отметить, что цветная печать будет выполнена при помощи струйного принтера на обычной офсетной (офисной) 80-граммовой бумаге - о глянце и лоске оригинала речь, к сожалению, не идет.). Поэтому хотелось бы знать ваше мнение - мнение потенциальных покупателей и читателей этой книги. Я был бы благодарен, если бы вы проголосовали за приемлемый для вас вариант, используя приведенную ниже форму.

P.S.: Заметьте, что если вы уже выполнили предварительный заказ, и если окончательный выбор будет сделан в пользу цветного издания, то вы получите свою цветную книгу по действующей в настоящий момент сниженной стоимости (т.е. 959 руб. вместо 1500 руб.)

16 марта 2016

Открыт предварительный заказ на книгу "Введение в статистическое обучение (с примерами на языке R)"



Друзья, перевод книги "An Introduction to Statistical Learning, with Applications in R", над которым я работал в течение последнего года, завершен. Полученный результат - "Введение в статистическое обучение (с примерами на языке R)" - выйдет из печати примерно через 1.5 месяца, но уже сейчас на сайте издательства ДМК Пресс можно сделать предварительный заказ на эту книгу.

Книга представляет собой доступно изложенное введение в статистическое обучение – незаменимый набор инструментов, позволяющих извлечь полезную информацию из больших и сложных наборов данных, которые начали возникать в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика и др. В этой книге описаны одни из наиболее важных методов моделирования и прогнозирования, а также примеры их практического применения. Рассмотренные темы включают линейную регрессию, классификацию, создание повторных выборок, регуляризацию, деревья решений, машины опорных векторов, кластеризацию и др. Описание этих методов сопровождается многочисленными иллюстрациями и практическими примерами. Поскольку цель этого учебника заключается в продвижении методов статистического обучения среди практикующих академических исследователей и промышленных аналитиков, каждая глава включает примеры практической реализации соответствующих методов с помощью R – чрезвычайно популярной среды статистических вычислений с открытым кодом.

Издание рассчитано на неспециалистов, которые хотели бы применять современные методы статистического обучения для анализа своих данных. Предполагается, что читатели ранее прослушали лишь курс по линейной регрессии и не обладают знаниями матричной алгебры.


13 марта 2016

Интересное из мира R (29 февраля - 13 марта 2016 г.)



  • 10 марта состоялся релиз новой версии R - v3.2.4 (кодовое название "Very Secure Dishes"), которая завершает серию "3.2.x". Для безболезненного обновления текущей версии R, установленной на Вашем компьютере, можно воспользоваться пакетом installr. Подробеные примеры работы с этим пакетом можно найти здесь.
  • 27-30 июня на кампусе Стэнфордского университета пройдет очередная конференция UseR! Организаторы проводят конкурс стипендий для покрытия расходов, связанных с участием в конференции.
  • Хэдли Уикхэм объявил о выходе новой версии пакета ggplot2 - v2.1.0.
  • Проекты, имеющие отношение к языку R, в этом году снова войдут в программу Google Summer of Code. Заявку на свой проект могут подать студенты со всего мира. Принятые проекты получат финансирование в размере 5000$. С примерами проектов, реализованных в предыдущие годы, можно ознакомиться здесь.
  • 7 марта Американская Статистическая Ассоциация (ASA) опубликовала статью, которая, безусловно, войдет в историю статистики (см. также здесь). После примерно 150 лет повсеместного употребления р-значений для проверки статистических гипотез, ASA сделала следующее утверждение: "Well-reasoned statistical arguments contain much more than the value of a single number and whether that number exceeds an arbitrary threshold. The ASA statement is intended to steer research into a ‘post p<0.05 era." Иными словами,  ASA утверждает, что хорошо обоснованная аргументация включает в себя намного больше, чем значение вероятности, превышающее некоторое произвольно выборанное пороговое значение. Это заявление ставит своей целью начать новую эру в исследовательской работе, где клише 'p<0.05' утратит свои позиции.
    Публикация статьи вызвала волну реакций со стороны как защитников, так и противников р-значений. Ссылки на соответствующие публикации, а также список пакетов для R, которые помогают решить распространенные проблемы с использованием и интерпретацией p-значений, можно найти в этой статье проф. И. Беньямини.

28 февраля 2016

Интересное из мира R (15-28 февраля 2016 г.)



  • Компания Mango Solutions объявила о проведении очередной, 3-й конференции "Эффективные применения языка R" (EARL). Конференция будет проходить в Лондоне 13-15 сентября 2016 г. Уже сейчас можно пройти регистрацию и приобрести пропуск со скидкой. На YouTube можно посмотреть некоторые доклады, сделанные участниками конференции в прошлом году.
  • Дерек Нортон (Derek Norton) из Microsoft недавно провел вебинар, посвященный использованию функционала R в SQL Server 2016 посредством Microsoft R Server. Здесь можно посмотреть видео с этого вебинара.
  • Если вы пишете приложения на основе Shiny и запускаете их с AWS, то вам стоит почитать статью Кристофа Глура (Christoph Glur) о создании формы авторизации для таких приложений.
  • Если вам нужно построить нелинейную регрессионную модель вроде модели Михаэлиса-Ментен и вы хотите узнать, как это сделать в R, то начните с этой вводной статьи на сайте DataScience+.
  • 4 марта на платформе Stepic начнется новый курс "Основы программирования на R". В ходе курса будут рассмотрены основные этапы статистического анализа, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов.