22 мая 2016

Интересное из мира R (25 апреля - 22 мая 2016 г.)



  • Работа с GitHub из командной строки может оттолкнуть многих потенциальных пользователей этого замечательного инструмента. Но отчаиваться не стоит - для Git/GitHub существует несколько графических оболочек. Об одной из них, а также об основах работы с GitHub в RStudio, детально можно узнать в серии уроков "GitHub for Data Scientists without the terminal", подготовленных Сахиром Бхатнагаром (Sahir Bhatnagar).
  • Через несколько недель выйдет новая версия Apache Spark - v2.0 - чрезвычайно популярной платформы для работы с большими данными, которая, как обещают разработчики, теперь будет обеспечивать еще большую скорость вычислений. Уже сейчас для ознакомления доступна предварительная версия этого нового релиза. Напомню, что со Spark'ом можно работать непосредственно из среды R при помощи пакета SparkR.
  • Компания RStudio объявила о разработанном ими новом R-пакете - flexdashboard, который позволяет создавать очень эффектные "панели индикаторов", используя простой Markdown-синтаксис.
  • Вышла новая версия OpenCPU - v1.6. OpenCPU - это хорошо отлаженная и популярная система, позволяющая выполнять функции R посредством API-запросов по HTTP-протоколу. Подробнее о OpenCPU можно узнать из приведенного ниже видео.



  • Стоило Google выпустить API для своего (прекрасно работающего!) сервиса распознавания изображений, как спустя несколько месяцев вышел пакет для работы с этим сервисом из среды R - RoogleVision. С примерами использования этого пакета можно ознакомиться в блоге его создателя - Флориана Тешнера (Florian Teschner).

19 мая 2016

Опечатки и технические ошибки в первом издании книги "Введение в статистическое обучение с примерами на языке R"



Друзья, вот уже который день я пребываю в глубокой печали и посыпаю голову пеплом, а именно с тех пор, как стали приходить письма от читателей первого издания книги "Введение в статистическое обучение..." с сообщениями об обнаруженных ими опечатках и технических ошибках. Несмотря на все усилия с моей стороны и помощь нескольких человек с вычиткой рукописи, ошибки, к огромному сожалению, имеют место. Увы, единственное, что я могу сделать сейчас - это извиниться за такое качество работы и привести список обнаруженных проблем. С этим списком можно ознакомиться на GitHub-странице проекта. Если вы нашли что-то, что еще не перечислено в этом списке, пожалуйста, свяжитесь со мной по электронной почте, указанной в книге в разделе "От переводчика". Заранее спасибо!

15 мая 2016

Деревья решений. Часть I: Введение



Алгоритмы обучения с учителем, основанные на использовании деревьев решений (англ. "decision trees"; в русскоязычных источниках используются также термины "деревья принятия решений", "деревья классификации и регрессии" (от "regression and classification trees, CART"), "решающие деревья" и др.) чрезвычайно популярны. Эта популярность обусловлена несколькими причинами:


30 апреля 2016

Книга "Введение в статистическое обучение с примерами на языке R" вышла из печати



Спешу поделиться новостью о том, что книга "Введение в статистическое обучение с примерами на языке R", над переводом которой я работал на протяжении последнего года, вышла из печати. Я сделал все, что было в моих силах, чтобы максимально точно передать текст оригинала. Что из этого вышло - судить вам. О любых замечаниях и пожеланиях сообщайте, пожалуйста, по адресу rtutorialsbook[собака]gmail.com - это позволит внести соответствующие правки при публикации последующих изданий.

P.S.: Примеры кода и наборы данных для выполнения лабораторных работ из книги можно взять здесь.

24 апреля 2016

Интересное из мира R (14 марта - 24 апреля 2016 г.)



  • Компания Microsoft официально объявила о выходе SQL Server 2016. Как известно, одна из особенностей этого нового продукта заключается в его тесной интеграции c R. Eсли быть точнее, то речь идет о Microsoft R Server - модифицированной версии R, разработку которой до недавнего времени выполняла компания Revolution Analytics (приобретена Microsoft в начале прошлого года). Подробности об этой интересной связке R c SQL Server можно узнать из приведенного ниже видео, снятого в ходе презентации продукта. Отмечу также, что Microsoft R Server уже доступен в Azure Marketplace.



  • Тех из вас, кто много работает с текстовыми данными, может заинтересовать новый пакет hunspell, позволяющий выполнять проверку на наличие ошибок в написании слов. По сути, этот пакет является R-интерфейсом к известному движку Hunspell, на основе которого работает проверка орфографии в LibreOffice, OpenOffice, Mozilla Firefox, Google Chrome, Mac OS X, InDesign и др. программном обеспечении.
  • Если вы работаете на компьютере под управлением Windows и сталкиваетесь с необходимостью автоматического запуска R-скриптов, обратите внимание на новый пакет taskscheduleR. Более того, для этого пакета уже написан соответствующий add-in для RStudio, облегчающий работу благодаря наличию удобного графического интерфейса.
  • fidlr - это еще один дополнительный модуль для RStudio, на который стоит обратить внимание. Он предназначен для облегчения процесса загрузки в R финансовых данных от Google, Yahoo и др. сервисов.
  • Вышла новая версия rmarkdown (v0.9.5) - пакета, предназначенного для создания динамических и статических документов средствами R. В частности, среди нововведений в HTML формате таких документов следует отметить появление нескольких дополнительных шаблонов, возможность создавать "плавающие" модули с оглавлением документа, сворачивать и разворачивать блоки кода, а также представлять содержимое документа на разных закладках.