25 апреля 2011

Издание Computerworld пишет о R



Недавно на сайте известного издания Computerworld была опубликована статья, в которой обсуждаются более 20 свободно распространяемых программных средств, предназначенных для анализа и визуализации данных. В списке программ, относящихся к категории "Статистический анализ", R занимает почетное первое место. Привожу ниже свой перевод той части статьи, которая посвящена R.

Что умеет делать: R - это статистическая платформа общего назначения (авторы называют ее "программной средой"), которая управляется через командную строку. Вам необходимо рассчитать средние значения, медианы, стандартные отклонения, корреляции? Согласно официальному сайту проекта, R позволяет реализовывать это и многое другое, включая "линейные и обобщенные линейные модели, нелинейные регрессионные модели, анализ временных рядов, классические параметрические и непараметрические тесты, кластерный анализ и методы сглаживания". Кроме того, при помощи R результаты анализа можно обобщать в виде всевозможных графиков и диаграмм. Для этой программы с открытым исходным кодом существуют многочисленные дополнительные библиотеки-модули, которые значительно расширяют ее функциональность. Пользователям, которые предпочитают графический пользовательский интерфейс, Питер Альдхоус (Peter Aldhous), глава отделения журнала New Scientist в Сан-Франциско, рекомендует RExcel - пакет, позволяющий работать с движком R через Excel.

Отличительные особенности: R обладает огромной функциональностью, включая большой набор опций для визуализации данных, а также для количественного и пространственного анализа.

Недостатки: Тот факт, что R управляется через командную строку, означает, что пользователям придется затратить время на изучение соответствующих команд, и не все пользователи будут чувствовать себя одинаково комфортно, работая только с текстовым интерфейсом. Кроме того, П. Альдхоус утверждает, что пользователи, работающие с большими объемами данных, могут столкнуться с нехваткой оперативной памяти (для таких случаев существуют коммерческие решения, например от компании Revolution Analytics).

Необходимый уровень пользователя: от промежуточного до экспертного. Неотъемлемыми требованиями являются уверенная работа с программой посредством командной строки, а также знание статистики.

На каких платформах работает: Linux, Mac OS X, Unix, Windows XP и выше.

Узнай больше: R for Statistics: First Steps (PDF) от Питера Альдхоуса, Hands-on R, a step-by-step tutorial (PDF) от Джейкоба Фентона (Jacob Fenton), а также An Introduction to R от основателей проекта R. В блоге R Statistics blog можно найти много примеров визуализации данных при помощи R.