Мои книги


Мастицкий С. Э. (2020) Анализ временных рядов с помощью R. — Электронная книга

Эта свободно распространяемая книга представляет собой небольшое пособие по использованию языка программирования и системы статистических вычислений R для анализа временных рядов. Упор сделан на решение нескольких стандартных задач, включая прогнозирование, выявление структурных изменений и аномалий в данных, а также кластеризацию временных рядов. Описание соответствующих подходов и программного обеспечения сопровождается многочисленными примерами кода в применении к данным из реального мира. Книга рассчитана на опытных пользователей R, которым знакомы принципы построения предсказательных моделей, ряд стандартных методов статистики (регрессия, метод главных компонент, кластерный анализ), а также основы байесовской статистики.

Мастицкий С. Э., Шитиков В. К. (2015) Статистический анализ и визуализация данных с помощью R. - М.: ДМК Пресс

В книге обобщены и значительно расширены методические материалы, опубликованные на этом сайте в период с 2011 по 2014 гг. Изложение выполнено максимально простым языком с акцентом на то, чтобы читатель мог легко применить новые знания на практике.
В первых трех главах содержится детальное описание языка R и базовых графических возможностей этой среды. В последующих главах (4–8) приведено описание распространенных процедур обработки данных и построения статистических моделей, которое иллюстрировано несколькими десятками примеров. Материал выстроен по мере усложнения. Так, главы 4 и 5 ориентированы на читателя, интересующегося статистикой лишь в объеме начального университетского курса. В главах 6 и 7 в рамках единой теории общих линейных моделей представлены дисперсионный и регрессионный анализы и приведены различные алгоритмы исследования и структурной идентификации моделей. Глава 8 посвящена некоторым современным методам построения и анализа обобщенных линейных и иных типов моделей. В последней главе (9) обсуждаются возможности R для анализа и визуализации пространственных данных.
С момента ее публикации, эта книга была процитирована более 170 раз. Ее используют в качестве рекомендуемой литературы в курсах по статике в нескольких университетах России, Украины и Беларуси, а также в ряде онлайн-курсов, посвященных анализу данных и машинному обучению.
Свободно распространяемую электронную версию этой книги можно найти в соответствующем Github-репозитории.

Мастицкий С. Э. (2016) Визуализация данных с помощью ggplot2. - М.: ДМК Пресс

Визуализация данных играет важную роль на всех этапах статистического анализа - от первичного ознакомления со свойствами данных до диагностики качества построенных моделей и представления полученных результатов. Эта книга посвящена ggplot2 - наиболее популярному графическому пакету для R, который значительно расширяет и без того богатые базовые графические возможности этого языка.
Широкая популярность ggplot2 обусловлена несколькими причинами, среди которых можно отметить эстетическую привлекательность и пригодное для публикации качество получаемых с его помощью графиков, возможность создавать пользовательские типы диаграмм, а также большой набор опций для тонкой настройки внешнего вида графиков.
В этой книге описаны основы работы с ggplot2 и приведены многочисленные примеры кода, которые читатели легко могут модифицировать для собственных нужд. Книга окажется полезной для всех пользователей R, желающих освоить новый мощный инструмент анализа данных.

Шитиков В. К., Мастицкий С. Э. (2017) Классификация, регрессия и другие алгоритмы Data Mining с использованием R. - Электронная книга

В этой свободно распространяемой электронной книге описана широкая совокупность методов построения статистических моделей классификации и регрессии. Подробно рассматриваются деревья решений, машины опорных векторов с различными разделяющими поверхностями, нелинейные формы дискриминантного анализа, искусственные нейронные сети и т.д. Показана технология применения таких методов бутстреп-агрегирования деревьев решений, как бэггинг, случайный лес и бустинг. Представлены различные методы построения ансамблей моделей для коллективного прогнозирования. Особое внимание уделяется сравнительной оценке эффективности и поиску оптимальных областей значений гиперпараметров моделей с использованием пакета caret. Рассматриваются также такие алгоритмы Data Mining, как генерация ассоциативных правил и анализ последовательностей. Отдельная глава посвящена методам многомерной ординации данных и различным алгоритмам кластерного анализа.
Описание методов статистического анализа сопровождается многочисленными примерами из различных областей на основе общедоступных исходных данных. Представлены несложные скрипты на языке R, дающие возможность читателю легко воспроизвести все расчеты.
Книга может быть использована в качестве учебного пособия по статистическим методам для студентов и аспирантов высших учебных заведений.

Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р. (2016) Введение в статистическое обучение с примерами на языке R. - Пер. с англ. С. Э. Мастицкого. - М.: ДМК Пресс

Книга представляет собой доступно изложенное введение в статистическое обучение - незаменимый набор инструментов, позволяющих извлечь полезную информацию из больших и сложных наборов данных, которые начали возникать в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика и др. В этой книге описаны одни из наиболее важных методов моделирования и прогнозирования, а также примеры их практического применения. Рассмотренные темы включают линейную регрессию, классификацию, создание повторных выборок, регуляризацию, деревья решений, машины опорных векторов, кластеризацию и др. Описание этих методов сопровождается многочисленными иллюстрациями и практическими примерами. Поскольку цель этого учебника заключается в продвижении методов статистического обучения среди практикующих академических исследователей и промышленных аналитиков, каждая глава включает примеры практической реализации соответствующих методов с помощью R - чрезвычайно популярной среды статистических вычислений с открытым кодом.
Мне выпала честь выполнить перевод этой замечетельной книги. К сожалению, в первое издание закралось большое количество опечаток и других технических неточностей - их список можно найти в соответствующем Github-репозитории.