17 августа 2017

Классический труд по глубокому обучению теперь доступен на русском языке



В издательстве ДМК Пресс вышла книга Я. Гудфеллоу и др. "Глубокое обучение", которая представляет собой один из наиболее полных и широко цитируемых трудов по этой (очень "горячей" сегодня) теме. В аннотации к книге говорится следующее:

"Глубокое обучение - это вид машинного обучения, наделяющий компьютеры способностью учиться на опыте и понимать мир в терминах иерархии концепций. Поскольку компьютер приобретает знания из опыта, отпадает нужда в человеке-операторе, который формально описывает необходимые компьютеру знания. Иерархическая организация позволяет компьютеру обучаться сложным концепциям, конструируя их из более простых; граф такой иерархии может содержать много уровней. В этой книге читатель найдет широкий обзор тем, изучаемых в глубоком обучении.

Книга содержит математические и концептуальные основы линейной алгебры, теории вероятностей и теории информации, численных расчетов и машинного обучения в том объеме, который необходим для понимания материала. Описываются приемы глубокого обучения, применяемые на практике, в том числе глубокие сети прямого распространения, регуляризация, алгоритмы оптимизации, сверточные сети, моделирование последовательностей, и др. Рассматриваются такие приложения, как обработка естественных языков, распознавание речи, компьютерное зрение, онлайновые рекомендательные системы, биоинформатика и видеоигры. Наконец, описываются перспективные направления исследований: линейные факторные модели, автокодировщики, обучение представлений, структурные вероятностные модели, методы Монте-Карло, статистическая сумма, приближенный вывод и глубокие порождающие модели.

Издание будет полезно студентами и аспирантам, а также опытным программистам, которые хотели бы применить глубокое обучение в составе своих продуктов или платформ."

P.S.: В качестве бонусной информации: на этой неделе на платформе начался новый курс-специализация по глубокому обучению. Курс разработан и преподается известным Эндрю Нг (Andrew Ng) в рамках его нового проекта deeplearning.ai



05 августа 2017

Обзор интересных R-пакетов за июль 2017 г.



  • charlatan: пакет для создания "фейковых" наборов данных, которые могут включать адреса, имена людей, географические координаты, названия должностей, и т.п.
  • colordistance: пакет для работы с изображениями. В частности, пользователи могут избирательно маскировать определенные пиксели, вычислять количественные меры сходства между несколькими изображениями по присутствующим в них цветам, находить группы сходных изображений (кластерный анализ на основе доминирующих цветов), и т.п. См. примеры здесьздесь и здесь.
  • diceR: пакет для выполнения кластерного анализа, в ходе которого одновременно используется несколько алгоритмов кластеризации. Такой подход позволяет выяснить, насколько разные алгоритмы "согласны" (проявляют "консенсус", англ. "consensus clustering") в отношении принадлежности того или иного наблюдения к определенному кластеру. См. примеры здесь.
  • ggformulaggplot2-графики, спецификация которых задается c использованием стандартного для R "формульного" синтаксиса. См. многочисленные примеры здесь.
  • parallelDist: отличный инструмент для выполнения параллельных вычислений матриц сходства/различий ("параллельная" версия базовой R-функции dist()). Реализовано большое количество стандартных метрик сходства/различий.
  • RStudioConnect теперь поддерживает функционал plumber'а - пакета, с помощью которого можно легко создавать REST API для практически любых приложений, написанных на R.
  • secreteпозволяет зашифровывать пароли, API-ключи и т.п. важные элементы, используемые в R-пакетах и приложениях.
  • SentimentAnalysis: удобный пакет для анализа тональности текстов. Содержит несколько встроенных словарей, как общих, так и тематических (например, финансы). Имеется возможность работать не только с англоязычными текстами.
  • SimMultiCorrData: набор функций для создания "искусственных" наборов данных из нескольких переменных (непрерывные, бинарные, счетные) с заданной пользователем ковариационной матрицей. Такие наборы данных, в частности, являются ключевым компонентом имитационного моделирования.
  • walker: удобный пакет для построения байесовских регрессионных моделей с динамическими коэффициентами (т.е. коэффициентами, изменяющимися во "времени").