07 марта 2015

Как говорить на языке "Data Science"



О Data Science, Big Data, Machine Learning и т.п. сегодня не говорит только ленивый, и на то есть масса объективных причин. Однако из-за всего этого "шума" в медиа и бизнес-среде часто многие понятия подменяются и появляется большое количество клише и "buzzwords". Ребята из DataCamp у себя в блоге опубликовали занятную статью "How to speak Data Science", где объяснили, что "в действительности" имеется в виду, когда люди говорят о Data Science. Привожу свой перевод перечисленных там терминов и фраз. Хорошего вам настроения в этот весенний день!



"Data scientist" – среднего уровня программист, ищущий работу, где ему платили бы столько же, сколько платят высококлассному программисту.

"Статистик" – математик, который не умеет программировать.

"Наша компания готова к использования технологий Больших Данных" – "Моему поставщику программного обеспечения удалось значительно повысить продажи."

"Мы измеряем всё" – "Мы не имеем абсолютно никакого представления о том, что измерять."

"Менеджер, хорошо разбирающийся в данных" – так описывают себя менеджеры из отделов маркетинга, продаж и кадровой службы, которые используют круговые диаграммы в своих Power Point-презентациях.

"Наличие корреляции не предполагает обнаружения истинного механизма изучаемого явления" – "Мы проанализировали неподходящий набор данных и сделали неверные заключения". Часто употребление этого утверждения сопровождается также представлением графика для создания иллюзии важности выполненной работы.

"Машинное обучение" – в компаниях-поставщиках технологий больших данных название этого статистического метода часто используется специалистами по маркетингу и продажам для обеспечения своего ежегодного бонуса.

"Ведущий Data Scientist" (Chief Data Scientist) – бывший главный инженер.

"Hadoop" – программное обеспечение с открытым кодом, используемое для выполнения распределенных вычислений. Похоже, что у Data Scientists есть квота на использование этого названия в каждом втором предложении при обсуждении больших данных, хотя большинство из них знают только то, что на лого этого продукта изображен желтый слон.

"Data Scientist - самая привлекательная профессия 21-го века" – это утверждение очень распространено в индустрии Data Science, однако его истинность до сих пор не была подтверждена статистически.

"Тренировочный лагерь по Data Science" (Data Science boot camp) – так рекрутинговое агентство выдает себя за школу.

"Нам удалось достигнуть этот результат на небольшой выборке" – "Наш бюджет не позволил выполнить статистически значимый анализ данных."

"Мы внедрили процесс принятия решений, основанный на данных" – "В прошлом мы не имели никакого представления о том, что делали."

"Мы используем новейшие методы моделирования для прогнозирования результатов" – "Мы используем метод линейной регрессии и игнорируем получаемые прогнозы."

"Наблюдается значительный эффект, но …" – вводное предложение, часто используемое аналитиками, когда они потратили несколько недель на анализ, но результат выглядит неожиданным и нет времени, чтобы переделать эту работу.

Комментариев нет :

Отправить комментарий