I keep saying the sexy job in the next ten years will be statisticians. People think I'm joking, but who would've guessed that computer engineers would've been the sexy job of the 1990s? …
I think statisticians are part of it, but it's just a part. You also want to be able to visualize the data, communicate the data, and utilize it effectively. But I do think those skills - of being able to access, understand, and communicate the insights you get from data analysis - are going to be extremely important. Managers need to be able to access and understand the data themselves.
Hal Varian, Chief Economist, Google Inc, Emeritus Professor (School of Information, Haas School of Business, Department of Economics at University of California at Berkeley), 2009
Прошло почти пять лет с момента когда Хэл Вэриан огласил свой прогноз и можно смело считать его более чем оправдавшимся. Концепции Big Data и Data Science проникли во все сферы научной и практической деятельности, в том числе и традиционно весьма далёкие от любого количественного анализа, а навыки работы с данными уверенно заняли место в числе самых востребованных среди работодателей в самых различных областях бизнеса, некоммерческого сектора, госуправления и науки.
Minor “Информационные технологии и анализ данных” призван повысить конкурентоспособность выпускников НИУ ВШЭ – Санкт-Петербург, обеспечив приобретение ими компетенций в области Computer Science и Data Analysis, позволяющих системно подходить к решению проблем в своей области деятельности с использованием всего необходимого инструментария информационных технологий и анализа данных.
Курсы Minor ИТиАД построены с учётом рекомендаций Computing Curricula 2013 (Association for Computing Machinery и IEEE-Computer Society) и проекта Integrating Computing into the Statistics Curricula (University of California, Berkeley).
Обязательным курсом minor ИТиАД является курс “Основы программирования и анализа данных” (6 кр., 1-2 модуль 2-го курса).
Помимо указанных ниже курсов по выбору, целесообразна интеграция в minor и других тематических модулей в виде курсов в сочетаниях с базовыми курсами программирования для анализа данных, например:
Любой из курсов, помеченных как Проектный курс может служить основой для реализации итогового проекта в конце 4 модуля 3 курса. В случае наличия нескольких проектных курсов в траектории студента, для курса, не являющегося основой итогового проекта применяется форма отчетности, не включающая проектное задание.
Обязательный курс
Цель: познакомить студентов на практике с основами программирования и заложить основы computational thinking и problem solving skills, дав представление об основах цикла разработки ПО.
Области знания:
Курс закладывает представления о фундаментальных концепциях программирования, базовых алгоритмах и структурах данных, методах разработки ПО, архитектуре компьютера с точки зрения выполнения программ.
Последовательность практических заданий на языке Python предполагает встраивание написанного студентом кода в подготовленную структуру примера, что позволяет сократить зазор от начала обучения до осознания на практике области применимости полученных навыков.
Области знания:
Курс призван, с одной стороны, частично компенсировать различия и “узкие места” математической подготовки студентов, с другой – заложить основы разделов математики, не входящие в стандартную программу бакалавриата, но необходимые для программирования и анализа данных.
Области знания:
Цель: Дать представление и практические навыки работы с базами данных различных типов, форматами структурированного представления данных и базовые представления о распределенной обработке данных
Области знания:
Цель: знакомство студентов с современным подходом к Computing with Data с использованием языка R. Курс закрепляет применение computational thinking и problem solving skills к задачам, включающим работу с массивами данных
Области знания:
Пререквизиты:
Базовый курс по анализу данных в R.
Проектный курс
Области знания:
Пререквизиты:
Цель: Дать представление о работе методов Data Mining с упором на содержательную сторону классов задач DM, методов оценки работы различных алгоритмов.
В курс сделан акцент на понимание условий применимости, сильных и слабых сторон различных методов решения задач Data Mining.
Акцент на задачах классификации помогает проследить эволюционное развитие алгоритмов и на примерах понять проблематику DM (bias-variance tradeoff, проблемы интерпретируемости, проблемы сопоставления различных классификаторов).
Проектный курс
Области знания:
Пререквизиты:
Цель курса: научить студентов извлекать и обрабатывать данные в наиболее распространённых форматах из интернет и других источников, использовать основные стратегии работы с 'bad data', объединять данные из различных источников, выбирать эффективные стратегии представления и хранения жанных, проводить разведочный анализ данных, подготавливать их для дальнейшего анализа.
С появлением всё большего количества данных, в том или ином виде доступных из различных источников в Интернет, всё более актуальным становится владение способами из извлечения и обработки, понимания принципов работы Web services, построенных и использованием различных технологий. В курсе на практических примерах водятся элементы сетевого анализа (SNA) и обработки текста.
Это hands on programming курс с использованием Python, предполагающий в процессе практических занятий выполнение проектного задания и знакомство с некоторыми аспектами технологии и инструментальными средствами программной инженерии – системами контроля версий, IDE, сервисов social coding (GitHub, BitBucket) и т.д.
Проектный курс
Области знания:
Пререквизиты:
По завершении курса исследователь сможет писать достаточно сложные программы на R для реализации воспроизводимых исследований, в том числе:
Области знания:
Пререквизиты:
Цель: дать студентам возможность рассмотреть проблематику основ теории вероятностей и математической статистики с точки зрения computational thinking, используя аппарат компьютерных имитационных моделей, написанных руками студентов, для симуляции основных явлений и понятий ТВ.
Для студентов-бакалавров, владеющих основами программирования, может не только послужить средством дальнейшего развития computational thinking, но и помочь разрешить часто возникающее у студентов соц. направлений ощущение потери контроля при обращении к математико-статистическим методам, возникающее после стандартного курса ТВ и МС и дальнейших курсов по анализу данных.
Курс закладывает крепкое основание для дальнейшего знакомства с Байесовской статистикой и имитационным моделированием, в том числе применяемым в социальных науках.