exam

Вариант 1.

Создать выборку, состоящую из 100 чисел, распределенных по равномерному закону на отрезке от 2 до 10. Найти её медану, первый и третий квартили, выборочное среднее, исправленную выборочную дисперсию и исправленное выборочное стандартное отклонение. Построить гистограмму для этой выборки. Построить ящик с усами. Объяснить, что изображено на ящике с усами.
Загрузить этот файл в виде dataframe. Наблюдениями являются точки на плоскости. Построить scatter plot. Создать матрицу попарных расстояний между точками, координаты которых записаны в этом dataframe. С помощью иерархического кластерного анализа «снизу вверх» найти три самых больших кластера. Построить дендрограмму. Объяснить, что изображено на дендрограмме.
Исследуется вопрос о связи достатка с использованием некоторого диалекта. Было опрошено какое-то количество человек, результаты приведены в таблице.

salary	use_dialect
30	yes
40	no
70	yes
120	yes
30	no
70	yes
40	no
60	yes
10	no
100	yes
120	yes
50	no

С помощью логит-модели, установить, верно ли, что увеличение достатка (согласно таблице) статистически значимо на уровне значимости 10% связано с увеличением вероятности использования диалекта.

Загрузить этот файл в виде dataframe.
1. Найти коэффициенты линейной регрессии с зависимой переменной \(x_3\) и независимыми переменными \(x_1\), \(x_2\), \(x_4\). Какие из них являются значимыми?
2. Найти, какую долю дисперсии описывают первые две главные компоненты, получающиеся в результате применения метода главных компонент к этим данным.
(Теоретический вопрос.) На рисунке изображена серия scatter plot’ов. Расположить их в порядке возрастания коэффициента корелляции (с учётом знака). Ответ подробно обосновать.

exam

Илья Щуров, НИУ ВШЭ

23 Jun 2015