exam

Вариант 2.

Создать выборку, состоящую из 100 чисел, распределенных по нормальному (гауссовому) закону со средним 6 и стандартным отклонением 4. Найти её медану, первый и третий квартили, выборочное среднее, исправленную выборочную дисперсию и исправленное выборочное стандартное отклонение. Построить гистограмму для этой выборки. Построить ящик с усами. Объяснить, что изображено на ящике с усами.
Загрузить этот файл в виде dataframe. Наблюдениями являются точки на плоскости. Построить scatter plot. Создать матрицу попарных расстояний между точками, координаты которых записаны в этом dataframe. С помощью иерархического кластерного анализа «снизу вверх» найти два самых больших кластера. Построить дендрограмму. Объяснить, что изображено на дендрограмме.
Исследуется вопрос о связи достатка с использованием некоторого диалекта. Было опрошено какое-то количество человек, результаты приведены в таблице.

salary	use_dialect
30	no
40	yes
70	no
120	no
30	yes
70	no
40	yes
60	no
10	yes
100	no
120	no
50	yes

С помощью логит-модели, установить, верно ли, что увеличение достатка (согласно таблице) статистически значимо на уровне значимости 10% связано с увеличением вероятности использования диалекта.

Загрузить этот файл в виде dataframe.
1. Найти коэффициенты линейной регрессии с зависимой переменной \(x_2\) и независимыми переменными \(x_1\), \(x_3\), \(x_4\). Какие из них являются значимыми?
2. Найти, какую долю дисперсии описывают первые две главные компоненты, получающиеся в результате применения метода главных компонент к этим данным.
(Теоретический вопрос.) На рисунке изображена серия scatter plot’ов. Расположить их в порядке возрастания коэффициента корелляции (с учётом знака). Ответ подробно обосновать.

exam

Илья Щуров, НИУ ВШЭ

23 Jun 2015