Вариант 2.

  1. Создать выборку, состоящую из 100 чисел, распределенных по нормальному (гауссовому) закону со средним 6 и стандартным отклонением 4. Найти её медану, первый и третий квартили, выборочное среднее, исправленную выборочную дисперсию и исправленное выборочное стандартное отклонение. Построить гистограмму для этой выборки. Построить ящик с усами. Объяснить, что изображено на ящике с усами.

  2. Загрузить этот файл в виде dataframe. Наблюдениями являются точки на плоскости. Построить scatter plot. Создать матрицу попарных расстояний между точками, координаты которых записаны в этом dataframe. С помощью иерархического кластерного анализа «снизу вверх» найти два самых больших кластера. Построить дендрограмму. Объяснить, что изображено на дендрограмме.

  3. Исследуется вопрос о связи достатка с использованием некоторого диалекта. Было опрошено какое-то количество человек, результаты приведены в таблице.

salary use_dialect
30 no
40 yes
70 no
120 no
30 yes
70 no
40 yes
60 no
10 yes
100 no
120 no
50 yes

С помощью логит-модели, установить, верно ли, что увеличение достатка (согласно таблице) статистически значимо на уровне значимости 10% связано с увеличением вероятности использования диалекта.

  1. Загрузить этот файл в виде dataframe.
    1. Найти коэффициенты линейной регрессии с зависимой переменной \(x_2\) и независимыми переменными \(x_1\), \(x_3\), \(x_4\). Какие из них являются значимыми?
    2. Найти, какую долю дисперсии описывают первые две главные компоненты, получающиеся в результате применения метода главных компонент к этим данным.
  2. (Теоретический вопрос.) На рисунке изображена серия scatter plot’ов. Расположить их в порядке возрастания коэффициента корелляции (с учётом знака). Ответ подробно обосновать.