Вариант 1.

  1. Создать выборку, состоящую из 100 чисел, распределенных по равномерному закону на отрезке от 2 до 10. Найти её медану, первый и третий квартили, выборочное среднее, исправленную выборочную дисперсию и исправленное выборочное стандартное отклонение. Построить гистограмму для этой выборки. Построить ящик с усами. Объяснить, что изображено на ящике с усами.

  2. Загрузить этот файл в виде dataframe. Наблюдениями являются точки на плоскости. Построить scatter plot. Создать матрицу попарных расстояний между точками, координаты которых записаны в этом dataframe. С помощью иерархического кластерного анализа «снизу вверх» найти три самых больших кластера. Построить дендрограмму. Объяснить, что изображено на дендрограмме.

  3. Исследуется вопрос о связи достатка с использованием некоторого диалекта. Было опрошено какое-то количество человек, результаты приведены в таблице.

salary use_dialect
30 yes
40 no
70 yes
120 yes
30 no
70 yes
40 no
60 yes
10 no
100 yes
120 yes
50 no

С помощью логит-модели, установить, верно ли, что увеличение достатка (согласно таблице) статистически значимо на уровне значимости 10% связано с увеличением вероятности использования диалекта.

  1. Загрузить этот файл в виде dataframe.
    1. Найти коэффициенты линейной регрессии с зависимой переменной \(x_3\) и независимыми переменными \(x_1\), \(x_2\), \(x_4\). Какие из них являются значимыми?
    2. Найти, какую долю дисперсии описывают первые две главные компоненты, получающиеся в результате применения метода главных компонент к этим данным.
  2. (Теоретический вопрос.) На рисунке изображена серия scatter plot’ов. Расположить их в порядке возрастания коэффициента корелляции (с учётом знака). Ответ подробно обосновать.