Часть 1 (к 17 апреля)

Задание составлено на основе файла с данными rep_Cowles.csv, в котором сохранены результаты опроса для репликации исследования (Cowles, 1994), обсуждаемого на практических занятиях.

Переменные:


  1. Загрузите файл rep_Cowles.csv с опцией encoding="UTF-8" или fileEncoding="UTF-8", чтобы на Windows текст на кириллице считывался как нужно, без «крокозябр».

    Пример: read.csv(link_to_file, encoding = "UTF-8").

  2. Посмотрите на структуру загруженного датафрейма. Сколько в датафрейме наблюдений? А переменных? Какие переменные есть в датафрейме, каких типов?

  3. Выведите описательные статистистики для всех переменных в датафрейме (подгружать библиотеку psych пока не нужно). Проинтерпретируйте полученные значения.

  4. Сохраните строки, соответствующие респондентам женского пола, в датафрейм female, а строки, соответствующие респондентам мужского пола, в датафрейм male.

  5. В этом пункте необходимо работать с датафреймом female. Постройте (любым способом) ящик с усами для показателя уровень нейротизма. Проинтерпретируйте полученный график. Есть ли в выборке нетипичные наблюдения? Если есть, удалите соответствующие строки из датафрейма.

  6. В этом пункте необходимо работать с датафреймом male. Постройте (любым способом) гистограмму для показателя уровень экстраверсии. Проинтерпретируйте полученный график. Похоже ли распределение показателя на нормальное? Постройте Q-Q plot (нормальную вероятностную бумагу), подтвердите свои выводы.

  7. С помощью библиотеки ggplot2 постройте диаграмму рассеяния (scatter plot), который иллюстрировал бы связь между показателями уровень экстраверсии и уровень нейротизма. Проинтерпретируйте полученный график: укажите направление и силу связи между показателями.