Задание составлено на основе файла с данными rep_Cowles.csv
, в котором сохранены результаты опроса для репликации исследования (Cowles, 1994), обсуждаемого на практических занятиях.
Переменные:
sex
: пол респондента;volunteer
: участвует ли респондент в волонтёрской деятельности или нет;extra
: уровень экстраверсии;neuro
: уровень нейротизма (тревожности);lie
: показатель неискренности в ответах (противоречивость ответов).Загрузите файл rep_Cowles.csv
с опцией encoding="UTF8"
, чтобы на Windows текст на кириллице считывался как нужно, без «крокозябр».
Пример: read.csv(link_to_file, encoding = "UTF=8")
.
Посмотрите на структуру загруженного датафрейма. Сколько в датафрейме наблюдений? А переменных? Какие переменные есть в датафрейме, каких типов?
Выведите описательные статистистики для всех переменных в датафрейме (подгружать библиотеку psych
пока не нужно). Проинтерпретируйте полученные значения.
Сохраните строки, соответствующие респондентам женского пола, в датафрейм female
, а строки, соответствующие респондентам мужского пола, в датафрейм male
.
В этом пункте необходимо работать с датафреймом female
. Постройте (любым способом) ящик с усами для показателя уровень нейротизма. Проинтерпретируйте полученный график. Есть ли в выборке нетипичные наблюдения? Если есть, удалите соответствующие строки из датафрейма.
В этом пункте необходимо работать с датафреймом male
. Постройте (любым способом) гистограмму для показателя уровень экстраверсии. Проинтерпретируйте полученный график. Похоже ли распределение показателя на нормальное? Постройте Q-Q plot (нормальную вероятностную бумагу), подтвердите свои выводы.
С помощью библиотеки ggplot2
постройте диаграмму рассеяния (scatter plot), который иллюстрировал бы связь между показателями уровень экстраверсии и уровень нейротизма. Проинтерпретируйте полученный график: укажите направление и силу связи между показателями.