Задание составлено на основе файла с данными rep_Cowles.csv, в котором сохранены результаты опроса для репликации исследования (Cowles, 1994), обсуждаемого на практических занятиях.
Переменные:
sex: пол респондента;volunteer: участвует ли респондент в волонтёрской деятельности или нет;extra: уровень экстраверсии;neuro: уровень нейротизма (тревожности);lie: показатель неискренности в ответах (противоречивость ответов).Загрузите файл rep_Cowles.csv с опцией encoding="UTF-8" или fileEncoding="UTF-8", чтобы на Windows текст на кириллице считывался как нужно, без «крокозябр».
Пример: read.csv(link_to_file, encoding = "UTF-8").
Посмотрите на структуру загруженного датафрейма. Сколько в датафрейме наблюдений? А переменных? Какие переменные есть в датафрейме, каких типов?
Выведите описательные статистистики для всех переменных в датафрейме (подгружать библиотеку psych пока не нужно). Проинтерпретируйте полученные значения.
Сохраните строки, соответствующие респондентам женского пола, в датафрейм female, а строки, соответствующие респондентам мужского пола, в датафрейм male.
В этом пункте необходимо работать с датафреймом female. Постройте (любым способом) ящик с усами для показателя уровень нейротизма. Проинтерпретируйте полученный график. Есть ли в выборке нетипичные наблюдения? Если есть, удалите соответствующие строки из датафрейма.
В этом пункте необходимо работать с датафреймом male. Постройте (любым способом) гистограмму для показателя уровень экстраверсии. Проинтерпретируйте полученный график. Похоже ли распределение показателя на нормальное? Постройте Q-Q plot (нормальную вероятностную бумагу), подтвердите свои выводы.
С помощью библиотеки ggplot2 постройте диаграмму рассеяния (scatter plot), который иллюстрировал бы связь между показателями уровень экстраверсии и уровень нейротизма. Проинтерпретируйте полученный график: укажите направление и силу связи между показателями.