Выполнив это задание, можно получить бонус к семинарской активности. Каждая из частей весит определенное число баллов (1 балл = 1 плюс на семинарах). Максимальное число плюсов, которое можно скомпенсировать, выполнив задание, это 5. Для этого нужно качественно выполнить задания последнего блока.
I. Задания на 2 и 3 балла оформляются в виде файла с кодом, файла с расширением .R
. Ответы на вопросы/интерпретацию оформить нужно в виде комментариев к коду. Пример:
# гистограмма
hist(x)
# пояснения к гистограмме:
# 1)
# 2)
Итог: нужно загрузить на Dropbox файл с расширением .R
.
Итог: нужно загрузить на Dropbox два файла: документ Word и файл с расширением .Rmd
.
Создайте вектор из следующих значений: 2, 17, 3, 15, 9, 13, 25.
Это и будет Ваша выборка.
Выведите все описательные статистики для этой выборки (минимум, максимум, среднее, медиана, квартили). Проинтерпретируйте полученные значения.
Постройте гистограмму для этой выборки, поменяйте ее цвет.
Загрузите базу данных Titanic.csv
по ссылке: https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv
.
Выведите описательные статистики для всех переменных в базе. Выберите два показателя (один количественный, один качественный) и проинтерпретируйте все выведенные по ним значения статистик.
Постройте для показателя Age гистограмму, поменяйте ее цвет, добавьте название (заголовок) графика. Напишите, людей какого возраста в базе больше и меньше всего.
Постройте для показателя Age ящик с усами. Напишите, есть ли в выборке нетипичные значения (выбросы), и если есть, то сколько.
Для этого нужно создать новый RMarkdown файл, разобраться с его разметкой, после набора кода и текста нажать Knit и выбрать Word. Подробнее - см. здесь и здесь + инструкцию, высланную по почте.
Выполните задания 1-2 из предыдущего блока (на 4 балла, оформите в виде файла Word, связанного из Rmd-файла).
Постройте скрипичную диаграмму (violin plot) для переменной Age. Похоже ли распределение возраста пассажиров на нормальное? Скошено ли оно? Если да, то в какую сторону? Сильны ли отличия медианного и среднего значения возраста?
Постройте 95%-ный доверительный интервал для доли женщин среди выживших. Постройте 95%-ный доверительный интервал для доли мужчин среди выживших. Проинтерпретируйте полученные интервалы.
Какой из доверительных интервалов длинее? Пересекаются ли доверительные интервалы?
Пусть у нас есть нулевая гипотеза: доля выживших женщин равна доле выживших мужчин. Используя только доверительные интервалы из этого задания, сделайте вывод, можно ли отвергнуть такую нулевую гипотезу.