Описательные статистики

Задание 6 из семинара 11

  1. Загрузите файл Chile.csv в R (RStudio).

Это база данных, содержащая результаты опроса, проведенного накануне референдума в Чили в 1988 году.

df <- read.csv("http://math-info.hse.ru/f/2017-18/ps-ms/Chile.csv")
  1. Выведите описательные статистики для всех переменных в датафрейме. Найдите (выборочные) медиану, нижний и верхний квартили следующих переменных: age (возраст респондента), population (население региона, где проживает респондент), income (доход респондента). Сильно ли медианное значение этих переменных отличается от их средних значений?

Выведем описательные статистики для всех переменных в базе данных:

summary(df)
##        X          region     population     sex           age       
##  Min.   :   1.0   C :600   Min.   :  3750   F:1379   Min.   :18.00  
##  1st Qu.: 675.8   M :100   1st Qu.: 25000   M:1321   1st Qu.:26.00  
##  Median :1350.5   N :322   Median :175000            Median :36.00  
##  Mean   :1350.5   S :718   Mean   :152222            Mean   :38.55  
##  3rd Qu.:2025.2   SA:960   3rd Qu.:250000            3rd Qu.:49.00  
##  Max.   :2700.0            Max.   :250000            Max.   :70.00  
##                                                      NA's   :1      
##  education       income         statusquo          vote    
##  P   :1107   Min.   :  2500   Min.   :-1.80301   A   :187  
##  PS  : 462   1st Qu.:  7500   1st Qu.:-1.00223   N   :889  
##  S   :1120   Median : 15000   Median :-0.04558   U   :588  
##  NA's:  11   Mean   : 33876   Mean   : 0.00000   Y   :868  
##              3rd Qu.: 35000   3rd Qu.: 0.96857   NA's:168  
##              Max.   :200000   Max.   : 2.04859             
##              NA's   :98       NA's   :17

Выведем описательные статистики отдельно для рассматриваемых переменных:

summary(df$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   18.00   26.00   36.00   38.55   49.00   70.00       1

Среднее значение возрасто рано 38.55 годам, медиана ниже среднего значения и равна 36. Нижний квартиль равен 26 годам, верхний квартиль равен 49 годам. Обратите внимание, что минимальное значение возраста равно 18, так как опрос проводился среди избирателей.

summary(df$population) 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3750   25000  175000  152222  250000  250000

Среднее значение населения региона равно 152222, медианное значение составляет 175000. Нижний квартиль равен 25000, верхний квартиль равен 250000.

summary(df$income)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    2500    7500   15000   33876   35000  200000      98

Среднее значение дохода равно 33876, медианное значение дохода равно 15000. Среднее значение значительно больше медианы. Это значит, что в выборке присутствуют очень большие значения, которые смещают среднее вверх (иными слоами, в выборке оказались респонденты с доходом, нехарактерно большим для населения страны). Нижний квартиль равен 7500, верхний квартиль равен 35000.

  1. Постройте гистограммы для переменных age и income. Похоже ли распределение этих переменных на нормальное?
hist(df$age, col = "lightgoldenrod1", 
     xlab = "Age", main = "Histogram of age")

Распределение возраста не похоже на нормальное.

hist(df$income, col = "lightgoldenrod1", 
     xlab = "Income", main = "Histogram of income")

Распределение дохода так же не похоже на нормальное. В выборке много маленьких значений, и присутствуют очень большие значения.

  1. Постройте «ящики с усами» для переменных age и income. Есть ли среди значений этих переменных нетипичные? Обоснуйте ваш ответ.
boxplot(df$age, col = "lightgoldenrod1", 
     ylab = "Age")

Переменная возраста не содержит нетипичных значений, так как на графике нет точек за границами “усов”.

boxplot(df$income, col = "lightgoldenrod1", 
     ylab = "Income")

Переменная дохода содержит нетипичные значения в правом хвосте распределения (большие значения).