Это база данных, содержащая результаты опроса, проведенного накануне референдума в Чили в 1988 году.
df <- read.csv("http://math-info.hse.ru/f/2017-18/ps-ms/Chile.csv")
age (возраст респондента), population (население региона, где проживает респондент), income (доход респондента). Сильно ли медианное значение этих переменных отличается от их средних значений?Выведем описательные статистики для всех переменных в базе данных:
summary(df)
## X region population sex age
## Min. : 1.0 C :600 Min. : 3750 F:1379 Min. :18.00
## 1st Qu.: 675.8 M :100 1st Qu.: 25000 M:1321 1st Qu.:26.00
## Median :1350.5 N :322 Median :175000 Median :36.00
## Mean :1350.5 S :718 Mean :152222 Mean :38.55
## 3rd Qu.:2025.2 SA:960 3rd Qu.:250000 3rd Qu.:49.00
## Max. :2700.0 Max. :250000 Max. :70.00
## NA's :1
## education income statusquo vote
## P :1107 Min. : 2500 Min. :-1.80301 A :187
## PS : 462 1st Qu.: 7500 1st Qu.:-1.00223 N :889
## S :1120 Median : 15000 Median :-0.04558 U :588
## NA's: 11 Mean : 33876 Mean : 0.00000 Y :868
## 3rd Qu.: 35000 3rd Qu.: 0.96857 NA's:168
## Max. :200000 Max. : 2.04859
## NA's :98 NA's :17
Выведем описательные статистики отдельно для рассматриваемых переменных:
summary(df$age)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 18.00 26.00 36.00 38.55 49.00 70.00 1
Среднее значение возрасто рано 38.55 годам, медиана ниже среднего значения и равна 36. Нижний квартиль равен 26 годам, верхний квартиль равен 49 годам. Обратите внимание, что минимальное значение возраста равно 18, так как опрос проводился среди избирателей.
summary(df$population)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3750 25000 175000 152222 250000 250000
Среднее значение населения региона равно 152222, медианное значение составляет 175000. Нижний квартиль равен 25000, верхний квартиль равен 250000.
summary(df$income)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 2500 7500 15000 33876 35000 200000 98
Среднее значение дохода равно 33876, медианное значение дохода равно 15000. Среднее значение значительно больше медианы. Это значит, что в выборке присутствуют очень большие значения, которые смещают среднее вверх (иными слоами, в выборке оказались респонденты с доходом, нехарактерно большим для населения страны). Нижний квартиль равен 7500, верхний квартиль равен 35000.
hist(df$age, col = "lightgoldenrod1",
xlab = "Age", main = "Histogram of age")
Распределение возраста не похоже на нормальное.
hist(df$income, col = "lightgoldenrod1",
xlab = "Income", main = "Histogram of income")
Распределение дохода так же не похоже на нормальное. В выборке много маленьких значений, и присутствуют очень большие значения.
boxplot(df$age, col = "lightgoldenrod1",
ylab = "Age")
Переменная возраста не содержит нетипичных значений, так как на графике нет точек за границами “усов”.
boxplot(df$income, col = "lightgoldenrod1",
ylab = "Income")
Переменная дохода содержит нетипичные значения в правом хвосте распределения (большие значения).