Para nuestro estudio sobre un banco de datos, hemos usado un dataset del paquete openintro, mas concretamente el dataset USArrest.
Lo primero que tenemos que hacer es instalar el paquete e importarlo con install.packages(“openintro”) y library(openintro). Después metemos el dataset en delincuencia.
delincuencia <- datasets::USArrests
Como vamos a enfocarnos en los asesinatos, vamos a mostrarlos en un diagrama de barras.
barplot(delincuencia$Murder, names.arg = rownames(delincuencia), las = 2, cex.names = 0.5)
Tras esto, vamos a distingir entre los estados del norte y los der sur, para ver si a priori hay diferencias.
estados_norte <- c("Massachusetts", "Rhode Island",
"New York", "New Jersey", "Pennsylvania", "Michigan", "Ohio", "Illinois", "Wisconsin",
"Minnesota", "Iowa", "Missouri", "North Dakota", "South Dakota", "Nebraska", "Kansas")
estados_sur <- c("Delaware", "Maryland", "Virginia", "West Virginia", "North Carolina", "South Carolina", "Georgia",
"Florida", "Kentucky", "Tennessee", "Alabama", "Mississippi", "Arkansas", "Louisiana", "Texas",
"Oklahoma")
delincuencia_norte <- delincuencia[rownames(delincuencia) %in% estados_norte, ]
delincuencia_sur <- delincuencia[rownames(delincuencia) %in% estados_sur, ]
delincuencia_norte <- delincuencia[rownames(delincuencia) %in% estados_norte, ]
delincuencia_sur <- delincuencia[rownames(delincuencia) %in% estados_sur, ]
barplot(delincuencia_norte$Murder, names.arg = rownames(delincuencia_norte), las = 2, main = "Asesinatos por estado del Norte")
barplot(delincuencia_sur$Murder, names.arg = rownames(delincuencia_sur), las = 2, main = "Asesinatos por estado del Sur")
Gracias a esto podemos ver que en el norte hay picos mas altos pero en el sur la media parece ser mas alta.
Vamos a estudiar la relacion entre los asesinatos de los estados del norte y los estados del sur. Para ello vamos a plantear una hipotesis. La media real de asesinatos en los estados del norte es igual a la media real de asesinatos en el sur.
Hipotesis Nula: Ocurren los mismos asesinatos de media en estados del norte que del sur.
Hipotesis Alternativa: No ocurren los mismos asesinatos de media en estados del norte que del sur.
Para ello vamos a empezar mirando las varianzas de ambas muestras:
Mnorte <- delincuencia_norte$Murder
Msur <-delincuencia_sur$Murder
var.test(Mnorte,Msur)
##
## F test to compare two variances
##
## data: Mnorte and Msur
## F = 0.82951, num df = 15, denom df = 15, p-value = 0.722
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2898279 2.3741463
## sample estimates:
## ratio of variances
## 0.8295142
Como las varianzas son iguales, vamos a mirar que las medias sean las mismas:
t.test(Mnorte,Msur,var.equal = TRUE)
##
## Two Sample t-test
##
## data: Mnorte and Msur
## t = -4.595, df = 30, p-value = 7.292e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -8.441021 -3.246479
## sample estimates:
## mean of x mean of y
## 5.86250 11.70625
Como las medias no son iguales, tenemos que averiguar cual es menor y cual es mayor.
t.test(Mnorte,Msur,var.equal = TRUE,alternative = "greater")
##
## Two Sample t-test
##
## data: Mnorte and Msur
## t = -4.595, df = 30, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -8.002251 Inf
## sample estimates:
## mean of x mean of y
## 5.86250 11.70625
t.test(Mnorte,Msur,var.equal = TRUE,alternative = "less")
##
## Two Sample t-test
##
## data: Mnorte and Msur
## t = -4.595, df = 30, p-value = 3.646e-05
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -3.685249
## sample estimates:
## mean of x mean of y
## 5.86250 11.70625
Gracias a estos test, sabemos que hay evidencia estadistica por la que podemos afirmar, que ocurren mas asesinatos en los estados del sur. Por ello, rechazamos la hipotesis Nula y se comprueba la hipotesis Alternativa.
.