1 Presentacion de los datos

Para nuestro estudio sobre un banco de datos, hemos usado un dataset del paquete openintro, mas concretamente el dataset USArrest.

Lo primero que tenemos que hacer es instalar el paquete e importarlo con install.packages(“openintro”) y library(openintro). Después metemos el dataset en delincuencia.

delincuencia <- datasets::USArrests

2 Estudio objetivo de los datos

Como vamos a enfocarnos en los asesinatos, vamos a mostrarlos en un diagrama de barras.

barplot(delincuencia$Murder, names.arg = rownames(delincuencia), las = 2, cex.names = 0.5)

3 Filtro de datos

Tras esto, vamos a distingir entre los estados del norte y los der sur, para ver si a priori hay diferencias.

estados_norte <- c("Massachusetts", "Rhode Island",
                   "New York", "New Jersey", "Pennsylvania", "Michigan", "Ohio", "Illinois", "Wisconsin",
                   "Minnesota", "Iowa", "Missouri", "North Dakota", "South Dakota", "Nebraska", "Kansas")
estados_sur <- c("Delaware", "Maryland", "Virginia", "West Virginia", "North Carolina", "South Carolina", "Georgia",
                 "Florida", "Kentucky", "Tennessee", "Alabama", "Mississippi", "Arkansas", "Louisiana", "Texas",
                 "Oklahoma")

delincuencia_norte <- delincuencia[rownames(delincuencia) %in% estados_norte, ]
delincuencia_sur <- delincuencia[rownames(delincuencia) %in% estados_sur, ]

delincuencia_norte <- delincuencia[rownames(delincuencia) %in% estados_norte, ]
delincuencia_sur <- delincuencia[rownames(delincuencia) %in% estados_sur, ]

barplot(delincuencia_norte$Murder, names.arg = rownames(delincuencia_norte), las = 2, main = "Asesinatos por estado del Norte")

barplot(delincuencia_sur$Murder, names.arg = rownames(delincuencia_sur), las = 2, main = "Asesinatos por estado del Sur")

4 Presentacion de las hipotesis

Gracias a esto podemos ver que en el norte hay picos mas altos pero en el sur la media parece ser mas alta.

Vamos a estudiar la relacion entre los asesinatos de los estados del norte y los estados del sur. Para ello vamos a plantear una hipotesis. La media real de asesinatos en los estados del norte es igual a la media real de asesinatos en el sur.

Hipotesis Nula: Ocurren los mismos asesinatos de media en estados del norte que del sur.

Hipotesis Alternativa: No ocurren los mismos asesinatos de media en estados del norte que del sur.

5 Contraste de Hipotesis

Para ello vamos a empezar mirando las varianzas de ambas muestras:

Mnorte <- delincuencia_norte$Murder
Msur <-delincuencia_sur$Murder

var.test(Mnorte,Msur)

## 
##  F test to compare two variances
## 
## data:  Mnorte and Msur
## F = 0.82951, num df = 15, denom df = 15, p-value = 0.722
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2898279 2.3741463
## sample estimates:
## ratio of variances 
##          0.8295142

Como las varianzas son iguales, vamos a mirar que las medias sean las mismas:

t.test(Mnorte,Msur,var.equal = TRUE)

## 
##  Two Sample t-test
## 
## data:  Mnorte and Msur
## t = -4.595, df = 30, p-value = 7.292e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -8.441021 -3.246479
## sample estimates:
## mean of x mean of y 
##   5.86250  11.70625

Como las medias no son iguales, tenemos que averiguar cual es menor y cual es mayor.

t.test(Mnorte,Msur,var.equal = TRUE,alternative = "greater")

## 
##  Two Sample t-test
## 
## data:  Mnorte and Msur
## t = -4.595, df = 30, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -8.002251       Inf
## sample estimates:
## mean of x mean of y 
##   5.86250  11.70625

t.test(Mnorte,Msur,var.equal = TRUE,alternative = "less")

## 
##  Two Sample t-test
## 
## data:  Mnorte and Msur
## t = -4.595, df = 30, p-value = 3.646e-05
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -3.685249
## sample estimates:
## mean of x mean of y 
##   5.86250  11.70625

6 Conclusiones

Gracias a estos test, sabemos que hay evidencia estadistica por la que podemos afirmar, que ocurren mas asesinatos en los estados del sur. Por ello, rechazamos la hipotesis Nula y se comprueba la hipotesis Alternativa.

Banco de Datos de Asesinatos en USA

Marcos López Gómez, Diego García Díaz y Alberto Pérez Álvarez