DETECCIÓN Y ELIMINACIÓN DE VALORES OUTLIERS.

Primero cargamos la base de datos.

df<-read.csv("https://faculty.washington.edu/heagerty/Books/Biostatistics/DATA/ozone.csv")

Realizamos un gráfico de caja de la variable Wind

g_caja<-boxplot(df$Wind, col="skyblue", frame.plot=F)

Se puede ver que hay algunos outliers. Entonces si queremos conocer los outliers. sólo llamamos a los outliers con el comando $out

g_caja$out

## [1] 20.1 18.4 20.7

RUCUERDA QUE:

La función boxplot() detecta outliers como todo valor que está más allá de los bigotes. Los bigotes son las líneas que se determinan como el tercer cuartil + 1.5 veces el rango intercuartílico (Tercer cuartil menos el primer cuartil) y el primer cuartil -1.5 veces el rango intercuartílico.

Bigote superior=3Q+1.5*RIC

Bigote inferior=1Q-1.5*RIC

Nos muestra tres outliers. Entonces un método de correción sería el de eliminar los outliers (en realidad, es el método que no debería de usarse. Es mejor considerar la discretización, que se verá posteriormente).

Entonces para eliminar los outliers usamos el operador pertenece %in% que funciona igual que el símbolo matemático $\in$ que se usa en la teoría de conjuntos.

df<-df[!(df$Wind %in% g_caja$out),]

Para comprobar que los outliers han sido eliminados volvamos a ver el gráfico de caja.

boxplot(df$Wind, col="skyblue", frame.plot=F)

En efecto, los outliers han sido eliminados.

DETECCIÓN Y ELIMINACIÓN DE VALORES OUTLIERS.

César Anderson Huamaní Ninahuanca

22 de Julio de 2020

RUCUERDA QUE: