Detección de Outliers

Introducción

En el presente artículo se presentan 2 métodos genéricos utilizados en estadística descriptiva para detectar outliers en una variable numérica, ya sea continua o discreta. Más allá de los resultados obtenidos, es necesario destacar que los outliers dependen del tipo de problema que se está analizando y del criterio experto que el analista conocedor de dicha problemática aplica en su análisis.

1° Método: Valor “z”

Esta es una medida de la posición relativa de los valores dentro de un conjunto de datos. Nos permite determinar a cuantos desvíos respecto de la media se encuentra un valor.
Para obtener este valor es necesario haber calculado previamente:

- Media
- Ddesvio estandard
\[ Z_i = \frac{(x_i - \bar{x})}{S} \]

Ejemplo: variable continua “income”

A continuación se detalla un breve resumen de las principales medidas descriptivas de la variable “income” (el ingreso de 1319 personas):

Muestra de 5 filas de 1319
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1319 3.365376 1.693902 2.9 3.091139 1.18608 0.21 13.5 13.29 1.923702 4.89811 0.0466408

Variable en forma gráfica:

Cálculo del “valor z”

Muestra de 5 filas de 1319
income media (x- media) desvio valorZ
4.5200 3.365376 1.154624 1.69 0.68
2.4200 3.365376 -0.945376 1.69 -0.56
4.5000 3.365376 1.134624 1.69 0.67
2.5400 3.365376 -0.825376 1.69 -0.49
9.7867 3.365376 6.421324 1.69 3.80

El valor z nos indica la cantidad de desviaciones estandard que se encuentra un valor respecto de la media. Cuanto mayor sea, más alejado se va a encontrar. La convención general es que a partir de 3 desvio ya se considera un outlier.

Muestra de 5 filas de 1319
ID income valorZ Outlier
1 4.5200 0.68 No
2 2.4200 -0.56 No
3 4.5000 0.67 No
4 2.5400 -0.49 No
5 9.7867 3.80 Si

Forma Gráfica

2° Método: Rango intercuartílico

Otro método se basa en el uso de los cuartiles de la variable para calcular límites inferiores y superiores. Para calcular estos límites primero es necesario calcular lo siguiente:

- Cuartil 1 (Q1)
- cuartil 3 (Q3)
- Rango intercuartílico (IQR)

\[ IQR = (Q3 - Q1) \] El IQR es una medida de dispersión que nos muestra el 50% de los datos que se encuentran distribuidos en el centro de la distribución.
una vez calculado el IQR se deben calcular los limites superiores y límites inferiores que son los límites a partir de los cuales las observaciones se consideran outliers.

\[ LimiteInferior = (Q1 - 1.5*IQR) \]

\[ LimiteSuperior = (Q3 + 1.5*IQR) \]

Ejemplo

Muestra de 5 filas de 1319
income IQR cuartil1 LimiteInf cuartil3 LimiteSup
4.5200 1.75625 2.24375 -0.390625 4 6.634375
2.4200 1.75625 2.24375 -0.390625 4 6.634375
4.5000 1.75625 2.24375 -0.390625 4 6.634375
2.5400 1.75625 2.24375 -0.390625 4 6.634375
9.7867 1.75625 2.24375 -0.390625 4 6.634375

Forma Gráfica

El diagrama de cajas o boxplot nos muestra


- La pared izquierda de la caja representa el valor del Q1 cuartil 1.
- La línea vertical central de la caja representa el valor de la mediana.
- La pared derecha de la caja representa el valor del Q3 cuartil 3.
- Las lineas horizontales o bigotes represetan el 1.5 del IQR, es decir el límite superior e inferior. Si el mínimo tiene un valor menor, el bigote se corta en ese punto.

Contacto:
Marcelo G. Gonzalez
Linked in: https://www.linkedin.com/in/marcelo-g-gonzalez/
Linktree Profile: https://linktr.ee/MarceG95
Mail: