Detección de Outliers
Introducción
En el presente artículo se presentan 2 métodos genéricos utilizados en estadística descriptiva para detectar outliers en una variable numérica, ya sea continua o discreta. Más allá de los resultados obtenidos, es necesario destacar que los outliers dependen del tipo de problema que se está analizando y del criterio experto que el analista conocedor de dicha problemática aplica en su análisis.
1° Método: Valor “z”
Esta es una medida de la posición relativa de los valores dentro de
un conjunto de datos. Nos permite determinar a cuantos desvíos respecto
de la media se encuentra un valor.
Para obtener este valor es
necesario haber calculado previamente:
- Media
- Ddesvio
estandard
\[
Z_i = \frac{(x_i - \bar{x})}{S}
\]
Ejemplo: variable continua “income”
A continuación se detalla un breve resumen de las principales medidas descriptivas de la variable “income” (el ingreso de 1319 personas):
vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
X1 | 1 | 1319 | 3.365376 | 1.693902 | 2.9 | 3.091139 | 1.18608 | 0.21 | 13.5 | 13.29 | 1.923702 | 4.89811 | 0.0466408 |
Variable en forma gráfica:
Cálculo del “valor z”
income | media | (x- media) | desvio | valorZ |
---|---|---|---|---|
4.5200 | 3.365376 | 1.154624 | 1.69 | 0.68 |
2.4200 | 3.365376 | -0.945376 | 1.69 | -0.56 |
4.5000 | 3.365376 | 1.134624 | 1.69 | 0.67 |
2.5400 | 3.365376 | -0.825376 | 1.69 | -0.49 |
9.7867 | 3.365376 | 6.421324 | 1.69 | 3.80 |
El valor z nos indica la cantidad de desviaciones estandard que se encuentra un valor respecto de la media. Cuanto mayor sea, más alejado se va a encontrar. La convención general es que a partir de 3 desvio ya se considera un outlier.
ID | income | valorZ | Outlier |
---|---|---|---|
1 | 4.5200 | 0.68 | No |
2 | 2.4200 | -0.56 | No |
3 | 4.5000 | 0.67 | No |
4 | 2.5400 | -0.49 | No |
5 | 9.7867 | 3.80 | Si |
Forma Gráfica
2° Método: Rango intercuartílico
Otro método se basa en el uso de los cuartiles de la variable para
calcular límites inferiores y superiores. Para calcular estos límites
primero es necesario calcular lo siguiente:
- Cuartil 1 (Q1)
- cuartil 3 (Q3)
- Rango intercuartílico (IQR)
\[
IQR = (Q3 - Q1)
\] El IQR es una medida de dispersión que nos muestra el 50% de
los datos que se encuentran distribuidos en el centro de la
distribución.
una vez calculado el IQR se deben calcular los
limites superiores y límites inferiores que son los límites a partir de
los cuales las observaciones se consideran outliers.
\[ LimiteInferior = (Q1 - 1.5*IQR) \]
\[ LimiteSuperior = (Q3 + 1.5*IQR) \]
Ejemplo
income | IQR | cuartil1 | LimiteInf | cuartil3 | LimiteSup |
---|---|---|---|---|---|
4.5200 | 1.75625 | 2.24375 | -0.390625 | 4 | 6.634375 |
2.4200 | 1.75625 | 2.24375 | -0.390625 | 4 | 6.634375 |
4.5000 | 1.75625 | 2.24375 | -0.390625 | 4 | 6.634375 |
2.5400 | 1.75625 | 2.24375 | -0.390625 | 4 | 6.634375 |
9.7867 | 1.75625 | 2.24375 | -0.390625 | 4 | 6.634375 |
Forma Gráfica
El diagrama de cajas o boxplot nos muestra
- La pared izquierda de la caja representa el valor
del Q1 cuartil 1.
- La línea vertical central de la
caja representa el valor de la mediana.
- La pared
derecha de la caja representa el valor del Q3 cuartil 3.
-
Las lineas horizontales o bigotes represetan el 1.5 del
IQR, es decir el límite superior e inferior. Si el mínimo tiene un valor
menor, el bigote se corta en ese punto.
Contacto:
Marcelo G. Gonzalez
Linked in: https://www.linkedin.com/in/marcelo-g-gonzalez/
Linktree Profile: https://linktr.ee/MarceG95
Mail:
marcelo.g.gonzalez95@gmail.com