Análisis gráfico y datos atípicos

Alex Zambrano

Análisis de la forma de la distribución

El punto de partida para entender la naturaleza de cualquier variable es caracterizar la forma de su distribución. Para obtener una perspectiva adecuada de la variable se sugiere realizar un histograma.

library(foreign)
library(ggplot2)

datos <- read.spss("C:/Users/ALeXJZC/Dropbox/SantoTomas/20172/Multivariado/BD/HATCO.SAV", to.data.frame = T)

ggplot(datos,aes(X1)) + geom_histogram(bins = nclass.Sturges(datos$X1)) + xlab(attr(datos,"variable.labels")["X1"])

Una variante del histograma es el diagrama de tallo y hojas

stem(datos$X1)
## 
##   The decimal point is at the |
## 
##   0 | 06
##   1 | 0136688999
##   2 | 0013334444445566788899
##   3 | 0000011112334444445666777889
##   4 | 00011122335566778999
##   5 | 0011222334455689
##   6 | 01

Análisis de relación entre variables

El examen de la distribución de una variable es esencial, pero muchas veces el investigador está interesado en examinar las relaciones entre dos o más variables. El método más popular de análisis de las relacioens bivaraintes es el gráfico de dispersión

datos2 <- subset(datos,select = c("X1","X2","X3","X4","X5","X6","X7","X9"))

library(GGally)
ggpairs(datos2,lower = list(continuous = "smooth"))

Análisis de las diferencias entre grupos

El investigador se entre también con la tarea de entender el carácter y la diferencia entre dos o más grupos de una variable para dos o más variables métricas. El método que se utiliza para esta tarea es el gráfico boxplot

ggplot(datos,aes(X14,X1))+geom_boxplot()

Perfiles multivariantes

Gráfico de estrellas

stars(datos2)

Caras de Chernoff

library(aplpack)
## Loading required package: tcltk
faces(datos2)

## effect of variables:
##  modified item       Var 
##  "height of face   " "X1"
##  "width of face    " "X2"
##  "structure of face" "X3"
##  "height of mouth  " "X4"
##  "width of mouth   " "X5"
##  "smiling          " "X6"
##  "height of eyes   " "X7"
##  "width of eyes    " "X9"
##  "height of hair   " "X1"
##  "width of hair   "  "X2"
##  "style of hair   "  "X3"
##  "height of nose  "  "X4"
##  "width of nose   "  "X5"
##  "width of ear    "  "X6"
##  "height of ear   "  "X7"

Curvas de andrews

library(andrews)
andrews(datos2)

Casos atípicos

Los casos atípicos son observaciones con una combinación única de características identificables que les difencia claramente de las otras observaciones.

Detección de casos atípicos

Detección univariante

Estandarizar las observaciones e identificar las observaciones que son suceptibles a ser atípicas.

Detección bivaraida

Detecciín multivariada

Por simpleza se utilizó el procedimiento propuesto por Johson (1998), el cual consiste en calcular la distancia de mahalanobis \[ d^2_i=(x_i-\bar{x})^tS^{-1}(x_i-\bar{x})\qquad i=1,2,\ldots,n, \] luego se compara estos valores con un valor crítico de la tabla de la distribución \(F_{(1-\alpha,p,n-p-1)}\), donde \(p\) es el número de variables, \(n\) el número de observaciones y \(\alpha=1-(1-0.05)^p\).