Alex Zambrano
El punto de partida para entender la naturaleza de cualquier variable es caracterizar la forma de su distribución. Para obtener una perspectiva adecuada de la variable se sugiere realizar un histograma.
library(foreign)
library(ggplot2)
datos <- read.spss("C:/Users/ALeXJZC/Dropbox/SantoTomas/20172/Multivariado/BD/HATCO.SAV", to.data.frame = T)
ggplot(datos,aes(X1)) + geom_histogram(bins = nclass.Sturges(datos$X1)) + xlab(attr(datos,"variable.labels")["X1"])Una variante del histograma es el diagrama de tallo y hojas
stem(datos$X1)##
## The decimal point is at the |
##
## 0 | 06
## 1 | 0136688999
## 2 | 0013334444445566788899
## 3 | 0000011112334444445666777889
## 4 | 00011122335566778999
## 5 | 0011222334455689
## 6 | 01
El examen de la distribución de una variable es esencial, pero muchas veces el investigador está interesado en examinar las relaciones entre dos o más variables. El método más popular de análisis de las relacioens bivaraintes es el gráfico de dispersión
datos2 <- subset(datos,select = c("X1","X2","X3","X4","X5","X6","X7","X9"))
library(GGally)
ggpairs(datos2,lower = list(continuous = "smooth"))El investigador se entre también con la tarea de entender el carácter y la diferencia entre dos o más grupos de una variable para dos o más variables métricas. El método que se utiliza para esta tarea es el gráfico boxplot
ggplot(datos,aes(X14,X1))+geom_boxplot()stars(datos2)library(aplpack)## Loading required package: tcltk
faces(datos2)## effect of variables:
## modified item Var
## "height of face " "X1"
## "width of face " "X2"
## "structure of face" "X3"
## "height of mouth " "X4"
## "width of mouth " "X5"
## "smiling " "X6"
## "height of eyes " "X7"
## "width of eyes " "X9"
## "height of hair " "X1"
## "width of hair " "X2"
## "style of hair " "X3"
## "height of nose " "X4"
## "width of nose " "X5"
## "width of ear " "X6"
## "height of ear " "X7"
library(andrews)
andrews(datos2)Los casos atípicos son observaciones con una combinación única de características identificables que les difencia claramente de las otras observaciones.
Suregen de un eror de procedimiento, tales como la entrada de datos o un error de coficiación.
Consecuencia de un acontecimiento extraordinario.
Observaciones extraordinarias para las que el investigador no tiene explicación.
Observaciones que se sitúan fuera del rango ordinario de valores de cada variable pero que son únicos en su combinación de valores entre las variables.
Estandarizar las observaciones e identificar las observaciones que son suceptibles a ser atípicas.
Para muestras pequeñas valores estandarizados por encima de 2.5.
Para muestras grandes, valores estandarizados por encima de 3.
Por simpleza se utilizó el procedimiento propuesto por Johson (1998), el cual consiste en calcular la distancia de mahalanobis \[ d^2_i=(x_i-\bar{x})^tS^{-1}(x_i-\bar{x})\qquad i=1,2,\ldots,n, \] luego se compara estos valores con un valor crítico de la tabla de la distribución \(F_{(1-\alpha,p,n-p-1)}\), donde \(p\) es el número de variables, \(n\) el número de observaciones y \(\alpha=1-(1-0.05)^p\).