02/05/24
Abstract
En Rpubs:: Estadística descriptiva puede ver detalles de la teoría explicada acá. En Rpubs:: toc se pueden ver otros documentos de posible interés.
library(aplore3) #Base de datos para los ejemplos
library(lsm) #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse) #Incluye a dplyr y ggplot2
library(stringr) #Reemplazar caracteres en un data frame
library(outliers) #outliers::grubbs.test
library(EnvStats) #EnvStats::rosnerTest
library(DMwR2) #LOF (Local Outlier Factor)
library(rgl) #rgl::plot3d
Hacer click derecho para visualizar el documento correspondiente.
Estos pueden surgir de la:
Experimentación (mediante diseño experimental)
Observación (al recopilar información existente).
En la figura de abajo se muestra los diferentes tipos de variables.
Para complementar, puede ver este link.
En general, hay dos tipos:
En la figura de abajo se ilustran con un par de ejemplos.
Para complementar, puede ver este link.
Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes:
En la figura de abajo se ilustra cada una de los gráficos mencionados arriba.
Para complementar, puede ver este link.
Se pueden organizar en cuatro (4) grandes grupos, como se muestra en la figura de abajo. En cada grupo mencionamos solo algunas medidas.
Para complementar, puede ver este link.
Denotemos por \((x_1,y_1)\), \((x_2,y_2)\), \(\ldots\), \((x_n,y_n)\) una muestra aleatoria de \(n\) pares de observaciones de las variables aleatorias \(X\) e \(Y\). La Covarianza de \(X\) y \(Y\) está definida, por: \[S_{xy} \; = \; \sum\limits_{i=1}^n x_iy_i \;-\; n\,\overline{x}\,\overline{y}\]
Interpretación:
\(S_{xy}>0\) indica una asociación lineal positiva entre los datos de las variables.
\(S_{xy}<0\) indica una asociación lineal negativa entre los datos de las variables.
\(S_{xy}=0\) indica que no hay una asociación lineal entre los datos de las variables.
Observación: \(Var(X) = S_{xx}\) y \(Var(Y) = S_{yy}\).
Denotemos por \((x_1,y_1)\), \((x_2,y_2)\), \(\ldots\), \((x_n,y_n)\) una muestra aleatoria de \(n\) pares de observaciones de las variables aleatorias \(X\) e \(Y\). Entonces, la correlación muestral entre \(X\) e \(Y\) se define como: \[r\;=\; Corr(X,Y)\;= \; \frac{S_{xy}}{\sqrt{S_{xx}\, S_{yy}}} \;= \; \frac{\sum\limits_{i=1}^n x_iy_i \;-\; n\,\overline{x}\,\overline{y}}{\sqrt{\left(\sum\limits_{i=1}^n x_i^2 \;-\; n\,\overline{x}^2\right)\left(\sum\limits_{i=1}^n y_i^2 \;-\; n\,\overline{y}^2\right)}}\]
Observaciones:
El coeficiente de correlación es una medida estandarizada de la asociación lineal que existe entre dos variables, en relación con sus desviaciones.
Utilizaremos el símbolo \(\rho\) para representar el coeficiente de correlación poblacional.
Sean \(X\) y \(Y\) dos variables aleatorias cualesquiera (discretas o continuas) con varianzas finitas y positivas y sean \(a, b,c,d\) números reales. Entonces,
\[-1\quad \leq \quad r\quad \leq \quad 1\]
Se obtiene \(r=1\) ó \(-1\) si y sólo si existen dos números reales \(m,r\) con \(m\ne 0\), tales que \(Y=mX +r\).
Si \(X\) y \(Y\) son independientes, entonces \(r=0\). El recíproco no es cierto, es decir, \(r=0\) no implica independencia.
Si \(a\) y \(c\) son ambas positivas o ambas negativas, se cumple que:
\[Corr(aX+b, cY+d) \; = \; Corr(X,Y)\]
Para fines descriptivos, la correlación se propone como:
Perfecta si \(|r| = 1\).
Fuerte si \(|r|\geq 0.8\).
Moderada si \(0.5<|r|<0.8\).
Débil si \(|r|\leq 0.5\).
Positiva si \(r>0\).
Negativa si \(r<0\).
La figura de abajo ilustra estas situaciones.
\[r^2 \;= \; \frac{S_{xy}^2}{S_{xx}\, S_{yy}} \;= \; \frac{SSR}{S_{yy}}\]
El coeficiente de determinación muestral representa la proporción de la variación de \(S_{yy}\) explicada por la regresión de \(Y\) sobre \(x\), a saber, \(SSR\). Es decir, \(r^2\) expresa la proporción de la variación total en los valores de la variable \(Y\) que se pueden explicar mediante la relación lineal con los valores de la variable aleatoria \(X\).
Propuestas para la interpretación de \(r^2\): Cualquiera de las que aparecen abajo (escribir siempre lo que siginifica \(y\) y \(x\)):
El tanto por ciento de la variación observada en \(y\) (o se puede decir también: … de la variabilidad de \(y\)) se explica por su dependencia lineal de \(x\).
El tanto por ciento de la variación observada en \(y\) (o de la variabilidad de \(y\)) se puede atribuir a la regresión lineal simple entre \(x\) y \(y\).
Un vector aleatorio es una variable aleatoria multidimensional. Se representa comúnmente por letras mayúsculas, como \(X\).
\[\mathbf{X} \; = \; \begin{bmatrix} X_1 \\ X_2 \\ \vdots\\ X_n \end{bmatrix}\]
Una matriz aleatoria es una arreglo de variables aleatorias organizadas en una estructura de matriz. Se denota comúnmente por letras mayúsculas, como \(X\) (en el ejemplo de abajo, es una matriz de tamaño \(J\times K\)).
\[\mathbf{X} \; = \; \begin{bmatrix} X_{11} & \cdots & X_{1K} \\ \vdots & \ddots & \vdots \\ X_{J1} & \ldots &X_{JK} \end{bmatrix}\]
\[\boldsymbol{X} \; = \; \left(\begin{array}{lllll} x_{11} & x_{12} & x_{13} & \cdots & x_{1K} \\ x_{21} & x_{22} & x_{23} & \cdots & x_{2K} \\ x_{31} & x_{32} & x_{33} & \cdots & x_{3K} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & x_{n3} & \cdots & x_{nK} \\ \end{array}\right) \]
Se dispone de datos correspondientes a inversiones en los diferentes tipos de industrias de un país, medidas en millones de dólares, desde 2007 hasta 2010. El resumen de esta información puede presentarse sintéticamente sobre a través de la matriz que se muestra abajo. En esta matriz las filas representan años y las columnas indican el tipo de industria. Cada celda \(x_{nk}\) la inversión efectuada durante el año \(n\) en la industria \(k\).
El vector de media muestral se define como:
\[\boldsymbol{\mu} \; = \; \left(\begin{array}{c} E(X_{1}) \\ E(X_{2}) \\ E(X_{3}) \\ \vdots \\ E(X_{K}) \\ \end{array}\right) \]
\[E(\mathbf{X}) \; = \; \begin{bmatrix} E(X_{11}) & \cdots & E(X_{1K}) \\ \vdots & \ddots & \vdots \\ E(X_{J1}) & \ldots &E(X_{JK}) \end{bmatrix}\]
La matriz de varianza y covarianza muestral, o matriz de covarianza muestral, se define como
\[{\boldsymbol{S}}: \; = \; \left(\begin{array}{lllll} S_{11} & S_{12} & S_{13} & \cdots & S_{1K} \\ S_{21} & S_{22} & S_{23} & \cdots & S_{2K} \\ S_{31} & S_{32} & S_{33} & \cdots & S_{3K} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ S_{K1} & S_{K2} & S_{K3} & \cdots & S_{KK} \\ \end{array}\right) \]
Observaciones:
\(S_{ij}\) es la covarianza muestral entre las variables \(X_i\) y \(X_j\).
Siempre se tiene que \({\boldsymbol{S}}\) es simétrica.
La matriz de correlaciones se define como:
\[{\boldsymbol{R}}: \; = \; \left(\begin{array}{lllll} 1 & r_{12} & r_{13} & \cdots & r_{1K} \\ r_{21} & 1 & r_{23} & \cdots & r_{2K} \\ r_{31} & r_{32} & 1 & \cdots & r_{3K} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ r_{K1} & r_{K2} & r_{K3} & \cdots & 1 \\ \end{array}\right)\]
Observaciones:
\(r_{ij}\) es la correlación muestral entre las variables \(X_i\) y \(X_j\).
Siempre se tiene que \({\boldsymbol{R}}\) es simétrica.
Si las variables están estadarizadas, entonces, \(s_{ij}=r_{ij}\). Por lo tanto, \({\boldsymbol{S}}={\boldsymbol{R}}\).
Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:
\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix} \]
En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.1:
Figure 7.1: Diagrama de dispersión entre dos variables con covarianzas nulas
Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:
\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 0.5 \\ 0.5 & 3 \end{bmatrix} \]
En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.2:
Figure 7.2: Diagrama de dispersión entre dos variables con covarianza = 0.5
Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:
\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix} \]
En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.3:
Figure 7.3: Diagrama de dispersión entre dos variables con covarianza = 1
Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:
\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 2 \\ 2 & 3 \end{bmatrix} \]
En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.4:
Figure 7.4: Diagrama de dispersión entre dos variables con covarianza = 2
Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:
\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & -2 \\ -2 & 3 \end{bmatrix} \]
En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.5:
Figure 7.5: Diagrama de dispersión entre dos variables con covarianza negativa
Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios.
datosCompleto <- lsm::survey
attach(datosCompleto)
dat <- datosCompleto[,3:10]
attach(dat)
## # A tibble: 6 × 8
## Gender Like Age Smoke Height Weight BMI School
## <chr> <chr> <dbl> <chr> <dbl> <dbl> <dbl> <chr>
## 1 Female TV 21.4 No 1.58 75 30.0 Private
## 2 Male Network 21.1 Yes 1.6 80 31.2 Public
## 3 Male Network 20.9 Yes 1.5 64 28.4 Private
## 4 Male TV 18.4 Yes 1.53 49 20.9 Public
## 5 Female TV 16.6 Yes 1.78 82 25.9 Private
## 6 Female Network 16.0 No 1.65 80 29.4 Public
Es un data frame con 800 observaciones y 66 variables:
names(datosCompleto)
## [1] "Observation" "ID" "Gender" "Like" "Age"
## [6] "Smoke" "Height" "Weight" "BMI" "School"
## [11] "SES" "Enrollment" "Score" "MotherHeight" "MotherAge"
## [16] "MotherCHD" "FatherHeight" "FatherAge" "FatherCHD" "Status"
## [21] "SemAcum" "Exam1" "Exam2" "Exam3" "Exam4"
## [26] "ExamAcum" "Definitive" "Expense" "Income" "Gas"
## [31] "Course" "Law" "Economic" "Race" "Region"
## [36] "EMO1" "EMO2" "EMO3" "EMO4" "EMO5"
## [41] "GOAL1" "GOAL2" "GOAL3" "Pre_STAT1" "Pre_STAT2"
## [46] "Pre_STAT3" "Pre_STAT4" "Post_STAT1" "Post_STAT2" "Post_STAT3"
## [51] "Post_STAT4" "Pre_IDARE1" "Pre_IDARE2" "Pre_IDARE3" "Pre_IDARE4"
## [56] "Pre_IDARE5" "Post_IDARE1" "Post_IDARE2" "Post_IDARE3" "Post_IDARE4"
## [61] "Post_IDARE5" "PSICO1" "PSICO2" "PSICO3" "PSICO4"
## [66] "PSICO5"
Llevar a cabo un análisis exploratorio.
Solo a manera de ejemplo con mis datos.
ggplot(datosCompleto, aes(x = Age)) +
geom_freqpoly(aes(color = Enrollment)
#, binwidth = 500, linewidth = 0.75
)
Tabla <- table(Enrollment)
kable(Tabla, align = "ccc") %>%# Se necesita library(knitr)
kable_styling() %>% #library(kableExtra).... Solo para knit to html
kable_classic_2(full_width = F) #library(kableExtra)....Solo para knit to html
Enrollment | Freq |
---|---|
Credit | 248 |
Savings | 285 |
Scholarship | 265 |
datos_e<-datosCompleto[!is.na(Enrollment),]
#head(datos, n= 8)
ggplot(datos_e, aes(x = Age)) +
geom_freqpoly(aes(color = Enrollment)
#, binwidth = 500, linewidth = 0.75
)
df_0 <- datosCompleto[,c(3, 5,7,8,9) ]
df <- df_0[,-1]
# Contar NAs. MARGIN es un entero y FUN es la función que será aplicada a cada fila o columna. MARGIN = 1 ejecuta la función a las filas de una tabla, mientras que MARGIN = 2 lo hace a las columnas.
apply( X= is.na(df), MARGIN = 2, FUN = sum)
## Age Height Weight BMI
## 2 2 1 3
# Obtención del vector de media muestral
colMeans(df, na.rm=TRUE)
## Age Height Weight BMI
## 17.547343 1.695363 74.140426 25.952441
# Matriz de covarianza muestral
mat_cov<-cov(df, use = 'complete')
mat_cov
## Age Height Weight BMI
## Age 6.173131436 -0.006385696 -0.7092864 0.05836394
## Height -0.006385696 0.006943650 0.0681184 -0.18764974
## Weight -0.709286388 0.068118397 237.2826631 81.28162877
## BMI 0.058363936 -0.187649743 81.2816288 34.59181475
# Matriz de correlación muestral
mat_cor<-cor(df, use = 'complete')
mat_cor
## Age Height Weight BMI
## Age 1.000000000 -0.03084335 -0.01853258 0.003993973
## Height -0.030843351 1.00000000 0.05306859 -0.382884160
## Weight -0.018532579 0.05306859 1.00000000 0.897165822
## BMI 0.003993973 -0.38288416 0.89716582 1.000000000
# Coeficiente de asimetría muestral
skewness=function(x) {
xbarra= mean(x, na.rm=TRUE)
dif3=(x-xbarra)^3
m3=mean(dif3, na.rm=TRUE)
skew=m3/(sd(x, na.rm=TRUE)^3)
skew}
skewness(Age)
## [1] 0.1008381
# Coeficiente de curtosis muestral
kurtosis=function(x) {
xbarra= mean(x, na.rm=TRUE)
dif4=(x-xbarra)^3
m4=mean(dif4, na.rm=TRUE)
kurt=m4/(sd(x, na.rm=TRUE)^4)
kurt}
kurtosis(Age)
## [1] 0.04054528
# Gráfico de puntos
p <- ggplot(df_0, aes(Age, Height))
p + geom_point()
# Añadir aesthetic mappings
p + geom_point(aes(colour = factor(Gender)))
# Gráfico de caja y bigotes
p <- ggplot(df_0, aes(Gender, Age))
p + geom_boxplot()
# Gráfico de caja y bigotes
df_00 <- df_0[!is.na(Gender),]
p <- ggplot(df_00, aes(Gender, Age))
p + geom_boxplot()
# Matriz de dispersión
X<-as.matrix(df)
pairs(X)
La mayoría de las ténicas multivariantes se basan en el concepto de distancia. Por esta razón, explicaremos algunas de ellas.
La distancia de un punto \(A(x_1,y_1)\) a un punto \(B(x_2,y_2)\) viene dada por: \[d(A,B) \; = \; \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2}\]
Cuando \(A\) es el origen, entonces, \[d(A,B) \; = \; \sqrt{x_2^2 + y_2^2}\]
El lugar geométrico correspondiente al conjunto de los puntos \(B\) del plano que equidistan de \(A\) es una circunferencia con centro en \(A\) y radio \(r=d(A,B)\):
Observaciones:
La distancia euclidiana comúnmente resulta insatisfactoria en la mayoría de las aplicaciones estadísticas, ya que asigna igual importancia a cada coordenada en su cálculo. Esto implica que: (1) todos los puntos se consideran igualmente probables y (2) que no se tienen en cuenta posibles relaciones entre ellos. No obstante, los datos generados por variables aleatorias diferentes pueden mostrar variabilidades distintas y estar interrelacionados. Por ende, es necesario desarrollar una medida de distancia que considere estas características.
Supongamos que se tiene \(n\) pares de medidas \((x_{i}, y_{i})\) de dos variables \(x\) y \(y\).
Las mediciones varían independientemente, pero la variabilidad de \(x\) es mayor que la de \(y\).
Un camino para calcular la distancia correspondiente es estadarizar las coordenadas, de la siguiente manera: \[\tilde{x} \; = \; \frac{x}{\sqrt{S_{xx}}}, \qquad \tilde{y} \; = \; \frac{y}{\sqrt{S_{yy}}}, \qquad\] Las coordenadas recién obtenidas presentan una variabilidad idéntica, y para determinar la distancia, se puede aplicar la fórmula de la distancia Euclidiana. Por lo tanto, la distancia estadística de un punto \(B(x, y)\) con respecto al origen \(A(0, 0)\) se calcula mediante así: \[d(A,B) \; = \; \sqrt{\tilde{x}^2 + \tilde{y}^2} \; = \; \sqrt{\frac{x^2}{S_{xx}} + \frac{y^2}{S_{yy}}}\]
El lugar geométrico se refiere a una elipse que tiene su centro en el origen y cuyos ejes principal y secundario se alinean con los ejes de coordenadas.
Las mediciones de las variables \(x\) y \(y\) presentan variabilidades distintas y están correlacionadas.
Se nota que al girar el sistema de coordenadas original mediante un ángulo \(theta\), conservando los puntos fijos y etiquetando los nuevos ejes como \(tilde{x}\) y \(tilde{y}\), la dispersión en relación con los nuevos ejes es análoga al caso original. Esto indica que, para calcular la distancia estadística desde el punto \(B(x, y\)) respecto al origen \(A(0, 0)\), se puede emplear el mismo enfoque: \[d(A,B) \; = \; \sqrt{\frac{\tilde{x}^2}{\tilde{S}_{xx}} + \frac{\tilde{y}^2}{\tilde{S}_{yy}}}\]
En la fómula anterior, \(\tilde{S}_{xx}\) y \(\tilde{S}_{yy}\) representan las varianzas muestrales de \(\tilde{x}\) y \(\tilde{y}\), respectivamente. Se puede determinar que la relación entre las coordenadas originales y las rotadas es
\[\begin{eqnarray*} \tilde{x} &=& x \cos(\theta) + y \sin(\theta) \\ \tilde{y} &=& -x \sin(\theta) + y\cos(\theta) \end{eqnarray*}\]
Con base en estas relaciones, se pude calcular la distancia desde \(B(x, y\)) hasta \(A(0, 0)\), así:
\[d(A,B) \; = \; \sqrt{a x^2 + b y^2 + 2cxy}\]
En la expresión anterior, las constantes \(a\), \(b\) y \(c\) deben ser tales que la distancia sea siempre igual o mayor a cero para cualquier combinación de valores de \(x\) y \(y\).
Sea \(C(y_1,y_2)\) un punto fijo. Entonces, de manera general, la distancia desde el punto \(B(x_1,x_2)\) hasta C es \[d(A,B) \; = \; \sqrt{a (x_1-y_1)^2 \;+\; b (x_2-y_2)^2 \;+\; 2c(x_1-y_1)(x_2-y_2)}\] El lugar geométrico de \(C\) y \(B\) es una elipse con centro \(C\) y cuyos ejes mayor y menor son paralelos a los ejes rotados.
La extensión de las fórmulas a K dimensiones es sencilla. Supongamos \(B(x_1, x_2, \ldots, x_K)\) como un punto con coordenadas que representan variables correlacionadas y sujetas a distintas variabilidades, y \(C(y_1, y_2, \ldots, y_K)\) como otro punto. En este caso, la distancia estadística de B a A se expresa como:
\[d(A,B) \; = \; \sqrt{\sum\limits_{k=1}^K d_{kk}(x_k-y_k) \;+\; 2 d_{12} (x_1-y_1)(x_2-y_2) \;+\; 2 d_{13} (x_1-y_1)(x_3-y_3) \;+\; \cdots \;+\; 2 d_{K-1,K} (x_{K-1}-y_{K-1})(x_K-y_K)} \] Aquí, las constantes \(d_{ik}\) deben ser tales que las distancias sean siempre mayores o iguales que cero. El lugar geométrico de todos los puntos \(B\) cuya distancia cuadrática a \(C\) es la misma es una hiperelipsoide.
Si las constantes \(d_{ik}\) son tales que la matriz \(D=(d_{ik})\) es simétrica de tamaño \(K\times K\), entonces, la distancia estadística de \(B\) a \(C\) se puede escribir matricialmente como: \[d(B,C) \; = \; \sqrt{(x-y)^T D (x-y)}\]
siendo \[x-y \; = \; (x_1-y_1, x_2-y_2, \ldots, x_K-y_k)^T\]
En este caso, \(D\) debe ser una matriz definida positiva para que la distancia sea mayor o igual que cero.
Sea \({\boldsymbol{S}}\) la matriz de varianzas y covarianzas. Entonces, cuando \(D={\boldsymbol{S}}^{-1}\), la distancia estadística
\[d(B,C) \; = \; \sqrt{(x-y)^T {\boldsymbol{S}}^{-1} (x-y)}\]
es llamada la distancia muestral de Malahanobis.
Presentaremos una serie de ejemplos, suponiendo conocida la matriz de varianza y covarianzas de un conjunto de datos. Para cada caso, el objetivo es hallar los valores y vectores propios.
Datos.
Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:
\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 0 \\ 0 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 2 \\ 2 & 3 \end{bmatrix} \]
Diagram de dispersión.
En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 14.1:
Figure 14.1: Diagrama de dispersión entre dos variables con covarianza positiva
Planteamiento del problema.
¿Se puede encontrar un vector que pudiese aproximar el espacio 2D que se muetra en la Figura 14.1? ¿ Por ejemplo, como el vector rojo que se muestra en la Figura 14.2?
Figure 14.2: Diagrama de dispersión entre dos variables con covarianza positiva
Respuesta intuitiva.
La solución es:
Solamente pensar en la varianza.
O sea, hallar los autovectores de la matriz de covarianzas.
Autovalores y autovectores
Computando los valores y vectores propios de \(\Sigma\), encontramos:
\[\begin{eqnarray} \lambda_1 = 0.4384 \quad &\Longrightarrow& \quad v_1 \; = \; \begin{bmatrix} -0.7882 \\ 0.6154 \end{bmatrix}\\ &&\\ \lambda_2 = 4.5616 \quad &\Longrightarrow& \quad v_2 \; = \; \begin{bmatrix} 0.6154 \\ 0.7882 \end{bmatrix} \end{eqnarray}\]
Gráficamente, se pueden visualizar estos vectores en la Figura 14.3.
Figure 14.3: Vectores y valores propios
Véase la Figura 14.4.
Figure 14.4: Vectores y valores propios (interpetación)
Consideremos la siguiente matriz de covarianzas de un conjunto de datos:
\[\Sigma \; = \; \begin{bmatrix} 1.5 & 0.5 \\ 0.5 & 1.5 \end{bmatrix}\]
Se resalta que presentamos el caso en que tenemos elementos diagonales distintos de cero. En la Figura 14.5, se muestra la transformación correspondiente.
Figure 14.5: Transformación lineal de la matriz de covarianzas
Computando los valores y vectores propios de \(\Sigma\), encontramos:
\[\begin{eqnarray} \lambda_1 = 1 \quad &\Longrightarrow& \quad v_1 \; = \; \begin{bmatrix} -0.7071 \\ 0.7071 \end{bmatrix}\\ &&\\ \lambda_2 = 2 \quad &\Longrightarrow& \quad v_2 \; = \; \begin{bmatrix} 0.7071 \\ 0.7071 \end{bmatrix} \end{eqnarray}\]
Gráficamente, se pueden visualizar estos vectores en la Figura 14.6.
Figure 14.6: vectores y valores propoios de la matriz de covarianzas
¿Qué indican los valores y vectores propios?
Indican que la transformación lineal produce un escalado de \(\lambda\) a lo largo del vector propio correspondiente a \(\lambda\). En este ejemplo:
\[v_1 \; = \; \begin{bmatrix} -0.7071 \\ 0.7071 \end{bmatrix}\]
\[v_2 \; = \; \begin{bmatrix} 0.7071 \\ 0.7071 \end{bmatrix}\]
Aunque empezamos con una transformación no diagonal (\(A\), la utilizada en el ejemplo 1), al calcular los vectores propios y proyectando los datos sobre esos eigenvectores nos permite diagonalizar la transformación (véase la Figura 14.7). Se dejan los cálculos al lector.
Figure 14.7: Diagonalización de la transformación
Consideremos el conjunto de datos:
\[X \;=\; \{X_1, X_2\} \;=\; \{(1,2), (3,3),(3,5),(5,4),(5,6),(6,5),(8,7),(9,8)\}\]
X_1 <- c(1,3,3,5,5,6,8,9)
X_2 <- c(2,3,5,4,6,5,7,8)
df <- data.frame(X_1,X_2)
Diagrama de dispersión:
ggplot(df, aes(X_1, X_2)) +
geom_point(colour = "red",size=3)+
labs(x="X1", y= "X2") +
labs(fill = "") +
theme_bw(base_size = 15)
Vector de medias
\[\overline{X} \; = \; \begin{bmatrix} 5 \\ 5 \end{bmatrix}\]
rbind(mean(X_1), mean(X_2))
## [,1]
## [1,] 5
## [2,] 5
Matriz de covarianzas:
La matrix de covarianzas muestral es:
\[S \; = \; \begin{bmatrix} 7.142857 & 4.857143 \\ 4.857143 & 4.000000 \end{bmatrix}\]
S <- cov(df)
Función eigen
en R:
Aplicamos la función eigen
para hallar los valores y vectores propios:
eig <- eigen(S)
eig
## eigen() decomposition
## $values
## [1] 10.676448 0.466409
##
## $vectors
## [,1] [,2]
## [1,] -0.8086471 0.5882940
## [2,] -0.5882940 -0.8086471
Cálculo de autovalores y autovectores:
\[\begin{eqnarray} \lambda_1 = 10.676448 \quad &\Longrightarrow& \quad v_1 \; = \; \begin{bmatrix} -0.8086471 \\ -0.5882940 \end{bmatrix}\\ &&\\ \lambda_2 = 0.466409 \quad &\Longrightarrow& \quad v_2 \; = \; \begin{bmatrix} 0.5882940 \\ -0.8086471 \end{bmatrix} \end{eqnarray}\]
# Valores propios
lambda <- eig$values; lambda
## [1] 10.676448 0.466409
# Vectores propios
v <- eig$vectors; v
## [,1] [,2]
## [1,] -0.8086471 0.5882940
## [2,] -0.5882940 -0.8086471
Los vectores se pueden visualizar en la Figura 14.8).
Figure 14.8: Valores y vectores propios
Autovectores individuales:
v[,1] # Primer autovector
## [1] -0.8086471 -0.5882940
v[,2] # Segundo autovector
## [1] 0.5882940 -0.8086471
Podemos mostrar que estos son los eigenvectores asociados:
round(S %*% v[,1], 5) == round(lambda[1] * v[,1], 5)
## [,1]
## X_1 TRUE
## X_2 TRUE
round(S %*% v[,2], 5) == round(lambda[2] * v[,2], 5)
## [,1]
## X_1 TRUE
## X_2 TRUE
A continuación introduciremos la llamada distribución normal bidimensional, la cual es una distribución de un vector aleatorio bidimensional continuo y que muy útil para las aplicaciones.
Definition 15.1 (Normal bidimensional) El vector aleatorio \((X,Y)\) continuo tiene una { distribución normal} bidimensional con los parámetros \(\mu_1, \mu_2 \in \mathbb{R}\), \(\sigma_1^2,\sigma_2^2> 0\) y \(\varrho\in\mathbb{R}\) con \(|\varrho|\leq 1\), en símbolos \((X,Y)\stackrel{\atop d}{=} \mathcal{N}(\mu_1,\mu_2, \sigma_1^2,\sigma_2^2,\varrho)\), si para todo \(x,y\in \mathbb{R}\), su densidad conjunta está dada por
\[f_{(X,Y)}(x,y) := \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\varrho^2}} \exp\left\{-\frac{1}{2(1-\varrho^2)} \left[ \frac{(x-\mu_1)^2}{\sigma_1^2} - 2\frac{\varrho(x- \mu_1)(y- \mu_2)}{\sigma_1\sigma_2} + \frac{(y- \mu_2)^2}{\sigma_2^2} \right] \right\}\]
La distribución normal bidimensional se debe a Laplace quien, en 1811, la encuentra al estudiar problemas de estimación lineal con varias variables. El parámetro \(\varrho\) tiene con el grado con el grado de dependencia entre las variables \(X\) y \(Y\). El es conocido como el coeficiente de correlación entre \(X\) y \(Y\).
Consideremos un vector aleatorio \((X,Y)\) con vector de medias \(\mu\) y matriz de varianzas-covarianzas \(\Sigma\) dadas por:
\[\mu=\left(\begin{array}{c} 0\\ 0 \end{array}\right), \qquad \Sigma = \left( \begin{array}{cc} 1 & 0.25\\ 0.25 & 1 \\ \end{array} \right)\]
La gráfica correspondiente se puede visualizar en la siguiente figura:
library(mvtnorm)
library(MASS)
library(plotly)
library(ggplot2)
# Vector de medias
mu = c(0, 0)
# Matriz de covarianzas
Sigma = matrix (c(1, 0.25, 0.25, 1), 2, 2)
# Genera una muestra desde N(mu, Sigma)
X <- mvrnorm(10000, mu, Sigma)
density <- dmvnorm(X, mean = mu, sigma = Sigma)
plot_ly(x=~X[,1], y=~X[,2], z=~density,
type = "scatter3d",
color=density)
El siguiente resultado caracteriza la distribución marginal de una distribución normal bidimensional.
Si \[(X,Y)\stackrel{\atop d}{=} \mathcal{N}(\mu_1,\mu_2, \sigma_1^2,\sigma_2^2,\varrho)\]
entonces,
\[X\stackrel{\atop d}{=} \mathcal{N}(\mu_1,\sigma_1^2) \quad \mbox{y} \quad Y\stackrel{\atop d}{=} \mathcal{N}(\mu_2,\sigma_2^2)\]
Es decir, la distribución normal bidimensional tiene distribuciones marginales normales.
La noción de independencia de más de dos variables aleatorias es similar a la noción de independencia de más de dos eventos.
Las variables \(X_1, X_2, \ldots, X_n\) son independientes si y sólo si
\[P(X_1\leq x_1, X_2\leq x_2, \ldots, X_n\leq x_n) \;= \; P(X_1\leq x_1) \,P(X_2\leq x_2) \cdots P(X_n\leq x_n)\]
Observación:
Lo anterior es equivalente a: Si \(f\) es la función de distribución conjunta del vector aleatorio \((X_1, X_2, \ldots, X_n)\) y si \(f_i\) es la función de distribución marginal de \(X_i\), \(i=1, 2,\ldots, n\), entonces \(X_1, X_2, \ldots, X_n\) son independientes si y sólo si
\[f(x_1, x_2, \ldots, x_n) \;= \; f_1(x_1) \, f_2(x_2)\cdots f_n(x_n)\]
Suponga que el tiempo de vida, en años, de un cierto producto alimenticio perecedero empacado en cajas de cartón es una variable aleatoria distribuida exponencialmente con parámetro \(\lambda=1\). Si \(X_1\), \(X_2\) y \(X_3\) representan las vidas de tres de estas cajas seleccionadas independientemente, entonces, encuentre:
\[P(X_1<2,\, 1<X_2<3, \, X_3>2)\]
Solución:
Dado que las cajas fueron seleccionadas independientemente, puede asumirse que las variables \(X_1\), \(X_2\) y \(X_3\) son independientes y que tienen función de densidad conjunta dada por
\[f(x_1,x_2,x_3) \;= \; f_{X_1}(x_1) \, f_{X_2}(x_2) \, f_{X_3}(x_3) \;= \; e^{-x_1} \, e^{-x_2}\, e^{-x_3} \;= \; e^{-x_1-x_2-x_3}\]
para todo \(x_1, x_2, x_3 >0\) y \(f(x_1,x_2,x_3)=0\) en otro caso. Por lo tanto, \[\begin{align*} P(X_1<2,\, 1<X_2<3, \,X_3>2) &=\; 0.0372 \tag*{$\blacktriangleleft$} \end{align*}\]
En R, la función pexp
nos permite calcular la función de distribución acumulada exponencial.
#P(X_1<2) se calcula con: pexp(2)
#P(1<X_2<3) se calcula con: pexp(3)-pexp(1)
#P(X_3>2) se calcula con: 1- pexp(2)
pexp(2)*(pexp(3)-pexp(1))*(1- pexp(2))
## [1] 0.03722306
Como repaso personal, realizar algunos de los ejercicios que se encuentran en las siguientes notas de clase:
Estadística y distribuciones de probabilidad: Hacer click derecho.
Estadística inferencial: Hacer click derecho.
Consultar el documento RPubs :: Análisis multivariado (bibliografía).
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.