hllinas2023

1 Librerías

library(aplore3)       #Base de datos para los ejemplos
library(lsm)           #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)     #Incluye a dplyr y ggplot2
library(stringr)       #Reemplazar caracteres en un data frame
library(outliers)      #outliers::grubbs.test
library(EnvStats)      #EnvStats::rosnerTest
library(DMwR2)         #LOF (Local Outlier Factor)
library(rgl)           #rgl::plot3d

2 Términos básicos

Hacer click derecho para visualizar el documento correspondiente.

3 Organización de datos

3.0.1 Tipos de datos

Estos pueden surgir de la:

  • Experimentación (mediante diseño experimental)

  • Observación (al recopilar información existente).

En la figura de abajo se muestra los diferentes tipos de variables.

Para complementar, puede ver este link.

3.0.2 Tablas de frecuencia

En general, hay dos tipos:

  1. No agrupadas: Se observan los datos con sus respectivas frecuencias
  2. Agrupadas: Se observan intervalos (o clases) donde están ubicados lo datos y las respectivas frecuencias.

En la figura de abajo se ilustran con un par de ejemplos.

Para complementar, puede ver este link.

3.0.3 Representaciones gráficas

Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes:

  1. El diagrama circular o de pastel.
  2. El pictograma y la infografía.
  3. El diagrama de barra.
  4. El diagrama de caja y bigote.
  5. El histograma.
  6. El polígono (de frecuencia o de frecuencias relativas).
  7. La ojiva (o polígono de frecuencias acumuladas o polígono de frecuencias relativas acumuladas).
  8. El diagrama de tallo y hojas.
  9. El diagrama de dispersión.

En la figura de abajo se ilustra cada una de los gráficos mencionados arriba.

Para complementar, puede ver este link.

4 Medidas estadísticas

Se pueden organizar en cuatro (4) grandes grupos, como se muestra en la figura de abajo. En cada grupo mencionamos solo algunas medidas.

Para complementar, puede ver este link.

5 Covarianza y correlación

5.0.1 Covarianza

Denotemos por \((x_1,y_1)\), \((x_2,y_2)\), \(\ldots\), \((x_n,y_n)\) una muestra aleatoria de \(n\) pares de observaciones de las variables aleatorias \(X\) e \(Y\). La Covarianza de \(X\) y \(Y\) está definida, por: \[S_{xy} \; = \; \sum\limits_{i=1}^n x_iy_i \;-\; n\,\overline{x}\,\overline{y}\]

Interpretación:

  1. \(S_{xy}>0\) indica una asociación lineal positiva entre los datos de las variables.

  2. \(S_{xy}<0\) indica una asociación lineal negativa entre los datos de las variables.

  3. \(S_{xy}=0\) indica que no hay una asociación lineal entre los datos de las variables.

Observación: \(Var(X) = S_{xx}\) y \(Var(Y) = S_{yy}\).

5.0.2 Correlación

Denotemos por \((x_1,y_1)\), \((x_2,y_2)\), \(\ldots\), \((x_n,y_n)\) una muestra aleatoria de \(n\) pares de observaciones de las variables aleatorias \(X\) e \(Y\). Entonces, la correlación muestral entre \(X\) e \(Y\) se define como: \[r\;=\; Corr(X,Y)\;= \; \frac{S_{xy}}{\sqrt{S_{xx}\, S_{yy}}} \;= \; \frac{\sum\limits_{i=1}^n x_iy_i \;-\; n\,\overline{x}\,\overline{y}}{\sqrt{\left(\sum\limits_{i=1}^n x_i^2 \;-\; n\,\overline{x}^2\right)\left(\sum\limits_{i=1}^n y_i^2 \;-\; n\,\overline{y}^2\right)}}\]

Observaciones:

  1. El coeficiente de correlación es una medida estandarizada de la asociación lineal que existe entre dos variables, en relación con sus desviaciones.

  2. Utilizaremos el símbolo \(\rho\) para representar el coeficiente de correlación poblacional.

5.0.3 Propiedades de la correlación

Sean \(X\) y \(Y\) dos variables aleatorias cualesquiera (discretas o continuas) con varianzas finitas y positivas y sean \(a, b,c,d\) números reales. Entonces,

  1. Siempre se cumple que:

\[-1\quad \leq \quad r\quad \leq \quad 1\]

  1. Se obtiene \(r=1\) ó \(-1\) si y sólo si existen dos números reales \(m,r\) con \(m\ne 0\), tales que \(Y=mX +r\).

  2. Si \(X\) y \(Y\) son independientes, entonces \(r=0\). El recíproco no es cierto, es decir, \(r=0\) no implica independencia.

  3. Si \(a\) y \(c\) son ambas positivas o ambas negativas, se cumple que:

\[Corr(aX+b, cY+d) \; = \; Corr(X,Y)\]

5.0.4 Correlación en la práctica

Para fines descriptivos, la correlación se propone como:

  1. Perfecta si \(|r| = 1\).

  2. Fuerte si \(|r|\geq 0.8\).

  3. Moderada si \(0.5<|r|<0.8\).

  4. Débil si \(|r|\leq 0.5\).

  5. Positiva si \(r>0\).

  6. Negativa si \(r<0\).

La figura de abajo ilustra estas situaciones.

5.0.5 Coeficiente de determinación

  1. El coeficiente de determinación muestral, simbolizado por \(r^2\), se define como:

\[r^2 \;= \; \frac{S_{xy}^2}{S_{xx}\, S_{yy}} \;= \; \frac{SSR}{S_{yy}}\]

  1. El coeficiente de determinación muestral representa la proporción de la variación de \(S_{yy}\) explicada por la regresión de \(Y\) sobre \(x\), a saber, \(SSR\). Es decir, \(r^2\) expresa la proporción de la variación total en los valores de la variable \(Y\) que se pueden explicar mediante la relación lineal con los valores de la variable aleatoria \(X\).

  2. Propuestas para la interpretación de \(r^2\): Cualquiera de las que aparecen abajo (escribir siempre lo que siginifica \(y\) y \(x\)):

  1. El tanto por ciento de la variación observada en \(y\) (o se puede decir también: … de la variabilidad de \(y\)) se explica por su dependencia lineal de \(x\).

  2. El tanto por ciento de la variación observada en \(y\) (o de la variabilidad de \(y\)) se puede atribuir a la regresión lineal simple entre \(x\) y \(y\).

6 Arreglos basados en estadísticas descriptivas

6.0.1 Vector Aleatorio

Un vector aleatorio es una variable aleatoria multidimensional. Se representa comúnmente por letras mayúsculas, como \(X\).

\[\mathbf{X} \; = \; \begin{bmatrix} X_1 \\ X_2 \\ \vdots\\ X_n \end{bmatrix}\]

6.0.2 Matriz Aleatoria

Una matriz aleatoria es una arreglo de variables aleatorias organizadas en una estructura de matriz. Se denota comúnmente por letras mayúsculas, como \(X\) (en el ejemplo de abajo, es una matriz de tamaño \(J\times K\)).

\[\mathbf{X} \; = \; \begin{bmatrix} X_{11} & \cdots & X_{1K} \\ \vdots & \ddots & \vdots \\ X_{J1} & \ldots &X_{JK} \end{bmatrix}\]

6.0.3 Arreglos matriciales

\[\boldsymbol{X} \; = \; \left(\begin{array}{lllll} x_{11} & x_{12} & x_{13} & \cdots & x_{1K} \\ x_{21} & x_{22} & x_{23} & \cdots & x_{2K} \\ x_{31} & x_{32} & x_{33} & \cdots & x_{3K} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & x_{n3} & \cdots & x_{nK} \\ \end{array}\right) \]

6.0.3.1 Ejemplo:

Se dispone de datos correspondientes a inversiones en los diferentes tipos de industrias de un país, medidas en millones de dólares, desde 2007 hasta 2010. El resumen de esta información puede presentarse sintéticamente sobre a través de la matriz que se muestra abajo. En esta matriz las filas representan años y las columnas indican el tipo de industria. Cada celda \(x_{nk}\) la inversión efectuada durante el año \(n\) en la industria \(k\).

6.0.4 Media de un vector

El vector de media muestral se define como:

\[\boldsymbol{\mu} \; = \; \left(\begin{array}{c} E(X_{1}) \\ E(X_{2}) \\ E(X_{3}) \\ \vdots \\ E(X_{K}) \\ \end{array}\right) \]

6.0.5 Media de una matriz aleatoria

\[E(\mathbf{X}) \; = \; \begin{bmatrix} E(X_{11}) & \cdots & E(X_{1K}) \\ \vdots & \ddots & \vdots \\ E(X_{J1}) & \ldots &E(X_{JK}) \end{bmatrix}\]

6.0.6 Matriz de varianzas y covarianzas

La matriz de varianza y covarianza muestral, o matriz de covarianza muestral, se define como

\[{\boldsymbol{S}}: \; = \; \left(\begin{array}{lllll} S_{11} & S_{12} & S_{13} & \cdots & S_{1K} \\ S_{21} & S_{22} & S_{23} & \cdots & S_{2K} \\ S_{31} & S_{32} & S_{33} & \cdots & S_{3K} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ S_{K1} & S_{K2} & S_{K3} & \cdots & S_{KK} \\ \end{array}\right) \]

Observaciones:

  1. \(S_{ij}\) es la covarianza muestral entre las variables \(X_i\) y \(X_j\).

  2. Siempre se tiene que \({\boldsymbol{S}}\) es simétrica.

6.0.7 Matriz de correlaciones

La matriz de correlaciones se define como:

\[{\boldsymbol{R}}: \; = \; \left(\begin{array}{lllll} 1 & r_{12} & r_{13} & \cdots & r_{1K} \\ r_{21} & 1 & r_{23} & \cdots & r_{2K} \\ r_{31} & r_{32} & 1 & \cdots & r_{3K} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ r_{K1} & r_{K2} & r_{K3} & \cdots & 1 \\ \end{array}\right)\]

Observaciones:

  1. \(r_{ij}\) es la correlación muestral entre las variables \(X_i\) y \(X_j\).

  2. Siempre se tiene que \({\boldsymbol{R}}\) es simétrica.

  3. Si las variables están estadarizadas, entonces, \(s_{ij}=r_{ij}\). Por lo tanto, \({\boldsymbol{S}}={\boldsymbol{R}}\).

7 Ejemplos gráficos

7.0.1 Ejemplo 1: covarianza cero

Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:

\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix} \]

En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.1:

**Diagrama de dispersión entre dos variables con covarianzas nulas**

Figure 7.1: Diagrama de dispersión entre dos variables con covarianzas nulas

7.0.2 Ejemplo 2: covarianza positiva

Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:

\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 0.5 \\ 0.5 & 3 \end{bmatrix} \]

En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.2:

**Diagrama de dispersión entre dos variables con covarianza = 0.5**

Figure 7.2: Diagrama de dispersión entre dos variables con covarianza = 0.5

7.0.3 Ejemplo 3: covarianza positiva

Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:

\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix} \]

En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.3:

**Diagrama de dispersión entre dos variables con covarianza = 1**

Figure 7.3: Diagrama de dispersión entre dos variables con covarianza = 1

7.0.4 Ejemplo 4: covarianza positiva

Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:

\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 2 \\ 2 & 3 \end{bmatrix} \]

En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.4:

**Diagrama de dispersión entre dos variables con covarianza = 2**

Figure 7.4: Diagrama de dispersión entre dos variables con covarianza = 2

7.0.5 Ejemplo 5: covarianza negativa

Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:

\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 2 \\ 3 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & -2 \\ -2 & 3 \end{bmatrix} \]

En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 7.5:

**Diagrama de dispersión entre dos variables con covarianza negativa**

Figure 7.5: Diagrama de dispersión entre dos variables con covarianza negativa

8 Ejemplo 7: Enunciado

Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios.

datosCompleto <- lsm::survey
attach(datosCompleto)
dat <- datosCompleto[,3:10]
attach(dat)
## # A tibble: 6 × 8
##   Gender Like      Age Smoke Height Weight   BMI School 
##   <chr>  <chr>   <dbl> <chr>  <dbl>  <dbl> <dbl> <chr>  
## 1 Female TV       21.4 No      1.58     75  30.0 Private
## 2 Male   Network  21.1 Yes     1.6      80  31.2 Public 
## 3 Male   Network  20.9 Yes     1.5      64  28.4 Private
## 4 Male   TV       18.4 Yes     1.53     49  20.9 Public 
## 5 Female TV       16.6 Yes     1.78     82  25.9 Private
## 6 Female Network  16.0 No      1.65     80  29.4 Public

Es un data frame con 800 observaciones y 66 variables:

names(datosCompleto)
##  [1] "Observation"  "ID"           "Gender"       "Like"         "Age"         
##  [6] "Smoke"        "Height"       "Weight"       "BMI"          "School"      
## [11] "SES"          "Enrollment"   "Score"        "MotherHeight" "MotherAge"   
## [16] "MotherCHD"    "FatherHeight" "FatherAge"    "FatherCHD"    "Status"      
## [21] "SemAcum"      "Exam1"        "Exam2"        "Exam3"        "Exam4"       
## [26] "ExamAcum"     "Definitive"   "Expense"      "Income"       "Gas"         
## [31] "Course"       "Law"          "Economic"     "Race"         "Region"      
## [36] "EMO1"         "EMO2"         "EMO3"         "EMO4"         "EMO5"        
## [41] "GOAL1"        "GOAL2"        "GOAL3"        "Pre_STAT1"    "Pre_STAT2"   
## [46] "Pre_STAT3"    "Pre_STAT4"    "Post_STAT1"   "Post_STAT2"   "Post_STAT3"  
## [51] "Post_STAT4"   "Pre_IDARE1"   "Pre_IDARE2"   "Pre_IDARE3"   "Pre_IDARE4"  
## [56] "Pre_IDARE5"   "Post_IDARE1"  "Post_IDARE2"  "Post_IDARE3"  "Post_IDARE4" 
## [61] "Post_IDARE5"  "PSICO1"       "PSICO2"       "PSICO3"       "PSICO4"      
## [66] "PSICO5"

Llevar a cabo un análisis exploratorio.

9 Ejemplo 7: Solución

9.0.1 Algunos análisis

Solo a manera de ejemplo con mis datos.

ggplot(datosCompleto, aes(x = Age)) + 
  geom_freqpoly(aes(color = Enrollment)
                #, binwidth = 500, linewidth = 0.75
                )

Tabla <- table(Enrollment)
kable(Tabla, align = "ccc") %>%# Se necesita library(knitr) 
kable_styling() %>%                #library(kableExtra).... Solo para knit to html
kable_classic_2(full_width = F)   #library(kableExtra)....Solo para knit to html
Enrollment Freq
Credit 248
Savings 285
Scholarship 265
datos_e<-datosCompleto[!is.na(Enrollment),]
#head(datos, n= 8)
ggplot(datos_e, aes(x = Age)) + 
  geom_freqpoly(aes(color = Enrollment)
                #, binwidth = 500, linewidth = 0.75
                )

df_0 <- datosCompleto[,c(3, 5,7,8,9) ]
df <- df_0[,-1]

# Contar NAs. MARGIN es un entero y FUN es la función que será aplicada a cada fila o columna. MARGIN = 1 ejecuta la función a las filas de una tabla, mientras que MARGIN = 2 lo hace a las columnas.
apply( X= is.na(df), MARGIN = 2, FUN = sum)
##    Age Height Weight    BMI 
##      2      2      1      3
# Obtención del vector de media muestral
colMeans(df, na.rm=TRUE)
##       Age    Height    Weight       BMI 
## 17.547343  1.695363 74.140426 25.952441
# Matriz de covarianza muestral
mat_cov<-cov(df, use = 'complete')
mat_cov
##                 Age       Height      Weight         BMI
## Age     6.173131436 -0.006385696  -0.7092864  0.05836394
## Height -0.006385696  0.006943650   0.0681184 -0.18764974
## Weight -0.709286388  0.068118397 237.2826631 81.28162877
## BMI     0.058363936 -0.187649743  81.2816288 34.59181475
# Matriz de correlación muestral
mat_cor<-cor(df, use = 'complete')
mat_cor
##                 Age      Height      Weight          BMI
## Age     1.000000000 -0.03084335 -0.01853258  0.003993973
## Height -0.030843351  1.00000000  0.05306859 -0.382884160
## Weight -0.018532579  0.05306859  1.00000000  0.897165822
## BMI     0.003993973 -0.38288416  0.89716582  1.000000000
# Coeficiente de asimetría muestral
skewness=function(x) {
xbarra=  mean(x, na.rm=TRUE)
dif3=(x-xbarra)^3
m3=mean(dif3, na.rm=TRUE)
skew=m3/(sd(x, na.rm=TRUE)^3)
skew}
skewness(Age)
## [1] 0.1008381
# Coeficiente de curtosis muestral
kurtosis=function(x) {
xbarra=  mean(x, na.rm=TRUE)  
dif4=(x-xbarra)^3
m4=mean(dif4, na.rm=TRUE)
kurt=m4/(sd(x, na.rm=TRUE)^4)
kurt}
kurtosis(Age)
## [1] 0.04054528
# Gráfico de puntos
p <- ggplot(df_0, aes(Age, Height))
p + geom_point()

# Añadir aesthetic mappings
p + geom_point(aes(colour = factor(Gender)))

# Gráfico de caja y bigotes
p <- ggplot(df_0, aes(Gender, Age))
p + geom_boxplot()

# Gráfico de caja y bigotes
df_00 <- df_0[!is.na(Gender),]
p <- ggplot(df_00, aes(Gender, Age))
p + geom_boxplot()

# Matriz de dispersión
X<-as.matrix(df)
pairs(X)

9.0.2 Otros Análisis

Puede ver, por ejemplo, estos links: Mi link 1, Link 2, Link 3.

10 Distancia estadística

La mayoría de las ténicas multivariantes se basan en el concepto de distancia. Por esta razón, explicaremos algunas de ellas.

11 Distancia euclidiana

La distancia de un punto \(A(x_1,y_1)\) a un punto \(B(x_2,y_2)\) viene dada por: \[d(A,B) \; = \; \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2}\]

Cuando \(A\) es el origen, entonces, \[d(A,B) \; = \; \sqrt{x_2^2 + y_2^2}\]

El lugar geométrico correspondiente al conjunto de los puntos \(B\) del plano que equidistan de \(A\) es una circunferencia con centro en \(A\) y radio \(r=d(A,B)\):

Observaciones:

La distancia euclidiana comúnmente resulta insatisfactoria en la mayoría de las aplicaciones estadísticas, ya que asigna igual importancia a cada coordenada en su cálculo. Esto implica que: (1) todos los puntos se consideran igualmente probables y (2) que no se tienen en cuenta posibles relaciones entre ellos. No obstante, los datos generados por variables aleatorias diferentes pueden mostrar variabilidades distintas y estar interrelacionados. Por ende, es necesario desarrollar una medida de distancia que considere estas características.

12 Distancia elipsoide

Supongamos que se tiene \(n\) pares de medidas \((x_{i}, y_{i})\) de dos variables \(x\) y \(y\).

12.0.1 Caso 1

Las mediciones varían independientemente, pero la variabilidad de \(x\) es mayor que la de \(y\).

Un camino para calcular la distancia correspondiente es estadarizar las coordenadas, de la siguiente manera: \[\tilde{x} \; = \; \frac{x}{\sqrt{S_{xx}}}, \qquad \tilde{y} \; = \; \frac{y}{\sqrt{S_{yy}}}, \qquad\] Las coordenadas recién obtenidas presentan una variabilidad idéntica, y para determinar la distancia, se puede aplicar la fórmula de la distancia Euclidiana. Por lo tanto, la distancia estadística de un punto \(B(x, y)\) con respecto al origen \(A(0, 0)\) se calcula mediante así: \[d(A,B) \; = \; \sqrt{\tilde{x}^2 + \tilde{y}^2} \; = \; \sqrt{\frac{x^2}{S_{xx}} + \frac{y^2}{S_{yy}}}\]

El lugar geométrico se refiere a una elipse que tiene su centro en el origen y cuyos ejes principal y secundario se alinean con los ejes de coordenadas.

12.0.2 Caso 2: particular

Las mediciones de las variables \(x\) y \(y\) presentan variabilidades distintas y están correlacionadas.

Se nota que al girar el sistema de coordenadas original mediante un ángulo \(theta\), conservando los puntos fijos y etiquetando los nuevos ejes como \(tilde{x}\) y \(tilde{y}\), la dispersión en relación con los nuevos ejes es análoga al caso original. Esto indica que, para calcular la distancia estadística desde el punto \(B(x, y\)) respecto al origen \(A(0, 0)\), se puede emplear el mismo enfoque: \[d(A,B) \; = \; \sqrt{\frac{\tilde{x}^2}{\tilde{S}_{xx}} + \frac{\tilde{y}^2}{\tilde{S}_{yy}}}\]

En la fómula anterior, \(\tilde{S}_{xx}\) y \(\tilde{S}_{yy}\) representan las varianzas muestrales de \(\tilde{x}\) y \(\tilde{y}\), respectivamente. Se puede determinar que la relación entre las coordenadas originales y las rotadas es

\[\begin{eqnarray*} \tilde{x} &=& x \cos(\theta) + y \sin(\theta) \\ \tilde{y} &=& -x \sin(\theta) + y\cos(\theta) \end{eqnarray*}\]

Con base en estas relaciones, se pude calcular la distancia desde \(B(x, y\)) hasta \(A(0, 0)\), así:

\[d(A,B) \; = \; \sqrt{a x^2 + b y^2 + 2cxy}\]

En la expresión anterior, las constantes \(a\), \(b\) y \(c\) deben ser tales que la distancia sea siempre igual o mayor a cero para cualquier combinación de valores de \(x\) y \(y\).

12.0.3 Caso 3: el caso 2 general

Sea \(C(y_1,y_2)\) un punto fijo. Entonces, de manera general, la distancia desde el punto \(B(x_1,x_2)\) hasta C es \[d(A,B) \; = \; \sqrt{a (x_1-y_1)^2 \;+\; b (x_2-y_2)^2 \;+\; 2c(x_1-y_1)(x_2-y_2)}\] El lugar geométrico de \(C\) y \(B\) es una elipse con centro \(C\) y cuyos ejes mayor y menor son paralelos a los ejes rotados.

12.0.4 Caso 4: el caso 2 mucho más general

La extensión de las fórmulas a K dimensiones es sencilla. Supongamos \(B(x_1, x_2, \ldots, x_K)\) como un punto con coordenadas que representan variables correlacionadas y sujetas a distintas variabilidades, y \(C(y_1, y_2, \ldots, y_K)\) como otro punto. En este caso, la distancia estadística de B a A se expresa como:

\[d(A,B) \; = \; \sqrt{\sum\limits_{k=1}^K d_{kk}(x_k-y_k) \;+\; 2 d_{12} (x_1-y_1)(x_2-y_2) \;+\; 2 d_{13} (x_1-y_1)(x_3-y_3) \;+\; \cdots \;+\; 2 d_{K-1,K} (x_{K-1}-y_{K-1})(x_K-y_K)} \] Aquí, las constantes \(d_{ik}\) deben ser tales que las distancias sean siempre mayores o iguales que cero. El lugar geométrico de todos los puntos \(B\) cuya distancia cuadrática a \(C\) es la misma es una hiperelipsoide.

13 Distancia de Malahanobis

Si las constantes \(d_{ik}\) son tales que la matriz \(D=(d_{ik})\) es simétrica de tamaño \(K\times K\), entonces, la distancia estadística de \(B\) a \(C\) se puede escribir matricialmente como: \[d(B,C) \; = \; \sqrt{(x-y)^T D (x-y)}\]

siendo \[x-y \; = \; (x_1-y_1, x_2-y_2, \ldots, x_K-y_k)^T\]

En este caso, \(D\) debe ser una matriz definida positiva para que la distancia sea mayor o igual que cero.

Sea \({\boldsymbol{S}}\) la matriz de varianzas y covarianzas. Entonces, cuando \(D={\boldsymbol{S}}^{-1}\), la distancia estadística

\[d(B,C) \; = \; \sqrt{(x-y)^T {\boldsymbol{S}}^{-1} (x-y)}\]

es llamada la distancia muestral de Malahanobis.

14 Valores y vectores propios de la matriz de covarianzas

Presentaremos una serie de ejemplos, suponiendo conocida la matriz de varianza y covarianzas de un conjunto de datos. Para cada caso, el objetivo es hallar los valores y vectores propios.

14.0.1 Ejemplo 1: PCA intuitivo

Datos.

Consideremos un conjunto de datos con dos variables \(X_1\) y \(X_2\) que tienen estas características:

\[ \mu \;= \; \begin{bmatrix} E(X_1) \\ E(X_2) \end{bmatrix}\;= \; \begin{bmatrix} 0 \\ 0 \end{bmatrix}, \qquad \Sigma \;= \begin{bmatrix} S_{11} & S_{12} \\ S_{21} & S_{22} \end{bmatrix} \;= \begin{bmatrix} 2 & 2 \\ 2 & 3 \end{bmatrix} \]

Diagram de dispersión.

En este caso, el diagrama de dispersión correspondiente es como se muestra en la Figura 14.1:

**Diagrama de dispersión entre dos variables con covarianza positiva**

Figure 14.1: Diagrama de dispersión entre dos variables con covarianza positiva

Planteamiento del problema.

¿Se puede encontrar un vector que pudiese aproximar el espacio 2D que se muetra en la Figura 14.1? ¿ Por ejemplo, como el vector rojo que se muestra en la Figura 14.2?

**Diagrama de dispersión entre dos variables con covarianza positiva**

Figure 14.2: Diagrama de dispersión entre dos variables con covarianza positiva

Respuesta intuitiva.

La solución es:

  1. Solamente pensar en la varianza.

  2. O sea, hallar los autovectores de la matriz de covarianzas.

Autovalores y autovectores

Computando los valores y vectores propios de \(\Sigma\), encontramos:

\[\begin{eqnarray} \lambda_1 = 0.4384 \quad &\Longrightarrow& \quad v_1 \; = \; \begin{bmatrix} -0.7882 \\ 0.6154 \end{bmatrix}\\ &&\\ \lambda_2 = 4.5616 \quad &\Longrightarrow& \quad v_2 \; = \; \begin{bmatrix} 0.6154 \\ 0.7882 \end{bmatrix} \end{eqnarray}\]

Gráficamente, se pueden visualizar estos vectores en la Figura 14.3.

**Vectores y valores propios**

Figure 14.3: Vectores y valores propios

14.0.2 Ejemplo 1: Interpetaciones

Véase la Figura 14.4.

**Vectores y valores propios (interpetación)**

Figure 14.4: Vectores y valores propios (interpetación)

14.0.3 Ejemplo 2: Covarianzas iguales

Consideremos la siguiente matriz de covarianzas de un conjunto de datos:

\[\Sigma \; = \; \begin{bmatrix} 1.5 & 0.5 \\ 0.5 & 1.5 \end{bmatrix}\]

Se resalta que presentamos el caso en que tenemos elementos diagonales distintos de cero. En la Figura 14.5, se muestra la transformación correspondiente.

**Transformación lineal de la matriz de covarianzas**

Figure 14.5: Transformación lineal de la matriz de covarianzas

Computando los valores y vectores propios de \(\Sigma\), encontramos:

\[\begin{eqnarray} \lambda_1 = 1 \quad &\Longrightarrow& \quad v_1 \; = \; \begin{bmatrix} -0.7071 \\ 0.7071 \end{bmatrix}\\ &&\\ \lambda_2 = 2 \quad &\Longrightarrow& \quad v_2 \; = \; \begin{bmatrix} 0.7071 \\ 0.7071 \end{bmatrix} \end{eqnarray}\]

Gráficamente, se pueden visualizar estos vectores en la Figura 14.6.

**vectores y valores propoios de la matriz de covarianzas**

Figure 14.6: vectores y valores propoios de la matriz de covarianzas

14.0.4 Ejemplo 2: Interpretación

¿Qué indican los valores y vectores propios?

Indican que la transformación lineal produce un escalado de \(\lambda\) a lo largo del vector propio correspondiente a \(\lambda\). En este ejemplo:

  • \(\lambda = 1\) a lo largo del vector

\[v_1 \; = \; \begin{bmatrix} -0.7071 \\ 0.7071 \end{bmatrix}\]

  • \(\lambda = 2\) a lo largo del vector

\[v_2 \; = \; \begin{bmatrix} 0.7071 \\ 0.7071 \end{bmatrix}\]

14.0.5 Ejemplo 3: Diagonalizar

Aunque empezamos con una transformación no diagonal (\(A\), la utilizada en el ejemplo 1), al calcular los vectores propios y proyectando los datos sobre esos eigenvectores nos permite diagonalizar la transformación (véase la Figura 14.7). Se dejan los cálculos al lector.

**Diagonalización de la transformación**

Figure 14.7: Diagonalización de la transformación

14.0.6 Ejemplo 4: Con datos

Consideremos el conjunto de datos:

\[X \;=\; \{X_1, X_2\} \;=\; \{(1,2), (3,3),(3,5),(5,4),(5,6),(6,5),(8,7),(9,8)\}\]

X_1 <- c(1,3,3,5,5,6,8,9)
X_2 <- c(2,3,5,4,6,5,7,8)
df <- data.frame(X_1,X_2)

Diagrama de dispersión:

ggplot(df, aes(X_1, X_2)) + 
    geom_point(colour = "red",size=3)+
    labs(x="X1", y= "X2") + 
    labs(fill = "") +
    theme_bw(base_size = 15) 

Vector de medias

\[\overline{X} \; = \; \begin{bmatrix} 5 \\ 5 \end{bmatrix}\]

rbind(mean(X_1), mean(X_2))
##      [,1]
## [1,]    5
## [2,]    5

Matriz de covarianzas:

La matrix de covarianzas muestral es:

\[S \; = \; \begin{bmatrix} 7.142857 & 4.857143 \\ 4.857143 & 4.000000 \end{bmatrix}\]

S <- cov(df)

Función eigen en R:

Aplicamos la función eigen para hallar los valores y vectores propios:

eig <- eigen(S)
eig
## eigen() decomposition
## $values
## [1] 10.676448  0.466409
## 
## $vectors
##            [,1]       [,2]
## [1,] -0.8086471  0.5882940
## [2,] -0.5882940 -0.8086471

Cálculo de autovalores y autovectores:

\[\begin{eqnarray} \lambda_1 = 10.676448 \quad &\Longrightarrow& \quad v_1 \; = \; \begin{bmatrix} -0.8086471 \\ -0.5882940 \end{bmatrix}\\ &&\\ \lambda_2 = 0.466409 \quad &\Longrightarrow& \quad v_2 \; = \; \begin{bmatrix} 0.5882940 \\ -0.8086471 \end{bmatrix} \end{eqnarray}\]

# Valores propios
lambda <- eig$values; lambda
## [1] 10.676448  0.466409
# Vectores propios
v <- eig$vectors; v
##            [,1]       [,2]
## [1,] -0.8086471  0.5882940
## [2,] -0.5882940 -0.8086471

Los vectores se pueden visualizar en la Figura 14.8).

**Valores y vectores propios**

Figure 14.8: Valores y vectores propios

Autovectores individuales:

v[,1] # Primer autovector
## [1] -0.8086471 -0.5882940
v[,2] # Segundo autovector
## [1]  0.5882940 -0.8086471

Podemos mostrar que estos son los eigenvectores asociados:

round(S %*% v[,1], 5) == round(lambda[1] * v[,1], 5)
##     [,1]
## X_1 TRUE
## X_2 TRUE
round(S %*% v[,2], 5) == round(lambda[2] * v[,2], 5)
##     [,1]
## X_1 TRUE
## X_2 TRUE

15 Distribución normal bivariada

15.0.1 Densidad normal

A continuación introduciremos la llamada distribución normal bidimensional, la cual es una distribución de un vector aleatorio bidimensional continuo y que muy útil para las aplicaciones.

Definition 15.1 (Normal bidimensional) El vector aleatorio \((X,Y)\) continuo tiene una { distribución normal} bidimensional con los parámetros \(\mu_1, \mu_2 \in \mathbb{R}\), \(\sigma_1^2,\sigma_2^2> 0\) y \(\varrho\in\mathbb{R}\) con \(|\varrho|\leq 1\), en símbolos \((X,Y)\stackrel{\atop d}{=} \mathcal{N}(\mu_1,\mu_2, \sigma_1^2,\sigma_2^2,\varrho)\), si para todo \(x,y\in \mathbb{R}\), su densidad conjunta está dada por

\[f_{(X,Y)}(x,y) := \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\varrho^2}} \exp\left\{-\frac{1}{2(1-\varrho^2)} \left[ \frac{(x-\mu_1)^2}{\sigma_1^2} - 2\frac{\varrho(x- \mu_1)(y- \mu_2)}{\sigma_1\sigma_2} + \frac{(y- \mu_2)^2}{\sigma_2^2} \right] \right\}\]

La distribución normal bidimensional se debe a Laplace quien, en 1811, la encuentra al estudiar problemas de estimación lineal con varias variables. El parámetro \(\varrho\) tiene con el grado con el grado de dependencia entre las variables \(X\) y \(Y\). El es conocido como el coeficiente de correlación entre \(X\) y \(Y\).

15.0.2 Ejemplo: Distribución normal

Consideremos un vector aleatorio \((X,Y)\) con vector de medias \(\mu\) y matriz de varianzas-covarianzas \(\Sigma\) dadas por:

\[\mu=\left(\begin{array}{c} 0\\ 0 \end{array}\right), \qquad \Sigma = \left( \begin{array}{cc} 1 & 0.25\\ 0.25 & 1 \\ \end{array} \right)\]

15.0.3 Ejemplo: Gráfica de la normal

La gráfica correspondiente se puede visualizar en la siguiente figura:

library(mvtnorm)
library(MASS)
library(plotly)
library(ggplot2)

# Vector de medias
mu = c(0, 0)

# Matriz de covarianzas
Sigma = matrix (c(1, 0.25, 0.25, 1), 2, 2) 

# Genera una muestra desde N(mu, Sigma)
X <- mvrnorm(10000, mu, Sigma)

density <- dmvnorm(X, mean = mu, sigma = Sigma)

plot_ly(x=~X[,1], y=~X[,2], z=~density, 
                type = "scatter3d",
                color=density)

15.0.4 Propiedad de la normal

El siguiente resultado caracteriza la distribución marginal de una distribución normal bidimensional.

Si \[(X,Y)\stackrel{\atop d}{=} \mathcal{N}(\mu_1,\mu_2, \sigma_1^2,\sigma_2^2,\varrho)\]

entonces,

\[X\stackrel{\atop d}{=} \mathcal{N}(\mu_1,\sigma_1^2) \quad \mbox{y} \quad Y\stackrel{\atop d}{=} \mathcal{N}(\mu_2,\sigma_2^2)\]

Es decir, la distribución normal bidimensional tiene distribuciones marginales normales.

16 Variables aleatorias independientes

La noción de independencia de más de dos variables aleatorias es similar a la noción de independencia de más de dos eventos.

16.0.1 Definición

Las variables \(X_1, X_2, \ldots, X_n\) son independientes si y sólo si

\[P(X_1\leq x_1, X_2\leq x_2, \ldots, X_n\leq x_n) \;= \; P(X_1\leq x_1) \,P(X_2\leq x_2) \cdots P(X_n\leq x_n)\]

Observación:

Lo anterior es equivalente a: Si \(f\) es la función de distribución conjunta del vector aleatorio \((X_1, X_2, \ldots, X_n)\) y si \(f_i\) es la función de distribución marginal de \(X_i\), \(i=1, 2,\ldots, n\), entonces \(X_1, X_2, \ldots, X_n\) son independientes si y sólo si

\[f(x_1, x_2, \ldots, x_n) \;= \; f_1(x_1) \, f_2(x_2)\cdots f_n(x_n)\]

16.0.2 Ejemplo: Independencia

Suponga que el tiempo de vida, en años, de un cierto producto alimenticio perecedero empacado en cajas de cartón es una variable aleatoria distribuida exponencialmente con parámetro \(\lambda=1\). Si \(X_1\), \(X_2\) y \(X_3\) representan las vidas de tres de estas cajas seleccionadas independientemente, entonces, encuentre:

\[P(X_1<2,\, 1<X_2<3, \, X_3>2)\]

Solución:

Dado que las cajas fueron seleccionadas independientemente, puede asumirse que las variables \(X_1\), \(X_2\) y \(X_3\) son independientes y que tienen función de densidad conjunta dada por

\[f(x_1,x_2,x_3) \;= \; f_{X_1}(x_1) \, f_{X_2}(x_2) \, f_{X_3}(x_3) \;= \; e^{-x_1} \, e^{-x_2}\, e^{-x_3} \;= \; e^{-x_1-x_2-x_3}\]

para todo \(x_1, x_2, x_3 >0\) y \(f(x_1,x_2,x_3)=0\) en otro caso. Por lo tanto, \[\begin{align*} P(X_1<2,\, 1<X_2<3, \,X_3>2) &=\; 0.0372 \tag*{$\blacktriangleleft$} \end{align*}\]

En R, la función pexp nos permite calcular la función de distribución acumulada exponencial.

#P(X_1<2) se calcula con: pexp(2)
#P(1<X_2<3) se calcula con: pexp(3)-pexp(1)
#P(X_3>2) se calcula con: 1- pexp(2)
pexp(2)*(pexp(3)-pexp(1))*(1- pexp(2))
## [1] 0.03722306

17 Ejercicios

Como repaso personal, realizar algunos de los ejercicios que se encuentran en las siguientes notas de clase:

  1. Estadística y distribuciones de probabilidad: Hacer click derecho.

  2. Estadística inferencial: Hacer click derecho.

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.