La base de datos proporciona datos recolectados en un estudio de parámetros antropométricos de población laboral colombiana (Acopla). De las 72 variables allí registradas se está solo interesado en las siguientes variables: Sexo (Hom: Hombre; Muj: Mujer), Masa, Per_abdo (Perímetro abdominal cintura), Long_pie (Longitud promedio de ambos píes), Long_man (Longitud promedio de ambas manos) y Estatura.

Analisis descriptivo de las variables

GRÁFICA DE CORRELACIÓN

El grafico anterior nos muestra la relación entre pares de variables vemos que la mayor entre las variables se presenta entre la masa y el perímetro abdominal(per_abdo) con una correlación de 0.857, y una tendencia positiva que nos indica que a medida que aumenta una de las variables la otra también aumenta, por otra parte, observamos que la longitud de la mano y la longitud del pie presentan una muy buena correlación con tendencia positiva. finalmente es viable hablar sobre la normalidad de las variables gráficamente, vemos que las variables masa longitud del pie longitud de la mano aparentemente siguen una distribución normal, mientras que las variables perímetro abdominal y estatura es un poco confuso.

1.Calcule el vector de medias y la matriz de covarianzas muestrales para las variables Masa Per_abdo Long_pie Long_man Estatura. Comente sus resultados. Repita el proceso discriminando por SEXO. ¿Observa diferencias entre ambos cálculos? Comente.

##          [,1]     [,2]     [,3]  [,4]   [,5]
## [1,] 64.75857 80.66286 24.28857 17.55 163.42

Vector de Medias sin discriminar

##               Masa   Per_abdo  Long_pie Long_man  Estatura
## Masa     131.74159 106.542787 10.617056 7.475000 49.738812
## Per_abdo 106.54279 117.227876  6.564932 5.486957 21.042493
## Long_pie  10.61706   6.564932  2.241027 1.409275 11.088493
## Long_man   7.47500   5.486957  1.409275 1.185725  6.757971
## Estatura  49.73881  21.042493 11.088493 6.757971 72.565101

matriz covarianzas muestrales sin discriminar

Los valores de covarianza positivos indican que valores por encima del promedio de una variable están asociados con valores por encima del promedio de la otra variable y que valores por debajo del promedio de una variable están asociados con valores por debajo del promedio de la otra variable. de lo anterior vemos que en general existe un desfase considerable entre la covarianza y los promedios de las variables, posiblemente a la no discriminación de las variables por tipo de sexo.

##          [,1]     [,2]     [,3]     [,4]     [,5]
## [1,] 70.25263 86.31053 25.17895 18.17632 168.1158

Vector de Medias hombres

##               Masa   Per_abdo   Long_pie  Long_man   Estatura
## Masa     87.628506  59.229161  4.7035704 3.2347937  15.706444
## Per_abdo 59.229161  77.524211 -1.1411238 0.6391750 -23.650982
## Long_pie  4.703570  -1.141124  1.4957610 0.8240825   7.264936
## Long_man  3.234794   0.639175  0.8240825 0.8586131   3.653357
## Estatura 15.706444 -23.650982  7.2649360 3.6533570  52.018663

matriz covarianzas muestrales hombres

##          [,1]     [,2]     [,3]     [,4]     [,5]
## [1,] 58.23438 73.95625 23.23125 16.80625 157.8438

Vector de Medias mujeres

##                Masa  Per_abdo  Long_pie  Long_man  Estatura
## Masa     107.703619 83.248972 4.9005040 3.5501008 22.783931
## Per_abdo  83.248972 82.869637 2.4904435 1.9651210  3.952298
## Long_pie   4.900504  2.490444 1.0770565 0.6578629  4.798589
## Long_man   3.550101  1.965121 0.6578629 0.5625403  2.795202
## Estatura  22.783931  3.952298 4.7985887 2.7952016 40.301895

matriz covarianzas muestrales mujeres

al realizar la discriminación por sexo, se nota claramente que la covarianza se ajusta mucho mejor al vector de medias asociado tanto para hombres como para mujeres, dejando ver así de manera más oportuna el grado de variación conjunta entre una y otra variable.

2.Elabore un histograma para la variable Per_abdo. ¿Puede deducirse del mismo que la distribución de probabilidad de esta variable puede ser una normal?. Verifique este supuesto, planteando las respectivas hipótesis. Si el resultado no es favorable, usando la metodología de Box y Cox, encuentre una transformación que le garantice normalidad y muestre si en efecto esto se logra.Debe aportar la evidencia de los resultados obtenidos en R.

pruebas graficas de normalidad para el perimetro abdominal para ambos generos

del grafico anterior se observa que posiblemente la variable perímetro abdominal(per_abdo) se distribuye de manera normal, los datos están bastante ajustados a la línea, y el histograma es relativamente simétrico. Esta información se corrobora por medio de la prueba analítica de normalidad de shappiro wilk.

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Per_abdo
## W = 0.97823, p-value = 0.2622

PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK

HIPÓTESIS

\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal

DECISIÓN

se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05

P-value=0.2622 > 0.05 aceptamos \(H_0\)

por lo anterior decimos que la variable perimetro abdominal se distribuye de manera normal. sin embargo, veremos como es el comportamiento discriminado por genero.

PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK SOOLO HOMBRES

## 
##  Shapiro-Wilk normality test
## 
## data:  datosHombres$Per_abdo
## W = 0.96828, p-value = 0.3476

HIPÓTESIS

\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal

DECISIÓN

se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05

P-value=0.3476 > 0.05 aceptamos \(H_0\)

por lo anterior decimos que la variable perímetro abdominal se distribuye de manera normal.

PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK SOLO MUJERES

## 
##  Shapiro-Wilk normality test
## 
## data:  datosMujeres$Per_abdo
## W = 0.92374, p-value = 0.02629

HIPÓTESIS

\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal

DECISIÓN

se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05

P-value=0.02629 > 0.05 aceptamos \(H_0\)

por lo anterior decimos que la variable perimetro abdominal no se distribuye de manera normal.

TRANSFORMACIÓN VARIABLE PERIMETRO ABDOMINAL PARA MUJERES

Se encontraron dos metodologías para hacer la transformación de la variable, el primer método, encontró un lambda de -2, y el segundo un lambda de -2.6, en la práctica se analizó cuál de los dos era mejor, y por medio del análisis de normalidad de shappiro wilk el lambda de -2.6 aumentaba el valor p.

##  [1] 0.3846113 0.3846102 0.3846080 0.3846086 0.3846093 0.3846099 0.3846076
##  [8] 0.3846104 0.3846097 0.3846079 0.3846072 0.3846091 0.3846114 0.3846110
## [15] 0.3846128 0.3846120 0.3846104 0.3846090 0.3846101 0.3846104 0.3846102
## [22] 0.3846123 0.3846090 0.3846087 0.3846086 0.3846077 0.3846107 0.3846089
## [29] 0.3846090 0.3846125 0.3846110 0.3846066
## attr(,"lambda")
## [1] -2.6

PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK SOLO MUJERES TRANSFORMADO

## 
##  Shapiro-Wilk normality test
## 
## data:  Mujeres_Per_abdo_Transf
## W = 0.98239, p-value = 0.8654

HIPÓTESIS

\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal

DECISIÓN

se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05

P-value=0.8654 > 0.05 aceptamos \(H_0\)

por lo anterior con un labmda de -2.6, la transformación de la variable per_abdo para mujeres permite demostrar que tanto gráficamente como analíticamente la variable transformada se distribuye de manera normal.

3. \[\mu= \begin{bmatrix} -2 \\ 1 \\ 3 \\ 4 \\ \end{bmatrix} M= \begin{bmatrix} 137 & 8 & 2 & 1 \\ 8 & 144 & 10 & 6 \\ 2 & 10 & 7 & 2 \\ 1 & 6 & 2 & 2 \end{bmatrix} \]

1.hallar la distribución de Z

\[Z=\begin{bmatrix} z1 \\ z2 \\ \end{bmatrix} = \begin{bmatrix} 2x1-3x3+4x4 \\ x3-2x2+3x1-x4 \\ \end{bmatrix} = \begin{bmatrix} 2 & 0 & -3 & 4 \\ 3 & -2 & 1 & -1 \\ \end{bmatrix} \begin{bmatrix} x1 \\ x2 \\ x3 \\ x4 \\ \end{bmatrix} = AX \] Aes una matriz de orden 2x4 de las propiedades de la distribución multivariada. ademas, se sabe que \(X\):\(\sim normal(A\mu,AIA')\)

\[A\mu = \begin{bmatrix} 2 & 0 & -3 & 4 \\ 3 & -2 & 1 & -1 \\ \end{bmatrix} \begin{bmatrix} -2 \\ 3 \\ 1 \\ 4 \end{bmatrix} = \begin{bmatrix} 9 \\ -15 \end{bmatrix} \]

\[AMA' = \begin{bmatrix} 2 & 0 & -3 & 4 \\ 3 & -2 & 1 & -1 \\ \end{bmatrix} \begin{bmatrix} 137 & 8 & 2 & 1 \\ 8 & 144 & 10 & 6 \\ 2 & 10 & 7 & 2 \\ 1 & 6 & 2 & 2 \end{bmatrix} \begin{bmatrix} 2 & 3 \\ 0 & -2\\ -3 & 1\\ 4 & -1 \end{bmatrix} = \begin{bmatrix} 587 & 783 \\ 783 & 1708 \end{bmatrix} \]

2. hallar la distribución condicional \(X(2)\) dado que \(X(1)\)=\(-1/2\) \[X(1)= \begin{bmatrix} x2 \\ x4 \\ \end{bmatrix} X(2) = \begin{bmatrix} x1 \\ x3 \end{bmatrix} \] teniendo en cuenta que:

\[\mu= \begin{bmatrix} \frac{\mu(1)}{\mu(2)} \\ \end{bmatrix} = \begin{bmatrix} \mu2 \\ \frac{\mu4}{\mu1} \\ \mu3\\ \end{bmatrix} = \begin{bmatrix} 3 \\ \frac{4} {-2} \\ 1\\ \end{bmatrix} donde \ \mu(1)= \begin{bmatrix} 3 & 4 \\ \end{bmatrix} \ y\ \mu(2)= \begin{bmatrix} -2 & 1 \\ \end{bmatrix} \]

\[\mu= \begin{bmatrix} \frac{X(1)}{X(2)} \\ \end{bmatrix} = \begin{bmatrix} x2 \\ \frac{x4}{x1} \\ x3\\ \end{bmatrix} \ M = \begin{bmatrix} M11 & M12 \\ M21 & M22 \\ \end{bmatrix} \]

\[M11= \begin{bmatrix} 144 & 6 \\ 6 & 2 \\ \end{bmatrix} M12= \begin{bmatrix} 8 & 10 \\ 1 & 2 \\ \end{bmatrix} M21= \begin{bmatrix} 8 & 1 \\ 10 & 2 \\ \end{bmatrix} M22= \begin{bmatrix} 137 & 2 \\ 2 & 7 \\ \end{bmatrix} \] La matriz de medias es equivalente a \(\mu X(2)/X(1)=\mu (2)+M21*M11^{-1 }(X(1)-\mu(1))\)

\[= \begin{bmatrix} -2 \\ 1 \end{bmatrix} + \begin{bmatrix} 8 & 1 \\ 10 & 2 \\ \end{bmatrix} \begin{bmatrix} 1/126 & -1/42 \\ -1/42 & 4/7 \\ \end{bmatrix} \begin{bmatrix} \begin{bmatrix} -1 \\ 2 \end{bmatrix} - \begin{bmatrix} 3 \\ 4 \end{bmatrix} \end{bmatrix} = \begin{bmatrix} -184/63\\ -59/63 \end{bmatrix} \]

La matriz de covarianzas es equivalente a \(M X(2)/X(1)=M22 -M21*M11^{-1 }*M12)\)

\[= \begin{bmatrix} 1 & 2 \\ 2 & 7 \end{bmatrix} - \begin{bmatrix} 8 & 1 \\ 10 & 2 \\ \end{bmatrix} \begin{bmatrix} 1/126 & -1/42 \\ -1/42 & 4/7 \\ \end{bmatrix} \begin{bmatrix} 8 & 10 \\ 1 & 2 \\ \end{bmatrix} = \begin{bmatrix} 19/63 & 53/63\\ 53/63 & 307/63 \end{bmatrix} \]

4. Calcule la distancia de Mahalanobis entre los vectores de medias para Hombres y Mujeres. Explique paso a paso cómo realiza dicho cálculo.

para calcular la distancia de Mahalanobis donde tenemos vectores de medias asociados a dos grupos diferentes, pero donde la estructura de Covarianzas es la misma, procedemos de la siguiente manera. $({x1}-{x2})’sp^{-1}({x1}-{x2}) $ para calcular esta distancia se calcula el vector de medias para hombres y mujeres, se calcula la diferencia y se transpone el vector resultante, luego calculamos la inversa de la matriz de covarianzas y lo multiplicamos por el vector resultante del paso anterior, finalmente se multiplica por la diferencia entre el vector de medias para hombres y mujeres y como resultado se obtiene un valor 1x1 que hace referencia a la distancia de mahalanobis.

##        [,1]
## [1,] 2.6511

Se tiene a disposición los siguientes registros de 4 personas, pero se desconoce su SEXO

\[ \begin{bmatrix} sujeto & p1 & p16 &p27 &p29 &p38 &sexo \\ 1 & 78.3 & 87.2 & 27.0 & 19.8 & 179.2 \\ 2 & 71.4 & 82.7 & 23.5 & 16.9 & 165.8 \\ 3 & 66.2 & 85.4 & 23.7 & 17.4 & 161.2 \\ 4 & 69.3 & 81.4 & 25.1 & 17.3 & 164.3 \end{bmatrix} \] Indique cómo clasificaría cada sujeto como Hombre o Mujer y realice dicho proceso para cada uno de ellos. Explique el procedimiento empleado. Lo que se pide NO es un proceso de Imputación.

nos encontramos que los vectores de datos asociados a los 4 sujetos pertenecen al sexo masculino, dado que en el primer gráfico, previamente incluimos los datos a nuestra tabla de datos, y calculamos un cluster, para verificar a que subgrupo clasificaba los datos 71,72,73,74, estos fueron clasificados en el subgrupo de hombres, y finalmente se calculó la distancia de mahalanobis para cada subgrupo y se comparó con la distancia promedio de hombres y mujeres, y como podemos ver, se acerca más a la distancia de hombres.

##   sexo             s1am             s2am             s3am             s4am
## 1  Muj 8.22374097572864 4.64778955785076 1.87550552366611 3.88754380197705
## 2 Homb 3.24070744020894 5.27895667990223 1.17777423976257 4.04333751943101

Resumen distancias por sexo

5.Con la base de datos Acopla, se seleccionaron de manera conveniente 10 variables. Usando un criterio de discriminación para cada variable, el experto clasificaba el sujeto en 0 o 1 (0 indica que no cumple la condición y 1 que la cumple). Los resultados para 5 sujetos se muestran a continuación: Usando esta información calcule una matriz de similaridades para los 5 sujetos usando el índice de Sokal y Michener. Indique cuales son los dos sujetos más parecidos y por qué.

\[ \begin{bmatrix} sujetos&x1 & x2 & x3 & x4 &x5 &x6 &x7 &x8 &x9 &x10 \\ suj1 & 1 &0& 0 &0 &0& 1& 0& 1& 0& 0& \\ suj2 &0 &0 &1& 1 &0 &1& 0 &0 &0& 0 \\ suj3 &1 &0 &1 &1 &0 &1& 1& 1 &1 &1 \\ suj4 &1 &0 &1& 1 &0 &0& 1 &0& 1 &1 \\ suj5 &1& 1 &0 &1& 0 &1 &1& 1& 0& 1 \end{bmatrix} \]

\[ \begin{bmatrix} letra & s12 &s13&s14& s15&s23 & s24 & s25 & s34 & s35 & s45\\ a & 1& 3 & 1 & 3 & 3 & 2 & 2 & 6 & 6 & 4 \\ b & 2& 0& 2& 0& 0& 1& 1& 2& 2& 2\\ c & 2& 5& 5& 4& 5& 4& 5& 0& 1& 3 \\ d & 5& 2& 2& 3& 2& 3& 2& 2& 1& 1 \end{bmatrix} \]

\[ \begin{bmatrix} sujetos&suj1&suj2&suj3&suj4&suj5 \\ suj1&1&3/5&1/2&3/10&6/10 \\ suj2&3/5&1&1/2&1/2&2/5 \\ suj3&1/2&1/2&1&4/5&7/10 \\ suj4&3/10&1/2&4/5&1&1/2 \\ suj5&6/10&2/5&7/10&1/2&1 \end{bmatrix} \]

Usando el índice de Sokal y Michener, los sujetos mas parecidos son el sujeto 3 y 4 con un valor de 4/5.