La base de datos proporciona datos recolectados en un estudio de parámetros antropométricos de población laboral colombiana (Acopla). De las 72 variables allí registradas se está solo interesado en las siguientes variables: Sexo (Hom: Hombre; Muj: Mujer), Masa, Per_abdo (Perímetro abdominal cintura), Long_pie (Longitud promedio de ambos píes), Long_man (Longitud promedio de ambas manos) y Estatura.
Analisis descriptivo de las variables
GRÁFICA DE CORRELACIÓN
El grafico anterior nos muestra la relación entre pares de variables vemos que la mayor entre las variables se presenta entre la masa y el perímetro abdominal(per_abdo) con una correlación de 0.857, y una tendencia positiva que nos indica que a medida que aumenta una de las variables la otra también aumenta, por otra parte, observamos que la longitud de la mano y la longitud del pie presentan una muy buena correlación con tendencia positiva. finalmente es viable hablar sobre la normalidad de las variables gráficamente, vemos que las variables masa longitud del pie longitud de la mano aparentemente siguen una distribución normal, mientras que las variables perímetro abdominal y estatura es un poco confuso.
1.Calcule el vector de medias y la matriz de covarianzas muestrales para las variables Masa Per_abdo Long_pie Long_man Estatura. Comente sus resultados. Repita el proceso discriminando por SEXO. ¿Observa diferencias entre ambos cálculos? Comente.
## [,1] [,2] [,3] [,4] [,5]
## [1,] 64.75857 80.66286 24.28857 17.55 163.42
Vector de Medias sin discriminar
## Masa Per_abdo Long_pie Long_man Estatura
## Masa 131.74159 106.542787 10.617056 7.475000 49.738812
## Per_abdo 106.54279 117.227876 6.564932 5.486957 21.042493
## Long_pie 10.61706 6.564932 2.241027 1.409275 11.088493
## Long_man 7.47500 5.486957 1.409275 1.185725 6.757971
## Estatura 49.73881 21.042493 11.088493 6.757971 72.565101
matriz covarianzas muestrales sin discriminar
Los valores de covarianza positivos indican que valores por encima del promedio de una variable están asociados con valores por encima del promedio de la otra variable y que valores por debajo del promedio de una variable están asociados con valores por debajo del promedio de la otra variable. de lo anterior vemos que en general existe un desfase considerable entre la covarianza y los promedios de las variables, posiblemente a la no discriminación de las variables por tipo de sexo.
## [,1] [,2] [,3] [,4] [,5]
## [1,] 70.25263 86.31053 25.17895 18.17632 168.1158
Vector de Medias hombres
## Masa Per_abdo Long_pie Long_man Estatura
## Masa 87.628506 59.229161 4.7035704 3.2347937 15.706444
## Per_abdo 59.229161 77.524211 -1.1411238 0.6391750 -23.650982
## Long_pie 4.703570 -1.141124 1.4957610 0.8240825 7.264936
## Long_man 3.234794 0.639175 0.8240825 0.8586131 3.653357
## Estatura 15.706444 -23.650982 7.2649360 3.6533570 52.018663
matriz covarianzas muestrales hombres
## [,1] [,2] [,3] [,4] [,5]
## [1,] 58.23438 73.95625 23.23125 16.80625 157.8438
Vector de Medias mujeres
## Masa Per_abdo Long_pie Long_man Estatura
## Masa 107.703619 83.248972 4.9005040 3.5501008 22.783931
## Per_abdo 83.248972 82.869637 2.4904435 1.9651210 3.952298
## Long_pie 4.900504 2.490444 1.0770565 0.6578629 4.798589
## Long_man 3.550101 1.965121 0.6578629 0.5625403 2.795202
## Estatura 22.783931 3.952298 4.7985887 2.7952016 40.301895
matriz covarianzas muestrales mujeres
al realizar la discriminación por sexo, se nota claramente que la covarianza se ajusta mucho mejor al vector de medias asociado tanto para hombres como para mujeres, dejando ver así de manera más oportuna el grado de variación conjunta entre una y otra variable.
2.Elabore un histograma para la variable Per_abdo. ¿Puede deducirse del mismo que la distribución de probabilidad de esta variable puede ser una normal?. Verifique este supuesto, planteando las respectivas hipótesis. Si el resultado no es favorable, usando la metodología de Box y Cox, encuentre una transformación que le garantice normalidad y muestre si en efecto esto se logra.Debe aportar la evidencia de los resultados obtenidos en R.
pruebas graficas de normalidad para el perimetro abdominal para ambos generos
del grafico anterior se observa que posiblemente la variable perímetro abdominal(per_abdo) se distribuye de manera normal, los datos están bastante ajustados a la línea, y el histograma es relativamente simétrico. Esta información se corrobora por medio de la prueba analítica de normalidad de shappiro wilk.
##
## Shapiro-Wilk normality test
##
## data: datos$Per_abdo
## W = 0.97823, p-value = 0.2622
PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK
HIPÓTESIS
\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal
DECISIÓN
se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05
P-value=0.2622 > 0.05 aceptamos \(H_0\)
por lo anterior decimos que la variable perimetro abdominal se distribuye de manera normal. sin embargo, veremos como es el comportamiento discriminado por genero.
PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK SOOLO HOMBRES
##
## Shapiro-Wilk normality test
##
## data: datosHombres$Per_abdo
## W = 0.96828, p-value = 0.3476
HIPÓTESIS
\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal
DECISIÓN
se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05
P-value=0.3476 > 0.05 aceptamos \(H_0\)
por lo anterior decimos que la variable perímetro abdominal se distribuye de manera normal.
PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK SOLO MUJERES
##
## Shapiro-Wilk normality test
##
## data: datosMujeres$Per_abdo
## W = 0.92374, p-value = 0.02629
HIPÓTESIS
\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal
DECISIÓN
se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05
P-value=0.02629 > 0.05 aceptamos \(H_0\)
por lo anterior decimos que la variable perimetro abdominal no se distribuye de manera normal.
TRANSFORMACIÓN VARIABLE PERIMETRO ABDOMINAL PARA MUJERES
Se encontraron dos metodologías para hacer la transformación de la variable, el primer método, encontró un lambda de -2, y el segundo un lambda de -2.6, en la práctica se analizó cuál de los dos era mejor, y por medio del análisis de normalidad de shappiro wilk el lambda de -2.6 aumentaba el valor p.
## [1] 0.3846113 0.3846102 0.3846080 0.3846086 0.3846093 0.3846099 0.3846076
## [8] 0.3846104 0.3846097 0.3846079 0.3846072 0.3846091 0.3846114 0.3846110
## [15] 0.3846128 0.3846120 0.3846104 0.3846090 0.3846101 0.3846104 0.3846102
## [22] 0.3846123 0.3846090 0.3846087 0.3846086 0.3846077 0.3846107 0.3846089
## [29] 0.3846090 0.3846125 0.3846110 0.3846066
## attr(,"lambda")
## [1] -2.6
PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK SOLO MUJERES TRANSFORMADO
##
## Shapiro-Wilk normality test
##
## data: Mujeres_Per_abdo_Transf
## W = 0.98239, p-value = 0.8654
HIPÓTESIS
\(H_O\):\(PerimetroAbdominal \sim\) normal vs \(H_1\):\(PerimetroAbdominal \nsim\) no normal
DECISIÓN
se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05
P-value=0.8654 > 0.05 aceptamos \(H_0\)
por lo anterior con un labmda de -2.6, la transformación de la variable per_abdo para mujeres permite demostrar que tanto gráficamente como analíticamente la variable transformada se distribuye de manera normal.
3. \[\mu= \begin{bmatrix} -2 \\ 1 \\ 3 \\ 4 \\ \end{bmatrix} M= \begin{bmatrix} 137 & 8 & 2 & 1 \\ 8 & 144 & 10 & 6 \\ 2 & 10 & 7 & 2 \\ 1 & 6 & 2 & 2 \end{bmatrix} \]
1.hallar la distribución de Z
\[Z=\begin{bmatrix} z1 \\ z2 \\ \end{bmatrix} = \begin{bmatrix} 2x1-3x3+4x4 \\ x3-2x2+3x1-x4 \\ \end{bmatrix} = \begin{bmatrix} 2 & 0 & -3 & 4 \\ 3 & -2 & 1 & -1 \\ \end{bmatrix} \begin{bmatrix} x1 \\ x2 \\ x3 \\ x4 \\ \end{bmatrix} = AX \] Aes una matriz de orden 2x4 de las propiedades de la distribución multivariada. ademas, se sabe que \(X\):\(\sim normal(A\mu,AIA')\)
\[A\mu = \begin{bmatrix} 2 & 0 & -3 & 4 \\ 3 & -2 & 1 & -1 \\ \end{bmatrix} \begin{bmatrix} -2 \\ 3 \\ 1 \\ 4 \end{bmatrix} = \begin{bmatrix} 9 \\ -15 \end{bmatrix} \]
\[AMA' = \begin{bmatrix} 2 & 0 & -3 & 4 \\ 3 & -2 & 1 & -1 \\ \end{bmatrix} \begin{bmatrix} 137 & 8 & 2 & 1 \\ 8 & 144 & 10 & 6 \\ 2 & 10 & 7 & 2 \\ 1 & 6 & 2 & 2 \end{bmatrix} \begin{bmatrix} 2 & 3 \\ 0 & -2\\ -3 & 1\\ 4 & -1 \end{bmatrix} = \begin{bmatrix} 587 & 783 \\ 783 & 1708 \end{bmatrix} \]
2. hallar la distribución condicional \(X(2)\) dado que \(X(1)\)=\(-1/2\) \[X(1)= \begin{bmatrix} x2 \\ x4 \\ \end{bmatrix} X(2) = \begin{bmatrix} x1 \\ x3 \end{bmatrix} \] teniendo en cuenta que:
\[\mu= \begin{bmatrix} \frac{\mu(1)}{\mu(2)} \\ \end{bmatrix} = \begin{bmatrix} \mu2 \\ \frac{\mu4}{\mu1} \\ \mu3\\ \end{bmatrix} = \begin{bmatrix} 3 \\ \frac{4} {-2} \\ 1\\ \end{bmatrix} donde \ \mu(1)= \begin{bmatrix} 3 & 4 \\ \end{bmatrix} \ y\ \mu(2)= \begin{bmatrix} -2 & 1 \\ \end{bmatrix} \]
\[\mu= \begin{bmatrix} \frac{X(1)}{X(2)} \\ \end{bmatrix} = \begin{bmatrix} x2 \\ \frac{x4}{x1} \\ x3\\ \end{bmatrix} \ M = \begin{bmatrix} M11 & M12 \\ M21 & M22 \\ \end{bmatrix} \]
\[M11= \begin{bmatrix} 144 & 6 \\ 6 & 2 \\ \end{bmatrix} M12= \begin{bmatrix} 8 & 10 \\ 1 & 2 \\ \end{bmatrix} M21= \begin{bmatrix} 8 & 1 \\ 10 & 2 \\ \end{bmatrix} M22= \begin{bmatrix} 137 & 2 \\ 2 & 7 \\ \end{bmatrix} \] La matriz de medias es equivalente a \(\mu X(2)/X(1)=\mu (2)+M21*M11^{-1 }(X(1)-\mu(1))\)
\[= \begin{bmatrix} -2 \\ 1 \end{bmatrix} + \begin{bmatrix} 8 & 1 \\ 10 & 2 \\ \end{bmatrix} \begin{bmatrix} 1/126 & -1/42 \\ -1/42 & 4/7 \\ \end{bmatrix} \begin{bmatrix} \begin{bmatrix} -1 \\ 2 \end{bmatrix} - \begin{bmatrix} 3 \\ 4 \end{bmatrix} \end{bmatrix} = \begin{bmatrix} -184/63\\ -59/63 \end{bmatrix} \]
La matriz de covarianzas es equivalente a \(M X(2)/X(1)=M22 -M21*M11^{-1 }*M12)\)
\[= \begin{bmatrix} 1 & 2 \\ 2 & 7 \end{bmatrix} - \begin{bmatrix} 8 & 1 \\ 10 & 2 \\ \end{bmatrix} \begin{bmatrix} 1/126 & -1/42 \\ -1/42 & 4/7 \\ \end{bmatrix} \begin{bmatrix} 8 & 10 \\ 1 & 2 \\ \end{bmatrix} = \begin{bmatrix} 19/63 & 53/63\\ 53/63 & 307/63 \end{bmatrix} \]
4. Calcule la distancia de Mahalanobis entre los vectores de medias para Hombres y Mujeres. Explique paso a paso cómo realiza dicho cálculo.
para calcular la distancia de Mahalanobis donde tenemos vectores de medias asociados a dos grupos diferentes, pero donde la estructura de Covarianzas es la misma, procedemos de la siguiente manera. $({x1}-{x2})’sp^{-1}({x1}-{x2}) $ para calcular esta distancia se calcula el vector de medias para hombres y mujeres, se calcula la diferencia y se transpone el vector resultante, luego calculamos la inversa de la matriz de covarianzas y lo multiplicamos por el vector resultante del paso anterior, finalmente se multiplica por la diferencia entre el vector de medias para hombres y mujeres y como resultado se obtiene un valor 1x1 que hace referencia a la distancia de mahalanobis.
## [,1]
## [1,] 2.6511
Se tiene a disposición los siguientes registros de 4 personas, pero se desconoce su SEXO
\[ \begin{bmatrix} sujeto & p1 & p16 &p27 &p29 &p38 &sexo \\ 1 & 78.3 & 87.2 & 27.0 & 19.8 & 179.2 \\ 2 & 71.4 & 82.7 & 23.5 & 16.9 & 165.8 \\ 3 & 66.2 & 85.4 & 23.7 & 17.4 & 161.2 \\ 4 & 69.3 & 81.4 & 25.1 & 17.3 & 164.3 \end{bmatrix} \] Indique cómo clasificaría cada sujeto como Hombre o Mujer y realice dicho proceso para cada uno de ellos. Explique el procedimiento empleado. Lo que se pide NO es un proceso de Imputación.
nos encontramos que los vectores de datos asociados a los 4 sujetos pertenecen al sexo masculino, dado que en el primer gráfico, previamente incluimos los datos a nuestra tabla de datos, y calculamos un cluster, para verificar a que subgrupo clasificaba los datos 71,72,73,74, estos fueron clasificados en el subgrupo de hombres, y finalmente se calculó la distancia de mahalanobis para cada subgrupo y se comparó con la distancia promedio de hombres y mujeres, y como podemos ver, se acerca más a la distancia de hombres.
## sexo s1am s2am s3am s4am
## 1 Muj 8.22374097572864 4.64778955785076 1.87550552366611 3.88754380197705
## 2 Homb 3.24070744020894 5.27895667990223 1.17777423976257 4.04333751943101
Resumen distancias por sexo
5.Con la base de datos Acopla, se seleccionaron de manera conveniente 10 variables. Usando un criterio de discriminación para cada variable, el experto clasificaba el sujeto en 0 o 1 (0 indica que no cumple la condición y 1 que la cumple). Los resultados para 5 sujetos se muestran a continuación: Usando esta información calcule una matriz de similaridades para los 5 sujetos usando el índice de Sokal y Michener. Indique cuales son los dos sujetos más parecidos y por qué.
\[ \begin{bmatrix} sujetos&x1 & x2 & x3 & x4 &x5 &x6 &x7 &x8 &x9 &x10 \\ suj1 & 1 &0& 0 &0 &0& 1& 0& 1& 0& 0& \\ suj2 &0 &0 &1& 1 &0 &1& 0 &0 &0& 0 \\ suj3 &1 &0 &1 &1 &0 &1& 1& 1 &1 &1 \\ suj4 &1 &0 &1& 1 &0 &0& 1 &0& 1 &1 \\ suj5 &1& 1 &0 &1& 0 &1 &1& 1& 0& 1 \end{bmatrix} \]
\[ \begin{bmatrix} letra & s12 &s13&s14& s15&s23 & s24 & s25 & s34 & s35 & s45\\ a & 1& 3 & 1 & 3 & 3 & 2 & 2 & 6 & 6 & 4 \\ b & 2& 0& 2& 0& 0& 1& 1& 2& 2& 2\\ c & 2& 5& 5& 4& 5& 4& 5& 0& 1& 3 \\ d & 5& 2& 2& 3& 2& 3& 2& 2& 1& 1 \end{bmatrix} \]
\[ \begin{bmatrix} sujetos&suj1&suj2&suj3&suj4&suj5 \\ suj1&1&3/5&1/2&3/10&6/10 \\ suj2&3/5&1&1/2&1/2&2/5 \\ suj3&1/2&1/2&1&4/5&7/10 \\ suj4&3/10&1/2&4/5&1&1/2 \\ suj5&6/10&2/5&7/10&1/2&1 \end{bmatrix} \]
Usando el índice de Sokal y Michener, los sujetos mas parecidos son el sujeto 3 y 4 con un valor de 4/5.