UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
FACULTAD DE ECONOMÍA Y PLANIFICACIÓN
DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA INFORMÁTICA

Examen Parcial

CURSO: Técnicas Multivariadas
DOCENTE: Miranda Villagomez Clodomiro Fernando

ALUMNOS:
Lopez Acuña, Victor Andreé - 20180206
Morales Morales, Flavio Oscar - 20170202
Mori Perez, Luis Alberto - 20170058
Garces Quispe, Adryana Luisa - 20220764
Estrella Guerra, Danilo David - 20220763
Jimenez Ruiz, Alex Fernando - 20210839
2025

5 - Análisis de Correspondencia Simple

1. Preparación de los Datos

Contexto del estudio

Se realizó un estudio con 500 adultos para determinar la correspondencia que puede existir entre su nivel de actividad física y el tipo de alimentación que consumen regularmente.

El estudio busca analizar la relación entre dos variables cualitativas en adultos de 25-40 años:

  • Nivel de actividad física semanal

    • Categorías:

      • Sedentario: menos de 1h de ejercicio semanal.

      • Moderado: 1h-3h de ejercicio semanal.

      • Activo: 3h-5h de ejercicio semanal.

      • Muy activo: más de 5h de ejercicio semanal

  • Tipo de alimentación principal

    • Categorías:
      • Saludable: predominio de frutas, verduras y proteínas magras.

      • Balanceada: combinación equilibrada de todos los grupos alimenticios.

      • Occidental: alta en procesados, grasas y azúcares.

      • Vegetariana: Sin productos cárnicos.

      • Flexitariana: Mayormente vegetariana con consumo ocasional de carne

Objetivo

El objetivo es ver si existe correspondencia o patrón entre el nivel de actividad física y los hábitos alimenticios en la población adulta.

# Paquetes
library(MASS)
library(ca)
library(anacor)
library(FactoMineR)
library(gplots)
library(vcd)
library(graphics)
library(factoextra)
library(vegan)
# Ingreso de Datos
datos.acs <- matrix(c(45, 28, 12, 8, 32,    
                      32, 41, 25, 15, 27,    
                      18, 25, 38, 28, 16,    
                      10, 15, 30, 42, 13),  
                    nrow = 4, byrow = T)

# Asignacion de nombres a las filas y columnas de la tabla
dimnames(datos.acs) <- list(Actividad = c("Sedentario", "Moderado", "Activo", "Muy Activo"),
                            Alimentacion = c("Saludable", "Balanceada", "Occidental", "Vegetariana", "Flexitariana"))

# Verificar la tabla
datos.acs
##             Alimentacion
## Actividad    Saludable Balanceada Occidental Vegetariana Flexitariana
##   Sedentario        45         28         12           8           32
##   Moderado          32         41         25          15           27
##   Activo            18         25         38          28           16
##   Muy Activo        10         15         30          42           13
addmargins(datos.acs)
##             Alimentacion
## Actividad    Saludable Balanceada Occidental Vegetariana Flexitariana Sum
##   Sedentario        45         28         12           8           32 125
##   Moderado          32         41         25          15           27 140
##   Activo            18         25         38          28           16 125
##   Muy Activo        10         15         30          42           13 110
##   Sum              105        109        105          93           88 500

2. Prueba de Independencia Chi-Cuadrado

2.1. Hipótesis

  • H₀: Las variables nivel de actividad física y tipo de alimentación son independientes.

  • H₁: Las variables nivel de actividad física y tipo de alimentación no son independientes.

2.2. Prueba estadística de Chi-Cuadrado

prueba <- chisq.test(datos.acs)
prueba
## 
##  Pearson's Chi-squared test
## 
## data:  datos.acs
## X-squared = 93.355, df = 12, p-value = 1.103e-14

Interpretación: El p-value = 1.103e-14 < 0.05, entonces existe suficiente evidencia estadística para rechazar la H₀; es decir, las dos variables no son independientes. Eso quiere decir que si existe relación entre el nivel de actividad física y el tipo de alimentación.

Chi-squared crítico para 12 grados de libertad

qchisq(0.05, 12, lower.tail = FALSE)
## [1] 21.02607

2.3. Decisión estadística

Si \(\chi^2_c \geq \chi^2_{(1-\alpha),\,(r-1)(c-1)\,gl}\) se rechaza la H₀.

De acuerdo a nuestros resultados: \[\chi^2_c = 93.355 \geq \chi^2_{(1-\alpha),\,(r-1)(c-1)\,gl} = 21.02607\]

Entonces se confirma lo obtenido con chisq.test(datos.acs), se rechaza la H₀.

3. Frecuencias observadas vs esperadas

3.1. Frecuencias observadas

Aquí observamos la tabla original, los datos reales.

prueba$observed
##             Alimentacion
## Actividad    Saludable Balanceada Occidental Vegetariana Flexitariana
##   Sedentario        45         28         12           8           32
##   Moderado          32         41         25          15           27
##   Activo            18         25         38          28           16
##   Muy Activo        10         15         30          42           13

3.2. Frecuencias esperadas

Aquí observamos las frecuencias esperadas bajo la hipótesis de independencia.

prueba$expected
##             Alimentacion
## Actividad    Saludable Balanceada Occidental Vegetariana Flexitariana
##   Sedentario     26.25      27.25      26.25       23.25        22.00
##   Moderado       29.40      30.52      29.40       26.04        24.64
##   Activo         26.25      27.25      26.25       23.25        22.00
##   Muy Activo     23.10      23.98      23.10       20.46        19.36
  • Se calculan con la fórmula:

\[E_{ij} = \frac{O_{i.} \, O_{.j}}{O_{..}}\]

Estas frecuencias representan lo que esperaríamos ver si la distribución del tipo de alimentación fuera la misma para todos los grupos de nivel de actividad física semanal.

Saludable Balanceada Occidental Vegetariana Flexitariana Sum
Sedentario 45 28 12 8 32 125
Moderado 32 41 25 15 27 140
Activo 18 25 38 28 16 125
Muy Activo 10 15 30 42 13 110
Sum 105 109 105 93 88 500

Por ejemplo:

  • Para \(E_{11}\): \(E_{11}=\frac{125 \times 105}{500}=26.25\)

  • Para \(E_{42}\): \(E_{42}=\frac{110 \times 109}{500}=23.98\)

DE ACUERDO AL CHI-CUADRADO

\[ \chi^2_c = \sum_{i=1}^{r} \sum_{j=1}^{c} \left[ \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \right] \]

  • Si observadas ≈ esperadas, entonces \(\chi^2\) es pequeño: las variables son independientes.

  • Si observadas ≠ esperadas, \(\chi^2\) crece: hay asociación.

3.3. Tabla de perfiles de filas y columnas

library(gmodels)
## Registered S3 method overwritten by 'gdata':
##   method         from  
##   reorder.factor gplots
CrossTable(datos.acs, prop.t = TRUE,
           prop.r = TRUE,
           prop.c = TRUE,
           prop.chisq = FALSE)
## 
##  
##    Cell Contents
## |-------------------------|
## |                       N |
## |           N / Row Total |
## |           N / Col Total |
## |         N / Table Total |
## |-------------------------|
## 
##  
## Total Observations in Table:  500 
## 
##  
##              | Alimentacion 
##    Actividad |    Saludable |   Balanceada |   Occidental |  Vegetariana | Flexitariana |    Row Total | 
## -------------|--------------|--------------|--------------|--------------|--------------|--------------|
##   Sedentario |           45 |           28 |           12 |            8 |           32 |          125 | 
##              |        0.360 |        0.224 |        0.096 |        0.064 |        0.256 |        0.250 | 
##              |        0.429 |        0.257 |        0.114 |        0.086 |        0.364 |              | 
##              |        0.090 |        0.056 |        0.024 |        0.016 |        0.064 |              | 
## -------------|--------------|--------------|--------------|--------------|--------------|--------------|
##     Moderado |           32 |           41 |           25 |           15 |           27 |          140 | 
##              |        0.229 |        0.293 |        0.179 |        0.107 |        0.193 |        0.280 | 
##              |        0.305 |        0.376 |        0.238 |        0.161 |        0.307 |              | 
##              |        0.064 |        0.082 |        0.050 |        0.030 |        0.054 |              | 
## -------------|--------------|--------------|--------------|--------------|--------------|--------------|
##       Activo |           18 |           25 |           38 |           28 |           16 |          125 | 
##              |        0.144 |        0.200 |        0.304 |        0.224 |        0.128 |        0.250 | 
##              |        0.171 |        0.229 |        0.362 |        0.301 |        0.182 |              | 
##              |        0.036 |        0.050 |        0.076 |        0.056 |        0.032 |              | 
## -------------|--------------|--------------|--------------|--------------|--------------|--------------|
##   Muy Activo |           10 |           15 |           30 |           42 |           13 |          110 | 
##              |        0.091 |        0.136 |        0.273 |        0.382 |        0.118 |        0.220 | 
##              |        0.095 |        0.138 |        0.286 |        0.452 |        0.148 |              | 
##              |        0.020 |        0.030 |        0.060 |        0.084 |        0.026 |              | 
## -------------|--------------|--------------|--------------|--------------|--------------|--------------|
## Column Total |          105 |          109 |          105 |           93 |           88 |          500 | 
##              |        0.210 |        0.218 |        0.210 |        0.186 |        0.176 |              | 
## -------------|--------------|--------------|--------------|--------------|--------------|--------------|
## 
## 

Interpretación:

Para Sedentario:

Frecuencia (45): 45 adultos sedentarios que tiene una alimentación saludable.

  • 0.360 = 45/125: de los que tienen un nivel de actividad física sedentaria, 36% tiene un tipo de dieta saludable.
  • 0.429 = 45/105: de todos los que tienen un tipo de dieta saludable, 42.9% tienen un nivel de actividad fisica sedentaria.
  • 0.090 = 45/500: el 9% de los 500 adultos tienen un nivel de actividad física sedentaria y siguen un tipo de dieta saludable.
  • Masa (frecuencia marginal) fila Sedentario: 125/500 = 0.250
  • Masa (frecuencia marginal) columna Saludable: 105/500 = 0.210

4. Analisis de Correspondencias Simple

library(FactoMineR) 

# Realizar el Análisis de Correspondencias
res.ca = FactoMineR::CA(datos.acs, ncp = 5, graph = TRUE)

Interpretación del gráfico:

  1. Ejes/Dimensiones:

    • Dimensión 1: Explica el 89.47% de la inercia (variabilidad) → DIMENSIÓN PRINCIPAL

    • Dimensión 2: Explica el 8.65% de la inercia → DIMENSIÓN SECUNDARIA

    • Total explicado: 98.12% → Excelente representación

  2. Reglas de Interpretación:

    • Puntos cercanos = Asociación fuerte

    • Puntos lejanos = Asociación débil o opuesta

    • Cercanía al origen = Perfil promedio, sin características extremas

    • Misma dirección desde el origen = Asociación positiva

  3. Asociaciones:

    • Saludable y Sedentario: podría interpretarse como personas conscientes de su salud que, por alguna razón (trabajo, lesión), no pueden hacer ejercicio pero cuidan su alimentación.

    • Vegetariano y Muy Activo: podría interpretarse como personas muy activas físicamente siguen dietas vegetarianas.

    • Balanceado, Moderado y Activo (zona central, representa el perfil promedio): podría interpretarse como persona con una alimentación balanceada con actividad física moderada-activa.

    • Occidental: aislado en cuadrante positivo derecho (patrón alimenticio distintivo), no asociado fuertemente a ningún nivel de actividad específico.

# Resultados principales
print(res.ca)
## **Results of the Correspondence Analysis (CA)**
## The row variable has  4  categories; the column variable has 5 categories
## The chi square of independence between the two variables is equal to 93.35519 (p-value =  1.102959e-14 ).
## *The results are available in the following objects:
## 
##    name              description                   
## 1  "$eig"            "eigenvalues"                 
## 2  "$col"            "results for the columns"     
## 3  "$col$coord"      "coord. for the columns"      
## 4  "$col$cos2"       "cos2 for the columns"        
## 5  "$col$contrib"    "contributions of the columns"
## 6  "$row"            "results for the rows"        
## 7  "$row$coord"      "coord. for the rows"         
## 8  "$row$cos2"       "cos2 for the rows"           
## 9  "$row$contrib"    "contributions of the rows"   
## 10 "$call"           "summary called parameters"   
## 11 "$call$marge.col" "weights of the columns"      
## 12 "$call$marge.row" "weights of the rows"
summary(res.ca)
## 
## Call:
## FactoMineR::CA(X = datos.acs, ncp = 5, graph = TRUE) 
## 
## The chi square of independence between the two variables is equal to 93.35519 (p-value =  1.102959e-14 ).
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3
## Variance               0.167   0.016   0.004
## % of var.             89.466   8.648   1.886
## Cumulative % of var.  89.466  98.114 100.000
## 
## Rows
##                Iner*1000    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## Sedentario   |    71.395 | -0.516 39.875  0.933 |  0.135 28.116  0.064 | -0.031
## Moderado     |    18.787 | -0.215  7.762  0.690 | -0.128 28.197  0.242 |  0.067
## Activo       |    21.290 |  0.258  9.943  0.780 | -0.111 18.928  0.144 | -0.081
## Muy Activo   |    75.238 |  0.568 42.420  0.942 |  0.135 24.759  0.053 |  0.042
##                 ctr   cos2  
## Sedentario    7.009  0.003 |
## Moderado     36.042  0.068 |
## Activo       46.129  0.076 |
## Muy Activo   10.820  0.005 |
## 
## Columns
##                Iner*1000    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## Saludable    |    47.289 | -0.461 26.759  0.945 |  0.101 13.146  0.045 | -0.047
## Balanceada   |    14.336 | -0.187  4.550  0.530 | -0.159 33.972  0.383 |  0.076
## Occidental   |    31.430 |  0.355 15.869  0.843 | -0.130 21.821  0.112 | -0.082
## Vegetariana  |    76.661 |  0.623 43.276  0.943 |  0.146 24.722  0.052 |  0.045
## Flexitariana |    16.994 | -0.301  9.545  0.938 |  0.076  6.338  0.060 |  0.012
##                 ctr   cos2  
## Saludable    13.296  0.010 |
## Balanceada   35.470  0.087 |
## Occidental   39.705  0.044 |
## Vegetariana  10.786  0.005 |
## Flexitariana  0.742  0.002 |
# Autovalores y varianza explicada
res.ca$eig
##        eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.167041785              89.465724                          89.46572
## dim 2 0.016146341               8.647801                          98.11353
## dim 3 0.003522244               1.886475                         100.00000

Interpretación:

  1. Autovalores: El espacio de correspondencias tiene 3 dimensiones (porque el mínimo entre número de filas–1 y columnas–1 es 3).
    • Dim.1 explica la mayor parte de la inercia (89.47%)

    • Dim.2 agrega un 8.65% → en conjunto, las dos primeras dimensiones explican el 98.12% de la relación.

    • Por tanto, un gráfico en dos dimensiones es suficiente para visualizar e interpretar las asociaciones principales.

  2. Filas (Nivel de actividad física semanal)
    • ctr(1):

      • El 39.88% de la variabilidad de la dimension 1 es explicada por el nivel de actividad física Sedentario.

      • El 7.76% de la variabilidad de la dimension 1 es explicada por el nivel de actividad física Moderado.

    • cos²(1):

      • El 93.3% de la variabilidad del nivel de actividad física Sedentario es explicada por la Dim.1

      • El 78% de la variabilidad del nivel de actividad física Activo es explicada por la Dim.1

  3. Columnas (Tipo de alimentación)
    • cos² altos (Saludable, Vegetariana, Flexitariana y Occidental) → bien representadas en Dim.1
    • Balanceada se explican más por Dim.2 (cos² ≈ 0.4 en esa dimensión).
    • ctr muestra qué columnas “construyen” cada eje:
      • En Dim.1: Vegetariana (43.28%), Saludable (26.76%), Occidental (15.87%) → definen el eje de tipo de dieta.

      • En Dim.2: Balanceada (33.97%), Occidental (21.82%) y Vegetariana (24.72%) → definen el eje secundario.

4.1. Scree Plot de los Autovalores

library(factoextra)
fviz_screeplot(res.ca, addlabels = TRUE, ylim = c(0, 90))

4.2. Gráficos- Biplot

Primera forma - usando plot.CA de FactoMineR

FactoMineR::plot.CA(res.ca,mass=c(T,T))

Segunda forma - usando fviz_ca_biplot de factoextra

library(factoextra)
fviz_ca_biplot(res.ca, repel = T)

library(ca)
res.ca1 = ca(datos.acs)

plot(res.ca1, map="symbiplot")

4.3. Interpretacion de los Indicadores del ACS

summary(res.ca1,nb.dec = 3, ncp = 2) 
## 
## Call:
## ca(X = datos.acs) 
## 
## Partitioning of scaled Chi-square:
##               Inertia Proportion
## Total          0.1867          1
## Unconstrained  0.1867          1
## 
## Eigenvalues, and their contribution to the scaled Chi-square 
## 
## Importance of components:
##                          CA1     CA2      CA3
## Eigenvalue            0.1670 0.01615 0.003522
## Proportion Explained  0.8947 0.08648 0.018865
## Cumulative Proportion 0.8947 0.98114 1.000000

Interpretacion de la Contribucion Absoluta (ctr)

  • Por ejemplo: para la fila Sedentario y la dimension 1 se tiene una ctr = 39.875. El 39.88% de la inercia de la dimension 1 es explicada por la fila Sedentario

Interpretacion de la Contribucion Relativa (cos2)

  • Por ejemplo: para la fila Sedentario y la dimension 1 se tiene una cos2 = 0.933. El 93.3% de la inercia de la fila Sedentario es explicada por la dimension 1.

5. Conclusiones

Resultados Estadísticos Significativos

  • Prueba de Chi-cuadrado: \(\chi^2\) = 93.36, p-value = 1.10e-14

  • Rechazo de H₀: Existe relación significativa entre nivel de actividad física y tipo de alimentación

  • Inercia total: 0.1867, indicando asociación moderada-fuerte entre variables.

Capacidad explicativa del modelo

  • Dimensión 1: Explica 89.47% de la inercia → Eje principal

  • Dimensión 2: Explica 8.65% de la inercia → Eje secundario

  • Total 2 dimensiones: 98.11% → Excelente representación

Perfiles identificados

  1. Perfil «Conscientes Sedentarios»

    • Asociación: Sedentario + Saludable + Flexitariana

    • Contribuciones altas: Sedentario (39.9%), Saludable (26.8%)

    • Interpretación: Personas que priorizan alimentación saludable pero tienen baja actividad física.

  2. Perfil «Deportistas Vegetarianos»

    • Asociación: Muy Activo + Vegetariana

    • Contribuciones muy altas: Muy Activo (42.4%), Vegetariana (43.3%)

    • Interpretación: Alto compromiso con ejercicio intenso y alimentación consciente.

  3. Perfil «Equilibrado Promedio»

    • Asociación: Moderado + Activo + Balanceada

    • Posición central: Representa hábitos equilibrados sin extremos.

    • Interpretación: Población general con estilo de vida balanceado.

Contribuciones principales

  1. Relación no lineal: No se cumple el supuesto de “a más ejercicio, mejor alimentación”
  2. Segmentación clara: Tres perfiles bien diferenciados con comportamientos distintivos
  3. Paradoja identificada: Personas sedentarias muestran alta conciencia alimentaria
  4. Patrón consistente: Fuerte asociación entre actividad intensa y vegetarianismo

Cumplimiento del Objetivo

  • El objetivo principal se cumplió satisfactoriamente: Se identificaron patrones significativos y accionables en la relación entre hábitos alimenticios y nivel de actividad física, con una capacidad explicativa excepcional (98.11%) que valida la robustez del modelo.