0. Definición del ambiente de trabajo

Primero se debe definir el idioma de trabajo, para cambiarlo del inglés al español.

Sys.setlocale("LC_ALL", "en_US.UTF-8")
## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"

Posteriormente se instalan las librerías que se utilizarán para realizar los distintos análisis de los datos.

library(tidyverse)
## ── Attaching packages ───────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.2     ✓ purrr   0.3.4
## ✓ tibble  3.0.3     ✓ dplyr   1.0.2
## ✓ tidyr   1.1.1     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.5.0
## ── Conflicts ──────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(haven)
library(corrplot)
## corrplot 0.84 loaded
library(DescTools)
library(descr)

También es importante cargar los datos muestrales con los que se realizarán los análisis. Para ello se subirán tres data frames al ambiente de R Studio: datos covid, datos de latinobarómetro del 2018 y datos del Índice de Desarrollo Humano de PNUD para los años 2000 y 2005.

datos_covid <- read.csv("/Users/gustavo/Downloads/200613COVID19MEXICO.csv",
                        header = TRUE)
datos_lb <- read_sav("/Users/gustavo/Downloads/Latinobarometro_2018_Esp_Spss_v20190303.sav")
datos_idh <- read.csv("/Users/gustavo/Downloads/idh_mpio_2000_2005.csv",
                      header = TRUE)

1. Pruebas de hipótesis bivariadas.

A continuación se presenta la realización de algunas pruebas de hipótesis bivariadas, comúnmente utilizadas en el ámbito de las Ciencias Sociales. La manera en que se realizará su exposición parte de avanzar en los pasos básicos de una prueba de hipótesis, sugerida por Salkind (2013).

Las pruebas de hipótesis bivariadas que se presentan son: 1. Prueba de independencia basada en el estadístico \(\chi^2\), 2. Prueba de hipótesis para la diferencia de medias independientes, basada en el estadístico \(t\) de Student y 3. Prueba de análisis de varianzas (ANOVA) simple, basada en el estadístico \(F\) de Fisher.

1.1. Prueba de independencia de chi-cuadrado

La prueba de independencia basado en el estadístico \(\chi^2\) permite evaluar la existencia de asociación estadística entre dos variables de tipo cualitativas o categóricas.

La lógica comparativa que se incluye en este proceso consiste en comparar la distribución de los casos en un tabla de contingencia integrada por dos variables categóricas observadas en una muestra frente a la distribución “ideal” o “teórica” que debería adoptar la misma tabla de cotingencia suponiendo, para esta última, que sería el azar el encargado de distribuir los casos dentro de las celdas. El supuesto que subyace en la tabla de contingencia generada a partir de los datos observados en la muestra consiste en asumir que existe una relación sistemática, no aleatoria, entre ambas variables.

De manera que, al comparar la distribución de ambas tablas de contingencia (la observada a partir de los datos de la muestra frente a la “teórica” a partir de una distribución ideal basada en el azar), se evalúa la similitud entre ambas distribuciones. A medida que la distribución de los datos en las celdas observadas a partir de los datos de la muestra se parecen a los datos de una distribución ideal aleatoria, se asume que existe independencia entre las variables evaluadas, y viceversa se considera que las variables están asociadas sistemáticamente entre sí.

A continuación se presenta la realización de una prueba de independencia a partir de los pasos sugeridos por Salkind (2013).

Supuesto inicial: Ambas variables (X y Y) son categóricas (cualitativas).

Data frame a utilizar: datos_covid. Variables a utilizar: X = SEXO, donde k = 2 (1 = hombre, 2 = mujer) Y = RESULTADO, donde k = 3 (1 = positivo covid, 2 = negativo covid, 3 = no se sabe)

A partir de estas variables se puede evaluar si el RESULTADO de las pruebas covid está asociado al hecho del SEXO del paciente.

Paso 1. Definición de la hipótesis alternativa (Ha) y nula (H0). Ha: \(\chi^2 \neq 0\), lo que supone que Sí hay asociación entre las variables (X y Y), o que ambas variables NO son independientes entre sí. H0 : \(\chi^2 = 0\), lo que supone que NO hay asociación entre las variables (X y Y), o que ambas variables SÍ son independientes entre sí.

Paso 2. Definición del nivel de significancia ($) Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores extremos.

\(\alpha = 0.05\)

Paso 3. Definición del estadístico de prueba Estadístico de prueba: \(\chi^2 = \Sigma \frac{(O - E)^2}{E}\)

Paso 4 y 5. Cálculo del valor obtenido para la muestra y el valor crítico en tablas para \(\alpha\). Esto se traduce en el cálculo del p-value para H0.

crosstab(dep = datos_covid $ RESULTADO, #variable dependiente o Y
         indep = datos_covid $ SEXO, #variable independiente o X
         expected = TRUE, #incluir valores "esperados" (E)
         missing.include = FALSE, #excluir valores perdidos
         prop.c = TRUE, #incorporar los porcentajes por columnas
         chisq = TRUE, #solicitar cálculo del estadístico de prueba
         plot = FALSE) #no arrojar el gráfico adicional
##    Cell Contents 
## |-------------------------|
## |                   Count | 
## |         Expected Values | 
## |          Column Percent | 
## |-------------------------|
## 
## ====================================================
##                          datos_covid$SEXO
## datos_covid$RESULTADO          1          2    Total
## ----------------------------------------------------
## 1                         63410      79280   142690 
##                         70074.7    72615.3          
##                            32.1%      38.8%         
## ----------------------------------------------------
## 2                        106017      96122   202139 
##                         99270.0   102869.0          
##                            53.7%      47.0%         
## ----------------------------------------------------
## 3                         27874      29052    56926 
##                         27956.2    28969.8          
##                            14.1%      14.2%         
## ----------------------------------------------------
## Total                    197301     204454   401755 
##                            49.1%      50.9%         
## ====================================================
## 
## Statistics for All Table Factors
## 
## Pearson's Chi-squared test 
## ------------------------------------------------------------
## Chi^2 = 2147.141      d.f. = 2      p <2e-16 
## 
##         Minimum expected frequency: 27956.23

A partir de estos datos se pueden evaluar las probabilidades condicionales de la variable RESULTADO dado cada uno de las categorías de la variable SEXO. Esto permite identificar que hay un 38% de mujeres que dieron positivo al virus COVID-19 mientras que fueron 32% de los hombres en la muestra.

Con el fin de evaluar si este resultado es generalizable a la población se debe revisar el valor del estadístico de prueba, donde \(\chi^2 = 2147.141\) con 2 grados de libertad (d.f.), y esto se corresponde con un p-value <2e-16 (o de 0.0000000000000002).

Este p-value refiere que la probabilidad de ocurrencia de H0 es < 2e-16.

  1. Comparación del estadístico / p-value para el valor observado y el valor crítico. Se compara el p-value obtenido con respecto al valor \(\alpha\) pre definido. De manera que p-value < 2e-16 es “menor que” \(\alpha = 0.05\). Donde se considera que la probabilidad de ocurrencia de la H0 es menor que nuestro criterio límite para rechazar H0.

  2. Decisión sobre H0 Tras la comparación del paso 6, se considera que los datos de la muestra permiten rechazar a H0 (pues su probabilidad de ocurrencia es mucho menor al criterio límite que habíamos pre definido para rechazarle), y se considera que su probabilidad de ocurrencia es muy pequeña. Por lo que se infiere que será muy difícil observar en la realidad / población a la H0 cuando esta ocurra.

De esta manera se interpreta que ambas variables están asociadas, de manera que se espera encontrar en la población un 38% de mujeres infectadas con COVID-19 y un 32% de los hombres, con un 95% de confianza.

1.2. Prueba de diferencia de medias

La prueba de diferencia de medias está basada en el estadístico \(t\) de Student, que permite evaluar significancia estadística de dos medias independientes dentro de una misma muestra. Esto supone que la variable de respuesta o variable dependiente (Y) es de tipo continua o intervalar, mientras que la variables independiente o de asociación (X) es de tipo categórica, del tipo dicotómica (k = 2).

La lógica comparativa en que se basa esta técnica consiste en comparar las medias que adopta la variable dependiente (Y) cuando esta es calculada para dos grupos diferentes, y que se integran a partir de las categorías que se forman a partir de la variable independiente (X). Esto es \[\bar{Y_{X=1}} - \bar{Y_{X=2}}\]

Asimismo se asume que los grupos que se integran a partir de las categorías de la variable X (\(k_{X = 1}, k_{X = 2}\)) son independiente entre sí, en donde se considera que esto se alcanza cuando los casos que se ubican en un grupo (X = 1) no son contabilizados en el otro grupo (X = 2).

En este caso, a partir de asumir que ambos grupos son independientes entre sí, se busca evaluar si sus medias son iguales bajo un marco de significancia estadística.

La prueba de hipótesis para la diferencia de medias se presenta, a continuación, siguiendo la lógica de pasos vistos anteriormente.

Supuesto inicial: La variable dependiente es continua o intervalar (Y). La variable independiente es categórica (X), donde k = 2.

Data frame a utilizar: datos_covid. Variables a utilizar: X = SEXO, donde k = 2 (1 = hombre, 2 = mujer). Y = Edad de las personas infectadas por COVID-19.

A partir de estas variables se puede evaluar si el RESULTADO de las pruebas covid está asociado al hecho del SEXO del paciente.

Paso 1. Definición de la hipótesis alternativa (Ha) y nula (H0). Ha: \(\bar{Y}_{X=1} \neq \bar{Y}_{X=2}\), o \(\bar{Y}_{X=1} - \bar{Y}_{X=2} \neq 0\) Aquí se plantea que las medias de la variable Y no son iguales entre sí, pues se asume que al separar a Y entre grupos independientes, Y variará.

H0: \(\bar{Y_{X=1}} = \bar{Y_{X=2}}\), o \(\bar{Y_{X=1}} - \bar{Y_{X=2}} = 0\) Aquí se asume que las medias de Y son iguales entre ambos grupos, y de esta manera se considera que la variable X no está asociada con Y.

Paso 2. Definir el nivel de significancia Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores extremos.

\(\alpha = 0.05\)

Paso 3. Definir el estadístico de prueba Estadístico de prueba: \(t\)

Paso 4 y 5. Cálculo del valor obtenido para la muestra y el valor crítico en tablas para \(\alpha\). Esto se traduce en el cálculo del p-value para H0.

Revisión gráfica de diferencias en la distribución de Y en función de X usando un boxplot.

datos_covid %>% #definir el data frame
  filter(RESULTADO == 1) %>% #seleccionar casos COVID-19 positivos
  ggplot(aes(y = EDAD, x = as.factor(SEXO))) + #seleccionar variables X y Y
  geom_boxplot() #generar boxplot

A partir de la revisión gráfica no es claro identificar si los promedios de la EDAD (Y) de las personas infectadas de COVID-19 son diferentes entre sí. De manera que no pareciera que el SEXO (X) fuera una variable que afecte la distribución de la EDAD (Y).

Primero se crea una submuestra donde se incluyen todos los casos que fueron detectados POSITIVOS de COVID-19 (RESULTADO = 1):

datos_covid_positivo <- datos_covid %>%
  filter(RESULTADO == 1)

A continuación se realiza la prueba estadística correspondiente

  t.test(x = datos_covid_positivo $ SEXO, 
         y = datos_covid_positivo $ EDAD, 
       alternative="two.sided", 
       mu = 0, 
       paired = FALSE, 
       var.equal = TRUE, 
       conf.level=0.95)
## 
##  Two Sample t-test
## 
## data:  datos_covid_positivo$SEXO and datos_covid_positivo$EDAD
## t = -1035.8, df = 285378, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -44.44863 -44.28074
## sample estimates:
## mean of x mean of y 
##   1.55561  45.92030

A partir de los datos arrojados se identifica que el valor del estadístico de prueba \(t\) para la diferencia de medias (1.56 años) es de -1035.8 unidades con 285378 grados de libertad. Y esto se corresponde con un p-value <2.2e - 16 (o 0.0000000000000002.2).

Este p-value refiere que la probabilidad de ocurrencia de H0 es < 2.2e-16.

  1. Comparación del estadístico / p-value para el valor observado y el valor crítico. Se compara el p-value obtenido con respecto al valor \(\alpha\) pre definido. De manera que p-value < 2e-16 es “menor que” \(\alpha = 0.05\). Donde se considera que la probabilidad de ocurrencia de la H0 es menor que nuestro criterio límite para rechazar H0.

  2. Decisión sobre H0 Tras la comparación del paso 6, se considera que los datos de la muestra permiten rechazar a H0 (pues su probabilidad de ocurrencia es mucho menor al criterio límite que habíamos pre definido para rechazarle), y se considera que su probabilidad de ocurrencia es muy pequeña. Por lo que se infiere que será muy difícil observar en la realidad / población a la H0 cuando esta ocurra.

De esta manera se interpreta que ambas variables están asociadas, y que la diferencia entre los promedios de edad entre ambos grupos de sexo son estadísticamente significativos a un nivel de confianza del 95%. Por lo que se espera encontrar en la población una diferencia de, alrededor, 1.5 años entre los casos infectados de COVID-19 en función de su sexo, con un 95% de confianza.

1.3. Prueba de varianzas (ANOVA) simple.

La prueba de varianzas o ANOVA tiene una lógica parecida a la prueba de diferencia de medias, pues compara un estadístico puntual derivado de una variable continua o intervalar a partir de los distintos grupos que se pueden formar tras agupar los casos en función de una variable categórica. Sin embargo esta comparación se realiza a partir de evaluar la razón existente de varianzas entre los distintos grupos respecto de la varianza al interior de cada grupo.

Otra diferencia consiste en que la variable categórica se integra por más de dos categorías (k > 2), de manera que se evalúa en una sola prueba si existen diferencias entre los grupos, ya sea que todos los grupos sean distintos entre sí o al menos uno de los grupos es distinto al resto. A esto se le denomina como prueba “omnibus” (Salkind, 2013).

Siguiendo con la guía de pasos para realizar las pruebas de hipótesis, a continuación se revisa dicha prueba ANOVA para un factor o simple con datos independientes.

Supuestos:

Data frame a utilizar: datos_covid Variables a utilizar: X = RESULTADO, donde k = 3 (1 = positivo, 2 = negativo, 3 = no se sabe). Y = EDAD de las personas infectadas por COVID-19.

A partir de estas variables se desea conocer si hay variación en las edades de las personas infectadas por COVID-19 respecto de las que no están infectadas así como de aquellas que no se sabe su resultado.

Paso 1. Definición de hipótesis Ha: \(\bar{Y}_{x=1} \neq \bar{Y}_{x=2} \neq \bar{Y}_{x=3}\) La hipótesis alternativa plantea que \(\bar{Y}\) no es igual en cualquiera de las tres categorías o grupos en que se divide a la muestra, en función de la variable categórica (X). Debido a que esta prueba es de tipo omnibus, el estadístico de prueba F arrojará resultados estadísticamente significativos si, al menos, la media de Y para un grupo es distinta al resto.

H0: \(\bar{Y}_{x=1} = \bar{Y}_{x=2} = \bar{Y}_{x=3}\) La hipótesis nula plantea que \(\bar{Y}\) es semejante entre todos los grupos cuando son comparados al mismo tiempo, en función de las categorías en que se puede divir a la muestra según la variable X.

Paso 2. Definir el nivel de significancia (\(\alpha\)) Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores extremos.

\(\alpha = 0.05\)

Paso 3. Definir el estadístico de prueba. El estadístico de prueba para comparar las varianzas entre e intra grupos consiste en el estadístico \(F\) de Fisher. \[F_{ratio} = {\frac{Cuadrados Medios del Factor}{Cuadrados Medios del Error}} = {\frac{\hat{S^2_t}}{\hat{S^2_E}}}={\frac{Varianza Entre Grupos}{Varianza Intra Grupos}}\]

Paso 4 y 5. Cálculo del valor obtenido para la muestra y el valor crítico en tablas para \(\alpha\). Esto se traduce en el cálculo del p-value para H0.

Revisión gráfica de diferencias en la distribución de Y en función de X usando un boxplot.

ggplot(data = datos_covid, aes(x = as.factor(RESULTADO), y = EDAD)) +
  geom_boxplot()

A partir de la gráfica, así como en la prueba anterior, no es fácil determinar si existe diferencia entre los promedios de edades y las varianzas entre los tres grupos o categorías, en función de la variable X (donde k = 3). Para ello se requiere realizar la prueba estadística ANOVA simple o de un factor.

La prueba ANOVA simple se realiza de la siguiente manera:

anova1 <- aov(EDAD ~ as.factor(RESULTADO), data = datos_covid)
summary(anova1)
##                          Df    Sum Sq Mean Sq F value Pr(>F)    
## as.factor(RESULTADO)      2   2765024 1382512    5085 <2e-16 ***
## Residuals            401752 109222258     272                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A partir de los datos arrojados por la prueba ANOVA de un factor se observa que el estadístico de prueba obtenido para la muestra es de \(F = 5085\) unidades, con 2 y 401752 grados de libertad. Esto se corresponde con un p-value para la H0 <2e-16 (o 0.0000000000000002) para su ocurrencia en la población.

Paso 6. Comparación del p-value vs \(\alpha\) crítico. Se compara el p-value obtenido con respecto al valor \(\alpha\) pre definido. De manera que p-value < 2e-16 es “menor que” \(\alpha = 0.05\). Donde se considera que la probabilidad de ocurrencia de la H0 es menor que nuestro criterio límite para rechazar H0.

Paso 7. Decisión sobre H0 Tras la comparación del paso 6, se considera que los datos de la muestra permiten rechazar a H0 (pues su probabilidad de ocurrencia es mucho menor al criterio límite que habíamos pre definido para rechazarle), y se considera que su probabilidad de ocurrencia es muy pequeña. Por lo que se infiere que será muy difícil observar en la realidad / población a la H0 cuando esta ocurra.

De esta manera se interpreta que ambas variables están asociadas, y que la diferencia entre los promedios de edad entre los 3 grupos de RESULTADO son estadísticamente significativos a un nivel de confianza del 95%. Por lo que se espera encontrar en la población que el promedio de EDAD no es el mismo entre las personas que integran alguno de los grupos con respecto al resto de los grupos, con un 95% de confianza.

Sin embargo, la limitación de la prueba ANOVA simple consiste en que, si bien se rechazó la H0, existen diversas posibilidades de Ha que pueden ocurrir:

Ha 1: \(\bar{Y}_{x=1} \neq \bar{Y}_{x=2} \neq \bar{Y}_{x=3}\) Ha 2: \(\bar{Y}_{x=1} = \bar{Y}_{x=2} \neq \bar{Y}_{x=3}\) Ha 3: \(\bar{Y}_{x=1} \neq \bar{Y}_{x=2} = \bar{Y}_{x=3}\) Ha 4: \(\bar{Y}_{x=1} \neq \bar{Y}_{x=3} = \bar{Y}_{x=2}\)

Pero, debido a que la prueba ANOVA es omnibus, se evalúan las medias de todos los grupos o categorías a la vez y, por tanto, no se pueden distinguir las diferencias entre medias a nivel de pares.

Con el fin de intentar resolver cuál es la Ha que opera en la población, se debe realizar una prueba post hoc que permita realizar la evaluación de pares para identificar grupos semejantes y diferentes entre sí.

A continuación se realizará la prueba de TukeyHSD que permite trabajar por pares de medias y, así, distinguir similitudes y diferencias.

tukey <- TukeyHSD(anova1)
tukey
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = EDAD ~ as.factor(RESULTADO), data = datos_covid)
## 
## $`as.factor(RESULTADO)`
##          diff       lwr       upr p adj
## 2-1 -5.747820 -5.881436 -5.614204     0
## 3-1 -3.187959 -3.379528 -2.996390     0
## 3-2  2.559861  2.376502  2.743221     0

A partir de los datos arrojados por la prueba de Tukey se pueden ver los resultados para las comparaciones entre los grupos. En cada renglón se observa lo siguiente: en la primer columna se refiere el par de grupos comparados a la vez, después se miden las unidades de diferencias entre las medias de Y entre ambos grupos, también se refiere el intervalo de confianza para la diferencia entre las medias de ambos grupos y, finalmente, se refiere el p-value para cada diferencia entre las medias de los grupos comparados.

En el caso analizado se observa que los tres grupos cuentan con medias diferentes estadísticamente significativas. Esto se identifica por: 1. el intervalo de confianza para cada comparación nunca cruza al valor de 0 (lo que supondría que el 0 fuera un valor posible de la diferencia entre un par de medias). Y el p-value para la H0 (que plantea que \(\bar{Y}_i - \bar{Y}_j = 0\)) es menos a \(\alpha = 0.05\).

Y la revisión gráfica de la prueba de TukeyHSD muestra los intervalos de confianza para cada comparación entre pares de grupos:

plot(tukey)

El gráfico de Tukey confirma los datos arrojados por el intervalo de confianza y el p-value para las diferencias de medias por pares de grupos comparados.

En la gráfica se identifica que los tres grupos son estadísticamente diferentes, y esto se reconoce a partir de que los límites inverior y superior de los intervalos de confianza no se cruzan entre ningún par de comparaciones.

De esta manera se puede identificar, también, cuál es la Ha soportada por los datos al momento de generalizar los resultados a la población. Donde la Ha sostenida es:

Ha 1: \(\bar{Y}_{x=1} \neq \bar{Y}_{x=2} \neq \bar{Y}_{x=3}\)

Finalmente se puede interpretar el resultado de la prueba ANOVA simple como: con un 95% de confianza se puede establecer que las edades de los tres grupos, formados por el tipo de RESULTADO de la prueba COVID-19 (positivo, negativo y no se sabe), son diferentes entre sí estadísticamente significativo.

Y, a partir de la prueba de Tukey, se puede plantear que, con un 95% de confianza, la edad de las personas del grupo 1 (positivas a la prueba de COVID-19) tienen una edad mayor que las personas del grupo 2 (negativas a la prueba) de 5.74 años, y mayor a las personas del grupo 3 (no se sabe su resultado a la prueba) de 3.2 años. Mientras que la edad de las personas del grupo 3 (no se sabe su resultado) es mayor que las personas del grupo 2 (negativo) por una diferencia de 2.6 años. Y estas diferencias son estadísticamente significativas.

1.4. Prueba de significancia para la Correlación de Pearson

La última prueba de hipótesis que se revisa en este documento consiste en evaluar la significancia estadística del Coeficiente de Correlación de Pearson (\(r\)).

Recordando, el Coeficiente \(r\) es una medida estandarizada que permite identificar el sentido (directo o indirecto) así como la fuerza o magnitud de la asociación entre dos variables continuas o intervalares. Y, para ello, el coeficiente \(r\) puede adoptar un valor que se ubica dentro de un rango estandarizado, de manera que \(-1 \leq r \leq 1\).

A su vez, para cada valor del coeficiente \(r\) se puede identificar una probabilidad de ocurrencia, y esto es importante para evaluar la significancia estadística de \(r\) calculado para un par de variables a partir de los datos de una muestra. Sin embargo, derivado del rango estandarizado de los valores de \(r\) la curva de distribución de probabilidades de dicho coeficiente requiere una transformación de sus valores a las unidades del estadístico \(t\) de Student para asociarlo con la curva de distribución normal y, así, precisar con mayor claridad la probabilidad asociada a cada valor de \(r\).

La prueba de hipótesis del coeficiente \(r\) se lleva a cabo siguiendo los pasos anteriores, y revisados en Salkind (2013). Donde los supuestos son los siguientes:

Supuestos:

Data frame a utilizar: datos_idh Variables a utilizar: X = usd_ppc_2000, medido en dólares al año, variable continua o intervalo. Y = tasa_mortalidad_infantil_2005, variable continua o intervalo.

A partir de estas variables se puede buscar la asociación existente entre el ingreso disponible en el año 2000 y la tasa de mortalidad infantil para la medición posterior, del año 2005.

Paso 1. Definición de las hipótesis. Ha: \(r \neq 0\), el valor del coeficiente \(r\) es diferente de 0 o que ambas variables SÍ están asociadas.

H0: \(r = 0\), el valor del coeficiente \(r\) es igual a 0 o que ambas variables NO están asociadas.

Paso 2. Nivel de significancia Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores extremos.

\(\alpha = 0.05\)

Paso 3. Definir el estadístico de prueba Estadístico de prueba: \(t\), en donde se transformará el valor de \(r\) a unidades \(t\) de Student para su normalización.

Paso 4 y 5. Calcular valor obtenido y valor crítico del estadístico de prueba, para obtener el p-value de H0.

Inicialmente se realiza una revisión gráfica de la asociación / dispersión ente ambas variables.

ggplot(data = datos_idh, aes(x = usd_ppc_2000, 
                             y = tasa_mortalidad_infantil_2005)) +
  geom_jitter()
## Warning: Removed 36 rows containing missing values (geom_point).

A partir de la gráfica se puede identificar que el sentido de la asociación es indirecto entre X y Y.

Con el fin de identificar la magnitud del coeficiente \(r\) así como su significancia estadística, se realiza la siguiente función:

cor.test(x = datos_idh $usd_ppc_2000, y = datos_idh $ tasa_mortalidad_infantil_2005)
## 
##  Pearson's product-moment correlation
## 
## data:  datos_idh$usd_ppc_2000 and datos_idh$tasa_mortalidad_infantil_2005
## t = -35.174, df = 2416, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6077155 -0.5549630
## sample estimates:
##        cor 
## -0.5819511

A partir de los datos arrojados por la prueba de significancia de \(r\) se observa que, el valor de \(r\) es de -0.58, de manera que existe una asociación negativa entre ambas variables y la magnitud absoluta es de 0.58; cuando X crece en 1 unidad, Y decrece en 0.58 unidades, y viceversa.

También se identicia que el intervalo de confianza para dicho valor de \(r\) en la población varía entre -0.60 y -0.55. Y este rango no incorpora al valor de 0, con lo que se cuenta con un elemento para comenzar a rechazar H0, con un nivel de confianza del 95%.

Finalmente se observa en la prueba de hipótesis que al trasformar el valor de \(r = -0.58\) a unidades \(t\), su valor \(t = -35.174\), y con 2416 grados de libertad (df), a un nivel de significancia (\(\alpha\)) de 0.05, se calculó un p-value < 2.2e-16 (o de 0.00000000000000022) para observar la ocurrencia de la H0.

Paso 6. Comparacion de p-value vs. \(\alpha\) crítica Se compara el p-value obtenido con respecto al valor \(\alpha\) pre definido. De manera que p-value < 2.2e-16 es “menor que” \(\alpha = 0.05\). Donde se considera que la probabilidad de ocurrencia de la H0 es menor que nuestro criterio límite para rechazar H0.

Paso 7. Decisión sobre H0 A partir de la comparación del p-value de H0 y el \(\alpha\) crítico establecido se puede RECHAZAR H0 con los datos de la muestra. De manera que se puede inferir, con un 95% de confianza, que la asociación entre ambas variables en la población es cercana al valor calculado de \(r\) a partir de los datos de la muestra.

Salkind, Neil J.(2013). Statistics for people who (think they) hate statistics. London: Sage.

Vilalta, Carlos J. (2016). Análisis de datos. México: CIDE.