Primero se debe definir el idioma de trabajo, para cambiarlo del inglés al español.
Sys.setlocale("LC_ALL", "Spanish")
## Warning in Sys.setlocale("LC_ALL", "Spanish"): OS reports request to set locale
## to "Spanish" cannot be honored
## [1] ""
Sys.setenv(LANGUAGE = "es")
Posteriormente se instalan las librerías que se utilizarán para realizar los distintos análisis de los datos. Primero se guardan como un objeto:
paquetes <- c("tidyverse", "haven", "corrplot", "DescTools", "descr", "ggrepel")
Posteriormente se abren simultáneamente con la paquetería
easypackages::libraries():
easypackages :: libraries(paquetes)
## Loading required package: tidyverse
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Loading required package: haven
##
## Loading required package: corrplot
## Warning in library(package, lib.loc = lib.loc, character.only = TRUE,
## logical.return = TRUE, : there is no package called 'corrplot'
## Loading required package: DescTools
## Loading required package: descr
## Loading required package: ggrepel
## Warning in library(package, lib.loc = lib.loc, character.only = TRUE,
## logical.return = TRUE, : there is no package called 'ggrepel'
##
## --------------------------------------------------
## The following packages did not load successfully:
También es importante cargar los datos muestrales con los que se realizarán los análisis. Para ello se subirán tres data frames al ambiente de R Studio: datos covid, datos de latinobarómetro del 2018 y datos del Índice de Desarrollo Humano de PNUD para los años 2000 y 2005.
datos_covid <- read.csv("~/Dropbox/R/200613COVID19MEXICO.csv",
header = TRUE)
datos_lb <- read_sav("~/Dropbox/R/Latinobarometro_2018_Esp_Spss_v20190303.sav")
datos_idh <- read.csv("~/Dropbox/R/idh_mpio_2000_2005.csv",
header = TRUE)
A continuación se presenta la realización de algunas pruebas de hipótesis bivariadas, comúnmente utilizadas en el ámbito de las Ciencias Sociales. La manera en que se realizará su exposición parte de avanzar en los pasos básicos de una prueba de hipótesis, sugerida por Salkind (2013).
Las pruebas de hipótesis bivariadas que se presentan son:
La prueba de independencia basado en el estadístico \(\chi^2\) permite evaluar la existencia de asociación estadística entre dos variables de tipo cualitativas o categóricas.
La lógica comparativa que se incluye en este proceso consiste en
comparar la distribución de los casos en un tabla de contingencia
integrada por dos variables categóricas observadas (resultados
observados [O]) en una muestra frente a la
distribución “ideal” o “teórica” que debería adoptar la misma tabla de
contingencia suponiendo, para esta última, que sería el azar el
encargado de distribuir los casos dentro de las celdas (resultados
esperados [E]).
El supuesto que subyace en la tabla de contingencia generada a partir de
los datos observados en la muestra consiste en asumir que existe una
relación sistemática, no aleatoria, entre ambas variables.
De manera que al comparar la distribución de ambas tablas de
contingencia (la observada a partir de los datos de la
muestra frente a la esperada, a partir de una
distribución ideal basada en el azar), se evalúa la similitud entre
ambas distribuciones. A medida que la distribución de los datos en las
celdas observadas (O) a partir de los datos de la
muestra se parecen a los datos de una distribución ideal aleatoria
(E), se asume que existe independencia entre las
variables evaluadas pues, entonces, se considera que fue el
azar el encargado de distribuir a los casos entre las
celdas.
En cambio, si la distribución de lo casos observados no se parece a la
distribución esperada, entonces se rechaza el supuesto de la
intervención del azar y, por tanto, se asume que existe una asociación
entre las variables analizadas.
A continuación se presenta la realización de una prueba de independencia a partir de los pasos sugeridos por Salkind (2013).
Supuesto inicial:
Ambas variables (X y Y) son categóricas (cualitativas).
Data frame a utilizar: datos_covid.
Variables a utilizar:
A partir de estas variables se puede evaluar si el RESULTADO de las pruebas covid-19 está asociado al hecho del SEXO del paciente.
Paso: Definición del nivel de significancia (\(\alpha\)).
Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores
extremos. De manera que se establece un Nivel de Significancia \(\alpha = 0.05\).
Paso: Definición del estadístico de prueba.
Estadístico de prueba: \(\chi^2 = \Sigma
\frac{(O - E)^2}{E}\)
Paso: Cálculo del p-value y del valor del estadístico de prueba
para los datos de la muestra.
Aquí se utilizará el comando crosstab() de la librería
descr(), dentro de la que se solicita la prueba de
chi-cuadrada con el argumento chisq = TRUE.
crosstab(dep = datos_covid $ RESULTADO, #variable dependiente o Y
indep = datos_covid $ SEXO, #variable independiente o X
expected = TRUE, #incluir valores "esperados" (E)
missing.include = FALSE, #excluir valores perdidos
prop.c = TRUE, #incorporar los porcentajes por columnas
chisq = TRUE, #solicitar cálculo del estadístico de prueba
plot = FALSE) #no arrojar el gráfico adicional
## Cell Contents
## |-------------------------|
## | Count |
## | Expected Values |
## | Column Percent |
## |-------------------------|
##
## ====================================================
## datos_covid$SEXO
## datos_covid$RESULTADO 1 2 Total
## ----------------------------------------------------
## 1 63410 79280 142690
## 70074.7 72615.3
## 32.1% 38.8%
## ----------------------------------------------------
## 2 106017 96122 202139
## 99270.0 102869.0
## 53.7% 47.0%
## ----------------------------------------------------
## 3 27874 29052 56926
## 27956.2 28969.8
## 14.1% 14.2%
## ----------------------------------------------------
## Total 197301 204454 401755
## 49.1% 50.9%
## ====================================================
##
## Statistics for All Table Factors
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 2147.141 d.f. = 2 p <2e-16
##
## Minimum expected frequency: 27956.23
La tabla de contingencia generada muestra, en principio, que los valores observados y los valores esperados distribuidos en cada celda no son exactamente iguales entre sí. Esto es un primer indicio que permite inferir que no fue el azar el encargado de la distribución de los casos observados.
A partir de estos datos, también, se pueden evaluar las probabilidades condicionales de la variable RESULTADO dado cada una de las categorías de la variable SEXO. Esto permite identificar que hay un 38% de mujeres que dieron positivo al virus COVID-19 mientras que fueron 32% de los hombres en la muestra.
Con el fin de evaluar si este resultado es generalizable a la población se debe revisar el valor del estadístico de prueba, donde \(\chi^2 = 2147.141\) con 2 grados de libertad (d.f.), y esto se corresponde con un p-value < 2e-16 (o de 0.0000000000000002).
Este p-value refiere que la probabilidad de ocurrencia de H0 es < 2e-16.
Paso: Comparación del p-value con el Nivel de Significancia
(\(\alpha\)).
Se calculó que el p-value < 2e-16 es “menor que” el
Nivel de significancia (\(\alpha =
0.05\)). Donde se considera que la probabilidad de ocurrencia de
la H0 es menor que nuestro criterio límite para rechazar H0.
Paso: Decisión sobre H0.
Tras la comparación del paso 5, se considera que los datos de la muestra
permiten rechazar a H0 (pues su probabilidad de
ocurrencia es mucho menor al criterio límite que habíamos pre definido
para rechazarle), y se considera que su probabilidad de ocurrencia es
muy pequeña. Por lo que se infiere que será muy difícil observar en la
realidad / población a la H0 cuando esta ocurra.
De esta manera se interpreta que ambas variables están asociadas, de manera que se espera encontrar en la población un 38% de mujeres infectadas con COVID-19 y un 32% de los hombres, con un 95% de confianza.
La prueba de diferencia de medias permite evaluar la
asociación existente entre dos variables, bajo el requisito de que la
variable de interés (\(Y\)) es
de tipo continua o intervalar y la variable de asociación
(\(X\)) es de corte categórica, del
tipo dicotómica (\(k = 2\)).
A partir de esta prueba, el universo de casos de la muestra se divide en
dos grandes grupos (lo que es provocado por la presencia de la variable
\(X\)), y posteriormente se comparan a
dichos grupos a partir del valor de un estadístico de tendencia
central.
Usualmente el estadístico que se toma como punto de comparación es el
valor del promedio de la variable de interés (\(Y\)) de cada grupo formado por la variable
de asociación (\(X\)), y así se evalúa
probabilísticamente si ambos promedios son iguales entre sí. Para ello
se usa el estadístico de prueba basado en la distribución \(t\) de Student, que permite evaluar la
significancia estadística de dos medias independientes dentro de una
misma muestra.
La lógica comparativa en que se basa esta técnica consiste en comparar las medias que adopta la variable dependiente (\(Y\)) cuando esta es calculada para dos grupos diferentes, y que se integran a partir de las categorías que se forman a partir de la variable independiente (X). Esto es, se evalúa si: \[\bar{Y}_{X=0} = \bar{Y}_{X=1}\]
Asimismo se asume que los grupos que se integran a partir de las categorías de la variable X (\(k_{x = 0}, k_{x = 1}\)) son independiente entre sí, en donde se considera que esto se alcanza cuando los casos que se ubican en un grupo (\(x = 0\)) no son contabilizados en el otro grupo (\(x = 1\)).
En este caso, a partir de asumir que ambos grupos son independientes entre sí, se busca evaluar si sus medias son iguales bajo un marco de significancia estadística.
La prueba de hipótesis para la diferencia de medias se presenta, a continuación, siguiendo la lógica de pasos vistos anteriormente.
Supuesto inicial:
Data frame a utilizar: datos_covid.
Variables a utilizar:
A partir de estas variables se puede evaluar si la EDAD de los pacientes contagiados de COVID-19 (Y) está asociado al hecho del SEXO del paciente (X).
Ha: \(\bar{Y}_{X=1} \neq
\bar{Y}_{X=2}\), o \(\bar{Y}_{X=1} -
\bar{Y}_{X=2} \neq 0\)
Aquí se plantea que las medias de la variable Y no son iguales entre sí,
pues se asume que al separar a Y entre grupos independientes, los
promedios de Y serán distintos entre grupos.
H0: \(\bar{Y}_{X=1} =
\bar{Y}_{X=2}\), o \(\bar{Y}_{X=1} -
\bar{Y}_{X=2} = 0\)
Aquí se asume que las medias de Y son iguales entre ambos grupos, y de
esta manera se considera que la variable X no está asociada con
Paso: Definir el Nivel de Significancia.
Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores
extremos, \(\alpha = 0.05\)
Paso: Definir el estadístico de prueba Estadístico de prueba: \(t\)
Paso: Cálculo del p-value y del valor del estadístico de prueba
para los datos de la muestra.
En un primer momento se realiza una revisión gráfica de diferencias en
la distribución de Y en función de X usando un boxplot.
datos_covid %>% #definir el data frame
filter(RESULTADO == 1) %>% #seleccionar casos COVID-19 positivos
ggplot(aes(y = EDAD, x = as.factor(SEXO))) + #seleccionar variables X y Y
geom_boxplot() #generar boxplot
A partir de la revisión gráfica no es claro identificar si los promedios de la EDAD (Y) de las personas infectadas de COVID-19 son diferentes entre sí. De manera que no pareciera que el SEXO (X) fuera una variable que afecte la distribución de la EDAD (Y).
Para realizar la prueba de significancia estadística, a continuación se crea una submuestra donde se incluyen todos los casos que fueron detectados POSITIVOS de COVID-19 (RESULTADO == 1):
datos_covid_positivo <- datos_covid %>%
filter(RESULTADO == 1)
A continuación se realiza la prueba estadística correspondiente
mediante el script t.test():
t.test(x = datos_covid_positivo $ SEXO, # variable categóricas
y = datos_covid_positivo $ EDAD, # variable cuantitativa
alternative="two.sided", # tipo de hipótesis alternativa
mu = 0, # valor de la hipótsis nula
paired = FALSE, # se indica si la muestra es "pareada"
var.equal = TRUE, # se indica si las varianzas son iguales entre los grupos
conf.level = 0.95) #Nivel de Confianza = 1 - $\alpha$
##
## Two Sample t-test
##
## data: datos_covid_positivo$SEXO and datos_covid_positivo$EDAD
## t = -1035.8, df = 285378, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -44.44863 -44.28074
## sample estimates:
## mean of x mean of y
## 1.55561 45.92030
A partir de los datos arrojados se identifica que la diferencia en los promedios de edad entre ambos grupos (hombres y mujeres) es de 1.56 años, y su valor correspondiente en unidades del estadístico de prueba (\(t\)) -unidades de desviación estándar- es de -1035.8 unidades, y a partir del total de casos analizados se cuenta con 285378 grados de libertad. Y esto se corresponde con una probabilidad del p-value < 2.2e - 16 (o 0.0000000000000002.2).
Este p-value refiere que la probabilidad de ocurrencia de H0 es < 2.2e-16.
Paso: Comparación del p-value para el valor observado y el Nivel
de Significancia.
Se calculó un p-value < 2e-16, que es “menor que” el
Nivel de Significancia (\(\alpha = 0.05\)). Donde se considera que la
probabilidad de ocurrencia de la H0 es menor que nuestro criterio límite
para rechazar H0.
Decisión sobre H0.
Tras la comparación del paso 5, se considera que los datos de la muestra
permiten rechazar a H0 (pues su probabilidad de
ocurrencia es mucho menor al criterio límite que habíamos pre definido
para rechazarle), y se considera que su probabilidad de ocurrencia es
muy pequeña. Por lo que se infiere que será muy difícil observar en la
realidad / población a la H0 cuando esta ocurra.
De esta manera se interpreta que ambas variables están asociadas, y que la diferencia entre los promedios de edad entre ambos grupos de sexo es estadísticamente significativa a un nivel de confianza del 95%. Por lo que se espera encontrar en la población una diferencia de, alrededor, 1.5 años entre los casos infectados de COVID-19 en función de su sexo, con un 95% de confianza.
La prueba de varianzas o ANOVA tiene una lógica parecida a la prueba de diferencia de medias, pues compara un estadístico puntual derivado de una variable continua o intervalar (\(Y\)) a partir de los distintos grupos que se pueden formar tras agupar los casos en función de una variable categórica (\(X\)). Sin embargo esta comparación se realiza a partir de evaluar la razón existente de varianzas entre los distintos grupos respecto de la varianza al interior de cada grupo.
Otra diferencia consiste en que la variable categórica (\(X\)) se integra por más de dos categorías (\(k > 2\)), de manera que se evalúa en una sola prueba si existen diferencias entre los grupos, ya sea que todos los grupos sean distintos entre sí o al menos uno de los grupos es distinto al resto. A esto se le denomina como prueba “omnibus” (Salkind, 2013).
Siguiendo con la guía de pasos para realizar las pruebas de hipótesis, a continuación se revisa dicha prueba ANOVA para un factor (\(X\)) o simple con datos independientes.
Supuestos:
Data frame a utilizar: datos_covid.
Variables a utilizar:
A partir de estas variables se desea conocer si hay variación en las edades de las personas infectadas por COVID-19 respecto de las que no están infectadas, así como de aquellas que no se sabe su resultado.
Paso: Definir el nivel de significancia (\(\alpha\)).
Se decide trabajar con el valor estándar definido por Fisher (Vilalta, 2016), de 5% para los valores
extremos. \(\alpha = 0.05\)
Paso: Definir el estadístico de prueba.
El estadístico de prueba para comparar las varianzas entre e intra
grupos consiste en el estadístico \(F\)
de Fisher. Su fórmula de transformación de las unidades de medida
original a unidades -de desviación estándar- en la escala F es: \[F_{ratio} = {\frac{Cuadrados Medios del
Factor}{Cuadrados Medios del Error}} =
{\frac{\hat{S^2_t}}{\hat{S^2_E}}}={\frac{Varianza Entre Grupos}{Varianza
Intra Grupos}}\]
Paso: Cálculo del valor p-value para H0.
Revisión gráfica de diferencias en la distribución de Y en función de X
usando un boxplot.
ggplot(data = datos_covid, aes(x = as.factor(RESULTADO), y = EDAD)) +
geom_boxplot()
A partir de la gráfica, así como en la prueba anterior, no es fácil determinar si existe diferencia entre los promedios de edades y las varianzas entre los tres grupos o categorías, en función de la variable X (donde k = 3). Para ello se requiere realizar la prueba estadística ANOVA simple o de un factor.
La prueba ANOVA simple se realiza mediante el script
aov(), y en su interior se representa el modelo de
interacción entre las variables Y ~ X, de la siguiente forma:
anova1 <- aov(EDAD ~ as.factor(RESULTADO), data = datos_covid) # los resultados del análisis se guardan como objeto tipo lista
summary(anova1) # se usa un `summary()` para llamar a los resultados del ANOVA
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(RESULTADO) 2 2765024 1382512 5085 <2e-16 ***
## Residuals 401752 109222258 272
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A partir de los datos arrojados por la prueba ANOVA de un factor se observa que el estadístico de prueba obtenido para la muestra es de \(F = 5085\) unidades, con 2 y 401752 grados de libertad. Esto se corresponde con un p-value asociado a la H0 < 2e-16 (o 0.0000000000000002) para su ocurrencia en la población.
Paso: Comparación del p-value vs \(\alpha\) crítico.
Se calculó un p-value < 2e-16 asociado a la H0, que
es “menor que” el Nivel de Significancia (\(\alpha = 0.05\)). Donde se considera que la
probabilidad de ocurrencia de la H0 es menor que nuestro criterio límite
para rechazar H0.
Paso: Decisión sobre H0.
Tras la comparación del paso 5, se considera que los datos de la muestra
permiten rechazar a H0 (pues su probabilidad de
ocurrencia es mucho menor al criterio límite que habíamos pre definido
para rechazarle), y se considera que su probabilidad de ocurrencia es
muy pequeña. Por lo que se infiere que será muy difícil observar en la
realidad / población a la H0 cuando esta ocurra.
De esta manera se interpreta que ambas variables están asociadas, y que la diferencia entre los promedios de edad entre los 3 grupos de RESULTADO son estadísticamente significativos a un nivel de confianza del 95%. Por lo que se espera encontrar en la población que el promedio de EDAD no es el mismo entre las personas que integran alguno de los grupos con respecto al resto de los grupos, con un 95% de confianza.
Sin embargo, la limitación de la prueba ANOVA simple consiste en que, si bien se rechazó la H0, existen diversas posibilidades de Ha que pueden ocurrir:
Hipótesis posibles:
Pero, debido a que la prueba ANOVA es omnibus, se evalúan las medias de todos los grupos o categorías a la vez y, por tanto, no se pueden distinguir las diferencias entre medias a nivel de pares.
Con el fin de intentar resolver cuál es la Ha que opera en la población, se debe realizar una prueba post hoc que permita comparar a la media de \(Y\) entre cada par de grupos para, así, identificar cuales son semejantes y diferentes entre sí. Para ello se implementa la prueba estadística de Tukey.
A continuación se realizará la prueba de TukeyHSD, con el script
TukeyHSD(), que permite trabajar por pares de medias y,
así, distinguir similitudes y diferencias.
tukey <- TukeyHSD(anova1)
tukey
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = EDAD ~ as.factor(RESULTADO), data = datos_covid)
##
## $`as.factor(RESULTADO)`
## diff lwr upr p adj
## 2-1 -5.747820 -5.881436 -5.614204 0
## 3-1 -3.187959 -3.379528 -2.996390 0
## 3-2 2.559861 2.376502 2.743221 0
A partir de los datos arrojados por la prueba de
Tukey se pueden ver los resultados para las
comparaciones entre los grupos. En cada renglón se observa lo siguiente:
en la primer columna se refiere el par de grupos comparados a la vez,
después se miden las diferencias entre las unidades de las medias de Y
entre ambos grupos, también se refiere el intervalo de confianza para la
diferencia entre las medias de ambos grupos y, finalmente, se refiere el
p-value para cada diferencia de las medias entre los
grupos comparados.
Este p-value supone que cada comparación de grupos
cuenta, a su vez, con una hipótesis nula que se evalúa
probabilísticamente.
En el caso analizado se observa que los tres grupos cuentan con medias diferentes y estadísticamente significativas. Esto se identifica por:
Y la revisión gráfica de la prueba de TukeyHSD muestra los intervalos de confianza para cada comparación entre pares de grupos:
plot(tukey)
El gráfico de Tukey confirma los datos arrojados por el intervalo de confianza y el p-value para las diferencias de medias por pares de grupos comparados.
En la gráfica se identifica que los tres grupos son estadísticamente diferentes, y esto se reconoce a partir de que los límites inferior y superior de los intervalos de confianza no se cruzan entre ningún par de comparaciones.
De esta manera se puede identificar, también, cuál es la Ha soportada
por los datos al momento de generalizar los resultados a la
población.
Donde la Ha sostenida es:
Finalmente se puede interpretar el resultado de la prueba ANOVA simple como: con un 95% de confianza se puede establecer que las edades de los tres grupos, formados por el tipo de RESULTADO de la prueba COVID-19 (positivo, negativo y no se sabe), son diferentes entre sí, y esto es estadísticamente significativo.
Y, a partir de la prueba de Tukey, se puede plantear que, con un 95% de confianza, la edad de las personas del grupo 1 (\(k=\text{positivas a la prueba de COVID-19}\)) tienen una edad mayor que las personas del grupo 2 (\(k = \text{negativas a la prueba}\)) de 5.74 años, y mayor a las personas del grupo 3 (\(k = \text{no se sabe su resultado a la prueba}\)) de 3.2 años. Mientras que la edad de las personas del grupo 3 (\(k=\text{no se sabe su resultado}\)) es mayor que las personas del grupo 2 (\(k=\text{negativo}\)) por una diferencia de 2.6 años. Y estas diferencias son estadísticamente significativas.
La última prueba de hipótesis que se revisa en este documento consiste en evaluar la significancia estadística del Coeficiente de Correlación de Pearson (\(r\)).
Recordando, el Coeficiente \(r\) es una medida estandarizada que permite identificar el sentido (directo o indirecto) así como la fuerza o magnitud de la asociación entre dos variables continuas o intervalares. Y, para ello, el coeficiente \(r\) puede adoptar un valor que se ubica dentro de un rango estandarizado, de manera que \(-1 \leq r \leq 1\).
A su vez, para cada valor del coeficiente \(r\) se puede identificar una probabilidad de ocurrencia, y esto es importante para evaluar la significancia estadística de \(r\) calculado para un par de variables a partir de los datos de una muestra. Sin embargo, derivado del rango estandarizado de los valores de \(r\) la curva de distribución de probabilidades de dicho coeficiente requiere una transformación de sus valores a las unidades del estadístico \(t\) de Student para asociarlo con la curva de distribución normal y, así, precisar con mayor claridad la probabilidad asociada a cada valor de \(r\).
La prueba de hipótesis del coeficiente \(r\) se lleva a cabo siguiendo los pasos anteriores, y revisados en Salkind (2013). Donde los supuestos son los siguientes:
Supuestos:
Data frame a utilizar: datos_idh.
Variables a utilizar:
A partir de estas variables se puede buscar la asociación existente entre el ingreso disponible en el año 2000 y la tasa de mortalidad infantil para la medición posterior, del año 2005.
\(\alpha = 0.05\)
Paso: Definir el estadístico de prueba.
Estadístico de prueba: \(t\), en donde
se transformará el valor de \(r\) a
unidades \(t\) de Student para su
normalización.
Paso: Calcular el p-value de H0.
Inicialmente se realiza una revisión gráfica de la asociación ente ambas
variables mediante un diagrama de dispersión de puntos, para lo que se
utiliza el script de ggplot().
ggplot(data = datos_idh, aes(x = usd_ppc_2000,
y = tasa_mortalidad_infantil_2005)) +
geom_jitter()
## Warning: Removed 36 rows containing missing values (`geom_point()`).
A partir de la gráfica se puede identificar que el sentido de la asociación es indirecto entre X y Y.
Con el fin de identificar la magnitud del coeficiente \(r\) así como su significancia estadística,
se realiza la prueba con el script cor.test().
cor.test(x = datos_idh $usd_ppc_2000, y = datos_idh $ tasa_mortalidad_infantil_2005)
##
## Pearson's product-moment correlation
##
## data: datos_idh$usd_ppc_2000 and datos_idh$tasa_mortalidad_infantil_2005
## t = -35.174, df = 2416, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6077155 -0.5549630
## sample estimates:
## cor
## -0.5819511
A partir de los datos arrojados por la prueba de significancia de \(r\) se observa que, el valor de \(r\) es de -0.5819511, de manera que existe una asociación negativa entre ambas variables y la magnitud absoluta es de 0.58; cuando \(X\) crece en 1 unidad, \(Y\) decrece en 0.58 unidades, y viceversa.
También se identifica que el intervalo de confianza para dicho valor de \(r\) en la población varía entre -0.60 y -0.55. Y este rango no incorpora al valor de 0, con lo que se cuenta con un elemento para comenzar a rechazar H0, con un nivel de confianza del 95%.
Finalmente se observa en la prueba de hipótesis que al trasformar el valor de \(r = -0.58\) a unidades \(t\), su valor \(t = -35.174\), y con 2416 grados de libertad (df), a un nivel de significancia (\(\alpha\)) de 0.05, se calculó un p-value < 2.2e-16 (o de 0.00000000000000022) para observar la ocurrencia de la H0.
Paso: Comparación de p-value vs. el Nivel de Significancia (\(\alpha\)).
Se identificó que el p-value es de < 2.2e-16, y es
“menor que” \(\alpha = 0.05\). Donde se
considera que la probabilidad de ocurrencia de la H0 es menor que
nuestro criterio límite para rechazar H0.
Paso: Decisión sobre H0.
A partir de la comparación del p-value de H0 y el \(\alpha\) crítico establecido se puede
RECHAZAR H0 con los datos de la muestra. De manera que se puede
inferir, con un 95% de confianza, que la asociación entre ambas
variables en la población es cercana al valor calculado de \(r\) a partir de los datos de la
muestra.