0. Definición del ambiente de trabajo.

Al comenzar siempre es importante establecer el idioma adecuado para que el programa reconozca caracteres especiales. En el caso de definir al idioma español, la instrucción a utilizar es:

Sys.setlocale("LC_ALL", "es_ES") #alternativa 1
## [1] "es_ES/es_ES/es_ES/C/es_ES/es_ES"
Sys.setenv(LANG = "es_ES") #alternativa 2

También es importante instalar las librerías que se utilizarán posteriormente, para ello primero se guardan como un objeto:

paquetes <- c("tidyverse", "DescTools")

Posteriormente se “llaman” a las librerías mediante el script libraries() de la paquetería easypackages:

library(easypackages)
libraries(paquetes)
## Loading required package: tidyverse
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.3     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Loading required package: DescTools
## 
## All packages loaded successfully

Además es muy relevante establecer la ubicación del directorio de trabajo, para que el programa identifique el archivo del que extraerá y, también, guardará la información solicitada.

getwd() ##directorio actual
## [1] "/Users/gustavo/Dropbox/R/Rmarkdown"
setwd("~/Dropbox/R/Rmarkdown") ##Esta permite cambiar y definir el directorio deseado
list.files() ##Esta permite enlistar los archivos dentro del directorio
##   [1] "Actividad_1.html"                                      
##   [2] "Actividad_1.Rmd"                                       
##   [3] "Actividad_2_Exploracion_Descripcion.pdf"               
##   [4] "Actividad_2.html"                                      
##   [5] "Actividad_2.Rmd"                                       
##   [6] "Actividad_3_1_.html"                                   
##   [7] "Actividad_3_Estadistica_Descriptiva.pdf"               
##   [8] "Actividad_3-1-.html"                                   
##   [9] "Actividad_3(1).Rmd"                                    
##  [10] "Actividad_4_files"                                     
##  [11] "actividad_4_inferencia.Rmd"                            
##  [12] "Actividad_4. Probabilidad y Distribución Normal.pdf"   
##  [13] "Actividad_4._Probabilidad_Distribucion_Normal.pdf"     
##  [14] "Actividad_4.html"                                      
##  [15] "Actividad_4.Rmd"                                       
##  [16] "Actividad_5_Inferencia_Est.docx"                       
##  [17] "Actividad_5_Inferencia_Est.html"                       
##  [18] "Actividad_5_Inferencia_Est.pdf"                        
##  [19] "Actividad_5_Inferencia_Est.Rmd"                        
##  [20] "actividad_6_intervalos_confianza.html"                 
##  [21] "actividad_6_intervalos_confianza.Rmd"                  
##  [22] "Actividad_7_Contingencia_Correlacion.html"             
##  [23] "Actividad_7_Contingencia_Correlacion.Rmd"              
##  [24] "actividad_correlacion.html"                            
##  [25] "actividad_correlacion.Rmd"                             
##  [26] "actividad_regresion_lineal_simple.html"                
##  [27] "actividad_regresion_lineal_simple.Rmd"                 
##  [28] "actividad_regresion_lineal.html"                       
##  [29] "actividad_regresion_lineal.Rmd"                        
##  [30] "actividad_regresion_logit.html"                        
##  [31] "actividad_regresion_logit.Rmd"                         
##  [32] "add in ymlthis.png"                                    
##  [33] "adiciones a modelos OLS.Rmd"                           
##  [34] "adiciones-a-modelos-OLS.html"                          
##  [35] "analisis_clusters.html"                                
##  [36] "analisis_clusters.Rmd"                                 
##  [37] "apa.csl"                                               
##  [38] "bibliografia partidos_prueba.bib"                      
##  [39] "comandos chunks en rmd.Rmd"                            
##  [40] "comandos-chunks-en-rmd.html"                           
##  [41] "confidence_intervals_Coursera_2.rmd"                   
##  [42] "confidence_intervals_Coursera.rmd"                     
##  [43] "diseno yaml.Rmd"                                       
##  [44] "diseno-yaml.html"                                      
##  [45] "dist_normal.png"                                       
##  [46] "dist_z_t.png"                                          
##  [47] "distill.png"                                           
##  [48] "ha_h0.gif"                                             
##  [49] "inf_for_numerical_data.Rmd"                            
##  [50] "intervalo_confianza.png"                               
##  [51] "intro_MCA.html"                                        
##  [52] "intro_MCA.Rmd"                                         
##  [53] "intro_pca.html"                                        
##  [54] "intro_pca.Rmd"                                         
##  [55] "intro_to_data_Coursera.rmd"                            
##  [56] "intro_to_r_coursera_2.Rmd"                             
##  [57] "intro_to_r_Coursera.Rmd"                               
##  [58] "metodologia.bib"                                       
##  [59] "papaja.png"                                            
##  [60] "poblacion_muestra.png"                                 
##  [61] "potencia.png"                                          
##  [62] "presentacion_reg_logit_ordinal.html"                   
##  [63] "presentacion_reg_logit_ordinal.Rmd"                    
##  [64] "probability_Coursera.Rmd"                              
##  [65] "prueba chunks.Rmd"                                     
##  [66] "prueba de YAML.Rmd"                                    
##  [67] "prueba sintax markdown.Rmd"                            
##  [68] "prueba_uso_markdown_files"                             
##  [69] "prueba_uso_markdown.html"                              
##  [70] "prueba_uso_markdown.Rmd"                               
##  [71] "prueba-chunks_files"                                   
##  [72] "prueba-chunks.html"                                    
##  [73] "prueba-de-YAML.html"                                   
##  [74] "prueba-de-YAML.pdf"                                    
##  [75] "prueba-sintax-markdown.html"                           
##  [76] "pruebas_hipotesis_bivariadas.html"                     
##  [77] "pruebas_hipotesis_bivariadas.Rmd"                      
##  [78] "references.bib"                                        
##  [79] "regresion_efectos_fijos.html"                          
##  [80] "regresion_efectos_fijos.Rmd"                           
##  [81] "regresion_lineal_multiple.html"                        
##  [82] "regresion_lineal_multiple.Rmd"                         
##  [83] "regresion_lineal_simple_presentacion.html"             
##  [84] "regresion_lineal_simple_presentacion.Rmd"              
##  [85] "rsconnect"                                             
##  [86] "rticles.png"                                           
##  [87] "sampling_distributions_Coursera.rmd"                   
##  [88] "script_PCA.R"                                          
##  [89] "script_reg_lineal.R"                                   
##  [90] "sintax_markdown.html"                                  
##  [91] "sintax_markdown.Rmd"                                   
##  [92] "syllabus sistemas politicos comparados uabc 2022-2.Rmd"
##  [93] "syllabus-sistemas-politicos-comparados-uabc-2022-2.pdf"
##  [94] "vars_democ_latinob.png"                                
##  [95] "ventana_config_basica_yaml.png"                        
##  [96] "ventana_plantillas_articulos.png"                      
##  [97] "ventana_selec_plantilla_yaml.png"                      
##  [98] "zotero1.png"                                           
##  [99] "zotero2.png"                                           
## [100] "zotero3.png"

Una vez establecido el directorio de trabajo, se debe cargar la base de datos o data frame en el ambiente del programa, con el que se analizará la información. Para ello habrá que “cargar” la información sobre los pacientes infectados por COVID-19 reportados por la Secretaría de Salud del gobierno federal mexicano.

datos_covid <- read.csv("~/Dropbox/R/200613COVID19MEXICO.csv", header = TRUE) #ruta de acceso a los datos, 'header = TRUE' en caso de que el archivo cuente con nombres de las variables.

1. Estadística inferencial y generación de conocimiento mediante inferencias

El proceso de generación de conocimiento, para conocer una realidad, usualmente procede mediante alguna de las dos vías tradicionales: mediante métodos deductivos o inductivos. En términos de King, Keohane y Verba (2000[1994]), las tradiciones cuantitativas y cualitativas también suponían formas distintas de acercarse a conocer la realidad, pero en el fondo ambas tradiciones se basan en una misma lógica inferencial.

Esto es, el proceso de conocimiento científico se apoya en el proceso de generación y evaluación mediante el uso de inferencias. Una inferencia consiste en conocer algo que se desconoce a partir de elementos (datos) conocidos, según King, Keohane y Verba (2000). Y estas tienden a traducirse en distintas herramientas (como lo son las hipótesis) que, en el análisis cuantitativo, se busca someter a evaluación frente a los datos (en gran medida provienen de muestras) disponibles con el fin de conocer a la realidad (poblacional) mediante estimaciones.

La estadística inferencial consiste en un conjunto de técnicas y herramientas de la estadística con las que se busca generar estimaciones sobre la realidad (poblacional) a partir de los datos disponibles (muestrales) que, al final, puedan generalizarse. De manera que “la inferencia pretende generalizar la información contenida en unos datos a un cuerpo de conocimientos más amplio.” (cobo2007?)

En este sentido, la lógica de la metodología estadística inferencial se apoya en la generalización mediante refutación empírica de las inferencias iniciales, por lo que, en el fondo, se trata de un método comparativo basado en las herramientas estadísticas que permiten evaluar mediante estimaciones.

Los tres usos principales (vilalta2016?) de la estadística inferencial consisten en: 1. Estimar si una muestra es representativa de una población. 2. Estimar si una muestra difiere de otra. 3. Estimar la probabilidad de que 2 eventos estén relacionados por azar.

1.1. Inferencias e hipótesis

Una inferencia consiste en un argumento que busca conocer algo que se desconoce (usualmente se refiere a una característica de la población) a partir de elementos conocidos (suele referirse a datos provenientes de una muestra), según King, Keohane y Verba (2000). Y a partir de la generación de inferencias y su evaluación consecuente, se busca generar estimaciones que permitan acercarse a conocer la realidad (poblacional).

Las hipótesis suelen ser la manera formal en que se traducen las inferencias (ya sean descriptivas o causales, según King, Keohane y Verba (2000)), y estas se integran con elementos específicos: 1. variables, y 2. relaciones entre las variables.

En el análisis cuantitativo, las hipótesis serán el punto de partida del análisis inferencial pues, a través de su evaluación empírica, es la manera en que se busca conocer a la realidad. Donde las hipótesis estadísticas que se generan tienen dos características básicas:

  1. Según su rol en la investigación pueden ser:
  • Hipótesis alternativas (\(H_a\)), esta presenta un enunciado integrado por una o más variables y, además, establece una relación sistemática entre éstas, por ejemplo: \[ Y = f(X)\]
  • Hipótesis nula (\(H_0\)), se integra por las mismas variables, pero aquí rechaza o niega la relación sistemática establecida previamente; “consiste en la negación o ausencia de diferencia [igualdad] de un efecto” (vilalta2016?): \[Y \neq f(X)\]
  1. Según el tipo de dirección en la relación entre variables:
  • Hipótesis unidireccionales se refieren a aquellas que plantean un sentido en la relación entre las variables tanto en la muestra como en la población. Además, estás hipótesis pueden plantear dos tipos de sentidos:
    • Hipótesis unidireccional hacia la derecha, en la que se plantea que el parámetro poblacional será un valor mayor al estadístico muestral (\(\mu > \bar{X}\)).
    • Hipótesis unidireccional hacia la izquierda, en la que se plantea que el parámetro poblacional será un valor menor al estadístico muestral (\(\mu < \bar{X}\))
  • Hipótesis bidireccionales que consisten en argumentos que plantean la existencia de una diferencia de las variables entre la muestra y la población. \[\mu \neq X\]

En términos de la distribución de probabilidad de los valores de una variable, el primer tipo de hipótesis se conocen también como hipótesis de “una cola” mientras que las segundas se refieren como hipótesis de “dos colas.”

1.2. Pruebas de hipótesis (nula) y error

La manera en que la estadística realiza el análisis y la interpretación de los datos empíricos es a través del conjunto de técnicas y herramientas que se agrupan bajo el nombre de “prueba de hipótesis”, que permiten interpretar la información obtenida a partir de responder a preguntas de investigación (vilalta2016?) mediante el uso de estimadores (puntuales o intervalos de confianza). Este método de evaluación de los datos también se conoce como prueba de significancia estadística (Fisher, 1925, 1926).

El método de la prueba de significancia o de hipótesis “busca, en esencia, probar si las mediciones provenientes de una muestra están en armonía con la hipótesis del investigador (Fisher, 1925). Cualquier diferencia observada entre el verdadero valor de un parámetro poblacional y un estadístico muestral empleado para estimarlo se sujeta a una probabilidad.” (vilalta2016?)

Si bien al intentar probar la significancia de nuestras hipótesis de investigación desde el ámbito de la estadística inferencial, y por tanto desde su asociación con las probabilidades de ocurrencia de un resultado esperado en la realidad, nos enfrentamos al problema “tradicional” de la evaluación de hipótesis. Y es que si bien se reconoce que toda hipótesis de trabajo siempre tendrá una probabilidad de ocurrencia y, por tanto, de ser verdadera para la realidad, esta posibilidad no permite, al final, establecer la veracidad de nuestras hipótesis.

Una manera alternativa (de tipo popperiana) para conocer la realidad consiste en el método de la refutación de hipótesis, que permite, al menos, descartar hipótesis que no se ajusten a los datos empíricos disponibles. A partir de este proceso de refutación, en la estadística inferencial se opta por el método de la “prueba de hipótesis nula” (PHN), en el que se desea y se busca refutar o rechazar probabilísticamente una hipótesis de no efecto o nula. (vilalta2016?) En la medida en que la hipótesis nula pueda ser refutada (y por ende también se refute el argumento de no efecto o no diferencia entre las variables), se puede aceptar que existe una mejor explicación de la realidad que suele ubicarse en la hipótesis alternativa (aquella que plantea la existencia de un efecto o diferencia entre variables en la población).

Dicha prueba de hipótesis o de significancia, como parte del proceso inferencial de generación de conocimiento, si bien busca evaluar las relaciones entre variables a partir de los datos muestrales para, posteriormente, generalizar los resultados hacia una realidad poblacional, reconoce que este proceso de generalización no es determinista sino, al contrario, parte de asumir la existencia del fenómeno de la incertidumbre presente en la realidad, que se puede reflejar en los datos muestrales.

Dichos errores en el análisis cuantitativo se pueden generar en distintos momentos del diseño de la investigación: * en el momento del muestreo y recopilación de los datos, * en la medición de la realidad, o * en la presencia de variables intervinientes que no fueron consideradas en la investigación. (vilalta2016?; cobo2007?; salkind2013?)

Reconocer la presencia de la incertidumbre y, también, la existencia de diversas fuentes de error dentro del diseño de las investigaciones permite, a su vez, asumir la existencia de un riesgo latente en el proceso de generalización del conocimiento en el análisis estadístico inferencial. Dicho riesgo o error en el proceso de estimación (inferencia estadística) puede ser de dos tipos: i. aleatorio, que se deben a fluctuaciones del azar en las distintas fases de la investigación, y ii. sistemático, o sesgos que tienden a repetirse de manera constante por el uso de diversas herramientas de investigación.

De acuerdo con Cobo (cobo2007?), “la estadística ayuda a cuantificar la magnitud de los primeros (errores aleatorios)” a partir del cálculo del tamaño del “error aleatorio.” Esto permite “saber con qué grado de certidumbre la diferencia observada entre un estadístico y un parámetro puede deberse a una fluctuación aleatoria.” (Stigler, 1986 citado en vilalta2016?)

1.3. Error aleatorio

El error aleatorio consiste en la diferencia existente entre ambos valores (estimadores) que se produce a raíz de analizar algo a partir de una muestra frente a analizarlo a partir de su población entera y, a su vez, permite evaluar el grado de certidumbre con el que se puede concluir algo para la población a partir de la información muestral disponible.

El error aleatorio, por tanto, “es la oscilación de los estadísticos obtenibles en las posibles muestras (siempre centrados en el parámetro de la población origen de la muestra).” (cobo2007?) Especialmente, la evaluación del tamaño del error aleatorio permite comparar la distancia existente de un estimador presente en una muestra respecto de su posición en una población. Pero a raíz del problema de carecer de información poblacional, ésta comparación suele llevarse a cabo entre el estimador de una muestra con su posición correspondiente ante una distribución muestral (el conjunto de diversas muestras de igual tamaño al tamaño de la muestra disponible).

A medida que el tamaño del error aleatorio del estimador utilizado en la muestra disponible tiende a ser pequeño (cercano a cero), se asume que la muestra utilizada es representativa de la población analizada.

El cálculo del error aleatorio se apoya en el índice del Error estándar (SE) o error típico de la media, que es el cociente resultante de dividir a la desviación estándar (\(\sigma\)) de una variable entre la raíz cuadrada del tamaño de muestra \(\sqrt{n}\): \[SE = \frac{\sigma_\bar{X}}{\sqrt{n}}\]

La forma manual de calcular el Error estándar (SE) se realiza aplicando las variables directamente en la fórmula referida:

SE_EDAD <- sd(datos_covid$EDAD, na.rm = TRUE) / sqrt(length(datos_covid$EDAD))
SE_EDAD
## [1] 0.02634047

Otra manera de obtener el Error Estándar para una variable continua de manera más directa es a través del script MeanSE(objeto, sd = NULL, na.rm = TRUE) de la librería DescTools(), de la siguiente manera:

SE_age <- MeanSE(datos_covid $ EDAD, sd = NULL, na.rm = TRUE)
SE_age
## [1] 0.02634047

El tamaño del error aleatorio existente entre la muestra y el conjunto de todas las muestras posibles del mismo tamaño (distribución muestral), a partir de comparar el estimador de la media para ambas, es de casi 0.03 desviaciones estándar. Lo que refiere que los datos de la muestra disponible son muy cercanos a los datos existentes en la distribución muestral, que es nuestra mejor aproximación a la población.

Finalmente, a partir de la definición operacional del error aleatorio, se observa que existe una relación inversa entre el tamaño de la muestra y el error típico, pues a medida que tiene a aumentar el primero, el segundo se reducirá y viceversa. (cobo2007?)

Pregunta: ¿Cuál será el tamaño del error estándar de la variable de EDAD de los pacientes con síntomas de covid-19 en caso que el tamaño de muestra (n) fuese de 800,000 individuos?

¿Cuál será el tamaño del error estándar de la variable de Edad de los pacientes con síntomas de covid-19 en caso que el tamaño de muestra (n) fuese de 100,000 individuos?

2. Estimación y significancia estadística

El proceso de la inferencia estadística que se apoya en las pruebas de hipótesis o significancia se apoya en las herramientas de la estimación de un parámetro a partir de un estadístico proveniente de una muestra. Y dicho proceso de estimación se puede realizar mediante dos instrumentos:

1. Estimadores puntuales, o

2. Intervalos de Confianza.

A partir de estos estimadores se buscan responder dos tipos de preguntas relacionadas con la prueba de una hipótesis:

1. ¿Se puede negar cierto valor del parámetro? Esta será respondida mendiante la PHN y su Nivel de Significancia estadística, y

2. ¿Qué valores del parámetro son creíbles? Esta será respondida mediante los Intervalos de Confianza y su nivel de confianza (esto se abordará en otra sesión).

2.1. Estimación puntual

Un estimador puntual “es la representación numérica de una característica de una población que se realiza a partir de una muestra. Es un estadístico muestral para estimar un valor de interés en una población o universo”. (vilalta2016?) A partir del supuesto del Teorema del Límite Central se asume que el ejemplo clásico de estimador puntual es la media aritmética de una muestra, que se trata como si fuera una variable aleatoria. Esto permite, también, que su cálculo se realice sobre la base de una distribución de probabilidades y, así, evaluar la hipótesis generada a partir de dicho estimador y, finalmente, interpretar su resultado a la luz de un criterio de decisión. Dicho criterio se refiere a la significancia estadística del estimador.

2.1.1. Prueba de significancia estadística de un estimador puntual (media)

La prueba de significancia estadística es una técnica de estadística inferencial que se usa “para juzgar si una propiedad que, se supone, cumple una población es compatible con lo observado en una muestra de la misma.” (cobo2007?) A partir de dicha comparación de las probabilidades calculadas para el valor observado en una muestra respecto del mismo valor correspondiente para el parámetro poblacional es que se busca establecer un criterio de decisión para aceptar o rechazar la hipótesis planteada para conocer la realidad (poblacional), reconociendo siempre la existencia de un error aleatorio, o el riesgo asociado con no estar 100% seguro de que lo observado en una muestra se debe a causas sistemáticas (tratamiento, variable independiente, causa esperada, etc.).” (salkind2013?)

Con el fin de evaluar dicha comparación de probabilidades, y para tomar una decisión al respecto considerando el riesgo del error aleatorio, se utiliza un criterio de decisión que consiste en el Nivel de significancia (representado por la letra griega \(\alpha\)). Este “es el grado de riesgo que se desea aceptar para rechazar la hipótesis nula (a partir de los datos muestrales) cuando es verdadera en la realidad (poblacional).” Y dicho grado de riesgo en el fondo consiste en una probabilidad condicional sobre el riesgo aceptable, de manera que: \[\alpha = P(\text{rechazar H0} | \text{H0 es verdadera})\]

2.1.2. Tipos de error en las pruebas de hipótesis

Debido a la naturaleza probabilística de las pruebas de hipótesis (nula) o de significancia estadística, lo que se busca es evaluar la probabilidad de ocurrencia de la hipótesis nula con el fin de tomar una decisión final sobre la verosimilitud de la misma.

Una característica probabilística de todo resultado o evento posible de la variable de interés consiste en que su probabilidad de ocurrencia, por más mínima que pueda ser, nunca será igual a 0 (ausencia del evento) o a 1 (presencia completa del evento). De manera que tanto la hipótesis alternativa así como la hipótesis nula siempre tienen asociada una probabilidad de ocurrencia.

Ante dicha situación, el nivel de significancia es el criterio de decisión que se utiliza para evaluar la ocurrencia del evento analizado y, también, para que el analista tome una decisión (aceptar o rechazar) sobre la hipótesis evaluada como la mejor explicación posible de la realidad.

Sin embargo, debido a la misma naturaleza probabilística de la pruebas de hipótesis (nula) o significancia estadística también se corre el riesgo de cometer errores al evaluar la probabilidad de ocurrencia de una hipótesis a partir de los datos muestrales, y también se pueden generar errores al momento en que el analista debe tomar una decisión sobre la hipótesis (nula) evaluada.

Al evaluar la hipótesis nula se debe considerar que, en la población dicha hipótesis puede ser verdadera o falsa, mientras que el analista debe decidir entre rechazar o no rechazar la hipótesis nula.

Ante esta combinación de posibilidades, se pueden generar dos tipos de error en las pruebas de significancia:

  1. Error tipo I, y
  2. Error tipo II.
Decisión del analista H0 Verdadera H0 Falsa
Aceptar Decisión correcta Error tipo II (beta)
Rechazar Error tipo I (alfa) Decisión correcta (poder = 1 - beta)
  1. El error tipo I se corresponde con el Nivel de Significancia, o que puede ser concebido también como un falso positivo. Y este consiste en la: \(P(rechazar H0 | H0 verdadera)\). Esta probabilidad la define el analista de manera discrecional y de antemano a la realización de la prueba de significancia; entre los valores estándar que se utilizan para evaluar dicho riesgo de error se suelen ubicar en 5% o 1% (Fisher, 1925). Esto es, se considera aceptable un error (o nivel de significancia: \(\alpha\)) del 5%, en donde se contempla que 1 de cada 20 casos el analista tome una decisión errada.

  2. El error tipo II consiste en la probabilidad de: \(P(aceptar H0 | H0 falsa)\), y que se conoce también como un falso negativo. Este suele representarse con el estimador \(\beta\), que está vinculado al tamaño de muestra (\(n\)) y, por tanto, no puede manipularse directamente por el analista. A su vez, la probabilidad inversa \(1-\beta\) se conoce como el poder estadístico de la prueba de hipótesis, y que consiste en adoptar una decisión correcta cuando \(P(\text{rechazar H0} | \text{H0 es falsa})\). (Murphy y Myers, 2004 citado en vilalta2016?)

2.2. Lógica de la prueba de hipótesis y p-value

Si bien el Nivel de Significancia consiste en el criterio utilizado por el analista para tomar una decisión sobre la inferencia generada en torno a una hipótesis nula, el estimador que se utiliza para evaluar la significancia estadística (probabilidad) asociada a dicha hipótesis consiste en el p-valor.

Este consiste en “la probabilidad de que se presente un valor del estadístico (media) más alejado de la hipótesis nula (en la población) que el observado (en la muestra).” (cobo2007?) O dicho de otra manera, es la “probabilidad de observar valores del estadístico igual o más extremos que el observado, en caso de que la hipótesis nula sea cierta.” (cobo2007?)

Su interpretación debe reconocer que “si el p-valor es pequeño, se dice que la hipótesis nula es inverosímil. (…) (O) Cuán inverosímil es el resultado observado si la hipótesis nula fuera cierta” o “Hasta qué punto el resultado observado (en la muestra) es probabilísticamente compatible con la hipótesis nula.” (cobo2007?)

La lógica de la PHN consiste en alcanzar resultados altamente significativos, o lo que es lo mismo “buscar la menor probabilidad de cometer un error tipo I” que permita, al final, rechazar a la hipótesis nula como la mejor explicación posible de la realidad.

De manera que “cada H0 tiene asociada un tipo particular de estadístico (z, t, F, u otro). Y cada estadístico tiene asociado un tipo especial de distribución de probabilidades con la que se puede comparar los datos de una muestra. La comparación entre las características de la muestra frente a los de la población, en la prueba de distribución permiten concluir si las características de la muestra son diferentes a lo que se esperaría obtener por azar (en la población, representada mediante la curva de distribución de probabilidades).” (salkind2013?)

Esto es, se compara el p-valor calculado y asociado a la probabilidad de ocurrencia de \(H_0\) con respecto al Nivel de significancia (\(\alpha\)) previamente definido, y a partir de ello se toma una decisión centrada en la Hipótesis nula (\(H_0\)).

2.2.1. Pasos de la prueba de hipótesis o significancia.

La prueba de significancia hace una pregunta concreta sobre el valor del parámetro en la población a partir de los datos observados en la muestra o si \(\pi = \bar{x}\). Y donde la hipótesis nula “es el punto de salida de la investigación, por lo que debe establecerse previo a la recolección de los datos.” (cobo2007?)

A partir de dicha prueba de significancia se busca “tomar una decisión (sobre H0), manteniendo los riesgos del error, controlados”, al mismo tiempo que se “aporta evidencia en contra de la hipótesis nula.” (cobo2007?)

La mecánica de las pruebas de significancia o de hipótesis siguen una serie de pasos, y estos tienden a variar según cada autor. A continuación se presentan una serie de 6 pasos, basados en la propuesta de Salkind (salkind2013?):

  1. Definición de la Hipótesis nula (\(H_0\)), esta consiste siempre en una “igualdad” o en la negación del efecto entre variables. Por ejemplo: \(\mu = \bar{x}\).

  2. Definición del Nivel de Significancia (\(\alpha\)) por el analista, que suele ubicarse en valores estándar de 5% o 1%.

  3. Selección del estadístico apropiado según la distribución de probabilidad de la variable analizada. Estos pueden corresponderse con la distribución de los estadísticos \(z, t, F, r\) u otro (Recomendación: uso del diagrama elaborado por Salkind (salkind2013?)).

  4. Cálculo (mediante fórmula) del valor del estadístico para la muestra (valor obtenido del p-valor), que consiste en una transformación de la unidad de medida de la variable original al valor correspondiente (estandarización de la variable) según el estadístico de distribución correspondiente y, así, calcular su probabilidad asociada.

  5. Comparar el valor obtenido del p-valor asociado a la probabilidad de ocurrencia de H0 en la población frente al Nivel de Significancia (\(\alpha\)) previamente definido por el analista, y ubicar si el p-value es menor al nivel de significancia..

  6. Decisión del analista sobre H0, que corresponde al rechazo o no rechazo de \(H_0\) a partir de la comparación realizada en el paso 5.

De manera que si: \[ \text{p-value} \geq \alpha : \text{No rechazo H0}\] \[ \text{p-value} < \alpha: \text{Rechazo H0}\]

3. Prueba de hipótesis para una variable.

Al trabajar con una variable con los datos de una muestra se puede realizar el proceso de estimación para conocer sí la primera nos permite acercarnos al valor correspondiente en la población (parámetro). Sin embargo es importante tener en cuenta el tipo de variable con la que se está trabajando el proceso de inferencia estadística (generalización), ya sea que se trate de una variable ccontinua o categórica. Pues para el primer caso se trabaja con el estadístico de la media mientras que para el segundo se evalúa la proporción del atributo de interés (nominal u ordinal).

3.1. Prueba de hipótesis para una variable continua.

En el caso de contar con una variable aleatoria de tipo continua, prácticamente puede considerarse que tiende a distribuirse como una normal (\(X -> N(\bar{X}, \sigma)\)) al cumplir, al menos, las siguientes condiciones:

  1. “n” grande (n > 30 casos) y
  2. se selecciona al 10% de la población en la muestra, o
  3. \(X\) tiene una distribución normal.

Entonces se considera que su media será un buen estimador para conocer el parámetro poblacional correspondiente.

3.1.1. Hipótesis de dos colas o “desigualdad”, donde \(\mu \neq \bar{x}\)

Siguiendo los pasos de la prueba de hipótesis, se establece que:

  1. Hipótesis nula: \(\mu = \bar{X}\); Hipótesis alternativa: \(\mu \neq \bar{X}\) (hipótesis de “dos colas”). A partir de esta hipótesis se desea evaluar si el promedio de edad calculado a partir de la muestra se parece al promedio de edad en la población.

  2. Nivel de significancia: \(\alpha = 0.05\). Nivel estándar para el ámbito de las Ciencias Sociales.

  3. Estadístico de prueba: \(Z\) para distribución de una muestra (distribución normal de probabilidades): \[z = \frac{(\bar{X} - \mu)}{\frac{\sigma}{\sqrt{n}}}\] Sin embargo se debe tomar en consideración que R no cuenta con un script en el sistema base para calcular directamente el p-valor asociado al cuantil “z”. Por ello se opta por utilizar el script t.test(), que se apoya en el cálculo del p-valor a partir del estadístico de distribución t de Student, cuya fórmula es muy parecida a la del estadístico “z”: \[t = \frac{(\bar{X} - \mu)}{\frac{s_\sigma}{\sqrt{n}}}\]

La diferencia principal entre ambas fórmulas radica en los elementos incluidos en el denominador: para el caso del estadístico “z”, el error estándar se calcula a partir del valor de la desviación estándar (\(\sigma\)) poblacional, mientras que en el caso de la fórmula del estadístico “t de Student” se calcula utilizando el valor de la desviación estándar (\(s_\sigma\)) para la muestra.

Sin embargo, a medida que el tamaño de muestra (\(n\)) tiende a aumentar, tanto \(\sigma\) como \(s_\sigma\) tenderán a acercarse entre sí y, por tanto, la forma de la distribución “t de Student” se parecerá cada vez más a la forma de una distribución normal “z”.

  1. Cálculo del p-valor.
options(scipen = 999) #comando para convertir los valores pequeños a decimales.
t.test(datos_covid $ EDAD,
       alternative = "two.sided", #Hipótesis de "dos colas" o de desigualdad
       mu = 42.56675, #Valor de contrastación, aquí se utilizó el valor de la distribución muestral
       paired = FALSE, #en caso de que la muestra sea "pareada"
       var.equal = FALSE, #supuesto de varianza homogénea si la muestra es pareda.
       conf.level = 0.95) #Nivel de confianza = 1 - Nivel de significancia.
## 
##  One Sample t-test
## 
## data:  datos_covid$EDAD
## t = 0.3749, df = 401754, p-value = 0.7077
## alternative hypothesis: true mean is not equal to 42.56675
## 95 percent confidence interval:
##  42.52500 42.62825
## sample estimates:
## mean of x 
##  42.57663

Valor obtenido en unidades t es de 0.3749, con 401754 grados de libertad. A partir del uso de ambos elementos se puede calcular la probabilidad correspondiente al p-valor, que es de 0.7077.

  1. Comparación del p-valor calculado frente al Nivel de significancia (\(\alpha\)). Al comparar el valor del p-valor asociado a la H0 (que es de 0.7077) con respecto al Nivel de significancia (alfa) (que es de 0.05). Con esto se puede establecer que el p-value es mayor que el Nivel de significancia.

  2. Decisión sobre la hipótesis nula

  1. El p-value asociado al valor de la media de edad en la muestra (0.7077) es mayor al nivel de significancia establecido (\(\alpha = 0.05\)), por lo que la probabilidad de observar a la hipótesis nula en la población es mayor al criterio de decisión.
  2. A partir de este criterio no se rechaza la H0 con los datos observados, por lo que se considera que H0 es la mejor explicación. O dicho de otra manera, se puede establecer que la media de edad de la muestra es similar a la media de edad de la población, con un nivel de confianza del 95%.

3.1.2. Hipótesis unilateral a la izquierda (una cola) o “menor que”, donde \(\mu < \bar{x}\)

Siguiendo los pasos de la prueba de hipótesis, se establece que:

  1. Hipótesis nula: \(\mu \geq \bar{X}\); Hipótesis alternativa: \(\mu < \bar{X}\) (hipótesis unilaterla a la izquierda). A partir de esta hipótesis se desea evaluar si el promedio de edad de la población es menor al promedio de edad calculado a partir de la muestra.

  2. Nivel de significancia: \(\alpha = 0.05\). Nivel estándar para el ámbito de las Ciencias Sociales.

  3. Estadístico de prueba: \(Z\) para distribución de una muestra (distribución normal de probabilidades), pero se opta por utilizar el estadístico “t de Student”, y por ende el script t.test().

  4. Calcular el p-valor

t.test(datos_covid $ EDAD,
       alternative = "less", #Hipótesis de una cola, "menor que"
       mu = 42.56675, #Valor de contrastación, aquí se utilizó el valor de la distribución muestral
       paired = FALSE, #en caso de que la muestra sea "pareada"
       var.equal = FALSE, #supuesto de varianza homogénea si la muestra es pareda.
       conf.level = 0.95) #Nivel de confianza = 1 - Nivel de significancia.
## 
##  One Sample t-test
## 
## data:  datos_covid$EDAD
## t = 0.3749, df = 401754, p-value = 0.6461
## alternative hypothesis: true mean is less than 42.56675
## 95 percent confidence interval:
##      -Inf 42.61995
## sample estimates:
## mean of x 
##  42.57663
  1. Comparación del p-valor calculado frente al Nivel de significancia (alfa). Al comparar el valor del p-valor asociado a la H0 (que es de 0.6461) con respecto al Nivel de significancia (alfa) (que es de 0.05). Con esto se puede establecer que el p-value es mayor que el Nivel de significancia.

  2. Decisión sobre la hipótesis nula.

  1. El p-value asociado al valor de la media de edad en la muestra (0.6461) es mayor al nivel de significancia establecido ($= 0.05), por lo que la probabilidad de observar a la hipótesis nula en la población es mayor al criterio de decisión.
  2. A partir de este criterio no se rechaza la H0 con los datos observados, por lo que se considera que H0 es la mejor explicación. O dicho de otra manera, se puede establecer que la media de edad de la población es mayor o igual a la media de edad en la muestra, con un nivel de confianza del 95%.

3.1.3. Hipótesis unilateral a la derecha (una cola) o “mayor que”, donde \(\mu > \bar{x}\)

Siguiendo los pasos de la prueba de hipótesis, se establece que:

  1. Hipótesis nula: \(\mu \leq \bar{X}\); Hipótesis alternativa: \(\mu > \bar{X}\) (hipótesis unilateral a la derecha). A partir de esta hipótesis se desea evaluar si el promedio de edad de la población es mayor al promedio de edad calculado a partir de la muestra.

  2. Nivel de significancia: \(\alpha = 0.05\). Nivel estándar para el ámbito de las Ciencias Sociales.

  3. Estadístico de prueba: \(Z\) para distribución de una muestra (distribución normal de probabilidades), pero se opta por utilizar el estadístico “t de Student”, y por ende el script t.test().

  4. Calcular el p-valor

t.test(datos_covid $ EDAD,
       alternative = "greater", #Hipótesis de una cola, "menor que"
       mu = 42.56675, #Valor de contrastación, aquí se utilizó el valor de la distribución muestral
       paired = FALSE, #en caso de que la muestra sea "pareada"
       var.equal = FALSE, #supuesto de varianza homogénea si la muestra es pareda.
       conf.level = 0.95) #Nivel de confianza = 1 - Nivel de significancia.
## 
##  One Sample t-test
## 
## data:  datos_covid$EDAD
## t = 0.3749, df = 401754, p-value = 0.3539
## alternative hypothesis: true mean is greater than 42.56675
## 95 percent confidence interval:
##  42.5333     Inf
## sample estimates:
## mean of x 
##  42.57663
  1. Comparación del p-valor calculado frente al Nivel de significancia (\(\alpha\)). Al comparar el valor del p-valor asociado a la H0 (que es de 0.3539) con respecto al Nivel de significancia (\(\alpha\)) (que es de 0.05). Con esto se puede establecer que el p-value es mayor que el Nivel de significancia.

  2. Decisión sobre la hipótesis nula.

  1. El p-value asociado al valor de la media de edad en la muestra (0.3539) es mayor al nivel de significancia establecido ($= 0.05), por lo que la probabilidad de observar a la hipótesis nula en la población es mayor al criterio de decisión.
  2. A partir de este criterio no se rechaza la H0 con los datos observados, por lo que se considera que H0 es la mejor explicación. O dicho de otra manera, se puede establecer que la media de edad de la población es mayor o igual a la media de edad en la muestra, con un nivel de confianza del 95%.

4. Prueba de hipótesis para una propoción

La estimación de un parámetro poblacional cuando se analiza una variable discreta y binomial (dos valores o atributos posibles solamente), se realiza mediante el estadístico de la proporción a partir de los datos de la muestra.

En este caso, el programa R cuenta con una función específica para calcular el estadístico calculado y su p-valor a partir del estadístico de distribución de probabilidades de Chi-cuadrada (\(\chi^2\)).

4.1. Hipótesis bilateral (dos colas) o “desigual”, donde \(\pi \neq p\)

Los pasos de la prueba de significancia para una proporción se plantean de la siguiente manera:

  1. Hipótesis nula: \(\pi = p\); Hipótesis alternativa: \(\pi \neq p\) (bidireccional) donde H0: \(\pi = 0.35\), Ha: \(\pi \neq 0.35\) pues se encontró que la frecuencia relativa de los casos con contagio de COVID-19 (valor 1 en la codificación de la variable) es de 35.51%.
prop.table(table(datos_covid $ RESULTADO))
## 
##         1         2         3 
## 0.3551667 0.5031400 0.1416933
  1. Nivel de significancia (\(\alpha\)) = 0.05

  2. Estadístico de prueba para una proporción: chi-cuadrado (\(\chi^2\)).

  3. Cálculo del p-valor, utilizando el comando prop.test():

prop.test(x = 142690, #cantidad de casos exitosos o donde ocurrió el evento de interés
          n = 401755, #tamaño de la muestra
          p = 0.35, #proporción que define al valor o hipótesis nula
          alternative = "two.sided", #tipo de hipótesis alternativa
          conf.level = 0.95, #nivel de confianza
          correct = TRUE)
## 
##  1-sample proportions test with continuity correction
## 
## data:  142690 out of 401755, null probability 0.35
## X-squared = 47.119, df = 1, p-value = 0.00000000000668
## alternative hypothesis: true p is not equal to 0.35
## 95 percent confidence interval:
##  0.3536870 0.3566491
## sample estimates:
##         p 
## 0.3551667

Aquí se observó que el valor del estadístico de prueba (\(\chi^2\)) calculado u observado es de 47.119 unidades de \(\chi^2\), con 1 grado de libertad, para lo que se obtuvo un p-valor de 0.00000000000668 para la hipótesis nula (p = 0.35).

  1. Comparación del p-valor frente al Nivel de significancia. Al comparar el valor del p-valor asociado a la H0 (que es de 0.00000000000668) con respecto al Nivel de significancia (\(\alpha\)) (que es de 0.05). Con esto se puede establecer que el p-value es menor que el Nivel de significancia.

  2. Decisión sobre la hipótesis nula.

  1. El p-value asociado al valor de la proporción de casos que dieron positivo en la prueba COVID-19 en la muestra (0.00000000000668) es menor al nivel de significancia establecido (\(\alpha = 0.05\)), por lo que la probabilidad de observar a la hipótesis nula en la población es menor al criterio de decisión.
  2. A partir de este criterio sí se rechaza la H0 con los datos observados, por lo que se considera que Ha es la mejor explicación. O dicho de otra manera, se puede establecer que la proporción de personas que darían positivo a la prueba COVID-19 en población es distinta la proporción de personas que dieron positivo en la prueba COVID-19 en la muestra, con un nivel de confianza del 95%.

4.2. Hipótesis unilateral a la izquierda (una cola) o “menor que”, donde \(\pi < p\)

Los pasos de la prueba de significancia para una proporción se plantean de la siguiente manera:

  1. Hipótesis nula: \(\pi \geq p\); Hipótesis alternativa: \(\pi < p\) (unidireccional a la izquierda), donde H0: \(\pi \geq 0.35\), Ha: \(\pi < 0.35\) pues se encontró que la frecuencia relativa de los casos con contagio de COVID-19 (valor 1 en la codificación de la variable) es de 35.51%.
prop.table(table(datos_covid $ RESULTADO))
## 
##         1         2         3 
## 0.3551667 0.5031400 0.1416933
  1. Nivel de significancia (\(\alpha\)) = 0.05

  2. Estadístico de prueba para una proporción: Chi^2 \(\chi^2\)

  3. Cálculo del p-valor, utilizando el comando prop.test():

prop.test(x = 142690, #cantidad de casos exitosos o donde ocurrió el evento de interés
          n = 401755, #tamaño de la muestra
          p = 0.35, #proporción que define al valor o hipótesis nula
          alternative = "less", #tipo de hipótesis alternativa
          conf.level = 0.95, #nivel de confianza
          correct = TRUE)
## 
##  1-sample proportions test with continuity correction
## 
## data:  142690 out of 401755, null probability 0.35
## X-squared = 47.119, df = 1, p-value = 1
## alternative hypothesis: true p is less than 0.35
## 95 percent confidence interval:
##  0.0000000 0.3564108
## sample estimates:
##         p 
## 0.3551667

Aquí se observó que el valor del estadístico de prueba (\(\chi^2\)) calculado u observado es de 47.119 unidades de \(\chi^2\), con 1 grado de libertad, para lo que se obtuvo un p-valor de 1 para la hipótesis nula (\(\pi \geq 0.35\)).

  1. Comparación del p-valor frente al Nivel de significancia. Al comparar el valor del p-valor asociado a la H0 (que es de 1) con respecto al Nivel de significancia (alfa) (que es de 0.05), se puede establecer que el p-value es mayor que el Nivel de significancia.

  2. Decisión sobre la hipótesis nula.

  1. El p-value asociado al valor de la proporción de casos que dieron positivo en la prueba COVID-19 en la muestra (1) es mayor al nivel de significancia establecido (\(\alpha = 0.05\)), por lo que la probabilidad de observar a la hipótesis nula en la población es mayar al criterio de decisión.
  2. A partir de este criterio no se rechaza la H0 con los datos observados, por lo que se considera que H0 es la mejor explicación. O dicho de otra manera, se puede establecer que la proporción de personas que darían positivo a la prueba COVID-19 en población es mayor o igual a la proporción de personas que dieron positivo en la prueba COVID-19 en la muestra, con un nivel de confianza del 95%.

5. Ejercicios

  1. Construir una hipótesis nula bidireccional y una unidireccional con X y Y
  2. Calcular el error estándar para una media de la variable edad para una submuestra de 10,000 casos, generada a partir del universo de casos contenidos en la variable EDAD de la base de datos COVID-19. Usar el valor seed = 4321.
  3. Realizar una prueba de hipótesis para una media de la variable EDAD a partir de la submuestra previamente generada y reportar: i. la HO, ii. si el valor del estadístico calculado es mayor o menor que el valor crítico, iii. el p-valor correspondiente, y iv. si se rechaza o no se rechaza H0.
  4. Realizar una prueba de hipótesis para una proporción de la variable RESULTADO a partir de la submuestra y reportar: i. la HO, ii. si el valor del estadístico calculado es mayor o menor que el valor crítico, iii. el p-valor correspondiente, y iv. si se rechaza o no se rechaza H0.

Referencias

King, Gary, Robert Keohane, and Sidney Verba. 2000. El Diseño de La Investigación Social: La Inferencia Científica En Los Estudios Cualitativos. Madrid: Alianza editorial.
