0. Definición del ambiente de trabajo.
Al comenzar siempre es importante establecer el idioma adecuado para
que el programa reconozca caracteres especiales. En el caso de definir
al idioma español, la instrucción a utilizar es:
Sys.setlocale("LC_ALL", "es_ES") #alternativa 1
## [1] "es_ES/es_ES/es_ES/C/es_ES/es_ES"
Sys.setenv(LANG = "es_ES") #alternativa 2
También es importante instalar las librerías que se utilizarán
posteriormente, para ello primero se guardan como un objeto:
paquetes <- c("tidyverse", "DescTools")
Posteriormente se “llaman” a las librerías mediante el script
libraries() de la paquetería easypackages:
library(easypackages)
libraries(paquetes)
## Loading required package: tidyverse
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.3 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Loading required package: DescTools
##
## All packages loaded successfully
Además es muy relevante establecer la ubicación del directorio de
trabajo, para que el programa identifique el archivo del que extraerá y,
también, guardará la información solicitada.
getwd() ##directorio actual
## [1] "/Users/gustavo/Dropbox/R/Rmarkdown"
setwd("~/Dropbox/R/Rmarkdown") ##Esta permite cambiar y definir el directorio deseado
list.files() ##Esta permite enlistar los archivos dentro del directorio
## [1] "Actividad_1.html"
## [2] "Actividad_1.Rmd"
## [3] "Actividad_2_Exploracion_Descripcion.pdf"
## [4] "Actividad_2.html"
## [5] "Actividad_2.Rmd"
## [6] "Actividad_3_1_.html"
## [7] "Actividad_3_Estadistica_Descriptiva.pdf"
## [8] "Actividad_3-1-.html"
## [9] "Actividad_3(1).Rmd"
## [10] "Actividad_4_files"
## [11] "actividad_4_inferencia.Rmd"
## [12] "Actividad_4. Probabilidad y Distribución Normal.pdf"
## [13] "Actividad_4._Probabilidad_Distribucion_Normal.pdf"
## [14] "Actividad_4.html"
## [15] "Actividad_4.Rmd"
## [16] "Actividad_5_Inferencia_Est.docx"
## [17] "Actividad_5_Inferencia_Est.html"
## [18] "Actividad_5_Inferencia_Est.pdf"
## [19] "Actividad_5_Inferencia_Est.Rmd"
## [20] "actividad_6_intervalos_confianza.html"
## [21] "actividad_6_intervalos_confianza.Rmd"
## [22] "Actividad_7_Contingencia_Correlacion.html"
## [23] "Actividad_7_Contingencia_Correlacion.Rmd"
## [24] "actividad_correlacion.html"
## [25] "actividad_correlacion.Rmd"
## [26] "actividad_regresion_lineal_simple.html"
## [27] "actividad_regresion_lineal_simple.Rmd"
## [28] "actividad_regresion_lineal.html"
## [29] "actividad_regresion_lineal.Rmd"
## [30] "actividad_regresion_logit.html"
## [31] "actividad_regresion_logit.Rmd"
## [32] "add in ymlthis.png"
## [33] "adiciones a modelos OLS.Rmd"
## [34] "adiciones-a-modelos-OLS.html"
## [35] "analisis_clusters.html"
## [36] "analisis_clusters.Rmd"
## [37] "apa.csl"
## [38] "bibliografia partidos_prueba.bib"
## [39] "comandos chunks en rmd.Rmd"
## [40] "comandos-chunks-en-rmd.html"
## [41] "confidence_intervals_Coursera_2.rmd"
## [42] "confidence_intervals_Coursera.rmd"
## [43] "diseno yaml.Rmd"
## [44] "diseno-yaml.html"
## [45] "dist_normal.png"
## [46] "dist_z_t.png"
## [47] "distill.png"
## [48] "ha_h0.gif"
## [49] "inf_for_numerical_data.Rmd"
## [50] "intervalo_confianza.png"
## [51] "intro_MCA.html"
## [52] "intro_MCA.Rmd"
## [53] "intro_pca.html"
## [54] "intro_pca.Rmd"
## [55] "intro_to_data_Coursera.rmd"
## [56] "intro_to_r_coursera_2.Rmd"
## [57] "intro_to_r_Coursera.Rmd"
## [58] "metodologia.bib"
## [59] "papaja.png"
## [60] "poblacion_muestra.png"
## [61] "potencia.png"
## [62] "presentacion_reg_logit_ordinal.html"
## [63] "presentacion_reg_logit_ordinal.Rmd"
## [64] "probability_Coursera.Rmd"
## [65] "prueba chunks.Rmd"
## [66] "prueba de YAML.Rmd"
## [67] "prueba sintax markdown.Rmd"
## [68] "prueba_uso_markdown_files"
## [69] "prueba_uso_markdown.html"
## [70] "prueba_uso_markdown.Rmd"
## [71] "prueba-chunks_files"
## [72] "prueba-chunks.html"
## [73] "prueba-de-YAML.html"
## [74] "prueba-de-YAML.pdf"
## [75] "prueba-sintax-markdown.html"
## [76] "pruebas_hipotesis_bivariadas.html"
## [77] "pruebas_hipotesis_bivariadas.Rmd"
## [78] "references.bib"
## [79] "regresion_efectos_fijos.html"
## [80] "regresion_efectos_fijos.Rmd"
## [81] "regresion_lineal_multiple.html"
## [82] "regresion_lineal_multiple.Rmd"
## [83] "regresion_lineal_simple_presentacion.html"
## [84] "regresion_lineal_simple_presentacion.Rmd"
## [85] "rsconnect"
## [86] "rticles.png"
## [87] "sampling_distributions_Coursera.rmd"
## [88] "script_PCA.R"
## [89] "script_reg_lineal.R"
## [90] "sintax_markdown.html"
## [91] "sintax_markdown.Rmd"
## [92] "syllabus sistemas politicos comparados uabc 2022-2.Rmd"
## [93] "syllabus-sistemas-politicos-comparados-uabc-2022-2.pdf"
## [94] "vars_democ_latinob.png"
## [95] "ventana_config_basica_yaml.png"
## [96] "ventana_plantillas_articulos.png"
## [97] "ventana_selec_plantilla_yaml.png"
## [98] "zotero1.png"
## [99] "zotero2.png"
## [100] "zotero3.png"
Una vez establecido el directorio de trabajo, se debe cargar la base
de datos o data frame en el ambiente del programa, con el que se
analizará la información. Para ello habrá que “cargar” la información
sobre los pacientes infectados por COVID-19 reportados por la Secretaría
de Salud del gobierno federal mexicano.
datos_covid <- read.csv("~/Dropbox/R/200613COVID19MEXICO.csv", header = TRUE) #ruta de acceso a los datos, 'header = TRUE' en caso de que el archivo cuente con nombres de las variables.
1. Estadística inferencial y generación de conocimiento mediante
inferencias
El proceso de generación de conocimiento, para conocer una realidad,
usualmente procede mediante alguna de las dos vías tradicionales:
mediante métodos deductivos o inductivos. En términos de King, Keohane y
Verba (2000[1994]), las tradiciones cuantitativas y cualitativas también
suponían formas distintas de acercarse a conocer la realidad, pero en el
fondo ambas tradiciones se basan en una misma lógica inferencial.
Esto es, el proceso de conocimiento científico se apoya en el proceso
de generación y evaluación mediante el uso de inferencias. Una
inferencia consiste en conocer algo que se desconoce a partir de
elementos (datos) conocidos, según King, Keohane y Verba (2000). Y estas tienden a traducirse en
distintas herramientas (como lo son las hipótesis) que, en el análisis
cuantitativo, se busca someter a evaluación frente a los datos (en gran
medida provienen de muestras) disponibles con el fin de conocer a la
realidad (poblacional) mediante estimaciones.
La estadística inferencial consiste en un conjunto de técnicas y
herramientas de la estadística con las que se busca generar
estimaciones sobre la realidad (poblacional) a partir
de los datos disponibles (muestrales) que, al final, puedan
generalizarse. De manera que “la inferencia pretende generalizar la
información contenida en unos datos a un cuerpo de conocimientos más
amplio.” (cobo2007?)
En este sentido, la lógica de la metodología estadística inferencial
se apoya en la generalización mediante refutación empírica de las
inferencias iniciales, por lo que, en el fondo, se trata de un método
comparativo basado en las herramientas estadísticas que permiten evaluar
mediante estimaciones.
Los tres usos principales (vilalta2016?) de la
estadística inferencial consisten en: 1. Estimar si una muestra es
representativa de una población. 2. Estimar si una muestra difiere de
otra. 3. Estimar la probabilidad de que 2 eventos estén relacionados por
azar.
1.1. Inferencias e hipótesis
Una inferencia consiste en un argumento que busca conocer algo que se
desconoce (usualmente se refiere a una característica de la población) a
partir de elementos conocidos (suele referirse a datos provenientes de
una muestra), según King, Keohane y Verba (2000). Y a partir de la generación de
inferencias y su evaluación consecuente, se busca generar estimaciones
que permitan acercarse a conocer la realidad (poblacional).
Las hipótesis suelen ser la manera formal en que se traducen las
inferencias (ya sean descriptivas o causales, según King, Keohane y
Verba (2000)), y estas se integran con
elementos específicos: 1. variables, y 2. relaciones entre las
variables.
En el análisis cuantitativo, las hipótesis serán el punto de partida
del análisis inferencial pues, a través de su evaluación empírica, es la
manera en que se busca conocer a la realidad. Donde las hipótesis
estadísticas que se generan tienen dos características básicas:
- Según su rol en la investigación pueden ser:
- Hipótesis alternativas (\(H_a\)),
esta presenta un enunciado integrado por una o más variables y, además,
establece una relación sistemática entre éstas, por ejemplo: \[ Y = f(X)\]
- Hipótesis nula (\(H_0\)), se
integra por las mismas variables, pero aquí rechaza o niega la relación
sistemática establecida previamente; “consiste en la negación o ausencia
de diferencia [igualdad] de un efecto” (vilalta2016?): \[Y \neq f(X)\]
- Según el tipo de dirección en la relación entre variables:
- Hipótesis unidireccionales se refieren a aquellas que plantean un
sentido en la relación entre las variables tanto en la muestra como en
la población. Además, estás hipótesis pueden plantear dos tipos de
sentidos:
- Hipótesis unidireccional hacia la derecha, en la que se plantea que
el parámetro poblacional será un valor mayor al estadístico muestral
(\(\mu > \bar{X}\)).
- Hipótesis unidireccional hacia la izquierda, en la que se plantea
que el parámetro poblacional será un valor menor al estadístico muestral
(\(\mu < \bar{X}\))
- Hipótesis bidireccionales que consisten en argumentos que plantean
la existencia de una diferencia de las variables entre la muestra y la
población. \[\mu \neq X\]
En términos de la distribución de probabilidad de los valores de una
variable, el primer tipo de hipótesis se conocen también como hipótesis
de “una cola” mientras que las segundas se refieren como hipótesis de
“dos colas.”
1.2. Pruebas de hipótesis (nula) y error
La manera en que la estadística realiza el análisis y la
interpretación de los datos empíricos es a través del conjunto de
técnicas y herramientas que se agrupan bajo el nombre de “prueba de
hipótesis”, que permiten interpretar la información obtenida a partir de
responder a preguntas de investigación (vilalta2016?) mediante el uso
de estimadores (puntuales o intervalos de confianza). Este método de
evaluación de los datos también se conoce como prueba de significancia
estadística (Fisher, 1925, 1926).
El método de la prueba de significancia o de hipótesis “busca, en
esencia, probar si las mediciones provenientes de una muestra están en
armonía con la hipótesis del investigador (Fisher, 1925). Cualquier
diferencia observada entre el verdadero valor de un parámetro
poblacional y un estadístico muestral empleado para estimarlo se sujeta
a una probabilidad.” (vilalta2016?)
Si bien al intentar probar la significancia de nuestras hipótesis de
investigación desde el ámbito de la estadística inferencial, y por tanto
desde su asociación con las probabilidades de ocurrencia de un resultado
esperado en la realidad, nos enfrentamos al problema “tradicional” de la
evaluación de hipótesis. Y es que si bien se reconoce que toda hipótesis
de trabajo siempre tendrá una probabilidad de ocurrencia y, por tanto,
de ser verdadera para la realidad, esta posibilidad no permite, al
final, establecer la veracidad de nuestras hipótesis.
Una manera alternativa (de tipo popperiana) para conocer la realidad
consiste en el método de la refutación de hipótesis, que permite, al
menos, descartar hipótesis que no se ajusten a los datos empíricos
disponibles. A partir de este proceso de refutación, en la estadística
inferencial se opta por el método de la “prueba de hipótesis nula”
(PHN), en el que se desea y se busca refutar o rechazar
probabilísticamente una hipótesis de no efecto o nula. (vilalta2016?) En la medida en
que la hipótesis nula pueda ser refutada (y por ende también se refute
el argumento de no efecto o no diferencia entre las variables), se puede
aceptar que existe una mejor explicación de la realidad que suele
ubicarse en la hipótesis alternativa (aquella que plantea la existencia
de un efecto o diferencia entre variables en la población).
Dicha prueba de hipótesis o de significancia, como parte del proceso
inferencial de generación de conocimiento, si bien busca evaluar las
relaciones entre variables a partir de los datos muestrales para,
posteriormente, generalizar los resultados hacia una realidad
poblacional, reconoce que este proceso de generalización no es
determinista sino, al contrario, parte de asumir la existencia del
fenómeno de la incertidumbre presente en la realidad, que se puede
reflejar en los datos muestrales.
Dichos errores en el análisis cuantitativo se pueden generar en
distintos momentos del diseño de la investigación: * en el momento del
muestreo y recopilación de los datos, * en la medición de la realidad, o
* en la presencia de variables intervinientes que no fueron consideradas
en la investigación. (vilalta2016?;
cobo2007?; salkind2013?)
Reconocer la presencia de la incertidumbre y, también, la existencia
de diversas fuentes de error dentro del diseño de las investigaciones
permite, a su vez, asumir la existencia de un riesgo latente en el
proceso de generalización del conocimiento en el análisis estadístico
inferencial. Dicho riesgo o error en el proceso de estimación
(inferencia estadística) puede ser de dos tipos: i. aleatorio, que se
deben a fluctuaciones del azar en las distintas fases de la
investigación, y ii. sistemático, o sesgos que tienden a repetirse de
manera constante por el uso de diversas herramientas de
investigación.
De acuerdo con Cobo (cobo2007?), “la estadística
ayuda a cuantificar la magnitud de los primeros (errores aleatorios)” a
partir del cálculo del tamaño del “error aleatorio.” Esto permite “saber
con qué grado de certidumbre la diferencia observada entre un
estadístico y un parámetro puede deberse a una fluctuación aleatoria.”
(Stigler, 1986 citado en
vilalta2016?)
1.3. Error aleatorio
El error aleatorio consiste en la diferencia existente entre ambos
valores (estimadores) que se produce a raíz de analizar algo a partir de
una muestra frente a analizarlo a partir de su población entera y, a su
vez, permite evaluar el grado de certidumbre con el que se puede
concluir algo para la población a partir de la información muestral
disponible.
El error aleatorio, por tanto, “es la oscilación de los estadísticos
obtenibles en las posibles muestras (siempre centrados en el parámetro
de la población origen de la muestra).” (cobo2007?) Especialmente, la
evaluación del tamaño del error aleatorio permite comparar la distancia
existente de un estimador presente en una muestra respecto de su
posición en una población. Pero a raíz del problema de carecer de
información poblacional, ésta comparación suele llevarse a cabo entre el
estimador de una muestra con su posición correspondiente ante
una distribución muestral (el conjunto de diversas muestras de
igual tamaño al tamaño de la muestra disponible).
A medida que el tamaño del error aleatorio del estimador utilizado en
la muestra disponible tiende a ser pequeño (cercano a cero), se asume
que la muestra utilizada es representativa de la población
analizada.
El cálculo del error aleatorio se apoya en el índice del
Error estándar (SE) o error típico de la
media, que es el cociente resultante de dividir a la desviación
estándar (\(\sigma\)) de una variable
entre la raíz cuadrada del tamaño de muestra \(\sqrt{n}\): \[SE
= \frac{\sigma_\bar{X}}{\sqrt{n}}\]
La forma manual de calcular el Error estándar (SE)
se realiza aplicando las variables directamente en la fórmula
referida:
SE_EDAD <- sd(datos_covid$EDAD, na.rm = TRUE) / sqrt(length(datos_covid$EDAD))
SE_EDAD
## [1] 0.02634047
Otra manera de obtener el Error Estándar para una
variable continua de manera más directa es a través del script
MeanSE(objeto, sd = NULL, na.rm = TRUE) de la librería
DescTools(), de la siguiente manera:
SE_age <- MeanSE(datos_covid $ EDAD, sd = NULL, na.rm = TRUE)
SE_age
## [1] 0.02634047
El tamaño del error aleatorio existente entre la muestra y el
conjunto de todas las muestras posibles del mismo tamaño (distribución
muestral), a partir de comparar el estimador de la media para ambas, es
de casi 0.03 desviaciones estándar. Lo que refiere que los datos de la
muestra disponible son muy cercanos a los datos existentes en la
distribución muestral, que es nuestra mejor aproximación a la
población.
Finalmente, a partir de la definición operacional del error
aleatorio, se observa que existe una relación inversa entre el tamaño de
la muestra y el error típico, pues a medida que tiene a aumentar el
primero, el segundo se reducirá y viceversa. (cobo2007?)
Pregunta: ¿Cuál será el tamaño del error estándar de la variable de
EDAD de los pacientes con síntomas de covid-19 en caso que el tamaño de
muestra (n) fuese de 800,000 individuos?
¿Cuál será el tamaño del error estándar de la variable de Edad de los
pacientes con síntomas de covid-19 en caso que el tamaño de muestra (n)
fuese de 100,000 individuos?
2. Estimación y significancia estadística
El proceso de la inferencia estadística que se apoya en las pruebas
de hipótesis o significancia se apoya en las herramientas de la
estimación de un parámetro a partir de un estadístico proveniente de una
muestra. Y dicho proceso de estimación se puede realizar mediante dos
instrumentos:
1. Estimadores puntuales, o
2. Intervalos de Confianza.
A partir de estos estimadores se buscan responder dos tipos de
preguntas relacionadas con la prueba de una hipótesis:
1. ¿Se puede negar cierto valor del parámetro? Esta será respondida
mendiante la PHN y su Nivel de Significancia
estadística, y
2. ¿Qué valores del parámetro son creíbles? Esta será respondida
mediante los Intervalos de Confianza y su nivel de
confianza (esto se abordará en otra sesión).
2.1. Estimación puntual
Un estimador puntual “es la representación numérica
de una característica de una población que se realiza a partir de una
muestra. Es un estadístico muestral para estimar un valor de interés en
una población o universo”. (vilalta2016?) A partir del
supuesto del Teorema del Límite Central se
asume que el ejemplo clásico de estimador puntual es la media aritmética
de una muestra, que se trata como si fuera una variable aleatoria. Esto
permite, también, que su cálculo se realice sobre la base de una
distribución de probabilidades y, así, evaluar la hipótesis
generada a partir de dicho estimador y, finalmente, interpretar su
resultado a la luz de un criterio de decisión. Dicho criterio se refiere
a la significancia estadística del estimador.
2.1.2. Tipos de error en las pruebas de hipótesis
Debido a la naturaleza probabilística de las pruebas de hipótesis
(nula) o de significancia estadística, lo que se busca es evaluar la
probabilidad de ocurrencia de la hipótesis nula con el fin de tomar una
decisión final sobre la verosimilitud de la misma.
Una característica probabilística de todo resultado o evento posible
de la variable de interés consiste en que su probabilidad de ocurrencia,
por más mínima que pueda ser, nunca será igual a 0 (ausencia del evento)
o a 1 (presencia completa del evento). De manera que tanto la hipótesis
alternativa así como la hipótesis nula siempre tienen asociada una
probabilidad de ocurrencia.
Ante dicha situación, el nivel de significancia es
el criterio de decisión que se utiliza para evaluar la ocurrencia del
evento analizado y, también, para que el analista tome una
decisión (aceptar o rechazar) sobre la hipótesis evaluada como
la mejor explicación posible de la realidad.
Sin embargo, debido a la misma naturaleza probabilística de la
pruebas de hipótesis (nula) o significancia estadística también se corre
el riesgo de cometer errores al evaluar la probabilidad
de ocurrencia de una hipótesis a partir de los datos muestrales, y
también se pueden generar errores al momento en que el analista debe
tomar una decisión sobre la hipótesis (nula) evaluada.
Al evaluar la hipótesis nula se debe considerar que, en la
población dicha hipótesis puede ser verdadera o falsa, mientras
que el analista debe decidir entre rechazar o
no rechazar la hipótesis nula.
Ante esta combinación de posibilidades, se pueden generar dos
tipos de error en las pruebas de significancia:
- Error tipo I, y
- Error tipo II.
| Aceptar |
Decisión correcta |
Error tipo II (beta) |
| Rechazar |
Error tipo I (alfa) |
Decisión correcta (poder = 1 - beta) |
El error tipo I se corresponde con el Nivel de
Significancia, o que puede ser concebido también como un
falso positivo. Y este consiste en la: \(P(rechazar H0 | H0 verdadera)\). Esta
probabilidad la define el analista de manera discrecional y de antemano
a la realización de la prueba de significancia; entre los valores
estándar que se utilizan para evaluar dicho riesgo de error se suelen
ubicar en 5% o 1% (Fisher, 1925). Esto es, se considera aceptable un
error (o nivel de significancia: \(\alpha\)) del 5%, en donde se contempla que
1 de cada 20 casos el analista tome una decisión errada.
El error tipo II consiste en la probabilidad de: \(P(aceptar H0 | H0 falsa)\), y que se conoce
también como un falso negativo. Este suele representarse con el
estimador \(\beta\), que está vinculado
al tamaño de muestra (\(n\)) y, por
tanto, no puede manipularse directamente por el analista. A su vez, la
probabilidad inversa \(1-\beta\) se
conoce como el poder estadístico de la prueba de
hipótesis, y que consiste en adoptar una decisión correcta cuando \(P(\text{rechazar H0} | \text{H0 es
falsa})\). (Murphy y Myers, 2004 citado en
vilalta2016?)
2.2. Lógica de la prueba de hipótesis y p-value
Si bien el Nivel de Significancia consiste en el
criterio utilizado por el analista para tomar una decisión sobre la
inferencia generada en torno a una hipótesis nula, el estimador que se
utiliza para evaluar la significancia estadística (probabilidad)
asociada a dicha hipótesis consiste en el p-valor.
Este consiste en “la probabilidad de que se presente un valor del
estadístico (media) más alejado de la hipótesis nula (en la población)
que el observado (en la muestra).” (cobo2007?) O dicho de otra
manera, es la “probabilidad de observar valores del estadístico igual o
más extremos que el observado, en caso de que la hipótesis nula sea
cierta.” (cobo2007?)
Su interpretación debe reconocer que “si el p-valor
es pequeño, se dice que la hipótesis nula es inverosímil. (…) (O) Cuán
inverosímil es el resultado observado si la hipótesis nula fuera cierta”
o “Hasta qué punto el resultado observado (en la muestra) es
probabilísticamente compatible con la hipótesis nula.” (cobo2007?)
La lógica de la PHN consiste en alcanzar resultados altamente
significativos, o lo que es lo mismo “buscar la menor probabilidad de
cometer un error tipo I” que permita, al final, rechazar a la hipótesis
nula como la mejor explicación posible de la realidad.
De manera que “cada H0 tiene asociada un tipo particular de
estadístico (z, t, F, u otro). Y cada estadístico tiene asociado un tipo
especial de distribución de probabilidades con la que se puede comparar
los datos de una muestra. La comparación entre las características de la
muestra frente a los de la población, en la prueba de distribución
permiten concluir si las características de la muestra son diferentes a
lo que se esperaría obtener por azar (en la población, representada
mediante la curva de distribución de probabilidades).” (salkind2013?)
Esto es, se compara el p-valor calculado y asociado
a la probabilidad de ocurrencia de \(H_0\) con respecto al Nivel de
significancia (\(\alpha\))
previamente definido, y a partir de ello se toma una decisión centrada
en la Hipótesis nula (\(H_0\)).
2.2.1. Pasos de la prueba de hipótesis o significancia.
La prueba de significancia hace una pregunta concreta sobre el valor
del parámetro en la población a partir de los datos observados en la
muestra o si \(\pi = \bar{x}\). Y donde
la hipótesis nula “es el punto de salida de la investigación, por lo que
debe establecerse previo a la recolección de los datos.” (cobo2007?)
A partir de dicha prueba de significancia se busca “tomar una
decisión (sobre H0), manteniendo los riesgos del error, controlados”, al
mismo tiempo que se “aporta evidencia en contra de la hipótesis nula.”
(cobo2007?)
La mecánica de las pruebas de significancia o de hipótesis siguen una
serie de pasos, y estos tienden a variar según cada autor. A
continuación se presentan una serie de 6 pasos, basados en la propuesta
de Salkind (salkind2013?):
Definición de la Hipótesis
nula (\(H_0\)), esta consiste
siempre en una “igualdad” o en la negación del efecto entre variables.
Por ejemplo: \(\mu =
\bar{x}\).
Definición del Nivel de
Significancia (\(\alpha\)) por
el analista, que suele ubicarse en valores estándar de 5% o 1%.
Selección del
estadístico apropiado según la distribución de
probabilidad de la variable analizada. Estos pueden corresponderse
con la distribución de los estadísticos \(z,
t, F, r\) u otro (Recomendación: uso del diagrama elaborado por
Salkind (salkind2013?)).
Cálculo (mediante fórmula) del valor
del estadístico para la muestra (valor obtenido del
p-valor), que consiste en una transformación de la
unidad de medida de la variable original al valor correspondiente
(estandarización de la variable) según el estadístico de
distribución correspondiente y, así, calcular su probabilidad
asociada.
Comparar el valor obtenido del
p-valor asociado a la probabilidad de ocurrencia de H0
en la población frente al Nivel de Significancia (\(\alpha\)) previamente definido por el
analista, y ubicar si el p-value es menor al nivel de
significancia..
Decisión del analista sobre H0, que
corresponde al rechazo o no rechazo de \(H_0\) a partir de la comparación realizada
en el paso 5.
De manera que si: \[ \text{p-value} \geq
\alpha : \text{No rechazo H0}\] \[
\text{p-value} < \alpha: \text{Rechazo H0}\]
4. Prueba de hipótesis para una propoción
La estimación de un parámetro poblacional cuando se analiza una
variable discreta y binomial (dos valores o atributos posibles
solamente), se realiza mediante el estadístico de la proporción a partir
de los datos de la muestra.
En este caso, el programa R cuenta con una función específica para
calcular el estadístico calculado y su p-valor a partir del estadístico
de distribución de probabilidades de Chi-cuadrada (\(\chi^2\)).
4.1. Hipótesis bilateral (dos colas) o “desigual”, donde \(\pi \neq p\)
Los pasos de la prueba de significancia para una proporción se
plantean de la siguiente manera:
- Hipótesis nula: \(\pi = p\);
Hipótesis alternativa: \(\pi \neq p\)
(bidireccional) donde H0: \(\pi =
0.35\), Ha: \(\pi \neq 0.35\)
pues se encontró que la frecuencia relativa de los casos con contagio de
COVID-19 (valor 1 en la codificación de la variable) es de 35.51%.
prop.table(table(datos_covid $ RESULTADO))
##
## 1 2 3
## 0.3551667 0.5031400 0.1416933
Nivel de significancia (\(\alpha\)) = 0.05
Estadístico de prueba para una proporción: chi-cuadrado (\(\chi^2\)).
Cálculo del p-valor, utilizando el comando
prop.test():
prop.test(x = 142690, #cantidad de casos exitosos o donde ocurrió el evento de interés
n = 401755, #tamaño de la muestra
p = 0.35, #proporción que define al valor o hipótesis nula
alternative = "two.sided", #tipo de hipótesis alternativa
conf.level = 0.95, #nivel de confianza
correct = TRUE)
##
## 1-sample proportions test with continuity correction
##
## data: 142690 out of 401755, null probability 0.35
## X-squared = 47.119, df = 1, p-value = 0.00000000000668
## alternative hypothesis: true p is not equal to 0.35
## 95 percent confidence interval:
## 0.3536870 0.3566491
## sample estimates:
## p
## 0.3551667
Aquí se observó que el valor del estadístico de prueba (\(\chi^2\)) calculado u observado es de
47.119 unidades de \(\chi^2\), con 1
grado de libertad, para lo que se obtuvo un p-valor de 0.00000000000668
para la hipótesis nula (p = 0.35).
Comparación del p-valor frente al Nivel
de significancia. Al comparar el valor del
p-valor asociado a la H0 (que es de 0.00000000000668)
con respecto al Nivel de significancia (\(\alpha\)) (que es de 0.05). Con
esto se puede establecer que el p-value es menor
que el Nivel de significancia.
Decisión sobre la hipótesis nula.
- El p-value asociado al valor de la proporción de casos que dieron
positivo en la prueba COVID-19 en la muestra (0.00000000000668) es menor
al nivel de significancia establecido (\(\alpha = 0.05\)), por lo que la
probabilidad de observar a la hipótesis nula en la población es menor al
criterio de decisión.
- A partir de este criterio sí se rechaza la H0 con
los datos observados, por lo que se considera que Ha es la mejor
explicación. O dicho de otra manera, se puede establecer que la
proporción de personas que darían positivo a la prueba COVID-19 en
población es distinta la proporción de personas que dieron positivo en
la prueba COVID-19 en la muestra, con un nivel de confianza del
95%.
4.2. Hipótesis unilateral a la izquierda (una cola) o “menor que”,
donde \(\pi < p\)
Los pasos de la prueba de significancia para una proporción se
plantean de la siguiente manera:
- Hipótesis nula: \(\pi \geq p\);
Hipótesis alternativa: \(\pi < p\)
(unidireccional a la izquierda), donde H0: \(\pi \geq 0.35\), Ha: \(\pi < 0.35\) pues se encontró que la
frecuencia relativa de los casos con contagio de COVID-19 (valor 1 en la
codificación de la variable) es de 35.51%.
prop.table(table(datos_covid $ RESULTADO))
##
## 1 2 3
## 0.3551667 0.5031400 0.1416933
Nivel de significancia (\(\alpha\)) = 0.05
Estadístico de prueba para una proporción: Chi^2 \(\chi^2\)
Cálculo del p-valor, utilizando el comando
prop.test():
prop.test(x = 142690, #cantidad de casos exitosos o donde ocurrió el evento de interés
n = 401755, #tamaño de la muestra
p = 0.35, #proporción que define al valor o hipótesis nula
alternative = "less", #tipo de hipótesis alternativa
conf.level = 0.95, #nivel de confianza
correct = TRUE)
##
## 1-sample proportions test with continuity correction
##
## data: 142690 out of 401755, null probability 0.35
## X-squared = 47.119, df = 1, p-value = 1
## alternative hypothesis: true p is less than 0.35
## 95 percent confidence interval:
## 0.0000000 0.3564108
## sample estimates:
## p
## 0.3551667
Aquí se observó que el valor del estadístico de prueba (\(\chi^2\)) calculado u observado es de
47.119 unidades de \(\chi^2\), con 1
grado de libertad, para lo que se obtuvo un p-valor de 1 para la
hipótesis nula (\(\pi \geq 0.35\)).
Comparación del p-valor frente al Nivel
de significancia. Al comparar el valor del
p-valor asociado a la H0 (que es de 1) con respecto al
Nivel de significancia (alfa) (que es de 0.05), se
puede establecer que el p-value es mayor que
el Nivel de significancia.
Decisión sobre la hipótesis nula.
- El p-value asociado al valor de la proporción de casos que dieron
positivo en la prueba COVID-19 en la muestra (1) es mayor al nivel de
significancia establecido (\(\alpha =
0.05\)), por lo que la probabilidad de observar a la hipótesis
nula en la población es mayar al criterio de decisión.
- A partir de este criterio no se rechaza la H0 con
los datos observados, por lo que se considera que H0 es la mejor
explicación. O dicho de otra manera, se puede establecer que la
proporción de personas que darían positivo a la prueba COVID-19 en
población es mayor o igual a la proporción de personas que dieron
positivo en la prueba COVID-19 en la muestra, con un nivel de confianza
del 95%.
