¡Bienvenidos a esta clase de Estadística Inferencial! Hoy daremos el primer paso hacia la comprensión de una herramienta fundamental en la toma de decisiones basada en datos.

Se dice que el que tiene toda la información puede preveer algunas problemáticas y tomar mejores decisiones de vida, pero el poder recolectar la información en su totalidad presenta problemas de costos y tiempo, por eso se puede llegar a la siguiente cuestion: ¿Qué harías si no puedes recopilar datos de cada individuo en esa población? Aquí es donde entra en juego la estadística inferencial.

Mientras que la estadística descriptiva nos ayuda a resumir y organizar datos, la estadística inferencial va un paso más allá. Nos permite tomar una muestra pequeña, analizarla y, a partir de esa muestra, sacar conclusiones sobre la población completa. Es como mirar una pieza de un rompecabezas y predecir cómo será la imagen completa.

I. MUESTRAS Y MUESTREO

  • UNIVERSO: Mujeres víctimas de acoso sexual laboral

  • POBLACION: Mujeres víctimas de acoso sexual laboral en la ciudad de Santa Cruz

  • MUESTRA: Mujeres víctimas de acoso sexual laboral en la ciudad de Santa Cruz en empresas públicas

1.1 Metodos de muestreo

Un aspecto a considerar en la recoleccion de informacion se basa en los métodos de muestreo, mismas que pueden venir de una poblacion finita o infinita. De tal manera, aqui es donde nos basamos en los dos tipos de muestreo: Aleatorio probabilistico y No Aleatorio No Probabilistico.

Tipos de muestreo en Estadística
Probabilistico No_Probabilistico
Simple Conveniencia
Sistemático Cuotas
Estratificado Intencional
Conglomerados Bola de Nieve
Razón
Diferencias
Regresión
Bietapico o por etapas

1.2 Diferencia entre parametro y estimador estadistico

Un parámetro poblacional es un valor fijo que describe una característica de toda la población, como la media o proporción, pero generalmente es desconocido porque no se puede medir a toda la población. En cambio, un estimador muestral estadístico es un valor calculado a partir de una muestra que se utiliza para aproximar el parámetro poblacional. Mientras el parámetro es constante, el estimador es una variable aleatoria que depende de la muestra seleccionada y puede variar entre muestras.

II. EL CONTRASTE DE HIPOTESIS

Proceso por el que tomamos una decisión se basa en los resultados obtenidos de los estadisticos.

En base a esto, la decisión es: Aceptar o rechazar la hipótesis teórica que se formula (antes de recoger una evidencia empírica).

Para ello es necesario: Contrastar la teoría (hipótesis teórica) con la realidad (evidencias empíricas).

2.1 Tipo de hipotesis

  • Hipotesis Teorica

Existen diferencias estadísticamente significativas en el nivel de ansiedad de los alumnos de primer curso frente a los alumnos de último curso

  • Hipotesis Estadistica

Hipótesis nula: No existen diferencias en el nivel de ansiedad en función del curso.

Hipótesis alternativa: Existen diferencias en el nivel de ansiedad en función del curso

2.2 Hipotesis estadisticas

La hipótesis nula (H0) señala que NO existe una diferencia estadísticamente significativa entre parámetro y estadístico. Entre comparación de los datos empíricos y lo teórico.

La hipótesis alternativa (H1) señala que SÍ existen diferencias entre aquellas cosas que comparo, relaciono o asocio. Por tanto, es extrapolable lo que ocurre con los datos empíricos y lo teórico.

Cada vez que hagamos un contraste de hipótesis tendremos que comparar dos valores:

  • Significatividad de la prueba o valor P

Este valor se calcula con la prueba de contraste estadístico correspondiente. Este valor CAMBIA en función de los datos y de la prueba.

  • Significatividad teórica o valor Alpha

Este valor NO se calcula con la prueba. Es un valor teórico e inamovible. Este valor NO cambia. Siempre toma dos valores: 0.05 y 0.01.

Todas las variables que puedas imaginar se distribuyen según la curva normal.

Cuando el valor de P es MAYOR que el de ALPHA: Se acepta H0

Cuando el valor de P es MENOR que el de ALPHA: Se acepta H1

Alpha toma los siguientes valores: 0.05 o 0.01 o 0.001

III. TIPOS DE PRUEBAS DE CONTRASTE DE HIPÓTESIS

Para determinar si ACEPTAMOS o RECHAZAMOS la HIPÓTESIS NULA, y así poder tomar decisiones respecto de la HIPÓTESIS TEÓRICA planteada en la investigación, necesitamos realizar PRUEBAS DE CONTRASTE.

Estas podrán ser:

  • Pruebas PARAMÉTRICAS
  • Pruebas NO PARAMÉTRICAS

3.1 Definiciones: Prueba Paramétrica y Prueba NO paramétrica

Existen distintos tipos de pruebas en función del objetivo que se tenga

IV. SUPUESTOS.

Los supuestos nos permiten determinar qué pruebas son las más adecuadas para el tipo de datos que tenemos. Existen dos supuestos fundamentales en las pruebas que vamos a estudiar:

  • Normalidad: Se comprueba con pruebas de bondad de ajuste

  • Homocedasticidad: Se comprueba con pruebas de igualdad de varianzas

4.1 Pruebas de Bondad de Ajuste (Normalidad)

Estas pruebas permiten comprobar si las puntuaciones de los sujetos se distribuyen atendiendo a la NORMALIDAD.

Primer supuesto necesario para determinar el uso de pruebas paramétricas o el uso de pruebas NO paramétricas.

KOLMOGOROV-SMIRNOV

La prueba de Kolmogorov-Smirnov compara la función de distribución empírica \(F_n(x)\) con una función de distribución teórica \(F(x)\).

El estadístico \(D\) se calcula como:

\[ D = \sup_x \left| F_n(x) - F(x) \right| \]

donde:

  • \(F_n(x)\): La función de distribución acumulativa empírica.

  • \(F(x)\): La función de distribución acumulativa teórica.

  • \(\sup_x\): El máximo de las diferencias absolutas entre \(F_n(x)\) y \(F(x)\).

# Generar datos de ejemplo
set.seed(123)
datos <- rnorm(100, mean = 50, sd = 10)

# Realizar el test de Kolmogorov-Smirnov
ks_test <- ks.test(datos, "pnorm", mean = mean(datos), sd = sd(datos))

# Resultado del test
ks_test
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  datos
## D = 0.058097, p-value = 0.8884
## alternative hypothesis: two-sided
# Histograma
hist(datos, probability = TRUE, col = "#27FB6B", main = "Histograma con curva normal")
curve(dnorm(x, mean = mean(datos), sd = sd(datos)), add = TRUE, col = "#D65108", lwd=2)

SHAPIRO WILKS

Es una de las pruebas más comunes para evaluar la normalidad de un conjunto de datos. Es especialmente confiable para tamaños de muestra pequeños o moderados (hasta aproximadamente 50 observaciones). Su propósito es determinar si una muestra proviene de una población con distribución normal.

El estadístico \(W\) se calcula como:

\[ W = \frac{\left( \sum_{i=1}^n a_i x_{(i)} \right)^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \]

donde:

  • \(x_{(i)}\): Los valores ordenados de la muestra.

  • \(\bar{x}\): La media de la muestra.

  • \(a_i\): Pesos basados en la matriz de covarianza bajo la hipótesis de normalidad.

# Realizar el test de Shapiro-Wilk
shapiro.test(datos)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos
## W = 0.99388, p-value = 0.9349

El resultado del test incluirá:

  • W: El estadístico del test.
  • p-value: El valor 𝑝 asociado.

Si 𝑝<0.05, se rechaza la hipótesis nula y se concluye que los datos no siguen una distribución normal.

Analizando los resultados del programa estadistico SPSS se obtiene los siguientes resultados:

Se evidencia que no se rechaza la H0, por lo tanto, existe normalidad en la variable.

Se evidencia que se rechaza la H0, por lo tanto, no existe normalidad en la variable.

4.2 Supuesto de homocedasticidad

IMPORTANTE: Solo se comprueba cuando en la variable independiente hay más de dos grupos.

Otro tipo de estadísticos que acompañan a los valores de significatividad (valor P). Los encontramos preferentemente en pruebas más avanzadas.

V. OTROS ESTADÍSTICOS RELEVANTES

Existen otro tipo de estadísticos que acompañan a los valores de significatividad (valor P).

Estos son:

  • Tamaño del efecto
  • Potencia observada

5.1 Tamaño del efecto y potencia observada

  • El tamaño del efecto nos permite valorar la magnitud del efecto cuando es significativo.

  • La potencia observada nos permite valorar la probabilidad de acierto cuando se acepta una hipótesis alternativa.

VI. ERRORES ESTADÍSTICOS