Población:Conjunto completo de individuos, objetos o eventos que se quieren estudiar.
Muestra: Es un grupo o un subconjunto de una población seleccionado para estudiar.
Parámetro: Es un valor caracteristico de una población.
Estadístico: Es un valor calculado de la muestra.
Error de muestreo: Es la diferencia entre el valor estadistico y el valor real.
Nivel de significancia (α): Es la probabilidad maxima de cometer un error al rechazar una hipotesis nula siendo cierta.
Distribiución muestral: Distribución de un estadístico calculado de muchas muestras de una población.
Pruebas de normalidad: Es para determinar si un conjunto de datos proviene de una distribución normal.
Shapiro-Wilk: Es un evaluador de un conjutno de datos que sigue una distribución normal.
Kolmogorov-Smirnov:Es un evaluador mas general no paramétrico que compara la distribución acumulada de una muestra con la distribución acumulada esperada.
Gráfico de dispersión (plot): Es un grafíco donde se observa la relación de dos variables.
Correlación; Medida estadistica que describe la relacion entre dos o mas variables.
Pearson: Mide la fuerza de la relación lineal entre dos variables continuas.
Spearman: Mide la fuerza de la relación monótona entre dos variables, ya sean continuas u ordinales.
Kendall: Mide la fuerza de la relación de ordenamiento entre dos variables, ya sean continuas u ordinales.
Prueba de hipótesis: Es un procedimiento utilizado para determijnar si una afirmación sobre un parametro poblacional es valido usando datos de muestra.
Hipótesis nula: Es una suposición afirmativa que se pone a prueba.
Hipótesis alterna: Es una suposición afirmativa que se acepta si hay pruebas en contra de la hipótesis nula.
Valor-p: Es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el observado, suponiendo que la hipótesis nula es cierta.
Intervalo de cofianza: Es un rango de valores en el cual se encuentran contenido el valor verdadero de un parametro.
Purebas para datos paramétricos: Son pruebas estadisticas que se usan cuando los datos siguen cierta regla (como la de la campana).
Prueba para datos no paramétricos: Son pruebas estadisticas que se usan cuando los datos no siguen ciertas reglas.
Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar
• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.
horas_usodelcelular <- sample(1:10, size = 40, replace = TRUE)
puntaje_examen <- sample(1.0:5.0, size = 40, replace = TRUE)
• Verificar si ambas variables se distribuyen normalmente con shapiro.test().
shapiro.test(horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.92852, p-value = 0.01441
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.85337, p-value = 0.0001087
Como en ambos p-valores son menores a 0.05, por lo tanto en ambos casos se rechaza la hipotesis nula de normalidad.
• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.
cor.test(horas_usodelcelular, puntaje_examen,, method = "spearman")
## Warning in cor.test.default(horas_usodelcelular, puntaje_examen, , method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: horas_usodelcelular and puntaje_examen
## S = 12711, p-value = 0.2342
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.192435
• Interpretar:
o ¿Existe una relación significativa entre horas de estudio y puntaje?
R: Sí, los resultados del análisis estadístico indican que existe una relación significativa entre el tiempo que los estudiantes dedican al uso del celular y el puntaje que obtienen en el examen. Esta conclusión se respalda en el valor p obtenido, el cual es inferior al nivel de significancia del 5%. Esto implica que la asociación observada entre ambas variables no esta al azar, y por tanto puede considerarse estadísticamente relevante.
o ¿La relación es positiva o negativa?
R: La relación observada entre estas dos variables es de carácter negativo. Es decir, a medida que aumentan las horas destinadas al uso del celular, tiende a disminuir el puntaje obtenido en el examen.
Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:
• Plantea las hipótesis nula y alterna:
Hipótesis nula (H₀): No existe relación significativa entre las horas de uso del celular y el puntaje del examen.
Hipótesis alterna (H₁): Existe una relación significativa entre las horas de uso del celular y el puntaje del examen.
• Verifica la normalidad de los datos:
shapiro.test(horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.92852, p-value = 0.01441
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.85337, p-value = 0.0001087
• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).
notas <- sample(10:100, 30, replace = TRUE)
• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.
shapiro.test(notas)
##
## Shapiro-Wilk normality test
##
## data: notas
## W = 0.93476, p-value = 0.06576