Busca y escribe una definición corta (1 a 2 líneas) de los siguientes términos relacionados con la estadística inferencial.
#Población: conjunto del cual se desea tener información mediante inferencia estadística.
#Muestra: Se usa para hacer inferencias sobre la población sin estudiarla completamente.
#Parámetro: Medida numérica que nos describe una característica de la población.
#Estadístico: Medida calculada a partir de una muestra.
#Error de muestreo: Diferencia entre el valor del estadístico muestral y el parámetro poblacional.
#Nivel de significancia (α): Probabilidad de rechazar la hipótesis nula siendo verdadera.
#Distribución muestral: Permite conocer el comportamiento del estadístico bajo repetidas muestras.
#Pruebas de normalidad:
#Shapiro-Wilk: Evalúa si una muestra proviene de una distribución normal.
#Kolmogorov-Smirnov: Compara la distribución de la muestra con una distribución teórica (como la normal).
#Gráfico de dispersión (plot):es una representación gráfica de dos variables cuantitativas y permite visualizar la relación o correlación entre ambas.
#Correlación
#Pearson: Mide la relación lineal entre dos variables continuas y va de -1 a 1, donde 1 es correlación positiva perfecta.
#Spearman: Mide la relación monotónica entre variables usando rangos y no asume normalidad ni linealidad.
#Kendall: Mide la concordancia entre dos variables ordinales.
#Prueba de hipótesis: Procedimiento para decidir si una afirmación sobre un parámetro poblacional es válida.
#Hipótesis Nula (H₀): Afirmación que se pone a prueba y se asume verdadera inicialmente.
#Hipótesis Alterna (H₁): Propuesta que se acepta si se rechaza la hipótesis nula.
#Valor-p: Probabilidad de obtener un resultado tan extremo como el observado, asumiendo que H₀ es verdadera, si es menor que α, se rechaza H₀.
#Intervalo de confianza: Rango de valores dentro del cual se espera que esté el parámetro poblacional con cierta confianza.
#Pruebas para datos paramétricos: Pruebas estadísticas que asumen que los datos siguen una distribución específica (normal generalmente).
#Pruebas para datos no paramétricos: Se usan cuando los datos son ordinales, no siguen una distribución normal, o cuando las muestras son pequeñas.
A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:
Ejercicio: Una institución desea saber si existe relación entre las
horas de estudio semanales y el puntaje obtenido en un examen final por
un grupo de estudiantes. Realizar
• Simular o carga dos vectores llamados horas_usodelcelular y
puntaje_examen, con al menos 40 observaciones cada uno.
horas_usodelcelular <- c(16.3,18.6,21.6 ,17.3 ,19.0 ,15.7 ,20.8 ,18.7 ,16.5 ,21.5 ,18.9 ,14.8, 19.8, 17.3, 18.5, 21.9 ,16.4, 19.5 ,14.6, 19.9,24.9 ,24.1,30.8 ,24.5 ,24.7 ,22.0 ,27.1 ,27.4 ,21.3,28.1 ,25.9 ,22.6 ,25.8 ,28.0 ,23.1 ,29.3 ,20.5 ,27.4 ,25.5 ,21.2)
puntaje_examen <- c(86.8 ,84.4 ,80.8 ,85.9 ,83.7 ,87.9 ,82.2 ,83.8 ,86.1 ,81.6 ,83.8 ,87.7, 82.9, 85.4 ,84.5, 80.9, 86.0 ,83.0 ,87.7 ,82.8, 78.9 ,79.5 ,73.3 ,78.7 ,78.5 ,81.2, 76.6 ,76.3 ,81.6 ,74.5 ,77.3 ,80.2 ,77.4 ,75.4 ,79.5 ,73.8 ,82.3 ,76.4, 77.9 ,81.6)
• Verificar si ambas variables se distribuyen normalmente con shapiro.test().
• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.
datos<-data.frame(horas_usodelcelular,puntaje_examen)
shapiro.test(horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.97147, p-value = 0.4002
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.9733, p-value = 0.4549
cor.test(horas_usodelcelular,puntaje_examen, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: horas_usodelcelular and puntaje_examen
## t = -70.195, df = 38, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9979855 -0.9927094
## sample estimates:
## cor
## -0.9961661
•Interpretación:
1.¿Existe una relación significativa entre horas de estudio y puntaje?
Si existe una correlación de -9961661, lo que nos dice que existe una correlación negativa fuerte.
2.¿La relación es positiva o negativa?
La relación es negativa
Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:
• Plantea las hipótesis nula y alterna:
H_0: No existe correlación entre horas_usodelcelular y puntaje_examen p=0
H_A: Existe correlación entre horas_usodelcelular y puntaje_examen p es diferente de 0
• Verifica la normalidad de los datos:
library(ggplot2)
plot( horas_usodelcelular,
col="green",main="horas_usodelcelular",
xlab="Horas uso del celular")
plot( puntaje_examen,
col="red",main="Puntajes Examen",
xlab="Puntajes")
La
normalidad de los datos se verifico en el ejercicio 2 y aqui tenemos dos
graficas donde vizualisamos mejor la normalidad de los datos
• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).
• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.
notas<- c(1.7 ,2.3 ,4.6, 3.3 ,4.9 ,1.9 ,3.8, 2.6, 4.2 ,3.5 ,1.4, 4.1, 2.9, 3.1 ,4.7,2.2 ,1.2, 4.4 ,3.9 ,2.8 ,1.6 ,4.8 ,3.0 ,2.5, 4.0, 1.8, 3.7 ,2.1 ,4.3 ,1.5)
shapiro.test(notas)
##
## Shapiro-Wilk normality test
##
## data: notas
## W = 0.94549, p-value = 0.1279
Los datos de el conjunto de notas si siguen una distribución normal por lo que p > 0.05