Busca y escribe una definición corta (1 a 2 líneas) de los siguientes términos relacionados con la estadística inferencial.

#Poblacion

Muestra: un subconjunto de la población

Parámetro: Valor numérico que describe una característica de una población.

Estadístico: cualquier valor calculado a partir de una muestra.

Error de muestreo: es la diferencia entre los valores del estadístico muestral y la poblacion total del estudio.

Nivel de significancia (α):

es la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando esta es verdadera

Distribución muestral:

La distribución muestral es la distribución de un estadístico calculado a partir de muchas muestras aleatorias extraídas de una misma población

#Pruebas de normalidad

Shapiro-Wilk: Evalúa si una muestra tiene una distribución normal o no

Kolmogorov-Smirnov: se utiliza para decidir si una muestra proviene de una población con una distribución específica como la normal.

Gráfico de dispersión (plot)

Gráfico que muestra la relación entre dos variables cuantitativas mediante puntos.

#Correlación

Pearson: indica si dos variables cuantitativas poseen correlacion, se utiliza cuando los datos se distribuyen de forma normal

spearman: evalua la correlacion entre dos variables, estas no necesariamente deben tener una distribucion normal

Kendall: mide la correlacion entre dos variables ordinales

#Prueba de hipótesis:

Prueba de hipótesis: Procedimiento estadístico para decidir si se acepta o rechaza una suposición sobre una población.

Hipótesis Nula (H₀): Afirmación que se somete a prueba, usualmente que no hay efecto o diferencia.

Hipótesis alterna (H₁): Contraparte de H₀, plantea que sí hay un efecto o diferencia.

Valor-p: Probabilidad de obtener resultados iguales o más extremos que los observados, si H₀ es verdadera.

Intervalo de confianza: Rango de valores donde probablemente se encuentra el parámetro poblacional, con un nivel de confianza dado (ej. 95%)

#Pruebas para datos paramétricos: Pruebas que asumen que los datos siguen una distribución específica, generalmente normal

#Prueba para datos no paramétricos: Pruebas que no requieren supuestos sobre la distribución de los datos

2. A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:

#Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes.Realizar

Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.

horas_estudio <- c(9.56, 7.07, 9.36, 11.29, 6.67, 6.79, 7.43, 7.91, 7.44, 7.2,
                   10.29, 8.91, 9.32, 7.03, 7.59, 5.91, 8.71, 7.07, 6.83, 5.42,
                   7.53, 9.12, 6.92, 9.73, 8.53, 9.68, 7.24, 7.77, 7.59, 6.88,
                   10.82, 6.53, 6.96, 8.33, 7.91, 6.9, 9.15, 6.4, 8.91, 10.52)

puntaje_examen <- c(76.21, 73.64, 85.39, 71.85, 73.84, 66.2, 76.31, 75.35, 69.48, 74.28,
                    68.91, 77.18, 72.78, 82.35, 73.61, 64.77, 81.69, 75.94, 80.24, 67.63,
                    70.65, 80.6, 69.76, 82.86, 76.86, 82.71, 64.61, 75.41, 78.34, 67.82,
                    74.89, 79.46, 75.9, 72.82, 71.86, 79.38, 64.6, 70.1, 74.71, 70.12)

• Verificar si ambas variables se distribuyen normalmente con shapiro.test().

shapiro.test(horas_estudio)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_estudio
## W = 0.95364, p-value = 0.1012
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.98002, p-value = 0.6904
#ambas variables se distribuyen normalmente al ser su p-value > 0.05

• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.

cor.test(horas_estudio, puntaje_examen, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  horas_estudio and puntaje_examen
## t = 1.4057, df = 38, p-value = 0.1679
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09581791  0.49925959
## sample estimates:
##       cor 
## 0.2223275
plot(horas_estudio, puntaje_examen)

• Interpretar: o ¿Existe una relación significativa entre horas de estudio y puntaje?

la correlacion es de 0.2223275 lo que significa que existe una correlacion muy debil, por lo que no existe evidencia estadistica suficiente para afirmar que estas dos variables poseen correlacion.

o ¿La relación es positiva o negativa?

La relacion es positiva lo que significa que de haber tendrian una relacion directamente proporcional

3. Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:

• Plantea las hipótesis nula y alterna: con respecto al ejercicio anterior las hipotesis serian las siguientes: Ho: las variables no poseen correlacion (p-value=0) H1: las variables si poseen correlacion (p-value≠0)

• Verifica la normalidad de los datos:

shapiro.test(horas_estudio)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_estudio
## W = 0.95364, p-value = 0.1012
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.98002, p-value = 0.6904
#ambas variables se distribullen de forma normal ya que su p-value >0.05

hist(horas_estudio, probability = TRUE, col = "lightblue", main = "Campana de Gauss horas de estudio",
     xlab = "Valor", ylab = "Densidad")

curve(dnorm(x, mean = mean(horas_estudio), sd = sd(horas_estudio)), 
      col = "red", lwd = 2, add = TRUE)

hist(puntaje_examen, probability = TRUE, col = "lightblue", main = "Campana de Gauss puntaje examen",
     xlab = "Valor", ylab = "Densidad")

curve(dnorm(x, mean = mean(puntaje_examen), sd = sd(puntaje_examen)), 
      col = "red", lwd = 2, add = TRUE)

• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).

notas <- c(58.2, 65.4, 71.8, 69.3, 60.7, 72.5, 75.6, 66.0, 62.3, 68.1,
                  73.9, 64.7, 70.2, 59.8, 78.5, 61.4, 67.9, 69.0, 74.3, 60.9,
                  63.5, 65.8, 62.6, 76.1, 66.3, 68.9, 71.2, 64.1, 67.0, 69.7)

• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.

shapiro.test(notas)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas
## W = 0.9829, p-value = 0.8963
#si siguen una distribucion normal ya que p-value >0.05
hist(notas, probability = TRUE, col = "lightblue", main = "Campana de Gauss puntaje examen",
     xlab = "Valor", ylab = "Densidad")

curve(dnorm(x, mean = mean(notas), sd = sd(notas)), 
      col = "red", lwd = 2, add = TRUE)