Ejercicio 1

Busca y escribe una definición corta (1 a 2 líneas) de los siguientes términos relacionados con la estadística inferencial.

#Población: conjunto del cual se desea tener información mediante inferencia estadística. 
#Muestra: Se usa para hacer inferencias sobre la población sin estudiarla completamente. 
#Parámetro: Medida numérica que nos describe una característica de la población.
#Estadístico: Medida calculada a partir de una muestra.
#Error de muestreo: Diferencia entre el valor del estadístico muestral y el parámetro poblacional.

#Nivel de significancia (α): Probabilidad de rechazar la hipótesis nula siendo verdadera.

#Distribución muestral: Permite conocer el comportamiento del estadístico bajo repetidas muestras.

#Pruebas de normalidad:

#Shapiro-Wilk: Evalúa si una muestra proviene de una distribución normal.

#Kolmogorov-Smirnov: Compara la distribución de la muestra con una distribución teórica (como la normal).

#Gráfico de dispersión (plot):es una representación gráfica de dos variables cuantitativas y permite visualizar la relación o correlación entre ambas.

#Correlación
#Pearson: Mide la relación lineal entre dos variables continuas y va de -1 a 1, donde 1 es correlación positiva perfecta.

#Spearman: Mide la relación monotónica entre variables usando rangos y no asume normalidad ni linealidad.

#Kendall: Mide la concordancia entre dos variables ordinales.

#Prueba de hipótesis: Procedimiento para decidir si una afirmación sobre un parámetro poblacional es válida.

#Hipótesis Nula (H₀): Afirmación que se pone a prueba y se asume verdadera inicialmente.

#Hipótesis Alterna (H₁): Propuesta que se acepta si se rechaza la hipótesis nula.

#Valor-p: Probabilidad de obtener un resultado tan extremo como el observado, asumiendo que H₀ es verdadera, si es menor que α, se rechaza H₀.

#Intervalo de confianza: Rango de valores dentro del cual se espera que esté el parámetro poblacional con cierta confianza.

#Pruebas para datos paramétricos: Pruebas estadísticas que asumen que los datos siguen una distribución específica (normal generalmente).

#Pruebas para datos no paramétricos: Se usan cuando los datos son ordinales, no siguen una distribución normal, o cuando las muestras son pequeñas.

Ejercicio 2

A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:

Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar

• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.

horas_usodelcelular <- c(16.3,18.6,21.6 ,17.3 ,19.0 ,15.7 ,20.8 ,18.7 ,16.5 ,21.5 ,18.9 ,14.8, 19.8, 17.3, 18.5, 21.9 ,16.4, 19.5 ,14.6, 19.9,24.9 ,24.1,30.8 ,24.5 ,24.7 ,22.0 ,27.1 ,27.4 ,21.3,28.1 ,25.9 ,22.6 ,25.8 ,28.0 ,23.1 ,29.3 ,20.5 ,27.4 ,25.5 ,21.2)

puntaje_examen <- c(86.8 ,84.4 ,80.8 ,85.9 ,83.7 ,87.9 ,82.2 ,83.8 ,86.1 ,81.6 ,83.8 ,87.7, 82.9, 85.4 ,84.5, 80.9, 86.0 ,83.0 ,87.7 ,82.8, 78.9 ,79.5 ,73.3 ,78.7 ,78.5 ,81.2, 76.6 ,76.3 ,81.6 ,74.5 ,77.3 ,80.2 ,77.4 ,75.4 ,79.5 ,73.8 ,82.3 ,76.4, 77.9 ,81.6)

• Verificar si ambas variables se distribuyen normalmente con shapiro.test().

• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.

datos<-data.frame(horas_usodelcelular,puntaje_examen)

shapiro.test(horas_usodelcelular)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.97147, p-value = 0.4002
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.9733, p-value = 0.4549
cor.test(horas_usodelcelular,puntaje_examen, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  horas_usodelcelular and puntaje_examen
## t = -70.195, df = 38, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9979855 -0.9927094
## sample estimates:
##        cor 
## -0.9961661

•Interpretación:

1.¿Existe una relación significativa entre horas de estudio y puntaje?

Si existe una correlación de -9961661, lo que nos dice que existe una correlación negativa fuerte.

2.¿La relación es positiva o negativa?

La relación es negativa

Ejercicio 3

Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:

• Plantea las hipótesis nula y alterna:

H_0: No existe correlación entre horas_usodelcelular y puntaje_examen p=0

H_A: Existe correlación entre horas_usodelcelular y puntaje_examen p es diferente de 0

• Verifica la normalidad de los datos:

library(ggplot2)

plot( horas_usodelcelular,
     col="green",main="horas_usodelcelular",
     xlab="Horas uso del celular")

plot( puntaje_examen,
     col="red",main="Puntajes Examen",
     xlab="Puntajes")

La normalidad se verifico en el ejercicio 2 y aqui tenemos dos graficas donde vizualisamos mejor la normalidad de los datos

• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).

• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.

notas<- c(1.7 ,2.3 ,4.6, 3.3 ,4.9 ,1.9 ,3.8, 2.6, 4.2 ,3.5 ,1.4, 4.1, 2.9, 3.1 ,4.7,2.2 ,1.2, 4.4 ,3.9 ,2.8 ,1.6 ,4.8 ,3.0 ,2.5, 4.0, 1.8, 3.7 ,2.1 ,4.3 ,1.5)

shapiro.test(notas)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas
## W = 0.94549, p-value = 0.1279

Los datos de el conjunto de notas si siguen una distribución normal por lo que p > 0.05