0.1 Objetivos:

  • Identificar conceptos clave de la estadística inferencial.
  • Aplicar funciones básicas del software R en el análisis estadístico.
  • Interpretar resultados obtenidos a partir de análisis inferenciales en R.

1 Taller: Estadística inferencial con R

1.1 Ejercicio:

  • Busca y escribe una definición corta (1 a 2 líneas) de los siguientes términos relacionados con la estadística inferencial.

Población:Conjunto completo de individuos, objetos o eventos que se quieren estudiar.

Muestra: Es un grupo o un subconjunto de una población seleccionado para estudiar.

Parámetro: Es un valor caracteristico de una población.

Estadístico: Es un valor calculado de la muestra.

Error de muestreo: Es la diferencia entre el valor estadistico y el valor real.

Nivel de significancia (α): Es la probabilidad maxima de cometer un error al rechazar una hipotesis nula siendo cierta.

Distribiución muestral: Distribución de un estadístico calculado de muchas muestras de una población.

Pruebas de normalidad: Es para determinar si un conjunto de datos proviene de una distribución normal.

Shapiro-Wilk: Es un evaluador de un conjutno de datos que sigue una distribución normal.

Kolmogorov-Smirnov:Es un evaluador mas general no paramétrico que compara la distribución acumulada de una muestra con la distribución acumulada esperada.

Gráfico de dispersión (plot): Es un grafíco donde se observa la relación de dos variables.

Correlación; Medida estadistica que describe la relacion entre dos o mas variables.

Pearson: Mide la fuerza de la relación lineal entre dos variables continuas.

Spearman: Mide la fuerza de la relación monótona entre dos variables, ya sean continuas u ordinales.

Kendall: Mide la fuerza de la relación de ordenamiento entre dos variables, ya sean continuas u ordinales.

Prueba de hipótesis: Es un procedimiento utilizado para determijnar si una afirmación sobre un parametro poblacional es valido usando datos de muestra.

Hipótesis nula: Es una suposición afirmativa que se pone a prueba.

Hipótesis alterna: Es una suposición afirmativa que se acepta si hay pruebas en contra de la hipótesis nula.

Valor-p: Es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el observado, suponiendo que la hipótesis nula es cierta.

Intervalo de cofianza: Es un rango de valores en el cual se encuentran contenido el valor verdadero de un parametro.

Purebas para datos paramétricos: Son pruebas estadisticas que se usan cuando los datos siguen cierta regla (como la de la campana).

Prueba para datos no paramétricos: Son pruebas estadisticas que se usan cuando los datos no siguen ciertas reglas.

1.2 Ejercicio:

  • A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:

1.2.1 Ejercicio:

Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar

• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.

horas_usodelcelular <- sample(1:10, size = 40, replace = TRUE)
puntaje_examen <- sample(1.0:5.0, size = 40, replace = TRUE)

• Verificar si ambas variables se distribuyen normalmente con shapiro.test().

shapiro.test(horas_usodelcelular)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.92852, p-value = 0.01441
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.85337, p-value = 0.0001087

Como en ambos p-valores son menores a 0.05, por lo tanto en ambos casos se rechaza la hipotesis nula de normalidad.

• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.

cor.test(horas_usodelcelular, puntaje_examen,, method = "spearman")
## Warning in cor.test.default(horas_usodelcelular, puntaje_examen, , method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  horas_usodelcelular and puntaje_examen
## S = 12711, p-value = 0.2342
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## -0.192435

• Interpretar:

o ¿Existe una relación significativa entre horas de estudio y puntaje?

R: Sí, los resultados del análisis estadístico indican que existe una relación significativa entre el tiempo que los estudiantes dedican al uso del celular y el puntaje que obtienen en el examen. Esta conclusión se respalda en el valor p obtenido, el cual es inferior al nivel de significancia del 5%. Esto implica que la asociación observada entre ambas variables no esta al azar, y por tanto puede considerarse estadísticamente relevante.

o ¿La relación es positiva o negativa?

R: La relación observada entre estas dos variables es de carácter negativo. Es decir, a medida que aumentan las horas destinadas al uso del celular, tiende a disminuir el puntaje obtenido en el examen.

1.3 Ejercicio:

Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:

• Plantea las hipótesis nula y alterna:

Hipótesis nula (H₀): No existe relación significativa entre las horas de uso del celular y el puntaje del examen.

Hipótesis alterna (H₁): Existe una relación significativa entre las horas de uso del celular y el puntaje del examen.

• Verifica la normalidad de los datos:

shapiro.test(horas_usodelcelular)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.92852, p-value = 0.01441
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.85337, p-value = 0.0001087

• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).

notas <- sample(10:100, 30, replace = TRUE)

• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.

shapiro.test(notas)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas
## W = 0.93476, p-value = 0.06576