Guia 2
Guia 2 (Martín Jofre, Sebastian Fuentes)
Bueno, aqui haremos la tabla y los ejercicios practicos
Tabla
library(kableExtra)
tabla <- data.frame(
Nombre = c("Distribución T de Student", "Distribucion Chi cuadrado", "Distribucion Poisson", "Distribucion Normal", "Distribucion discreta binomial"),
Uso = c("Se utiliza para estimar la media de una muestra pequeña de una población con distribución normal, cuando la desviación típica de la población es desconocida", "Se utiliza para comparar una muestra recogida aleatoriamente que contiene una única variable categórica con una población mayor.", "Esta distribución indica la probabilidad de que ocurra un numero de eventos en un tiempo determinado, los eventos son independientes del tiempo desde el ultimo evento ocurrido", "Es una distribución simétrica, donde las medidas de tendencia central coinciden y se describe con 2 parámetros, mu y sigma", "Es una distribución que nos indica la probabilidad, en porcentaje, de obtener un resultado de 2 posibles, en una cantidad n de intentos, la prob no puede ser mayor a 1, ni ser negativa"),
Ejemplo = c("Ej: Tenemos una muestra de tamaño n = 20 elementos, entonces calculamos los grados de libertad como df = n - 1 = 20 - 1 = 19 y escribimos la distribución como T ~ t19", "Un ejemplo podría la misma prueba de chi-cuadrado, que se utiliza para determinar la probabilidad de que los datos categóricos observados se extraigan de una distribución prevista", "Ej: La llegada de un estudiante, luego de la primera clase", "Por ejemplo: se utiliza para control de calidad, ya que hay estándares definidos para esta área", "Ej: Nos sirve para describir el sexo de un bebe, ya que solo hay 2 opciones, femenino o masculino.")
)
# Generar tabla con kable
kable(tabla, format = "html", escape = FALSE) %>%
kable_styling(full_width = F, bootstrap_options = c("striped", "hover"))| Nombre | Uso | Ejemplo |
|---|---|---|
| Distribución T de Student | Se utiliza para estimar la media de una muestra pequeña de una población con distribución normal, cuando la desviación típica de la población es desconocida | Ej: Tenemos una muestra de tamaño n = 20 elementos, entonces calculamos los grados de libertad como df = n - 1 = 20 - 1 = 19 y escribimos la distribución como T ~ t19 |
| Distribucion Chi cuadrado | Se utiliza para comparar una muestra recogida aleatoriamente que contiene una única variable categórica con una población mayor. | Un ejemplo podría la misma prueba de chi-cuadrado, que se utiliza para determinar la probabilidad de que los datos categóricos observados se extraigan de una distribución prevista |
| Distribucion Poisson | Esta distribución indica la probabilidad de que ocurra un numero de eventos en un tiempo determinado, los eventos son independientes del tiempo desde el ultimo evento ocurrido | Ej: La llegada de un estudiante, luego de la primera clase |
| Distribucion Normal | Es una distribución simétrica, donde las medidas de tendencia central coinciden y se describe con 2 parámetros, mu y sigma | Por ejemplo: se utiliza para control de calidad, ya que hay estándares definidos para esta área |
| Distribucion discreta binomial | Es una distribución que nos indica la probabilidad, en porcentaje, de obtener un resultado de 2 posibles, en una cantidad n de intentos, la prob no puede ser mayor a 1, ni ser negativa | Ej: Nos sirve para describir el sexo de un bebe, ya que solo hay 2 opciones, femenino o masculino. |
Resolución Guia
Problema 1
Un equipo de investigación desea evaluar la efectividad de la nueva metodología respecto de la enseñanza del idioma inglés de los y las estudiantes en un curso del Liceo Juan Candelaria. A continuación se presenta el contraste de hipótesis que utilizaron en su investigación:
Ho : La nueva metodología de enseñanza del idioma inglés no tiene efectividad.
H1: La nueva metodología de enseñanza del idioma inglés mejora el puntaje en al menos 70 puntos.
Para probar la hipótesis, el grupo de investigación recopiló datos de 50 estudiantes. La media del puntaje fue de 75 puntos con una desviación estándar de 5 puntos. En cuanto al nivel de significancia, decidieron ocupar una significancia del 10% (o un nivel de confianza del 90%) y realizaron una prueba T.
Evalúe el siguiente contraste de hipótesis que realizó un equipo de investigación.
Desde su perspectiva como futuro/a estadístico/a investigador/a, ¿qué recomendaciones le daría al equipo? Mencione de tres a cinco recomendaciones para que la investigación y la prueba de hipótesis sea más robusta. Puede otorgar recomendaciones en cuánto al tamaño de muestra, escritura de la hipótesis, tipo de prueba utilizada, nivel de confianza asumido, entre otros. Sea crítico y justifique sus respuestas correctamente.
Recomendacion 1
Les recomendaria reformular las hipotesis, puesto que al menos la hipotesis nula, no especifica nada realmente, no compara los puntajes con un estandar ni nada, podrian plantearse asi: la H0 como: “La nueva metodología no incrementa el puntaje en al menos 70 puntos en comparación con el método anterior”, y la H1 como: “La nueva metodología incrementa el puntaje en al menos 70 puntos”.
Recomendación 2
Aumentar el tamaño de muestra, de ser posible, ya que así tendria mayor certeza el estudio, es decir, menor margen de error
Recomendación 3
Podrian utilizar otra prueba, ya que conocemos la desviación estandar de los datos.
Recomendación 4
Cambiar el nivel de significancia nos daria mejor precisión en las medidas, utilizar 5% (95% de confianza), para reducir la prob de tener errores tipo I.
Recomendación 5
Incluir intervalos de confianza, ya que nos permitiria tener una estimación del rango en el que se encuentran los puntajes de los estudiantes.
Ejercicios Practicos
Problema: En una bolsa hay 3 bolas rojas, 2 verdes y 5 azules. Si sacas una bola al azar, ¿cuál es la probabilidad de que sea roja?
Solución
#Bolas por color
rojas = 3
verde = 2
azul = 5
#Total de bolas
total_bolas = rojas + verde + azul
#prob rojas
prob_rojas = rojas / total_bolas
prob_rojas## [1] 0.3
Problema 2
En una baraja de 52 cartas, si ya se ha sacado una carta roja, ¿cuál es la probabilidad de que la siguiente carta que saques, también sea roja?
Solución
Primero, asumimos que la baraja es estandar, es decir, que tiene la misma cantidad de rojas, que de cualquier color que se le asigne a la otra mitad.
# Número inicial de cartas rojas y total de cartas
cartas_totales <- 52
cartas_rojas <- 26
# Después de sacar una carta roja
total_cartas_restantes <- cartas_totales - 1
cartas_rojas_restantes <- cartas_rojas - 1
# Probabilidad de que la siguiente carta sea roja
probabilidad_roja_siguiente <- cartas_rojas_restantes / total_cartas_restantes
probabilidad_roja_siguiente## [1] 0.4901961
Problema 3
La altura de los estudiantes en una escuela sigue una distribución normal con una media de 170 cms y una desviación estándar de 10 cm. ¿Cuál es la probabilidad de que un estudiante tenga una altura entre 160 y 180 cms?
Solución
# Utilizamos los parámetros de la distribución normal
media <- 170
desviacion_estandar <- 10
# Probabilidad de que la altura esté entre 160 y 180 cm
probabilidad <- pnorm(180, mean = media, sd = desviacion_estandar) - pnorm(160, mean = media, sd = desviacion_estandar)
probabilidad## [1] 0.6826895
Problema 4
Dado que las puntuaciones en un examen siguen una distribución normal con una media de 75 y una desviación estándar de 10, encuentra la probabilidad de que un estudiante obtenga una puntuación mayor a 85 en el examen.
Solución
# Parámetros de la distribución normal
media <- 75
desviacion_estandar <- 10
# Probabilidad de que un estudiante obtenga una puntuación mayor a 85
probabilidad_mayor_85 <- 1 - pnorm(85, mean = media, sd = desviacion_estandar)
probabilidad_mayor_85## [1] 0.1586553
Problema 5 (int confianza)
Se cree que el peso de nacimiento promedio de cierta población de es 3.5 gramos. Se tomó una muestra aleatoria de 18 recién nacidos, cuyos pesos fueron los siguientes: 3.30, 3.49, 3.55, 3.50, 3.48, 3.56, 3.58, 3.14, 3.37, 3.15, 3.46, 3.42, 3.43, 3.56, 3.64, 3.47, 3.51, 3.42.
Construya un intervalo de confianza de 95% para la media e interprete su resultado
Indique, sin hacer ningún tipo de cáculos, si un intervalo de confianza de 99% en vez de 95% estaría más cerca de apoyar o rechazar la hipótesis.
Solución
# Datos de los pesos de nacimiento
pesos <- c(3.30, 3.49, 3.55, 3.50, 3.48, 3.56, 3.58, 3.14, 3.37, 3.15,
3.46, 3.42, 3.43, 3.56, 3.64, 3.47, 3.51, 3.42)
# Tamaño de la muestra
n <- length(pesos)
# Media y desviación estándar
media <- mean(pesos)
desviacion_estandar <- sd(pesos)
# Nivel de confianza
nivel_confianza <- 0.95
# Valor crítico de t
error_estandar <- desviacion_estandar / sqrt(n)
t_critico <- qt(1 - (1 - nivel_confianza) / 2, df = n - 1)
# Intervalo de confianza
margen_error <- t_critico * error_estandar
limite_inferior <- media - margen_error
limite_superior <- media + margen_error
# Resultados
cat("Intervalo de confianza del 95% para la media del peso de nacimiento:\n")## Intervalo de confianza del 95% para la media del peso de nacimiento:
## Limite Inferior: 3.37861
## Limite Superior: 3.513613
Respuesta A) El resultado que nos dan estos calculos lo podemos interpretar de tal manera, que, al tomar un recien nacido de la poblacion, un 95% de las veces, tendra un peso entre el limite inferior y el limite superior
Respuesta B) Al tomar una confianza del 99% , estariamos mas cerca de apoyar la hipotesis inicial, de que el recien nacido tenga un peso de 3.5 gramos, ya que los valores del rango serían mas amplios que al 95%, donde podria no estar contemplado el 3.5 planteado.
Problema 6
Supongamos que tienes una muestra de 40 observaciones con una media de 120 y una desviación estándar de 15. Construye un intervalo de confianza del 95% para la media poblacional.
Solución
#parametros
n = 40
media = 120
desviacion_estandar = 15
#confianza
nivel_confianza = 0.95
#error estandar
error_est = desviacion_estandar / sqrt(n)
#valor critico z en 95% de confianza
z_critico = qnorm(1 - (1- nivel_confianza) / 2)
#definimos margen de error
margen_error = z_critico * error_est
#limites
lim_inf = media - margen_error
lim_sup = media + margen_error
#resultados
cat("lim_inf:", lim_inf, "\n")## lim_inf: 115.3515
## lim_sup: 124.6485
Problema 7
La profesora desea saber si el rendimiento en la guía será mejor luego de implementar una nueva estrategia de retroalimentación. En el pasado, el rendimiento promedio de los estudiantes, fue de 70 puntos. Luego de la implementación,se obtuvo la siguiente muestra de calificaciones: 72, 68, 74, 71, 69, 75, 70, 77, 65, 73, 71, 68, 74, 76, 70.
Solución Hipotesis nula: El rendimiento promedio luego de la implementacion, es igual al rendimiento promedio anterior Hipotesis alternativa: El rendimiento promedio luego de la implementacion, es mayor al anterior
#definimos parametros
calificaciones = c(72, 68, 74, 71, 69, 75, 70, 77, 65, 73, 71, 68, 74, 76, 70)
media_muestra_calificaciones = mean(calificaciones)
#tamaño muestra
n = length(calificaciones)
desviacion_estandar= sd(calificaciones)
significancia = 0.05
resultado_t = t.test(calificaciones, mu = 70, alternative = "greater")
valor_p = resultado_t$p.value
# Resultados
cat("Media de la muestra:", media_muestra_calificaciones, "\n")## Media de la muestra: 71.53333
## Desviación estándar: 3.335238
## Valor P: 0.04834387
# Comparar valor P con el nivel de significancia
if (valor_p < significancia) {
cat("Rechazamos la hipótesis nula.\n")
} else {
cat("No rechazamos la hipótesis nula.\n")
}## Rechazamos la hipótesis nula.
Al aplicar este codigo, la media nos muestra el rendimiento promedio de la estrategia nueva, la desviacion estandar nos muestra la variabilidad de las calificaciones, y el valor p, la evidencia en contra de la hipotesis nula. Rechazamos la hipotesis nula, puesto que el valor P, nos dio menor que el valor de significancia asignado, lo que implica, que la estrategia nueva, mejoró el rendimiento de los estudiantes.