1. Instrucciones

Este documento contiene las instrucciones y enunciados asociados a la Prueba Especial Programada 1 (PEP1) del curso de Estadística Computacional modalidad diurna. Con respecto a ello:

  • La prueba tiene un total de 60 puntos, lo que sumado al puntaje base permitirá calcular directamente su nota final sumando un máximo de 70 puntos.
  • Se dispone de todo el bloque de clases para realizar la evaluación. Esta deberá ser desarrollada en R.
  • Las respuestas escritas empleando RMarkdown deberán ser enviadas al profesor por correo electrónico al finalizar el tiempo de evaluación.
  • Puede usar apuntes y material disponible en Moodle como apoyo.
  • Cualquier sospecha de falta ética será castigada directamente con nota 1.0 en la evaluación.
  • En cada caso, no responda sólo numéricamente, sino que contextualice su respuesta para el problema. Esto puede ser al final de cada pregunta.

2. Preguntas

Pregunta 1 - (20 puntos)

Un grupo de investigadores ha estudiado los goles de la Liga Española en los torneos realizados entre los años 2000 al 2013, considerando diferentes tipos de distribuciones (Sánchez-Flores et al. 2016). Los autores indicaron que en promedio se hacen 2.689 goles por partido. Con base en esta información:

Preguntas

  1. ¿Cuál es la probabilidad de que, después de los primeros 45 minutos del primer juego, las porterías sigan invictas? Justifique la elección de la distribución utilizada.
  2. ¿Cuál es la probabilidad de que, al finalizar los primeros tres partidos, se hayan realizado más de 5 goles en total?
  3. Grafique la distribución asociada y brinde contexto a su respuesta para el problema.

Respuestas

Parte A

A pesar de que los investigadores del artículo original utilizaron diferentes distribuciones, como la Binomial, Binomial Negativa y Poisson, en este caso utilizaré la distribución de Poisson. Para calcular la probabilidad de que se no marquen goles luego de los primeros 45 minutos, primero debemos calcular el parámetro (\(\lambda\)) y luego utilizar la función ppois() para calcular la probabilidad acumulada. El proceso es el siguiente:

# Cálculo de lambdas
lambda_partido = 2.689                 # Lambda partido
lambda_medio_tiempo = lambda_partido/2 # Lambda medio tiempo

# Cálculo de probabilidad de cero goles en un partido
probabilidad = ppois(0,lambda_medio_tiempo)          # También puede ser usado dpois(0,lambda)

Por lo tanto, la probabilidad de que no hayan goles en el primer tiempo usando una Distribución de Poisson es 0.261.

Quizás alguien podría también haber considerado que después de los 45 minutos implica todo el segundo tiempo. En este caso, la probabilidad cubriría todo el partido.

# Cálculo de lambdas
lambda_partido = 2.689                 # Lambda partido

# Cálculo de probabilidad de cero goles en un partido
probabilidad = ppois(0,lambda_partido) 

Por lo tanto, la probabilidad de que no hayan goles en el primer partido usando una Distribución de Poisson es 0.068. Esto también lo consideré correcto, a pesar de que no es la respuesta correspondiente.

Parte B

La probabilidad de que al finalizar los primeros tres partidos, se hayan realizado más de 5 goles en total también se puede asumiendo una Distribución de Poisson. Esto es:

# Cálculo de lambdas
lambda_partido = 2.689                  # Lambda partido
lambda_tres_partidos = lambda_partido*3 # Lambda tres partidos

# Cálculo de probabilidad de que haya más de 5 goles al finalizar los 3 partidos es
probabilidad = 1 - ppois(5,lambda_tres_partidos)

Por lo tanto, la probabilidad de que haya más de 5 goles luego al finalizar el tercer partido usando una Distribución de Poisson es 0.815.

Parte C

Es posible calcular la probabilidad de goles luego de un partido usando combinando las funciones de la biblioteca ggplot(), plotly() con la función dpois().

# Cálculo de lambda
lambda_partido = 2.689                  # Lambda partido

# Goles en un partido
goles = seq(0,10)

# Distribución
distribucion = round(dpois(goles,lambda_partido),3)

#Datos
datos = data.frame(goles,distribucion)

#Gráfico
library("ggplot2",warn.conflicts = F,verbose = F)
library("plotly",warn.conflicts = F,verbose = F)

grafico = ggplot(data=datos,aes(x=goles,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="#00A499",alpha=0.8)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades")
grafico = grafico + xlab("Goles en un partido de la Liga española") + ylab("Probabilidad") + 
  scale_x_continuous(breaks=seq(0.0, 10, 1))

ggplotly(grafico)

Pregunta 2 - (20 puntos)

Según datos del DEMRE, la antigua Prueba de Selección Universitaria (PSU) tenía una escala que iba de 150 a 850 puntos, siguiendo una distribución normal con promedio de 500 puntos y desviación estándar de 110. Por otro lado, la prueba PAES va de 100 a 1000 puntos y también sigue una distribución normal con media de 640 y desviación estándar de 140 puntos.

Preguntas

  1. Considerando el puntaje que usted obtuvo en la prueba de Matemáticas correspondiente, ¿qué porcentaje de las personas que rindieron esta prueba obtuvo un puntaje superior al suyo?
  2. Si el puntaje de corte para la carrera de Ingeniería Civil Informática en la Universidad de Santiago (USACH) en el año 2023 fue de 647 (PSU), ¿qué porcentaje de los estudiantes quedarían excluidos si solo se considera el puntaje obtenido en la prueba de matemáticas para el proceso de admisión?
  3. Grafique la distribución asociada y brinde contexto a su respuesta para el problema.

Respuestas

Parte A

Mi puntaje de matemáticas fue de 710 puntos en la primera versión de la PSU (Un desastre en la práctica). Dado que esta considera una escala que iba de 150 a 850 con una distribución normal de media (\(\mu\)) 500 y desviación estándar (\(\sigma\)) 110. Para determinar el porcentaje de personas que obtuvieron una puntuación superior a la mía, podemos utilizar la función de distribución acumulativa de la Distribución Normal (pnorm()). El cálculo sería el siguiente:

# Cálculo de probabilidad
probabilidad = (1-pnorm(710,500,110)) * 100

Por lo tanto, el % de personas que me superó en puntaje según la Distribución Normal , mencionada es del es 2.813%.

Parte B

Si el puntaje de corte para la carrera de Ingeniería Civil Informática en el año 2023 fue de 647 puntos, podemos calcular el porcentaje de personas que quedarían fuera del proceso utilizando la función pnorm() con la distribución normal dada en el enunciado.

# Cálculo de probabilidad
probabilidad = pnorm(647,500,110) * 100

Por lo tanto, el % de personas que quedaría fuera del proceso según las condiciones del enunciado, sería el 90.928%.

Parte C

La distribución de puntaje de la PSU puede ser calculada de la siguiente manera.

# Puntajes
puntajes = seq(150,850,by=50)

# Distribución
distribucion = dnorm(puntajes,500,110)

#Datos
datos = data.frame(puntajes,distribucion)

#Gráfico
library("ggplot2",warn.conflicts = F,verbose = F)
library("plotly",warn.conflicts = F,verbose = F)

grafico = ggplot(data=datos,aes(x=puntajes,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="#00A499",alpha=0.8)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades")
grafico = grafico + xlab("Puntajes PSU") + ylab("Probabilidad") + 
  scale_x_continuous(breaks=seq(150,850,by=50))

ggplotly(grafico)

Pregunta 3 - (20 puntos)

Un investigador está utilizando un modelo para explicar una variable fisiológica causante de una enfermedad (Rivas 2006). Este modelo requiere la estimación de cinco parámetros que pueden tomar un valor entre 0 a 100. Para llevar a cabo la estimación, el investigador ha dividido el intervalo de cada parámetro en 100 partes.

Preguntas

  1. ¿Cuántos modelos diferentes deberá evaluar el investigador para considerar todas las posibles combinaciones de parámetros? (5 puntos).
  2. Si cada modelo tarda 1 minuto en ser evaluado en el computador del investigador, ¿cuántas horas de cómputo necesitará el investigador para evaluar todos los modelos? Asuma que usará el mismo equipo (5 puntos).
  3. Si usted descubre que la probabilidad de que un parámetro tome un determinado valor sigue una distribución normal con media 50 y desviación estándar 10, ¿qué sugeriría al investigador para abordar la estimación de parámetros? Explique su argumento sobre datos cuantitativos (10 puntos).

Respuestas

Parte A

La cantidad de modelos diferentes que podemos evaluar depende de la combinación de los valores de las variables a estimar. En este caso tenemos 101 valores posibles de cada una, por lo que el número de evaluaciones será:

n = 101
parametros = 5
combinaciones = n^parametros

Por lo tanto, el número de combinaciones a evaluar será 1.0510101^{10}.

Parte B

Si cada modelo tarda 1 minuto en ser evaluado el número de horas que se necesitará es

horas = combinaciones/60
dias = horas/24
anos = dias/365

Por lo tanto, el número de horas necesarias para evaluar los modelos será:

  • 1.7516834^{8} horas
  • 7.2986809^{6} días
  • 1.9996386^{4} años, \(\approx\) 19 milenios.

Parte c

Las variables siguen una distribución normal de media 50 y desviación estándar 10.

probabilidad = round(pnorm(60,50,10)-pnorm(40,50,10),2)

Por lo tanto, la probabilidad de que las variables tengan un valor entre 40 y 60 es 0.68.

La probabilidad de que los mejores parámetros estén dentro del rango de 40 a 60 es aproximadamente del 70%. Sin embargo, si el investigador realiza una búsqueda en este rango, el número de combinaciones posibles es de \(21^5=4,084,101\), lo que implicaría un tiempo estimado de alrededor de 8 años. Por lo tanto, sugiero cambiar el enfoque para la determinación de los parámetros.

Una alternativa sería dividir el rango en 10 intervalos. De esta manera, se reduciría el número de combinaciones a \(3^5=243\), lo que llevaría aproximadamente 4 horas en encontrar el mejor parámetro dentro de ese rango. Esta estrategia de búsqueda más enfocada permitiría obtener resultados de manera más eficiente.

En resumen, sugiero considerar una búsqueda en 10 intervalos en lugar del rango completo de 40 a 60, ya que esto reduciría significativamente el número de combinaciones y aceleraría el proceso de encontrar el mejor parámetro.

Referencias

Rivas, José Luciano Borges, Douglas Maldonado. 2006. “Aplicación de Los Algoritmos Genéticos Para Estimar Los Parámetros En Un Modelo de Regresión de Cox.” Economía 1.
Sánchez-Flores, J., J. M. Martín-González, J. M. García-Manso, Y. de Saa, E. J. Arriaza-Ardiles, and M. E. Da Silva-Griglotetto. 2016. “Análisis de Los Goles Conseguidos En 13 Temporadas (2000/01-2012/13) Correspondientes a La Primera División de La Liga Española de Fútbol Profesional.” Revista Andaluza de Medicina Del Deporte 9 (2): 55–61. https://doi.org/10.1016/j.ramd.2015.05.006.