Este documento contiene las instrucciones y enunciados asociados a la Prueba Especial Programada 1 (PEP1) del curso de Estadística Computacional modalidad diurna. Con respecto a ello:
Un grupo de investigadores ha estudiado los goles de la Liga Española en los torneos realizados entre los años 2000 al 2013, considerando diferentes tipos de distribuciones (Sánchez-Flores et al. 2016). Los autores indicaron que en promedio se hacen 2.689 goles por partido. Con base en esta información:
A pesar de que los investigadores del artículo original utilizaron diferentes distribuciones, como la Binomial, Binomial Negativa y Poisson, en este caso utilizaré la distribución de Poisson. Para calcular la probabilidad de que se no marquen goles luego de los primeros 45 minutos, primero debemos calcular el parámetro (\(\lambda\)) y luego utilizar la función ppois() para calcular la probabilidad acumulada. El proceso es el siguiente:
# Cálculo de lambdas
= 2.689 # Lambda partido
lambda_partido = lambda_partido/2 # Lambda medio tiempo
lambda_medio_tiempo
# Cálculo de probabilidad de cero goles en un partido
= ppois(0,lambda_medio_tiempo) # También puede ser usado dpois(0,lambda) probabilidad
Por lo tanto, la probabilidad de que no hayan goles en el primer tiempo usando una Distribución de Poisson es 0.261.
Quizás alguien podría también haber considerado que después de los 45 minutos implica todo el segundo tiempo. En este caso, la probabilidad cubriría todo el partido.
# Cálculo de lambdas
= 2.689 # Lambda partido
lambda_partido
# Cálculo de probabilidad de cero goles en un partido
= ppois(0,lambda_partido) probabilidad
Por lo tanto, la probabilidad de que no hayan goles en el primer partido usando una Distribución de Poisson es 0.068. Esto también lo consideré correcto, a pesar de que no es la respuesta correspondiente.
La probabilidad de que al finalizar los primeros tres partidos, se hayan realizado más de 5 goles en total también se puede asumiendo una Distribución de Poisson. Esto es:
# Cálculo de lambdas
= 2.689 # Lambda partido
lambda_partido = lambda_partido*3 # Lambda tres partidos
lambda_tres_partidos
# Cálculo de probabilidad de que haya más de 5 goles al finalizar los 3 partidos es
= 1 - ppois(5,lambda_tres_partidos) probabilidad
Por lo tanto, la probabilidad de que haya más de 5 goles luego al finalizar el tercer partido usando una Distribución de Poisson es 0.815.
Es posible calcular la probabilidad de goles luego de un partido usando combinando las funciones de la biblioteca ggplot(), plotly() con la función dpois().
# Cálculo de lambda
= 2.689 # Lambda partido
lambda_partido
# Goles en un partido
= seq(0,10)
goles
# Distribución
= round(dpois(goles,lambda_partido),3)
distribucion
#Datos
= data.frame(goles,distribucion)
datos
#Gráfico
library("ggplot2",warn.conflicts = F,verbose = F)
library("plotly",warn.conflicts = F,verbose = F)
= ggplot(data=datos,aes(x=goles,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="#00A499",alpha=0.8)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades")
grafico = grafico + xlab("Goles en un partido de la Liga española") + ylab("Probabilidad") +
grafico scale_x_continuous(breaks=seq(0.0, 10, 1))
ggplotly(grafico)
Según datos del DEMRE, la antigua Prueba de Selección Universitaria (PSU) tenía una escala que iba de 150 a 850 puntos, siguiendo una distribución normal con promedio de 500 puntos y desviación estándar de 110. Por otro lado, la prueba PAES va de 100 a 1000 puntos y también sigue una distribución normal con media de 640 y desviación estándar de 140 puntos.
Mi puntaje de matemáticas fue de 710 puntos en la primera versión de la PSU (Un desastre en la práctica). Dado que esta considera una escala que iba de 150 a 850 con una distribución normal de media (\(\mu\)) 500 y desviación estándar (\(\sigma\)) 110. Para determinar el porcentaje de personas que obtuvieron una puntuación superior a la mía, podemos utilizar la función de distribución acumulativa de la Distribución Normal (pnorm()). El cálculo sería el siguiente:
# Cálculo de probabilidad
= (1-pnorm(710,500,110)) * 100 probabilidad
Por lo tanto, el % de personas que me superó en puntaje según la Distribución Normal , mencionada es del es 2.813%.
Si el puntaje de corte para la carrera de Ingeniería Civil Informática en el año 2023 fue de 647 puntos, podemos calcular el porcentaje de personas que quedarían fuera del proceso utilizando la función pnorm() con la distribución normal dada en el enunciado.
# Cálculo de probabilidad
= pnorm(647,500,110) * 100 probabilidad
Por lo tanto, el % de personas que quedaría fuera del proceso según las condiciones del enunciado, sería el 90.928%.
La distribución de puntaje de la PSU puede ser calculada de la siguiente manera.
# Puntajes
= seq(150,850,by=50)
puntajes
# Distribución
= dnorm(puntajes,500,110)
distribucion
#Datos
= data.frame(puntajes,distribucion)
datos
#Gráfico
library("ggplot2",warn.conflicts = F,verbose = F)
library("plotly",warn.conflicts = F,verbose = F)
= ggplot(data=datos,aes(x=puntajes,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="#00A499",alpha=0.8)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades")
grafico = grafico + xlab("Puntajes PSU") + ylab("Probabilidad") +
grafico scale_x_continuous(breaks=seq(150,850,by=50))
ggplotly(grafico)
Un investigador está utilizando un modelo para explicar una variable fisiológica causante de una enfermedad (Rivas 2006). Este modelo requiere la estimación de cinco parámetros que pueden tomar un valor entre 0 a 100. Para llevar a cabo la estimación, el investigador ha dividido el intervalo de cada parámetro en 100 partes.
La cantidad de modelos diferentes que podemos evaluar depende de la combinación de los valores de las variables a estimar. En este caso tenemos 101 valores posibles de cada una, por lo que el número de evaluaciones será:
= 101
n = 5
parametros = n^parametros combinaciones
Por lo tanto, el número de combinaciones a evaluar será 1.0510101^{10}.
Si cada modelo tarda 1 minuto en ser evaluado el número de horas que se necesitará es
= combinaciones/60
horas = horas/24
dias = dias/365 anos
Por lo tanto, el número de horas necesarias para evaluar los modelos será:
Las variables siguen una distribución normal de media 50 y desviación estándar 10.
= round(pnorm(60,50,10)-pnorm(40,50,10),2) probabilidad
Por lo tanto, la probabilidad de que las variables tengan un valor entre 40 y 60 es 0.68.
La probabilidad de que los mejores parámetros estén dentro del rango de 40 a 60 es aproximadamente del 70%. Sin embargo, si el investigador realiza una búsqueda en este rango, el número de combinaciones posibles es de \(21^5=4,084,101\), lo que implicaría un tiempo estimado de alrededor de 8 años. Por lo tanto, sugiero cambiar el enfoque para la determinación de los parámetros.
Una alternativa sería dividir el rango en 10 intervalos. De esta manera, se reduciría el número de combinaciones a \(3^5=243\), lo que llevaría aproximadamente 4 horas en encontrar el mejor parámetro dentro de ese rango. Esta estrategia de búsqueda más enfocada permitiría obtener resultados de manera más eficiente.
En resumen, sugiero considerar una búsqueda en 10 intervalos en lugar del rango completo de 40 a 60, ya que esto reduciría significativamente el número de combinaciones y aceleraría el proceso de encontrar el mejor parámetro.