La tabla muestra el rendimiento de 14 corredoras de fondo entrenadas, las variables son:
x <- c(61.32,55.29,52.83,57.94,53.31,51.32,52.18,52.37,57.91,53.93,47.88,47.41,47.17,51.05)
y <- c(39.37,39.80,40.03,41.32,42.03,42.37,43.93,44.90,44.90,45.12,45.60,46.03,47.83,48.55)
Calcule la media , mediana, MAD, MSD y desviación estándar para cada variable.
mean(x)
## [1] 52.99357
mean(y)
## [1] 43.69857
median(x)
## [1] 52.6
median(y)
## [1] 44.415
mad(x)
## [1] 3.143112
mad(y)
## [1] 3.283959
var(x)
## [1] 17.16255
var(y)
## [1] 8.632121
sd(x)
## [1] 4.142771
sd(y)
## [1] 2.938047
¿Cuál de estas estadisticas da una medida de tendencia central de los datos y cuál da una medida de la dispersión?
Una de las medidas enteriormente calculadas que nos proporciona una medida de tendencia central de los datos es la mediay la mediana.
Las medidas de dispersión son MAD, MSD, desviación estandar.
Calcular la correlación de las dos variables y elaborar un diagrama de dispersión de los datos
#correlación
cor_yx<-cor(y,x)
cor_yx
## [1] -0.6597512
# Gráfico de dispersión Y contra X
plot(x, y,
xlab = "x: capacidad aeróbica máx.",
ylab = "y: tiempo 10 km (min)",
main = sprintf("y vs x (cor = %.3f)", cor_yx), pch = 19)
abline(lm(y ~ x), lty = 2)
¿Por qué es inapropiado calcular la correlación de estos datos?
No es apropiado calcular la autocorrelación de estos datos dado que esta aplica para cuando tenemos series de tiempo (temporales), es decir se puede aplicar cuando conocemos mas datos de las variables en otros momentos del timpo, en este caso solo tenemos datos un momento preciso.
La siguiente tabla muestra las temperaturas promedios mensuales en París
valores_1994 <-c(7.6,7.1,8.3,11.5,13.7,17.2,18.5,19.7,15.1,8.9,8.5,8.5)
valores_1995 <-c(7.7,6.9,6.1,10.5,12.9)
tabla <- data.frame(
row.names = c("1994","1995"),
Jan = c(valores_1994[1], valores_1995[1]),
Feb = c(valores_1994[2], valores_1995[2]),
Mar = c(valores_1994[3], valores_1995[3]),
Apr = c(valores_1994[4], valores_1995[4]),
May = c(valores_1994[5], valores_1995[5]),
Jun = c(valores_1994[6], NA),
Jul = c(valores_1994[7], NA),
Aug = c(valores_1994[8], NA),
Sep = c(valores_1994[9], NA),
Oct = c(valores_1994[10], NA),
Nov = c(valores_1994[11], NA),
Dec = c(valores_1994[12], NA)
)
tabla
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 1994 7.6 7.1 8.3 11.5 13.7 17.2 18.5 19.7 15.1 8.9 8.5 8.5
## 1995 7.7 6.9 6.1 10.5 12.9 NA NA NA NA NA NA NA
¿Cuál es su mejor estimación de la temperatura promedio en junio de 1995?
Después de analizar, lo que haría es mirar la diferencia entre las temperaturas de junio y mayo del año 1994, en este caso es de 3.5, esta diferencia se le suma a la temperatura obtenida en el mes de mayo del 1995, dando una estimación de temperatura 16.4 para junio del 1995.
Realice una serie temporal con los datos. ¿Existe algún patrón temporal en las lecturas de las temperaturas?
valores<-c(valores_1994,valores_1995)
valores
## [1] 7.6 7.1 8.3 11.5 13.7 17.2 18.5 19.7 15.1 8.9 8.5 8.5 7.7 6.9 6.1
## [16] 10.5 12.9
serie <- ts(valores, start = c(1994,1), frequency = 12)
plot(serie,
main = "Temperaturas promedio en París (1994-1995)",
ylab = "°C", xlab = "Mes",
col = "blue", lwd = 1, xaxt="n")
points(serie, col = "red", pch = 19)
fechas <- seq(as.Date("1994-01-01"), by="month", length.out=length(valores))
etiq <- format(fechas, "%b-%Y") # "Ene-1994", "Feb-1994", ...
axis(1, at=time(serie), labels=etiq, las=2, cex.axis=0.7)
Podemos observar que en diciembre, enero y febrero las temperaturas son bajas, lo cual corresponde al invierno.
En los meses de marzo, abril y mayo se presenta un aumento progresivo en las temperaturas, asociado a la llegada de la primavera.
Posteriormente, en junio, julio y agosto, durante el verano, se registran las temperaturas más altas del año.
Finalmente, en septiembre, octubre y noviembre, la estación de otoño trae consigo un descenso en las temperaturas.
En conclusión, sí existe un patrón temporal claro en los datos, relacionado con las estaciones del año. Aunque puede haber ligeras variaciones de un año a otro, la tendencia general se repite: las temperaturas tienden a bajar en invierno y otoño, y a subir en primavera y verano
La columna 1 en la página siguiente demuestra la demanda real del producto E15 durante 20 meses, las columnas 2 y 3 son los pronósticos que serán discutidos en el capítulo 4.
Periodo <- c(1:20)
actual_demanda <- c(139,137,174,142,141,162,180,164,171,206,
193,207,218,229,225,204,227,223,242,239)
metodo1 <- c(157,145,140,162,149,144,156,172,167,169,
193,193,202,213,223,224,211,221,222,235)
metodo2 <- c(170,162,157,173,164,158,166,179,177,180,
199,202,211,221,232,235,225,232,233,243)
Graficar la demanda real junto con los pronosticos de los dos métodos.
# Convertir en series temporales (20 periodos, inicio en 1)
ts_actual <- ts(actual_demanda, start=1, frequency=1)
ts_metodo1 <- ts(metodo1, start=1, frequency=1)
ts_metodo2 <- ts(metodo2, start=1, frequency=1)
# Gráfico comparativo
ts.plot(ts_actual, ts_metodo1, ts_metodo2,
col=c("black","blue","red"),
lty=c(1,2,3),
xlab="Periodo", ylab="Demanda",
main="Demanda Real vs Métodos de Pronóstico")
legend("topleft",
legend=c("Real","Método 1","Método 2"),
col=c("black","blue","red"),
lty=c(1,2,3), bty="n")
Para cada método, calcular el Error Medio (EM), Error Medio Absoluto(MAE), Error CUadratico Medio (MSE), Error Porcentual Medio (MPE) y Error Porcentual Medio Absoluto (MAPE)
metricas <- function(real, pron){
error <- real - pron
ME <- mean(error)
MAE <- mean(abs(error))
MSE <- mean(error^2)
#RMSE <- sqrt(MSE)
MPE <- mean(error/real)*100
MAPE <- mean(abs(error/real))*100
return(round(c(ME=ME, MAE=MAE, MSE=MSE,MPE=MPE, MAPE=MAPE),2))
}
metricas(actual_demanda, metodo1)
## ME MAE MSE MPE MAPE
## 6.25 14.45 307.25 2.55 7.87
metricas(actual_demanda, metodo2)
## ME MAE MSE MPE MAPE
## -4.80 14.00 294.00 -3.61 8.24
Según los resultados anteriores y realizando un analisis, podemos observar que en el método 1 el error porcentual medio absoluto (MAPE) es menor que el método 2, lo que nos da a entender que tiene mayor precisión en terminos pocentuales, lo que puede ser un buen metodo.
Pero si nos guíamos por MAE y MSE, el método 2 es mejor, porque tiende a reducir errores grandes.
Ya depende de que se quiera priorizar es el método que se deberá escoger.