Primera evaluación de estado de la materia de probabilidad y estadística para ingeniería de software
Caso de estudio 1: Acuacualtura
Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana número 2 se empiezan a pesar los camarones en crecimiento, también se cuantifica su nivel de comida.
En términos ideales los 12 estanques tendrían que llegar en la semana número 12 a 12 gramas para poder entonces realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaron a este peso.
¿Por qué esto es un problema’ Dado que se tendrá que invertir una semana (o más) para podear llegar al peso ideal, y esto supone una pérdida de dinero.
- Preguntas a responder
1.- Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratorio de los datos (MMM, MD, CB) El problema radifica en que algunos camarones crecen más que otros y no llegan al peso esperado, por lo tanto, se tiene que invertir más dinero.
2.- ¿Qué tienen de diferentes los estanques que SÍ llegaron a 12 gramas en la semana 12 con respecto a los que no? Hubo 3 estanques que llegaro a los 12 gramos, el estanque 1, 8 y 12. Todos los estanques tenían un tamaño de 5, exceptuando los estanques 11 y 12, estos tenían un tamaño de 6.27. En la semana 5 se aumentó el tamaño de la comida, en .2, del estanque 8 al 12, y después en las semanas 9, 10 11 y 12, se aumentó la ración semanal de los estanques con diferentes varianzas, haciendo que los estanques 1, 8 y 12 subieran de tamaño a 12 en la última, sin embargo, los demás estanques no.
3.- ¿Con qué variables se relaciona el aumento de peso de los camarones? (regresión lineal, residuos, confianza) Con el PesoActual y AlimentoSemana.
4.- ¿Lo camarones que iniciaron con mayor peso (semana 2) son también los que terminarion con mayor peso? ¿Cómo varía el crecimiento? No, el crecimiento varía por el tamaño del alimento, así como por la ración semanal y diaria que se le dio a los estanques.
5.- Realice un análisis de regresión
Datos
library(readr)
CAMARONES <- read_csv("CAMARONES.csv",
col_types = cols(EstanqueN = col_number(),
Superficie = col_number(), Dias = col_number(),
Semana = col_number(), PesoAnterior = col_number(),
PesoActual = col_number(), TamanioAlimento = col_number(),
AlimentoSemana = col_number(), AlimentoDiario = col_number()))## # A tibble: 6 x 9
## EstanqueN Superficie Dias Semana PesoAnterior PesoActual TamanioAlimento
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 5 14 2 0.145 0.77 0.8
## 2 2 5 14 2 0.153 0.780 0.8
## 3 3 5 14 2 0.149 0.69 0.8
## 4 4 5 14 2 0.154 0.72 0.8
## 5 5 5 14 2 0.166 0.61 0.8
## 6 6 5 14 2 0.215 0.62 0.8
## # ... with 2 more variables: AlimentoSemana <dbl>, AlimentoDiario <dbl>
## [1] 4.253091
## [1] 5.28803
## [1] 4.015
## [1] 4.73
## [1] 0.62 1.32
## [1] 0.62 1.32
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.130 1.550 4.015 4.253 6.338 10.360
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 2.163 4.730 5.288 7.955 12.260
## [1] 9.215361
## [1] 11.49019
## [1] 3.035681
## [1] 3.389719
## EstanqueN Superficie Dias Semana PesoAnterior
## EstanqueN 1.000000000 0.64775028 0.0000000 0.0000000 -0.003595733
## Superficie 0.647750276 1.00000000 0.0000000 0.0000000 -0.014835076
## Dias 0.000000000 0.00000000 1.0000000 1.0000000 0.983200248
## Semana 0.000000000 0.00000000 1.0000000 1.0000000 0.983200248
## PesoAnterior -0.003595733 -0.01483508 0.9832002 0.9832002 1.000000000
## PesoActual -0.001709197 -0.01165829 0.9817825 0.9817825 0.991584125
## TamanioAlimento 0.020039535 0.01237485 0.8275323 0.8275323 0.874347871
## AlimentoSemana 0.068287068 0.07419489 0.9441085 0.9441085 0.951060826
## AlimentoDiario 0.068287068 0.07419489 0.9441085 0.9441085 0.951060826
## PesoActual TamanioAlimento AlimentoSemana AlimentoDiario
## EstanqueN -0.001709197 0.02003953 0.06828707 0.06828707
## Superficie -0.011658290 0.01237485 0.07419489 0.07419489
## Dias 0.981782519 0.82753233 0.94410854 0.94410854
## Semana 0.981782519 0.82753233 0.94410854 0.94410854
## PesoAnterior 0.991584125 0.87434787 0.95106083 0.95106083
## PesoActual 1.000000000 0.88057691 0.95147028 0.95147028
## TamanioAlimento 0.880576914 1.00000000 0.84842292 0.84842292
## AlimentoSemana 0.951470280 0.84842292 1.00000000 1.00000000
## AlimentoDiario 0.951470280 0.84842292 1.00000000 1.00000000
##
## Call:
## lm(formula = PesoActual ~ AlimentoSemana, data = CAMARONES)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.3032 -0.6334 -0.0752 0.6261 3.8672
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.3517189 0.2092451 -6.46 1.92e-09 ***
## AlimentoSemana 0.0064804 0.0001838 35.25 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.047 on 130 degrees of freedom
## Multiple R-squared: 0.9053, Adjusted R-squared: 0.9046
## F-statistic: 1243 on 1 and 130 DF, p-value: < 2.2e-16
plot (CAMARONES$AlimentoSemana, CAMARONES$PesoActual, xlab="Alimento Semanal",ylab="Peso Actual")
abline(regresion)##
## Call:
## glm(formula = AlimentoSemana ~ PesoActual, data = CAMARONES)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -526.00 -89.86 9.59 90.77 380.46
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 285.864 24.864 11.50 <2e-16 ***
## PesoActual 139.697 3.963 35.25 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 23637.97)
##
## Null deviance: 32447689 on 131 degrees of freedom
## Residual deviance: 3072936 on 130 degrees of freedom
## AIC: 1707.9
##
## Number of Fisher Scoring iterations: 2
datos <- data.frame(PesoActual=seq(0,3000, 2))
probabilidades <- predict(reg, datos, type="response")
colores <- NULL
colores[CAMARONES$PesoActual>=12] <- "green"
colores[CAMARONES$PesoActual<12] <- "red"
plot(CAMARONES$PesoActual, CAMARONES$AlimentoSemana, pch =21, bg= colores, xlab = "Peso Actual",ylab = "Alimento Semanal")
legend("bottomright", c("Peso ideal", "Peso no ideal"),pch =21, col=c("green","red") )
lines(datos$PesoActual, probabilidades, col="blue", lwd=2)