Primer evaluación de estado de la materia de probabilidad y estadística para ingenierías
Caso de estudio 1: Acuacualtura
Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana número 2 se empiezan la pesar los camarones en crecimiento, también se cuantifica su nivel de comida.
En términos ideales los 12 estanques tendrían que llegar en la semana número 12 a 12 gramos para poder entonces realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaron a este peso.
¿Por qué esto es un problema? Dado que se tendrá que invertir una semana (o más) para poder llegar al peso ideal, y esto supone una pérdida de dinero.
Datos
## Parsed with column specification:
## cols(
## Estanque = col_character(),
## EstanqueN = col_double(),
## Superficie = col_double(),
## Dias = col_double(),
## Semana = col_double(),
## PesoAnterior = col_double(),
## PesoActual = col_double(),
## TamanioAlimento = col_double(),
## AlimentoSemana = col_double(),
## AlimentoDiario = col_double()
## )
- Preguntas a responder
- Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratoria de los datos (MMM, MD (amplitud, desviación estándar, varianza), CB (caja y bigote)).
Originalmente existe una hipótesis de que todos los camarones en los 12 estanques a la semana 12 deberían alcanzar un peso determinado, sin embargo solamente 3 lo lograron, y esto genera inconvenientes financieros. Para averiguar y encontrar el porque probablemente suceda esto es necesario generar medidas de disperción, así como ver las relaciones que existen entre las variables y poder inferir o concluír en que sucede por alguna razón determinada y trabajar a partir de ahí.
- Medidas de tendencia central
Media
## [1] 4.253091
## [1] 5.28803
## [1] 146.3696
Mediana
## [1] 4.015
## [1] 4.73
## [1] 151.4286
Moda
## [1] 0.62 1.32
## [1] 0.62 1.32
## [1] 151.4286
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.130 1.550 4.015 4.253 6.338 10.360
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 2.163 4.730 5.288 7.955 12.260
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 57.43 75.29 151.43 146.37 189.82 296.43
Con las medidas de media, mediana y moda, poco se puede decir, pues no existe algo que nos indique un punto de importancia, solamente nos servirían como referencia estos datos para análisis siguientes. Solo lo que es rescatable es el resumen de los cuartiles, que se notan cambios más grandes en los extremos, y en el medio hay cambios más pequeños en la comida que se suministra, o seas en las primeras semanas y en las últimas cada vez alimentaban más a los camarones, único dato importante a considerar después.
- Medidas de dispersión
Valores máximos y mínimos
Varianza
## [1] 9.215361
## [1] 11.49019
## [1] 5054.945
Gráfico (diagrama) de caja y bigote
Lo rescatable de las medidas de dispersión fue que la varianza está muy elevada, lo cual nos dice que existe mucha separación de los datos, y del diagráma de caja y bigote, que todos los datos están al menos dentro de la caja, eso nos dice que no hay datos alejados de la tendencia de la muestra.
- ¿Que tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?
Que en el principio los que llegaron a los 12 gramos eran los estanques con camarones de menor peso, así que cuando eran camarones pequeños y les empezaron a dar la misma comida a todos los estanques, estos se vieron más impactados en la manera en que aumentaba el peso de estos hasta el final de las 12 semanas. Esto se ve reflejado en que son más ecuánimes los cambios que hubo en los estanques que lo lograron si comparamos las medidas de tendencia central de las semanas que lograron llegar al peso y las que no.
3.- ¿Con qué variables se relaciona el aumento de peso de los camarones?
- Análisis de correlación
Correlación pearson
estanque<- cam$EstanqueN
#sup<- cam$Superficie
#dia<- cam$Dias
#sem<- cam$Semana
ant<- cam$PesoAnterior
act<- cam$PesoActual
#tam<- cam$TamanioAlimento
ald<- cam$AlimentoDiario
#als<- cam$AlimentoSemana
rela<- data.frame(estanque, ant, act, ald)
cor(rela)## estanque ant act ald
## estanque 1.000000000 -0.003595733 -0.001709197 0.06828707
## ant -0.003595733 1.000000000 0.991584125 0.95106083
## act -0.001709197 0.991584125 1.000000000 0.95147028
## ald 0.068287068 0.951060826 0.951470280 1.00000000
Diagramas de dispersión
Luego de probar con las distintas variables se nota que las variables que más tienen relación son las del peso anterior de los camarones y el peso actual. Otra relación que hay es de estos dos con el alimento diario. Esto quiere decir que depende que tan crecidos estan los camarones se alimentan con más alimento la próxima vez, ciendo un poco más, o mucho más alimento.
Regresión lineal simple
##
## Call:
## lm(formula = act ~ ant, data = cam)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.26198 -0.26332 -0.00933 0.26919 1.23523
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.57889 0.06617 8.749 9.66e-15 ***
## ant 1.10723 0.01268 87.328 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4405 on 130 degrees of freedom
## Multiple R-squared: 0.9832, Adjusted R-squared: 0.9831
## F-statistic: 7626 on 1 and 130 DF, p-value: < 2.2e-16
Ecuación de la recta
\[ y = 0.57889 + 1.10723x \]
Ajuste de la recta
Análisis de residuos
residuos <- rstandard(regresion0)
valores.ajustados <- fitted(regresion0)
plot(valores.ajustados, residuos)Shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.99291, p-value = 0.7514
No se aprecia una tendencia de que los valores residuales realmente afecten a la muestra original, por lo tanto aún sirven en la muestra original.
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 0.4479851 0.7097931
## ant 1.0821441 1.1323118
nuevas.ant<- data.frame(ant=seq(0,134))
plot(rela$ant, rela$act, xlab="Peso anterior", ylab="Peso actual")
abline(regresion0)
ic <- predict(regresion0, nuevas.ant, interval = "confidence")
lines(nuevas.ant$ant, ic[, 2], lty=2)
lines(nuevas.ant$ant, ic[, 3], lty=2)
ic <- predict(regresion0, nuevas.ant, interval = "prediction")
lines(nuevas.ant$ant, ic[, 2], lty=2)
lines(nuevas.ant$ant, ic[, 3], lty=2)La gran mayoría de los datos se encuentran en el intervalo de confianza, por lo que se puede decir que en este análisis, las muestras se pueden tomar en cuenta para todo el análisis y se puede confiar en los datos.
4.- ¿Los camarones que iniciaron con mayor peso (semana 2) son también los que terminaron en mayor peso? ¿Cómo varía el crecimiento?
Los de mayor peso en la semana 2 no fueron los de más peso al final, esto pues siendo alimentados con la misma cantidad de comida que todos, como son los demás peso, para crecer necesitaban de más comida en las semanas tempranas, y no se les dió más comida por ser más grandes, sino se les dió igual que a todos y al final esta falta de desarrollo hizo que no llegaran a los 12 que se supone debieron llegar.
5.- Realice un análisis de regresión logística para determinar que hace que los camarones llegen a 12 gramos.
Empezaron los estanques 1, 8 y 12 a recibir la misma cantidad de alimento en la semana 2 aún siendo más pequeños que los de los demás estanques ayudó a un mejor desarrollo, pues como pesaban menos, ingerían más alimento, aumentándolos de peso pues quizas su cuerpo de menor masa no metabolizaban o digerían todo lo que ingerían de más, siguiendo esta tendencia hasta la semana 12, aunque cada semana que pasaba esto disminuía cada vez, pues agarraban más masa, y crecían menos.