Evaluacion1

Jorge Valenzuela Parra

14/10/2020

Primer evaluación de estado de la materia de probabilidad y estadística para ingenierías

Caso de estudio 1: Acuacualtura

Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana número 2 se empiezan la pesar los camarones en crecimiento, también se cuantifica su nivel de comida.

En términos ideales los 12 estanques tendrían que llegar en la semana número 12 a 12 gramos para poder entonces realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaron a este peso.

¿Por qué esto es un problema? Dado que se tendrá que invertir una semana (o más) para poder llegar al peso ideal, y esto supone una pérdida de dinero.

Datos

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
cam <- read_csv("CAMARONES.csv")
## Parsed with column specification:
## cols(
##   Estanque = col_character(),
##   EstanqueN = col_double(),
##   Superficie = col_double(),
##   Dias = col_double(),
##   Semana = col_double(),
##   PesoAnterior = col_double(),
##   PesoActual = col_double(),
##   TamanioAlimento = col_double(),
##   AlimentoSemana = col_double(),
##   AlimentoDiario = col_double()
## )
sis <- data.frame(cam)
datatable(cam)
  • Preguntas a responder
  1. Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratoria de los datos (MMM, MD (amplitud, desviación estándar, varianza), CB (caja y bigote)).

Originalmente existe una hipótesis de que todos los camarones en los 12 estanques a la semana 12 deberían alcanzar un peso determinado, sin embargo solamente 3 lo lograron, y esto genera inconvenientes financieros. Para averiguar y encontrar el porque probablemente suceda esto es necesario generar medidas de disperción, así como ver las relaciones que existen entre las variables y poder inferir o concluír en que sucede por alguna razón determinada y trabajar a partir de ahí.

  • Medidas de tendencia central

Media

mean(cam$PesoAnterior)
## [1] 4.253091
mean(cam$PesoActual)
## [1] 5.28803
mean(cam$AlimentoDiario)
## [1] 146.3696

Mediana

median(cam$PesoAnterior)
## [1] 4.015
median(cam$PesoActual)
## [1] 4.73
median(cam$AlimentoDiario)
## [1] 151.4286

Moda

mfv(cam$PesoAnterior)
## [1] 0.62 1.32
mfv(cam$PesoActual)
## [1] 0.62 1.32
mfv(cam$AlimentoDiario)
## [1] 151.4286

Cuantiles

summary(cam$PesoAnterior)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.130   1.550   4.015   4.253   6.338  10.360
summary(cam$PesoActual)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   2.163   4.730   5.288   7.955  12.260
summary(cam$AlimentoDiario)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   57.43   75.29  151.43  146.37  189.82  296.43

Con las medidas de media, mediana y moda, poco se puede decir, pues no existe algo que nos indique un punto de importancia, solamente nos servirían como referencia estos datos para análisis siguientes. Solo lo que es rescatable es el resumen de los cuartiles, que se notan cambios más grandes en los extremos, y en el medio hay cambios más pequeños en la comida que se suministra, o seas en las primeras semanas y en las últimas cada vez alimentaban más a los camarones, único dato importante a considerar después.

  • Medidas de dispersión

Valores máximos y mínimos

antmax <- max(cam$PesoAnterior)
antmin <- min(cam$PesoAnterior)
actmax <- max(cam$PesoActual)
actmin <- min(cam$PesoActual)

Amplitud

amp0 <- (antmax - antmin)
amp1 <- (actmax - actmin)
amp0
## [1] 10.23
amp1
## [1] 11.66

Varianza

var(cam$PesoAnterior)
## [1] 9.215361
var(cam$PesoActual)
## [1] 11.49019
var(cam$AlimentoDiario)
## [1] 5054.945

Desviación estándar

sd(cam$PesoAnterior)
## [1] 3.035681
sd(cam$AlimentoDiario)
## [1] 71.09813

Gráfico (diagrama) de caja y bigote

boxplot(x = cam$AlimentoDiario, y= cam$PesoAnterior)

boxplot(x = cam$PesoActual, y= cam$PesoAnterior)

Lo rescatable de las medidas de dispersión fue que la varianza está muy elevada, lo cual nos dice que existe mucha separación de los datos, y del diagráma de caja y bigote, que todos los datos están al menos dentro de la caja, eso nos dice que no hay datos alejados de la tendencia de la muestra.

  1. ¿Que tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?

Que en el principio los que llegaron a los 12 gramos eran los estanques con camarones de menor peso, así que cuando eran camarones pequeños y les empezaron a dar la misma comida a todos los estanques, estos se vieron más impactados en la manera en que aumentaba el peso de estos hasta el final de las 12 semanas. Esto se ve reflejado en que son más ecuánimes los cambios que hubo en los estanques que lo lograron si comparamos las medidas de tendencia central de las semanas que lograron llegar al peso y las que no.

3.- ¿Con qué variables se relaciona el aumento de peso de los camarones?

  • Análisis de correlación

Correlación pearson

estanque<- cam$EstanqueN
#sup<- cam$Superficie
#dia<- cam$Dias
#sem<- cam$Semana
ant<- cam$PesoAnterior
act<- cam$PesoActual
#tam<- cam$TamanioAlimento
ald<- cam$AlimentoDiario
#als<- cam$AlimentoSemana
rela<- data.frame(estanque, ant, act, ald)
cor(rela)
##              estanque          ant          act        ald
## estanque  1.000000000 -0.003595733 -0.001709197 0.06828707
## ant      -0.003595733  1.000000000  0.991584125 0.95106083
## act      -0.001709197  0.991584125  1.000000000 0.95147028
## ald       0.068287068  0.951060826  0.951470280 1.00000000

Diagramas de dispersión

pairs(rela)

Luego de probar con las distintas variables se nota que las variables que más tienen relación son las del peso anterior de los camarones y el peso actual. Otra relación que hay es de estos dos con el alimento diario. Esto quiere decir que depende que tan crecidos estan los camarones se alimentan con más alimento la próxima vez, ciendo un poco más, o mucho más alimento.

Regresión lineal simple

regresion0 <- lm(act ~ ant, data = cam)
summary(regresion0)
## 
## Call:
## lm(formula = act ~ ant, data = cam)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.26198 -0.26332 -0.00933  0.26919  1.23523 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.57889    0.06617   8.749 9.66e-15 ***
## ant          1.10723    0.01268  87.328  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4405 on 130 degrees of freedom
## Multiple R-squared:  0.9832, Adjusted R-squared:  0.9831 
## F-statistic:  7626 on 1 and 130 DF,  p-value: < 2.2e-16

Ecuación de la recta

\[ y = 0.57889 + 1.10723x \]

Ajuste de la recta

plot(rela$ant, rela$act, xlab="Peso anterior", ylab="Peso actual")
abline(regresion0)

Análisis de residuos

residuos <- rstandard(regresion0)
valores.ajustados <- fitted(regresion0)
plot(valores.ajustados, residuos)

Shapiro-wilk

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.99291, p-value = 0.7514

No se aprecia una tendencia de que los valores residuales realmente afecten a la muestra original, por lo tanto aún sirven en la muestra original.

Intervalos de confianza

confint(regresion0)
##                 2.5 %    97.5 %
## (Intercept) 0.4479851 0.7097931
## ant         1.0821441 1.1323118
nuevas.ant<- data.frame(ant=seq(0,134))

plot(rela$ant, rela$act, xlab="Peso anterior", ylab="Peso actual")
abline(regresion0)

ic <- predict(regresion0, nuevas.ant, interval = "confidence")
lines(nuevas.ant$ant, ic[, 2], lty=2)
lines(nuevas.ant$ant, ic[, 3], lty=2)

ic <- predict(regresion0, nuevas.ant, interval = "prediction")
lines(nuevas.ant$ant, ic[, 2], lty=2)
lines(nuevas.ant$ant, ic[, 3], lty=2)

La gran mayoría de los datos se encuentran en el intervalo de confianza, por lo que se puede decir que en este análisis, las muestras se pueden tomar en cuenta para todo el análisis y se puede confiar en los datos.

4.- ¿Los camarones que iniciaron con mayor peso (semana 2) son también los que terminaron en mayor peso? ¿Cómo varía el crecimiento?

Los de mayor peso en la semana 2 no fueron los de más peso al final, esto pues siendo alimentados con la misma cantidad de comida que todos, como son los demás peso, para crecer necesitaban de más comida en las semanas tempranas, y no se les dió más comida por ser más grandes, sino se les dió igual que a todos y al final esta falta de desarrollo hizo que no llegaran a los 12 que se supone debieron llegar.

5.- Realice un análisis de regresión logística para determinar que hace que los camarones llegen a 12 gramos.

Empezaron los estanques 1, 8 y 12 a recibir la misma cantidad de alimento en la semana 2 aún siendo más pequeños que los de los demás estanques ayudó a un mejor desarrollo, pues como pesaban menos, ingerían más alimento, aumentándolos de peso pues quizas su cuerpo de menor masa no metabolizaban o digerían todo lo que ingerían de más, siguiendo esta tendencia hasta la semana 12, aunque cada semana que pasaba esto disminuía cada vez, pues agarraban más masa, y crecían menos.