U1E1

Miguel Sanez

12/10/2020

Primera evaluación de estado de la materia de probabilidad y estadística para ingeniería de software

Caso de estudio 1: Acuacualtura

Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana número 2 se empiezan a pesar los camarones en crecimiento, también se cuantifica su nivel de comida.

En términos ideales los 12 estanques tendrían que llegar en la semana número 12 a 12 gramas para poder entonces realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaron a este peso.

¿Por qué esto es un problema’ Dado que se tendrá que invertir una semana (o más) para podear llegar al peso ideal, y esto supone una pérdida de dinero.

  • Preguntas a responder

1.- Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratorio de los datos (MMM, MD, CB) El problema radifica en que algunos camarones crecen más que otros y no llegan al peso esperado, por lo tanto, se tiene que invertir más dinero.

2.- ¿Qué tienen de diferentes los estanques que SÍ llegaron a 12 gramas en la semana 12 con respecto a los que no? Hubo 3 estanques que llegaro a los 12 gramos, el estanque 1, 8 y 12. Todos los estanques tenían un tamaño de 5, exceptuando los estanques 11 y 12, estos tenían un tamaño de 6.27. En la semana 5 se aumentó el tamaño de la comida, en .2, del estanque 8 al 12, y después en las semanas 9, 10 11 y 12, se aumentó la ración semanal de los estanques con diferentes varianzas, haciendo que los estanques 1, 8 y 12 subieran de tamaño a 12 en la última, sin embargo, los demás estanques no.

3.- ¿Con qué variables se relaciona el aumento de peso de los camarones? (regresión lineal, residuos, confianza) Con el PesoActual y AlimentoSemana.

4.- ¿Lo camarones que iniciaron con mayor peso (semana 2) son también los que terminarion con mayor peso? ¿Cómo varía el crecimiento? No, el crecimiento varía por el tamaño del alimento, así como por la ración semanal y diaria que se le dio a los estanques.

5.- Realice un análisis de regresión

Datos

library(readr)
CAMARONES <- read_csv("CAMARONES.csv", 
    col_types = cols(EstanqueN = col_number(), 
        Superficie = col_number(), Dias = col_number(), 
        Semana = col_number(), PesoAnterior = col_number(), 
        PesoActual = col_number(), TamanioAlimento = col_number(), 
        AlimentoSemana = col_number(), AlimentoDiario = col_number()))
head(CAMARONES)
## # A tibble: 6 x 9
##   EstanqueN Superficie  Dias Semana PesoAnterior PesoActual TamanioAlimento
##       <dbl>      <dbl> <dbl>  <dbl>        <dbl>      <dbl>           <dbl>
## 1         1          5    14      2        0.145      0.77              0.8
## 2         2          5    14      2        0.153      0.780             0.8
## 3         3          5    14      2        0.149      0.69              0.8
## 4         4          5    14      2        0.154      0.72              0.8
## 5         5          5    14      2        0.166      0.61              0.8
## 6         6          5    14      2        0.215      0.62              0.8
## # ... with 2 more variables: AlimentoSemana <dbl>, AlimentoDiario <dbl>
mean(CAMARONES$PesoAnterior)
## [1] 4.253091
mean(CAMARONES$PesoActual)
## [1] 5.28803
median(CAMARONES$PesoAnterior)
## [1] 4.015
median(CAMARONES$PesoActual)
## [1] 4.73
library(modeest)
mfv(CAMARONES$PesoAnterior)
## [1] 0.62 1.32
mfv(CAMARONES$PesoActual)
## [1] 0.62 1.32
summary(CAMARONES$PesoAnterior)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.130   1.550   4.015   4.253   6.338  10.360
summary(CAMARONES$PesoActual)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   2.163   4.730   5.288   7.955  12.260
boxplot(CAMARONES$PesoAnterior)

boxplot(CAMARONES$PesoActual)

var(CAMARONES$PesoAnterior)
## [1] 9.215361
var(CAMARONES$PesoActual)
## [1] 11.49019
sd(CAMARONES$PesoAnterior)
## [1] 3.035681
sd(CAMARONES$PesoActual)
## [1] 3.389719
library(DT)
datatable(CAMARONES)
pairs(CAMARONES)

cor(CAMARONES)
##                    EstanqueN  Superficie      Dias    Semana PesoAnterior
## EstanqueN        1.000000000  0.64775028 0.0000000 0.0000000 -0.003595733
## Superficie       0.647750276  1.00000000 0.0000000 0.0000000 -0.014835076
## Dias             0.000000000  0.00000000 1.0000000 1.0000000  0.983200248
## Semana           0.000000000  0.00000000 1.0000000 1.0000000  0.983200248
## PesoAnterior    -0.003595733 -0.01483508 0.9832002 0.9832002  1.000000000
## PesoActual      -0.001709197 -0.01165829 0.9817825 0.9817825  0.991584125
## TamanioAlimento  0.020039535  0.01237485 0.8275323 0.8275323  0.874347871
## AlimentoSemana   0.068287068  0.07419489 0.9441085 0.9441085  0.951060826
## AlimentoDiario   0.068287068  0.07419489 0.9441085 0.9441085  0.951060826
##                   PesoActual TamanioAlimento AlimentoSemana AlimentoDiario
## EstanqueN       -0.001709197      0.02003953     0.06828707     0.06828707
## Superficie      -0.011658290      0.01237485     0.07419489     0.07419489
## Dias             0.981782519      0.82753233     0.94410854     0.94410854
## Semana           0.981782519      0.82753233     0.94410854     0.94410854
## PesoAnterior     0.991584125      0.87434787     0.95106083     0.95106083
## PesoActual       1.000000000      0.88057691     0.95147028     0.95147028
## TamanioAlimento  0.880576914      1.00000000     0.84842292     0.84842292
## AlimentoSemana   0.951470280      0.84842292     1.00000000     1.00000000
## AlimentoDiario   0.951470280      0.84842292     1.00000000     1.00000000
regresion <- lm(PesoActual ~ AlimentoSemana, data= CAMARONES)
summary(regresion)
## 
## Call:
## lm(formula = PesoActual ~ AlimentoSemana, data = CAMARONES)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3032 -0.6334 -0.0752  0.6261  3.8672 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -1.3517189  0.2092451   -6.46 1.92e-09 ***
## AlimentoSemana  0.0064804  0.0001838   35.25  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.047 on 130 degrees of freedom
## Multiple R-squared:  0.9053, Adjusted R-squared:  0.9046 
## F-statistic:  1243 on 1 and 130 DF,  p-value: < 2.2e-16
plot (CAMARONES$AlimentoSemana, CAMARONES$PesoActual, xlab="Alimento Semanal",ylab="Peso Actual")
abline(regresion)

reg <- glm(AlimentoSemana ~ PesoActual, data = CAMARONES)
summary(reg)
## 
## Call:
## glm(formula = AlimentoSemana ~ PesoActual, data = CAMARONES)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -526.00   -89.86     9.59    90.77   380.46  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  285.864     24.864   11.50   <2e-16 ***
## PesoActual   139.697      3.963   35.25   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 23637.97)
## 
##     Null deviance: 32447689  on 131  degrees of freedom
## Residual deviance:  3072936  on 130  degrees of freedom
## AIC: 1707.9
## 
## Number of Fisher Scoring iterations: 2
datos <- data.frame(PesoActual=seq(0,3000, 2))
probabilidades <- predict(reg, datos, type="response")
colores <- NULL
colores[CAMARONES$PesoActual>=12] <- "green"
colores[CAMARONES$PesoActual<12] <- "red"
plot(CAMARONES$PesoActual, CAMARONES$AlimentoSemana, pch =21, bg= colores, xlab = "Peso Actual",ylab = "Alimento Semanal")

legend("bottomright", c("Peso ideal", "Peso no ideal"),pch =21, col=c("green","red") )
lines(datos$PesoActual, probabilidades, col="blue", lwd=2)