U1EV1

Silvia Flores

14/10/2020

setwd("~/Probabilidadyestadistica")

Primer evaluación de estado de la materia de probabilidad y estadística para ingenierías

Caso de estudio 1: Acuacualtura

Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana númer 2 se empiezan la pesar los camarones en crecimiento, también se cuantifica su nivel de comida.

En términos ideales los 12 estanques tendrían que llegar en la semana número 12 a 12 gramos para poder entonces realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaros a este peso.

¿Por qué esto es un problema? dado que se tendrá que invertir una semana (o más) para poder llegar al peso ideal, y esto supone una pérdida de dinero

  • Preguntas a responder
  1. Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratoria de los datos (MMM, MD, CB)

  2. ¿Que tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?

3.- ¿Con qué variables se relaciona el aumento de peso de los camarones? (regresión lineal, residuos, confianza)

4.- ¿Los camarones que iniciaron con mayor peso ( semana 2) son también los que terminaron en mayor peso? ¿Cómo varía el crecimiento?

5.- Realice un análisis de regresión logística para determinar que hace que los camarones llegen a 12 gramos.

Datos

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest", "dplyr")
camarones <- read_csv("~/Probabilidadyestadistica/camarones.csv")
## Parsed with column specification:
## cols(
##   Estanque = col_character(),
##   EstanqueN = col_double(),
##   Superficie = col_double(),
##   Dias = col_double(),
##   Semana = col_double(),
##   PesoAnterior = col_double(),
##   PesoActual = col_double(),
##   TamanioAlimento = col_double(),
##   AlimentoSemana = col_double(),
##   AlimentoDiario = col_double()
## )
datatable(camarones)

1.

Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratoria de los datos (MMM, MD, CB)

MMM

Media

mean(camarones$PesoAnterior) #Media de peso anterior
## [1] 4.253091
mean(camarones$PesoActual) #Media de peso actual
## [1] 5.28803
mean(camarones$AlimentoSemana) #Media de alimento semanal
## [1] 1024.587

Mediana

median(camarones$PesoAnterior) #Mediana del peso anterior
## [1] 4.015
median(camarones$PesoActual) #Mediana del peso actual
## [1] 4.73
median(camarones$AlimentoSemana) #Mediana del alimento semanal
## [1] 1060

Moda

mfv(camarones$PesoAnterior) #moda del peso anterior
## [1] 0.62 1.32
mfv(camarones$PesoActual) #moda del peso actual
## [1] 0.62 1.32
mfv(camarones$AlimentoSemana) #moda del alimento semanal
## [1] 1060

MD

Varianza

var(camarones$PesoAnterior) #varianza del peso anterior
## [1] 9.215361
var(camarones$PesoActual) #varianza del peso actual
## [1] 11.49019
var(camarones$AlimentoSemana) #varianza del alimento semanal
## [1] 247692.3

Desviación estándar

sd(camarones$PesoAnterior) #moda del peso anterior
## [1] 3.035681
sd(camarones$PesoActual) #moda del peso actual
## [1] 3.389719
sd(camarones$AlimentoSemana) #moda del alimento semanal
## [1] 497.6869

La desviación estándar indica qué tan dispersos están los datos con respecto a la media.

Amplitud

Peso Anterior

PanMax <- max(camarones$PesoAnterior)
PanMin <- min(camarones$PesoAnterior)

amppan <- (PanMax- PanMin)
amppan
## [1] 10.23

Peso Actual

PacMax <- max(camarones$PesoActual)
PacMin <- min(camarones$PesoActual)

amppac <- (PacMax - PacMin)
amppac
## [1] 11.66

Alimento Semanal

AsMax <- max(camarones$AlimentoSemana)
AsMin <- min(camarones$AlimentoSemana)

ampas <- (AsMax - AsMin)  #Amplitud del alimento semanal
ampas
## [1] 1673

CB

boxplot(camarones$PesoAnterior,
        main = "Caja de bigotes del peso anterior")

boxplot(camarones$PesoActual,
        main = "Caja de bigotes del peso actual")

boxplot(camarones$AlimentoSemana,
        main = "Caja de bigotes del alimento semanal")

2

¿Que tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?

Al final solo 3 de los 12 estanques llegaron a 12 gramos en la semana 12. No se muestra muchas variaciones en la alimentacion de los diferentes estanques.

3

¿Con qué variables se relaciona el aumento de peso de los camarones? (regresión lineal, residuos, confianza)

glimpse(camarones)
## Rows: 132
## Columns: 10
## $ Estanque        <chr> "Estanque 1", "Estanque 2", "Estanque 3", "Estanque...
## $ EstanqueN       <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, ...
## $ Superficie      <dbl> 5.00, 5.00, 5.00, 5.00, 5.00, 5.00, 5.00, 5.00, 5.0...
## $ Dias            <dbl> 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 21,...
## $ Semana          <dbl> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, ...
## $ PesoAnterior    <dbl> 0.145, 0.153, 0.149, 0.154, 0.166, 0.215, 0.220, 0....
## $ PesoActual      <dbl> 0.77, 0.78, 0.69, 0.72, 0.61, 0.62, 0.64, 0.62, 0.7...
## $ TamanioAlimento <dbl> 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0...
## $ AlimentoSemana  <dbl> 402.00, 402.00, 402.00, 402.00, 402.00, 402.00, 402...
## $ AlimentoDiario  <dbl> 57.42857, 57.42857, 57.42857, 57.42857, 57.42857, 5...
pesoan <- (camarones$PesoAnterior)
pesoac <- (camarones$PesoActual)
alimentose <- (camarones$AlimentoSemana)
camarones1<- data.frame(pesoan, pesoac, alimentose)
summary(camarones1)
##      pesoan           pesoac         alimentose  
##  Min.   : 0.130   Min.   : 0.600   Min.   : 402  
##  1st Qu.: 1.550   1st Qu.: 2.163   1st Qu.: 527  
##  Median : 4.015   Median : 4.730   Median :1060  
##  Mean   : 4.253   Mean   : 5.288   Mean   :1025  
##  3rd Qu.: 6.338   3rd Qu.: 7.955   3rd Qu.:1329  
##  Max.   :10.360   Max.   :12.260   Max.   :2075

Matriz de diagramas de dispersión

pairs(camarones1)

Podemos observas que se muestra una linea por lo que parece ser que están relacionados

Matriz de diagramas de coeficientes de correlación

cor(camarones1)
##               pesoan    pesoac alimentose
## pesoan     1.0000000 0.9915841  0.9510608
## pesoac     0.9915841 1.0000000  0.9514703
## alimentose 0.9510608 0.9514703  1.0000000

Prueba de correlación de Pearson

cor.test(x = camarones1$alimentose, y = camarones1$pesoac,  method = "pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  camarones1$alimentose and camarones1$pesoac
## t = 35.252, df = 130, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9321462 0.9653896
## sample estimates:
##       cor 
## 0.9514703
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(camarones1, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se puede observar que las tres variables están relacionadas El coeficiente de correlación de pearson es muy alto (0.9514703) y el valor de P es significativo (2.2e-16), esto significa una correlación intensa entre las variables de peso actual y alimento semanal.

Modelo de regresión lineal simple

modelo.lineal <- lm(pesoac ~ alimentose, data= camarones1)
summary(modelo.lineal)
## 
## Call:
## lm(formula = pesoac ~ alimentose, data = camarones1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3032 -0.6334 -0.0752  0.6261  3.8672 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.3517189  0.2092451   -6.46 1.92e-09 ***
## alimentose   0.0064804  0.0001838   35.25  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.047 on 130 degrees of freedom
## Multiple R-squared:  0.9053, Adjusted R-squared:  0.9046 
## F-statistic:  1243 on 1 and 130 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados

\[ y = 1.3517189 + 0.0064804X \]

Intervalos de confianza

confint(modelo.lineal)
##                    2.5 %       97.5 %
## (Intercept) -1.765685249 -0.937752469
## alimentose   0.006116723  0.006844102

Representación grafica del modelo

library(ggplot2)
ggplot(data = camarones1, mapping = aes(x = alimentose, y = pesoac)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Peso actual ~ Alimento semanal", x = "Alimento semanal", y = "Peso actual") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) 
## `geom_smooth()` using formula 'y ~ x'

Análisis de residuos

par(mfrow =c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97739, p-value = 0.02667

No se aprecia una tendencia de que los valores residuales realmente afecten a la muestra original, por lo tanto aún sirven en la muestra original

4

¿Los camarones que iniciaron con mayor peso ( semana 2) son también los que terminaron en mayor peso? ¿Cómo varía el crecimiento?

En los resultados finales los camarones se observa que los que iniciaron con mayor peso NO son los que termiaron con mayor peso.

5

Realice un análisis de regresión logística para determinar que hace que los camarones llegen a 12 gramos.

Al final los camarones que tenian menos peso al principio son los que alcanzaron los 12 gramos.