Evaluacion1

Andres

10/12/2020


Primer evaluación de estado de la materia de probabilidad y estadistica para la ingenieria en software

Caso de estudio 1: Acuacultura

Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana numero 2 se empiezan a pesar los camarones en crecimiento, también se cuantifica su nivel de comida.

En términos ideales los 12 estanques tendrina que llegar en la semana número 12 a 12 gramos para poder realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaros a este peso.

¿Por qué esto es un problema? Dado que se tendrá que invertir una semana (o más) para poder llegar al peso ideal, y esto supone una pérdida de dinero.

  • Preguntas a responder
  1. Haga un planteamiento del problema a resolver con estadistica y realice una descripción exploratoria de los datos (MM, MD, CB).

  2. ¿Qué tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?

  3. ¿Con qué variables se relaciona el aumento de peso de los camarones? (Regresion lineal, residuos, confianza)

  4. ¿Los camarones que iniciaron con mayor peso (semana 2) son también los que terminaron en mayor peso? ¿cómo varia el crecimiento?

  5. Realice un análisis de regresion logística para determinar que hace que los camarones llegen a 12 gramos.

Datos

library(readr)
library(DT)
CAMARONES <- read_csv("~/3er Semestre/ProbYEst/CAMARONES.csv", col_types = cols(Semana = col_number(), AlimentoSemana = col_number()))
datatable(CAMARONES)

1.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
#Tabla de distribuciones de frecuencia para Peso actual
dist <- fdt(CAMARONES$PesoActual, breaks = "Sturges")
#Tabla de distribuciones de frecuencia para Peso anterior
dist2 <- fdt(CAMARONES$PesoAnterior, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [0.594,1.9038) 27 0.20 20.45  27  20.45
##  [1.9038,3.2137) 17 0.13 12.88  44  33.33
##  [3.2137,4.5235) 20 0.15 15.15  64  48.48
##  [4.5235,5.8334) 16 0.12 12.12  80  60.61
##  [5.8334,7.1432) 15 0.11 11.36  95  71.97
##  [7.1432,8.4531)  9 0.07  6.82 104  78.79
##  [8.4531,9.7629)  9 0.07  6.82 113  85.61
##  [9.7629,11.073)  8 0.06  6.06 121  91.67
##  [11.073,12.383) 11 0.08  8.33 132 100.00
dist2
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [0.1287,1.277) 24 0.18 18.18  24  18.18
##   [1.277,2.4253) 23 0.17 17.42  47  35.61
##  [2.4253,3.5737) 13 0.10  9.85  60  45.45
##   [3.5737,4.722) 18 0.14 13.64  78  59.09
##   [4.722,5.8703) 15 0.11 11.36  93  70.45
##  [5.8703,7.0186) 13 0.10  9.85 106  80.30
##   [7.0186,8.167)  8 0.06  6.06 114  86.36
##   [8.167,9.3153)  7 0.05  5.30 121  91.67
##  [9.3153,10.464) 11 0.08  8.33 132 100.00

Poligonos de distribucion de frecuencia

#Para peso actual
plot(dist, type = "fp")#Poligono de frec Absoluto

plot(dist, type = "rfp")#   ~    ~    ~  Relativo

plot(dist, type = "cfp")#   ~    ~    ~  Acumulado

#Para peso anterior
plot(dist2, type = "fp")#Poligono de frec Absoluto

plot(dist2, type = "rfp")#   ~    ~    ~  Relativo

plot(dist2, type = "cfp")#   ~    ~    ~  Acumulado

Histogramas de distrubicon de frecuencia

#Para peso actual
plot(dist, type = "fh")#Histograma de frec Absoluto

plot(dist, type = "rfh")#   ~      ~    ~  Relativo

plot(dist, type = "cfh")#   ~      ~    ~  Acumulado

#Para peso anterior
plot(dist2, type = "fh")#Absoluto

plot(dist2, type = "rfh")#Relativo

plot(dist2, type = "cfh")#Acumulado

Media

mean(CAMARONES$PesoActual)
## [1] 5.28803
mean(CAMARONES$PesoAnterior)
## [1] 4.253091

Mediana

median(CAMARONES$PesoActual)
## [1] 4.73
median(CAMARONES$PesoAnterior)
## [1] 4.015

Moda

library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mfv(CAMARONES$PesoActual)
## [1] 0.62 1.32
mfv(CAMARONES$PesoAnterior)
## [1] 0.62 1.32

Cuantiles

summary(CAMARONES$PesoActual)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   2.163   4.730   5.288   7.955  12.260
summary(CAMARONES$PesoAnterior)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.130   1.550   4.015   4.253   6.338  10.360

Gráficos de caja y bigote

boxplot(CAMARONES$PesoActual)

boxplot(CAMARONES$PesoAnterior)

Medidas de dispresión

Amplitud

M <- max(CAMARONES$PesoActual)
m <- min(CAMARONES$PesoAnterior)
Amplitud <- (M - m)
Amplitud
## [1] 12.13

Varianza

var(CAMARONES$PesoActual)
## [1] 11.49019
var(CAMARONES$PesoAnterior)
## [1] 9.215361

Desviación estandar

sd(CAMARONES$PesoActual)
## [1] 3.389719
sd(CAMARONES$PesoAnterior)
## [1] 3.035681

2.

Hubieron 3 estanques que llegaron a los 12 gramos, el estanque N1, el N8 y el N12, estos tienen valores similares en los tamaños de alimento, alimento diario y semanal, teniendo en cuenta que el estanque 11 y 12 tienen de superficie 6.2 y los demas 5, hasta que en la semana 5 el tamaño del alimento de los ultimos 5 estanques aumento en .2, despues fue todo estable hasta la semana 8 que aumentó en los alimentos diarios y semanales en los estanques 1, 2 y 8, en la semana 9 estuvieron variados pero no mucho, no sobrepasaron la diferencia de 20 entre si, en la semana 10 estuvo muy variado los alimentos diarios y semanales hasta el punto de tener una varianza mayor a 30, en la semana 11 estuvo mucho mas variado estos alimentos hasta una varianza de 100, en la ultima semana la semana 12 no hubo tanta varianza, una varianza de 20, aun así solamente el estanque 1, 8 y 12 llegaron a 12 gramos, por lo visto podemos ver que no importa mucho el alimento en las ultimas semanas, el peso va aumentando mas en las semanas del medio.

3.

regresion <- lm(formula=PesoActual ~ AlimentoSemana, data=CAMARONES)
summary(regresion)
## 
## Call:
## lm(formula = PesoActual ~ AlimentoSemana, data = CAMARONES)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3032 -0.6334 -0.0752  0.6261  3.8672 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -1.3517189  0.2092451   -6.46 1.92e-09 ***
## AlimentoSemana  0.0064804  0.0001838   35.25  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.047 on 130 degrees of freedom
## Multiple R-squared:  0.9053, Adjusted R-squared:  0.9046 
## F-statistic:  1243 on 1 and 130 DF,  p-value: < 2.2e-16
plot(CAMARONES$AlimentoSemana, CAMARONES$PesoActual, xlab="Alimento semanal", ylab="PesoActual")
abline(regresion)

Intervalos de confianza

confint(regresion)
##                       2.5 %       97.5 %
## (Intercept)    -1.765685249 -0.937752469
## AlimentoSemana  0.006116723  0.006844102

Analisis de residuos

par(mfrow=c(1,2))
plot(regresion)

4.

No terminaron siendo los del mayor peso, varia segun la semana y el alimento diario y semanal, ya que en la mitad de las semanas se nota mas el crecimiento mediante los alimentos y los tamaños de alimentos.

5.

reg <- glm(AlimentoSemana~PesoActual, data = CAMARONES)
summary(reg)
## 
## Call:
## glm(formula = AlimentoSemana ~ PesoActual, data = CAMARONES)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -526.00   -89.86     9.59    90.77   380.46  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  285.864     24.864   11.50   <2e-16 ***
## PesoActual   139.697      3.963   35.25   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 23637.97)
## 
##     Null deviance: 32447689  on 131  degrees of freedom
## Residual deviance:  3072936  on 130  degrees of freedom
## AIC: 1707.9
## 
## Number of Fisher Scoring iterations: 2
colores <- NULL
colores[CAMARONES$defecto==0] <- "green"
## Warning: Unknown or uninitialised column: `defecto`.
colores[CAMARONES$defecto==1] <- "red"
## Warning: Unknown or uninitialised column: `defecto`.
datos <- data.frame(PesoActual=seq(0,12, 0.1))
probabilidades <- predict(reg, datos, type="response")
plot(CAMARONES$PesoActual,CAMARONES$AlimentoSemana,pch=21, bg=colores, xlab="Peso Actual", ylab="Alimento Semanal")
legend("bottomleft", c("No defecto", "Si defecto"),pch =21, col=c("green","red") )
lines(datos$PesoActual, probabilidades, col="blue", lwd=2)