Primer evaluación de estado de la materia de probabilidad y estadística para ingenierías
Caso de estudio 1: Acuacualtura
Se tienen 12 semanas de datos de 12 estanques en los cuales a partir de la semana númer 2 se empiezan la pesar los camarones en crecimiento, también se cuantifica su nivel de comida.
En términos ideales los 12 estanques tendrían que llegar en la semana número 12 a 12 gramos para poder entonces realizar la ‘cosecha’, pero únicamente 3 de los 12 estanques llegaros a este peso.
¿Por qué esto es un problema? dado que se tendrá que invertir una semana (o más) para poder llegar al peso ideal, y esto supone una pérdida de dinero
- Preguntas a responder
Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratoria de los datos (MMM, MD, CB)
¿Que tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?
3.- ¿Con qué variables se relaciona el aumento de peso de los camarones? (regresión lineal, residuos, confianza)
4.- ¿Los camarones que iniciaron con mayor peso ( semana 2) son también los que terminaron en mayor peso? ¿Cómo varía el crecimiento?
5.- Realice un análisis de regresión logística para determinar que hace que los camarones llegen a 12 gramos.
Datos
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest", "dplyr")
camarones <- read_csv("~/Probabilidadyestadistica/camarones.csv")## Parsed with column specification:
## cols(
## Estanque = col_character(),
## EstanqueN = col_double(),
## Superficie = col_double(),
## Dias = col_double(),
## Semana = col_double(),
## PesoAnterior = col_double(),
## PesoActual = col_double(),
## TamanioAlimento = col_double(),
## AlimentoSemana = col_double(),
## AlimentoDiario = col_double()
## )
1.
Haga un planteamiento del problema a resolver con estadística y realice una descripción exploratoria de los datos (MMM, MD, CB)
MMM
Media
## [1] 4.253091
## [1] 5.28803
## [1] 1024.587
Mediana
## [1] 4.015
## [1] 4.73
## [1] 1060
MD
Varianza
## [1] 9.215361
## [1] 11.49019
## [1] 247692.3
Desviación estándar
## [1] 3.035681
## [1] 3.389719
## [1] 497.6869
La desviación estándar indica qué tan dispersos están los datos con respecto a la media.
Amplitud
Peso Anterior
PanMax <- max(camarones$PesoAnterior)
PanMin <- min(camarones$PesoAnterior)
amppan <- (PanMax- PanMin)
amppan## [1] 10.23
Peso Actual
PacMax <- max(camarones$PesoActual)
PacMin <- min(camarones$PesoActual)
amppac <- (PacMax - PacMin)
amppac## [1] 11.66
Alimento Semanal
AsMax <- max(camarones$AlimentoSemana)
AsMin <- min(camarones$AlimentoSemana)
ampas <- (AsMax - AsMin) #Amplitud del alimento semanal
ampas## [1] 1673
2
¿Que tienen de diferentes los estanques que SI llegaron a 12 gramos en la semana 12 con respecto a los que no?
Al final solo 3 de los 12 estanques llegaron a 12 gramos en la semana 12. No se muestra muchas variaciones en la alimentacion de los diferentes estanques.
3
¿Con qué variables se relaciona el aumento de peso de los camarones? (regresión lineal, residuos, confianza)
## Rows: 132
## Columns: 10
## $ Estanque <chr> "Estanque 1", "Estanque 2", "Estanque 3", "Estanque...
## $ EstanqueN <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, ...
## $ Superficie <dbl> 5.00, 5.00, 5.00, 5.00, 5.00, 5.00, 5.00, 5.00, 5.0...
## $ Dias <dbl> 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 21,...
## $ Semana <dbl> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, ...
## $ PesoAnterior <dbl> 0.145, 0.153, 0.149, 0.154, 0.166, 0.215, 0.220, 0....
## $ PesoActual <dbl> 0.77, 0.78, 0.69, 0.72, 0.61, 0.62, 0.64, 0.62, 0.7...
## $ TamanioAlimento <dbl> 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0.8, 0...
## $ AlimentoSemana <dbl> 402.00, 402.00, 402.00, 402.00, 402.00, 402.00, 402...
## $ AlimentoDiario <dbl> 57.42857, 57.42857, 57.42857, 57.42857, 57.42857, 5...
pesoan <- (camarones$PesoAnterior)
pesoac <- (camarones$PesoActual)
alimentose <- (camarones$AlimentoSemana)
camarones1<- data.frame(pesoan, pesoac, alimentose)## pesoan pesoac alimentose
## Min. : 0.130 Min. : 0.600 Min. : 402
## 1st Qu.: 1.550 1st Qu.: 2.163 1st Qu.: 527
## Median : 4.015 Median : 4.730 Median :1060
## Mean : 4.253 Mean : 5.288 Mean :1025
## 3rd Qu.: 6.338 3rd Qu.: 7.955 3rd Qu.:1329
## Max. :10.360 Max. :12.260 Max. :2075
Matriz de diagramas de dispersión
Podemos observas que se muestra una linea por lo que parece ser que están relacionados
Matriz de diagramas de coeficientes de correlación
## pesoan pesoac alimentose
## pesoan 1.0000000 0.9915841 0.9510608
## pesoac 0.9915841 1.0000000 0.9514703
## alimentose 0.9510608 0.9514703 1.0000000
Prueba de correlación de Pearson
##
## Pearson's product-moment correlation
##
## data: camarones1$alimentose and camarones1$pesoac
## t = 35.252, df = 130, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9321462 0.9653896
## sample estimates:
## cor
## 0.9514703
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(camarones1, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Se puede observar que las tres variables están relacionadas El coeficiente de correlación de pearson es muy alto (0.9514703) y el valor de P es significativo (2.2e-16), esto significa una correlación intensa entre las variables de peso actual y alimento semanal.
Modelo de regresión lineal simple
##
## Call:
## lm(formula = pesoac ~ alimentose, data = camarones1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.3032 -0.6334 -0.0752 0.6261 3.8672
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.3517189 0.2092451 -6.46 1.92e-09 ***
## alimentose 0.0064804 0.0001838 35.25 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.047 on 130 degrees of freedom
## Multiple R-squared: 0.9053, Adjusted R-squared: 0.9046
## F-statistic: 1243 on 1 and 130 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[ y = 1.3517189 + 0.0064804X \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -1.765685249 -0.937752469
## alimentose 0.006116723 0.006844102
Representación grafica del modelo
library(ggplot2)
ggplot(data = camarones1, mapping = aes(x = alimentose, y = pesoac)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Peso actual ~ Alimento semanal", x = "Alimento semanal", y = "Peso actual") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
Análisis de residuos
Contraste de hipótesis (normalidad de los residuos)
Según el método de prueba de Shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.97739, p-value = 0.02667
No se aprecia una tendencia de que los valores residuales realmente afecten a la muestra original, por lo tanto aún sirven en la muestra original
4
¿Los camarones que iniciaron con mayor peso ( semana 2) son también los que terminaron en mayor peso? ¿Cómo varía el crecimiento?
En los resultados finales los camarones se observa que los que iniciaron con mayor peso NO son los que termiaron con mayor peso.
5
Realice un análisis de regresión logística para determinar que hace que los camarones llegen a 12 gramos.
Al final los camarones que tenian menos peso al principio son los que alcanzaron los 12 gramos.