AI4UC1_5

Oscar de Jesus Roman Ruiz

26/9/2021

Analisis exploratorio de datos e inferencia estadística.

Para este caso de estudio usaremos datos de un experimento hecho con plantulas en un invernadero de la UANL en el cual a un grupo de plantulas se les aplicó fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante para el desarrollo de las plantas.

¿Es efectivo el fertilizante? (NPK)

Importar los datos

setwd("~/ESTADISTICA")
library(readr)
plantas <- read.csv("plantas.csv")
head(plantas)
##   planta   IE Tratamiento
## 1      1 0.80        Ctrl
## 2      2 0.66        Ctrl
## 3      3 0.65        Ctrl
## 4      4 0.87        Ctrl
## 5      5 0.63        Ctrl
## 6      6 0.94        Ctrl

Analisis exploratorio de datos

Aqui generaremos 2 variables, una llamada Fert para los datos de plantulas a las cuales se les dio un tratamiento con NPK y otra llamada Ctrl para las plantas control, o grupo blanco.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma de frecuencia absoluta.

En este apartado generaremos histogramas del indice de esbeltez de ambos grupos. Si el indice de esbeltez es alto significa que las plantas están más desarrolladas, caso contrario con un indice de esbeltez bajo.

  • Grupo de control
hist(Ctrl$IE)

  • Sumario estadistico
summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
  • Grafico de caja y bigotes
boxplot(Ctrl$IE)

  • ¿Qué tan dispersos o variables son los datos?
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
  • Tabla de distribución de frecuencias
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(Ctrl$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00

Para poder llegar a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribución de los datos es NORMAL o no.

Para esto tenemos las pruebas de normalidad:

  • Kolmogorov-Smirnov
  • Shapiro-Wilk

Prueba de normalidad de Kolmogorov-Smirnov

ks.test(Ctrl$IE, "pnorm", mean= mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
  • Prueba de normalidad de Shapiro-Wilk.
shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908

Histograma de frecuencia absoluta.

  • Grupo de plantulas Fert
hist(Fert$IE)

  • Sumario estadistico
summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600
  • Grafico de caja y bigotes
boxplot(Fert$IE)

  • ¿Qué tan dispersos o variables son los datos?
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537
  • Tabla de distribución de frecuencias
library(fdth)
distF <- fdt(Fert$IE)
distF
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00
  • Prueba de normalidad de Kolmogorov-Smirnov
ks.test(Fert$IE, "pnorm", mean= mean(Fert$IE), sd=sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided
  • Prueba de normalidad de Shapiro-Wilk.
shapiro.test(Fert$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Fert$IE
## W = 0.95339, p-value = 0.3941

Conclusiones

¿Qué tan diferentes son las poblaciones de FERT y CTRL?

Rapidamente se puede observar que las poblaciones cambian mucho en base al uso de fertlizante. Para las poblaciones de control, se muestra un desarrollo poco controlado, con crecimiento variado entre los rangos, concentrandose más en los extremos. Por otro lado se ve un desarrollo de las plantas mejor en la poblacion FERT, siendo sus indices de esbeltez más cercanos a uno, concentrandose los datos más hacia este punto.

¿Podemos decir que el fertilizante es efectivo?

Si, en este análisis se observa que el fertlizante es altamente efectivo para el desarrollo de las plantas, llevando un crecimiento controlado y regulado, apuntando siempre a las plantas con la mayor calidad.

¿Los datos son normales?

Existe un grado de variabilidad considerable en los datos, mientras que las plantas Fert se nota poca variabilidad y mucha uniformidad, las plantas Ctrl demuestran exactamente lo contrario, por lo tanto me parece que los datos son normales para las plantas Fert y no para las Ctrl. Pero tomando en cuenta las pruebas de normalidad, no podemos saber si son completamente normales hasta tener más datos con los que trabajar.