Análisis exploratorio de datos e inferencia estadística,

Para este caso de estudio usaremos datos de un experimento hecho con plantulas en un invernadero de la UANL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante para el desarrollo de las plantas.

Importar datos

library(readr)
plantas <- read.csv("plantas.csv")
head(plantas)
##   planta   IE Tratamiento
## 1      1 0.80        Ctrl
## 2      2 0.66        Ctrl
## 3      3 0.65        Ctrl
## 4      4 0.87        Ctrl
## 5      5 0.63        Ctrl
## 6      6 0.94        Ctrl
Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma de frecuencia absoluta.

  • Grupo de control.
hist(Ctrl$IE)

  • Sumario estadístico.
summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
  • Gráfico de caja y bigotes.
boxplot(Ctrl$IE)

  • ¿ Qué tan diversos están los datos?
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
  • Tabla de distribución de frecuencias.
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(Ctrl$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00

Para poder llegar a una conclusión al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribución de los datos es NORMAL o no.

Para esto tenemos las pruebas de normalidad:

Kolmogorov-Smirnov Shapiro-Wilk

  • Prueba de normalidad de Kolmogorov-Smirnov en control.
ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd = sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
  • Prueba de normalidad de Shapiro-Wilk.
shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908

Grupo de plantulas Fert.

  • Histrograma de frecuencia absoluta.
hist(Fert$IE)

* Sumario estadistico.

summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600
  • Gráfico de caja y bigotes.
boxplot(Fert$IE)

  • ¿Qué tan dispersos o variables son los datos.
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537
  • Tabla de distribución de frecuencias
library (fdth)
distF <- fdt(Fert$IE)
distF
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00
  • Prueba de normalidad de Kolmogorov-Smirnov en Fertilizante
ks.test(Fert$IE, "pnorm", mean=mean(Fert$IE), sd = sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided
  • Prueba de normalidad de Shapiro-Wilk en Fertilizante.
shapiro.test(Fert$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Fert$IE
## W = 0.95339, p-value = 0.3941

Conclusiones:

  • ¿Qué tan diferentes son las poblaciones de FERT y CTRL?

La principal diferencia entre estas poblaciones es su disperción, ya que cada una se distribuye en distintas regiones. Por ejemplo, la población de CTRL se distribuye principalmente en sus extremos, por lo que se deduce que sus datos no son normales. Mientras que la población de FERT sus datos se distibuyen de manera más concentrada en el centro, de manera que podemos asumir que sus datos son más normales.

  • ¿Podemos decir que el fertilizante es efectivo?

De acuerdo con los datos analizados, podemos concluir que el uso de fertilizante si es muy efectivo, ya que permite que las plantas tengan un desarrollo constante y controlado.

  • ¿Los datos son normales?

Podemos decir que los datos de CTRL no son normales, ya que presentan mucha variación, es decir, están alejados de la media, sin embargo, los datos de FERT si son normales, ya que por el contrario su distribucón se encuentra más concentrada en el centro.