ANALISIS EXPLORATORIO DE DATOS E INFERENCIA ESTADISTICA

Para este caso de estudio usaremos datos de un experimento hecho con plantulas en un invernadero de la UANL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante par el desarrollo de las plantas.

Es efectivo el fertilizante? (NPK)

library(readr)
plantas <- read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(plantas)
head(plantas)
## # A tibble: 6 x 3
##   planta    IE Tratamiento
##    <dbl> <dbl> <chr>      
## 1      1  0.8  Ctrl       
## 2      2  0.66 Ctrl       
## 3      3  0.65 Ctrl       
## 4      4  0.87 Ctrl       
## 5      5  0.63 Ctrl       
## 6      6  0.94 Ctrl

Analisis exploratorio de datos

Aqui generaremos 2 variables, una llamada Fert para los datos de plantulas a las cuales se les dio un tratamiento con NPK y otra llamada Ctrl para las plantas control, o grupo blanco.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma de frecuencia absoluta

En este apartado generaremos histogramas del indice de esbeltez de ambos grupos

hist(Ctrl$IE)

Sumario estadistico

summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500

Grafico de caja y bigote

boxplot(Ctrl$IE)

  • Que tan dispersos o variables son los datos?
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(Ctrl$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00

Para poder llegar a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o no.

Para esto tenemos las pruebas de normalidad:

  • Kolmogorov-Smirnov
  • Shapiro-Wilk

Prueba de normalidad de Kolmogorov-Smirnov de Control

ks.test(Ctrl$IE, "pnorm", mean= mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided

Grupo de plantulas “Fert”

hist(Fert$IE)

summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

Grafico de caja y bigote FERT

boxplot(Fert$IE)

  • Que tan dispersos o variables son los datos?
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537
dist <- fdt(Fert$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00

Prueba de normalidad de Kolmogorov-Smirnov FERT

ks.test(Fert$IE, "pnorm", mean= mean(Fert$IE), sd=sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided

Preguntas

En el caso del grupo de control podemos observar que los resultados tienden a variar mucho, esto es de esperarse en un entorno natural, mientras que el grupo con fertilizante mantuvo un crecimiento mucho más uniforme y alto.

El grupo con fertilizante demostró tener un crecimiento mucho más uniforme, dada la naturaleza de la cuestión, podemos decir que en efecto el fertilizante es efectivo.

Se puede decir que los datos capturados en el grupo de control son normales, mientras que los del grupo con fertilizante no son normales en un entorno natural, son de esperarse considerando el tratamiento mencionado.