Analisis explotratorio de datos e interferencia estadistica

Para este caso de estudio usaremos datos de un experimento hecho con plantulas en in invernadero de la UANL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante par el desarrollo de las plantas.

Es efectivo el fertilizante? (NPK)

setwd
## function (dir) 
## .Internal(setwd(dir))
## <bytecode: 0x0000000012d8dc90>
## <environment: namespace:base>
library(readr)
plantas <- read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

Analisis exploratorio de datos

Aqui generaremos 2 variable, una llamada Fert para los datos de plantulas a las cuales se les dio un tratamiento con NPK y otra llamada Ctrl para las plantas control, o grupo blanco.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma de frecuencua absoluta

En este apartado generaremos histogramas del indice esbeltez de ambos grupos

  • Grupo de control (Ctrl)
hist(Ctrl$IE)

* Grupo de control (Fert)

hist(Fert$IE)

  • Sumario estadistico (Ctrl)
summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
  • Sumario estadistico (Fert)
summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600
  • Grafico de caja y bigotes (Ctrl)
boxplot(Ctrl$IE)

  • Grafico de caja y bigotes (Fert)
boxplot(Fert$IE)

  • Que tan dispersos o variable son lo datos? (Ctrl)
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
  • Que tan dispersos o variable son lo datos? (Fert)
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537
  • Tabla de distribucion de frecuencia (Ctrl)
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(Ctrl$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00
  • Tabla de distribucion de frecuencia (Fert)
library(fdth)
dist <- fdt(Fert$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00

Grupo de plantulas “Fert”

  • Histograma de frecuencia absoluta
Fert <- subset(plantas, Tratamiento == "Fert")
hist(Fert$IE)

Grupo de plantulas “Ctrl”

  • Histograma de frecuencia absoluta
Ctrl <- subset(plantas, Tratamiento == "Ctrl")
hist(Ctrl$IE)

Para poder llegar a una conclusion al respecto de los datos necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o no.

Para esto tenemos las pruebas del normalidad:

  • Kolmogrov-Smirnov
  • Shapira-Wilk

Prueba de normalidad de Kolmogrov-Smirnov (Ctrl)

ks.test(Ctrl$IE, "pnorm", mean= mean(Ctrl$IE), sd = sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided

Prueba de normalidad de Kolmogrov-Smirnov (Fert)

ks.test(Fert$IE, "pnorm", mean= mean(Fert$IE), sd = sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided

Conclusiones:

  • ¿Que tan diferentes son las poblaciones de FERT y CTRL?

Se pueden apreciar diferencias a simple vista, debido a que un grupo de plantulas recibe un estimulo quimico para incentivarlas a desarrollarse mas rapido y optimo, es este caso el fertilizante NPK, las diferencias entre el grupo que recibe el fertilizante y el grupo que no lo recibe son muy notarias, tanto como la velocidad de crecimiento como la uniformidad en la que lo hace. Si bien en el grupo que recibe el fertilizante se puede apreciar que crecen a la par y sin diferencias muy alarmantes, podemos percatarnos en el histogramas del grupo sin fertilizante que su desarrollo es totalmente irregular y con frecuencias bastante dispersas, ademas de que no gravita muy cerca que digamos de la mediana de los datos, lo cual no sucede en el histograma del grupo Fert.

  • ¿Podemos decir que el fertilzante es efectivo ?

Concluyo que el fertilizante es claramente funcional y efectivo; haciendo una comparacion entre grupos de plantulas, el grupo con fertilizante va bastante sobrado con respecto a calidad y uniformidad de desarrollo, a diferencia del grupo sin fertilizante.

  • ¿Los datos son normales ?

Considero que los datos recaudados son medianamente normales, debido a que los grupos estan totalmente dicotomizada, podria determinar que los datos que arroja el grupo de plantulas con fertilizante son bastante regulares, en cambio el grupo sin fertilizante varia demasiado, es por eso que finalmente creo que los datos son normales hasta cierto punto.