Analisis exploratorio de datos e inferencia estadistica

Para este caso de estudio usaremos datos de un experimento hecho con plantulas en un invernadero de la UANL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante par el desarrollo de las plantas.

Es efectivo el fertilizante? (NPK)

Importar Datos.

library(readr)
plantas <- read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(plantas)
## # A tibble: 6 x 3
##   planta    IE Tratamiento
##    <dbl> <dbl> <chr>      
## 1      1  0.8  Ctrl       
## 2      2  0.66 Ctrl       
## 3      3  0.65 Ctrl       
## 4      4  0.87 Ctrl       
## 5      5  0.63 Ctrl       
## 6      6  0.94 Ctrl

Analisis exploratorio de datos

Aqui generaremos 2 variables, una llamada Fert para los datos de plantulas a las cuales se les dio un tratamiento con NPK y otra llamada Ctrl para las plantas control, o grupo blanco.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma de frecuencia absoluta

En este apartado generaremos histogramas del indice de esbeltez de ambos grupos

  • Grupo de control
hist(Ctrl$IE)

  • Sumario estadistico
summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
  • Grafico de caja y bigote
boxplot(Ctrl$IE)

  • Que tan dispersos o variables son los datos?
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
  • Tabla de distribucion de frecuencias
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(Ctrl$IE)
dist
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00

Grupo de plantulas “Fert”

  • Histograma de frecuencia absoluta
hist(Fert$IE)

summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

Para poder llegar a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o no.

Para esto tenemos las pruebas de normalidad:

Kolmogorov-Smirnov Shapiro-Wilk

Prueba de normalidad de Kolmogorov-Smirnov

ks.test(Ctrl$IE, "pnorm", mean= mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
  • Que tan dispersos o variables son los datos de fert?
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537

Prueba de normalidad de Kolmogorov-Smirnov para fert

ks.test(Fert$IE, "pnorm", mean= mean(Fert$IE), sd=sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided
  • Grafico de caja y bigote para fert
boxplot(Fert$IE)

Conclusiones

  • ¿Que tan diferentes son las poblaciones de FERT y CTRL? Podemos mediante los datos y las gráficas que las poblaciones de fert y ctrl son diferentes en la forma en la que se distribuyen por un lado las plantas sin fertilizante crecen de una forma muy variada mientras que con fertilizante se logra un crecimiento homogéneo

  • ¿Podemos decir que el fertilizante es efectivo ? Sí, no solo se lograron plantas más grandes si no que se logró una distribución más homogénea a diferencia del grupo control que no logra estos resultados.

  • ¿Los datos son normales? Según lo discutido en clase habíamos determinado que los datos eran normales cuando la mayoría de ellos se inclinaba a la media y mientras que CTRL es anormal desde mi punto de visa fert es más homogéneo.