Analisis exploratorio de datos e inferencia estadística.

Para este caso de estudio usaremos datos de un experimento hecho con plantulas en un invernadero de la UANL en el cual a un grupo de plantulas se les aplicó fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante para el desarrollo de las plantas.

¿Es efectivo el fertilizante? (NPK)

Importar los datos

setwd("~/ESTADISTICA")
library(readr)
plantas <- read.csv("plantas.csv")
head(plantas)

##   planta   IE Tratamiento
## 1      1 0.80        Ctrl
## 2      2 0.66        Ctrl
## 3      3 0.65        Ctrl
## 4      4 0.87        Ctrl
## 5      5 0.63        Ctrl
## 6      6 0.94        Ctrl

Analisis exploratorio de datos

Aqui generaremos 2 variables, una llamada Fert para los datos de plantulas a las cuales se les dio un tratamiento con NPK y otra llamada Ctrl para las plantas control, o grupo blanco.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma de frecuencia absoluta.

En este apartado generaremos histogramas del indice de esbeltez de ambos grupos. Si el indice de esbeltez es alto significa que las plantas están más desarrolladas, caso contrario con un indice de esbeltez bajo.

Grupo de control

hist(Ctrl$IE)

Sumario estadistico

summary(Ctrl$IE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500

Grafico de caja y bigotes

boxplot(Ctrl$IE)

¿Qué tan dispersos o variables son los datos?

var(Ctrl$IE)

## [1] 0.01329905

sd(Ctrl$IE)

## [1] 0.1153215

Tabla de distribución de frecuencias

library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

dist <- fdt(Ctrl$IE)
dist

##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00

Para poder llegar a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribución de los datos es NORMAL o no.

Para esto tenemos las pruebas de normalidad:

Kolmogorov-Smirnov
Shapiro-Wilk

Prueba de normalidad de Kolmogorov-Smirnov

ks.test(Ctrl$IE, "pnorm", mean= mean(Ctrl$IE), sd=sd(Ctrl$IE))

## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided

Prueba de normalidad de Shapiro-Wilk.

shapiro.test(Ctrl$IE)

## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908

Histograma de frecuencia absoluta.

Grupo de plantulas Fert

hist(Fert$IE)

Sumario estadistico

summary(Fert$IE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

Grafico de caja y bigotes

boxplot(Fert$IE)

¿Qué tan dispersos o variables son los datos?

var(Fert$IE)

## [1] 0.03238333

sd(Fert$IE)

## [1] 0.1799537

Tabla de distribución de frecuencias

library(fdth)
distF <- fdt(Fert$IE)
distF

##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00

Prueba de normalidad de Kolmogorov-Smirnov

ks.test(Fert$IE, "pnorm", mean= mean(Fert$IE), sd=sd(Fert$IE))

## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided

Prueba de normalidad de Shapiro-Wilk.

shapiro.test(Fert$IE)

## 
##  Shapiro-Wilk normality test
## 
## data:  Fert$IE
## W = 0.95339, p-value = 0.3941

Conclusiones

¿Qué tan diferentes son las poblaciones de FERT y CTRL?

Rapidamente se puede observar que las poblaciones cambian mucho en base al uso de fertlizante. Para las poblaciones de control, se muestra un desarrollo poco controlado, con crecimiento variado entre los rangos, concentrandose más en los extremos. Por otro lado se ve un desarrollo de las plantas mejor en la poblacion FERT, siendo sus indices de esbeltez más cercanos a uno, concentrandose los datos más hacia este punto.

¿Podemos decir que el fertilizante es efectivo?

Si, en este análisis se observa que el fertlizante es altamente efectivo para el desarrollo de las plantas, llevando un crecimiento controlado y regulado, apuntando siempre a las plantas con la mayor calidad.

¿Los datos son normales?

Existe un grado de variabilidad considerable en los datos, mientras que las plantas Fert se nota poca variabilidad y mucha uniformidad, las plantas Ctrl demuestran exactamente lo contrario, por lo tanto me parece que los datos son normales para las plantas Fert y no para las Ctrl. Pero tomando en cuenta las pruebas de normalidad, no podemos saber si son completamente normales hasta tener más datos con los que trabajar.

AI4UC1_5

Oscar de Jesus Roman Ruiz

26/9/2021

Analisis exploratorio de datos e inferencia estadística.

Importar los datos

Analisis exploratorio de datos

Histograma de frecuencia absoluta.

Histograma de frecuencia absoluta.

Conclusiones

¿Qué tan diferentes son las poblaciones de FERT y CTRL?

¿Podemos decir que el fertilizante es efectivo?

¿Los datos son normales?