Analisis exploratorio de datos e inferencia estadistica

Para este caso de estudio usaremos datos de experimentos hecho con plantas en un invernadero de la UNNL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante par el desarrollo de las plantas.

Importar datos

setwd("~/ESTADISTICA")
library(readr)
plantas <- read.csv("plantas.csv")

Analisis exploratorio de datos

Aqui generaremos 2 variables, una llamada fert para los datos de plantula a las cuales se les dio un tratamiento con NPK y otro llamado ctrl para las plantas control o grupo blanco

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histrograma de frecuencia absoluta

Aqui se generan los histogramas del indice de esbeltez de ambos grupos de plantas en situaciones diferentes

Plantas solo con agua en entorno controlado

hist(Ctrl$IE)

Plantas con fertilizante

hist(Fert$IE)

Sumario estadistico

Plantas solo con agua en entorno controlado

summary(Ctrl$IE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500

Plantas con fertilizante

summary(Fert$IE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

Grafica de caja y bigote

Plantas solo con agua en entorno controlado

boxplot(Ctrl$IE)

Plantas con fertilizante

boxplot(Fert$IE)

Que tan variables son los datos solo con agua en entorno controlado?

var(Ctrl$IE)

## [1] 0.01329905

sd(Ctrl$IE)

## [1] 0.1153215

Que tan variables son los datos con fertilizante?

var(Fert$IE)

## [1] 0.03238333

sd(Fert$IE)

## [1] 0.1799537

Tabla de distribucion de frecuencias para los datos solo con agua en entorno controlado

library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

dist<-fdt(Ctrl$IE)
dist

##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00

Tabla de distribucion de frecuencias para los datos con fertilizante

library(fdth)
dist<-fdt(Fert$IE)
dist

##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00

Pruebas de normalidad

Para poder llegara a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o no.

Para esto tenemos las pruebas de normalidad:

Kolmogorov-Smirnov
Shapiro-Wilk
Prueba de normalidad de Kolmogrov-Smirnov para los datos solo con agua en entorno controlado

ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE))

## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided

Prueba de normalidad de Kolmogrov-Smirnov para los datos con fertilizante

ks.test(Fert$IE, "pnorm", mean=mean(Fert$IE), sd=sd(Fert$IE))

## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided

Prueba de normalidad de Shapiro-Wilk para los datos solo con agua en entorno controlado

shapiro.test(Ctrl$IE)

## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908

Prueba de normalidad de Shapiro-Wilk para los datos con fertilizante

shapiro.test(Fert$IE)

## 
##  Shapiro-Wilk normality test
## 
## data:  Fert$IE
## W = 0.95339, p-value = 0.3941

Conclusión

¿Que tan diferentes son las poblaciones de FERT y CTRL? Son muy diferentes porque la que si tiene fertilizante es mucho mas estable y normal ya que como se puede ver en el histograma esta todo muy parejo, mientras que en el que no tiene fertilizante se puede observar que hay una gran varianza en los datos.

¿Podemos decir que el fertilzante es efectivo? Si ya que gracias a este los datos son mucho mas normales y estables ademas que el promedio de los datos son mucho mayores con fertilizante.

¿Los datos son normales? Los datos que tienen fertilizante si lo son porque como dijimos estos son parejos mientras que los datos sin fertilizante no lo son.

AI4UC1_5

Fernando Bocardo

27/09/2021

Analisis exploratorio de datos e inferencia estadistica

Importar datos