#Analisis exploratorio de datos e inferencia estadistica
Para este caso de estudio usaremos datos de experimentos hecho con plantas en un invernadero de la UNNL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante par el desarrollo de las plantas.
##Importar datos
setwd("~/R/ESTADISTICA")
library(readr)
plantas <- read.csv("plantas.csv")
Aqui generaremos 2 variables, una llamada fert para los datos de plantula a las cuales se les dio un tratamiento con NPK y otro llamado ctrl para las plantas control o grupo blanco
Ctrl<-subset(plantas, Tratamiento =="Ctrl")
Fert<-subset(plantas, Tratamiento =="Fert")
En esta parte generaremos histogramas del indice de esbeltez de ambos grupos
hist(Ctrl$IE)
hist(Fert$IE)
Sumario estadistico
summary(Ctrl$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5500 0.7000 0.7700 0.7676 0.8700 0.9500
summary(Fert$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5600 0.7800 0.9100 0.9067 1.0400 1.1600
boxplot(Ctrl$IE)
boxplot(Fert$IE)
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
dist<-fdt(Ctrl$IE)
dist
## Class limits f rf rf(%) cf cf(%)
## [0.5445,0.6137) 1 0.05 4.76 1 4.76
## [0.6137,0.6828) 4 0.19 19.05 5 23.81
## [0.6828,0.752) 4 0.19 19.05 9 42.86
## [0.752,0.8212) 6 0.29 28.57 15 71.43
## [0.8212,0.8903) 1 0.05 4.76 16 76.19
## [0.8903,0.9595) 5 0.24 23.81 21 100.00
library(fdth)
dist<-fdt(Fert$IE)
dist
## Class limits f rf rf(%) cf cf(%)
## [0.5544,0.6573) 2 0.10 9.52 2 9.52
## [0.6573,0.7601) 3 0.14 14.29 5 23.81
## [0.7601,0.863) 2 0.10 9.52 7 33.33
## [0.863,0.9659) 6 0.29 28.57 13 61.90
## [0.9659,1.069) 3 0.14 14.29 16 76.19
## [1.069,1.172) 5 0.24 23.81 21 100.00
hist(Fert$IE)
hist(Ctrl$IE)
Para poder llegara a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoria de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o no.
Para esto tenemos las pruebas de normalidad:
Prueba de normaliadad de Kolmogrov-Smirnov para Ctrl
ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
Prueba de normaliadad de Kolmogrov-Smirnov para Fert
ks.test(Fert$IE, "pnorm", mean=mean(Fert$IE), sd=sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided
Prueba de normalidad de Shapiro-Wilk para los datos con fertilizante
shapiro.test(Fert$IE)
##
## Shapiro-Wilk normality test
##
## data: Fert$IE
## W = 0.95339, p-value = 0.3941
Prueba de normalidad de Shapiro-Wilk para los datos solo con agua en entorno controlado
shapiro.test(Ctrl$IE)
##
## Shapiro-Wilk normality test
##
## data: Ctrl$IE
## W = 0.9532, p-value = 0.3908
Que tan diferentes son las poblaciones de FERT y CTRL? Como se puede observar en los diagramas si se puede notar una gran diferencia entre los 2 tipos de poblacion de plantas, ya que la que tiene fertilizante se ve los datos mas normales y estables que los que no tienen fertilzante.
Podemos decir que el fertilzante es efectivo? Se puede decir que si es efectivo el fertilzante, ya que como se puede observar los datos son mas uniformes que las plantas que no tienen fertilzante.
Los datos son normales? Con los datos dados y con la grafica se puede decir que los datos normales son los que tienen fertilzante ya que tiene unos datos mas parejos que los que no tienen nada.