#Analisis exploratorio de datos e inferencia estadistica (Problema con mi código, terminé todo el documento pero no me esta tejiendo todo) Para este caso de estudio usaremos datos de un experimento hecho con plantulas en un invernadero de la UANL en el cual a un grupo de plantulas se les aplico fertilizante y a otro grupo no. El objetivo de esto es conocer que tan efectivo es el fertilizante para el desarrollo de las plantas. ¿Es efectivo el fertilizante? (NPK)
##IMPORTAR DATOS
setwd("~/ESTADISTICA")
library(readr)
plantas <- read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(plantas)
##Analisis exploratorio de datos
Aqui generaremos 2 variables, una llamada “Fert” para los datos de plantulas a las cuales se les dio un tratamiento con NPK y otra variable llamada “Ctrl” para las plantas control o grupo blanco.
Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")
##Histograma de frecuencia absoluta
En este apartado generaremos histogramas del indice de esbeltez de ambos grupos
*Grupo de control
hist(Ctrl$IE)
Sumario estadistico
Analisis de cuantiles
summary(Ctrl$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5500 0.7000 0.7700 0.7676 0.8700 0.9500
*Grafico de caja de bigote
boxplot(Ctrl$IE)
*¿Qué tan dispersos o variables son los datos? 1.- varianza 2.- division estandar
var(Ctrl$IE)
## [1] 0.01329905
sd(Ctrl$IE)
## [1] 0.1153215
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(Ctrl$IE)
dist
## Class limits f rf rf(%) cf cf(%)
## [0.5445,0.6137) 1 0.05 4.76 1 4.76
## [0.6137,0.6828) 4 0.19 19.05 5 23.81
## [0.6828,0.752) 4 0.19 19.05 9 42.86
## [0.752,0.8212) 6 0.29 28.57 15 71.43
## [0.8212,0.8903) 1 0.05 4.76 16 76.19
## [0.8903,0.9595) 5 0.24 23.81 21 100.00
##Grupo de plantulas “Fert”
*Histograma de frecuencia absoluta
hist(Fert$IE)
summary(Fert$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5600 0.7800 0.9100 0.9067 1.0400 1.1600
Para poder llegar a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoría de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o NO.
Para esto tenemos las pruebas de normalidad:
Kolmogrov-Smirnov Shapiro-Wilk
Prueba de normalidad de Kolmogorov-Smirnov
ks.test(Ctrl$IE, "pnorm", mean= mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
##Histograma de frecuencia absoluta
En este apartado generaremos histogramas del indice de esbeltez de ambos grupos
*Grupo de control
hist(Fert$IE)
Sumario estadistico
Analisis de cuantiles
summary(Fert$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5600 0.7800 0.9100 0.9067 1.0400 1.1600
*Grafico de caja de bigote
boxplot(Fert$IE)
*¿Qué tan dispersos o variables son los datos? 1.- varianza 2.- division estandar
var(Fert$IE)
## [1] 0.03238333
sd(Fert$IE)
## [1] 0.1799537
library(fdth)
dist <- fdt(Fert$IE)
dist
## Class limits f rf rf(%) cf cf(%)
## [0.5544,0.6573) 2 0.10 9.52 2 9.52
## [0.6573,0.7601) 3 0.14 14.29 5 23.81
## [0.7601,0.863) 2 0.10 9.52 7 33.33
## [0.863,0.9659) 6 0.29 28.57 13 61.90
## [0.9659,1.069) 3 0.14 14.29 16 76.19
## [1.069,1.172) 5 0.24 23.81 21 100.00
##Grupo de plantulas “Ctrl”
*Histograma de frecuencia absoluta
hist(Ctrl$IE)
summary(Ctrl$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5500 0.7000 0.7700 0.7676 0.8700 0.9500
Para poder llegar a una conclusion al respecto de los datos, necesitamos saber si esta “efectividad” del fertilizante SI es representativa para la mayoría de los datos. Una forma de saber esto es determinar si la distribucion de los datos es NORMAL o NO.
Para esto tenemos las pruebas de normalidad:
Kolmogrov-Smirnov Shapiro-Wilk
Prueba de normalidad de Kolmogorov-Smirnov
ks.test(Fert$IE, "pnorm", mean= mean(Fert$IE), sd=sd(Fert$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Fert$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Fert$IE
## D = 0.10776, p-value = 0.9677
## alternative hypothesis: two-sided
¿Qué tan diferentes son las poblaciones de FERT y CTRL? De acuerdo con la prueba de normalidad las poblaciones de FERT tienen un valor de 0.9677 en igualdad de plantas, esto hace referencia a que las poblaciones FERT son muy similares entre sí solo algunas pocas plantas tienen muy pocas diferencias, mientras que las poblaciones CTRL tienen un valor de 0.9233 en igualdad de plantas, con esto comprendemos que las poblaciones CTRL son algo distintivas entre sí y no están en orden secuencial como se pueden presentar en el histograma de esta misma, por parte del histograma de FERT las plantas tienen bastante normalidad.
¿Podemos decir que el fertilizante es efectivo? si, el fertilizante es efectivo ya que en el histograma y en la prueba de normalidad estas plantas tienen bastante similitud y secuencia
¿Los datos son normales? Por parte de las poblaciones FERT son normales pero por parte de las poblaciones CTRL no son normales ya que los datos no están distribuidos correctamente