AI5UC1_6

Santana Celaya Alec Demian

9/10/2021

  • Importar Librerias

Primero cargamos las librerias que vamos a usar para esta actividad, para evitar el instalar varias librerias utilizaremos “pacman” que contiene varias y cargaremos las necesarias

#install.packages("pacman")
library(pacman)
## Warning: package 'pacman' was built under R version 3.6.3
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2", "fdth")
  • Nombramos las variables
plantas <- read_csv("plantas.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   planta = col_double(),
##   IE = col_double(),
##   Tratamiento = col_character()
## )
datatable(plantas)
Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Construcción de histogramas para conocer la frecuencia de distribución de los datos

  • Histograma de frecuencias absolutas según Suturges
hist(Ctrl$IE, main = "Plantas Controladas", xlab = "IE")

hist(Fert$IE, main = "Plantas Fertilizadas", xlab = "IE")

  • Analicis cuantilicio
summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600
  • Derivación estandar de frecuencia
sd(Fert$IE)
## [1] 0.1799537
sd(Ctrl$IE)
## [1] 0.1153215

De acuerdo a los datos analizados podemos ver que los datos no son normales en el caso de las plantas controladas ya que estas tienen a acumularse en los primeros 2 cuantiles

Pruebas de normalidad

Las pruebas de normalidad más formales son las pruebas de Shapiro-Wilk y de Kolmogorov-Smirnov (Dalgaard 2008; Zar 2010). En las pruebas de normalidad se busca aceptar la H0 dado que la mayoría de los métodos estadísticos es necesaria la suposición de la distribución normal de la variable de interés. Púes siendo así es posible conocer los parámetros que describen por completo (la media, su desviación estándar). Un valor de P≥ 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.

Valor de significancia: P>0.05

Prueba de normalidad de Shapiro-Wilk

Sobre la validez de una conjetura o hip+otesis sobre una población (X); típicamente, el valor de un parámetro de la población (θ) (θ puede ser uno cualquiera de los parámetros que hemos considerado hastaahora: µ, p, σ2, etc). Esta hipótesis a confrontar se conoce como la hipóthesis nula (H0)

El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0.05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.

Tenemos:

H0 : La distribución es normal

H1 : La distribución no es normal,

o más formalmente aún:

\[H0:X∼N(μ,σ2)\]

\[H1:X≁N(μ,σ2)\]

Ahora el test Shapiro-Wilks intenta rechazar la hipotesis nula a nuestro nivel de significanza. Para realizar el test usamos la función shapiro.test en R:

shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908
shapiro.test(Fert$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Fert$IE
## W = 0.95339, p-value = 0.3941

Toma de decisión: Sig(p valor) > alfa: No rechazar H0 (normal). Sig(p valor) < alfa: Rechazar H0 (no normal)

Donde alfa representa la significancia, que en este ejemplo hipotético es igual al 5% (0,05). En estos casos el valor de p-value son normales a duras penas con 0.3

Prueba de normalidad de Kolmogorov-Smirnov

Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la hipótesis de normalidad de la población, el estadístico de prueba es la máxima diferencia:

\[ D = máx|Fn(x)-F0(x)| \]

donde: • xi es el i-ésimo valor observado en la muestra (cuyos valores se han ordenado previamente de menor a mayor). • ˆ ( ) F x n i es un estimador de la probabilidad de observar valores menores o iguales que xi. • 0 F x( ) es la probabilidad de observar valores menores o iguales que xi cuando H0 es cierta.

siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica o correspondiente a la población normal especificada en la hipótesis nula.

La distribución del estadístico de Kolmogorov-Smirnov es independiente de la distribución poblacional especificada en la hipótesis nula y los valores críticos de este estadístico están tabulados. Si la distribución postulada es la normal y se estiman sus parámetros, los valores críticos se obtienen aplicando la corrección de significación propuesta por Lilliefors.

ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Ctrl$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.20953, p-value = 0.3151
## alternative hypothesis: two-sided

Toma de decisión: Si D≤Dα ⇒ Aceptar H0 Si D>Dα ⇒ Rechazar H0

No hay suficientes datos para que se haga un analicis exacto, aun así nos da los datos mostrando que son muy heterogeneos y nos dice en alternative hypotesis: es que los datos estan extremos estan bajos y estan demasiado parecidos

Referencias