AI5UC1_6

Jesús Murillo

26/9/2021

Importar librerias

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Formulacion de hipotesis para pruebas de 1 y 2 muestras

Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acuerdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis.

Los pasos del método científico son:

  1. Plantear un problema a resolver.
  2. Colectar una serie de observaciones.
  3. Formular una o más hipótesis.
  4. Probar dichas hipótesis.
  5. Declarar las conclusiones.

Caso de estudio para prueba de hipotesis: efectividad de fertilizante en plantas

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados).

  • Importar datos
library(readr)
plantas <- read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(plantas)

Estimación de parámetros descriptivos

  • Para describir la diferencia entre los datos usaremos un gráfico de caja y bigote
boxplot(plantas$IE ~ plantas$Tratamiento, col="pink")

La froma en la que se distribuyen los datos puede ser conocida por medio de tablas, histogramas y poligonos.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")
datatable(Ctrl)
datatable(Ctrl)
datatable(Fert)

Tablas de distribuciones de frecuencia

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tabla <- fdt(plantas)
tabla
## planta 
##     Class limits f   rf rf(%) cf  cf(%)
##    [0.99,6.9086) 6 0.14 14.29  6  14.29
##  [6.9086,12.827) 6 0.14 14.29 12  28.57
##  [12.827,18.746) 6 0.14 14.29 18  42.86
##  [18.746,24.664) 6 0.14 14.29 24  57.14
##  [24.664,30.583) 6 0.14 14.29 30  71.43
##  [30.583,36.501) 6 0.14 14.29 36  85.71
##   [36.501,42.42) 6 0.14 14.29 42 100.00
## 
## IE 
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6341) 4 0.10  9.52  4   9.52
##  [0.6341,0.7237) 9 0.21 21.43 13  30.95
##  [0.7237,0.8133) 9 0.21 21.43 22  52.38
##  [0.8133,0.9028) 5 0.12 11.90 27  64.29
##  [0.9028,0.9924) 7 0.17 16.67 34  80.95
##   [0.9924,1.082) 3 0.07  7.14 37  88.10
##    [1.082,1.172) 5 0.12 11.90 42 100.00

Histograma y poligono de frecuencia absoluta segun sturge

#histograma

plot(tabla,type='fh')    # Absolute frequency histogram

*Poligono

plot(tabla,type='fp')    # Absolute frequency histogram

Histograma y poligono de frecuencia relativa segun sturge

plot(tabla,type='rfh')    # Relative frequency histogram

plot(tabla,type='rfp')    # Absolute frequency histogram

Histograma y poligono de frecuencia relativa segun sturge

plot(tabla,type='cfh')    # Relative frequency histogram

hist(Ctrl$IE)

Histograma de frecuencias absolutas segun Sturges

hist(Fert$IE)

Analisis cuantilico

summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

CONTRASTES DE NORMALIDAD

Un caso específico de ajuste a una distribución teórica es la correspondiente a la distribución normal. Este contraste se realiza para comprobar si se verifica la hipótesis de normalidad necesaria para que el resultado de algunos análisis sea fiable.

PRUEBAS DE NORMALIDAD

  • Prueba de normalidad de Shapiro-Wilk

Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación se calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk.

shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908
  • Prueba de normalidad de Smirnov-Kolmogorov

Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la hipótesis de normalidad de la población, el estadístico de prueba es la máxima diferencia: D= max [Fn(x)-F0(x)] Siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica o correspondiente a la población normal especificada en la hipótesis nula. La distribución del estadístico de Kolmogorov-Smirnov es independiente de la distribución poblacional especificada en la hipótesis nula y los valores críticos de este estadístico están tabulados. Si la distribución postulada es la normal y se estiman sus parámetros, los valores críticos se obtienen aplicando la corrección de significación propuesta por Lilliefors.

ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided