Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acurdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis. Como parte del método científico la propuesta de una hipótesis y luego su comprobación, son temas bien definidos, y a pesar de la incertidumbre asociada al problema es posible cuantificar el error de la conclusión planteada por la hipótesis.
Los pasos del método científico son:
La estadística nos puede ayudar en los pasos 2 (diseño y colecta de las observaciones) y 4 (prueba de hipótesis). Una hipótesis se puede definir de la siguiente manera: Una explicación tentativa que cuenta con un conjunto de hechos que pueden ser probados con una investigación posterior.
Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.
Uno de los indicadores más comunes que miden el efecto de la fertilización de una plántula es el Índice de esbeltez (IE). Dicho índice relaciona la altura y el diámetro del tallo y se define con la siguiente ecuación (Olivo and Buduba 2006)
\[ \begin{equation}\label{eq:IE} IE = \frac{\varnothing_{tallo}}{(h_{tallo}/10)+2} \end{equation} \]
El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","fdth")
plantas=read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable=plantas
##Tabla de los datos seleccionados “Ctrl” y “Fert” de la base de datos “plantas”
Ctrl= subset(plantas, Tratamiento=="Ctrl")
Fert= subset(plantas, Tratamiento=="Fert")
datatable(Ctrl)
datatable(Fert)
tablaCtrl=fdt(Ctrl)
tablaFert=fdt(Fert)
tablaCtrl
## planta
## Class limits f rf rf(%) cf cf(%)
## [0.99,4.36) 4 0.19 19.05 4 19.05
## [4.36,7.73) 3 0.14 14.29 7 33.33
## [7.73,11.1) 4 0.19 19.05 11 52.38
## [11.1,14.47) 3 0.14 14.29 14 66.67
## [14.47,17.84) 3 0.14 14.29 17 80.95
## [17.84,21.21) 4 0.19 19.05 21 100.00
##
## IE
## Class limits f rf rf(%) cf cf(%)
## [0.5445,0.6137) 1 0.05 4.76 1 4.76
## [0.6137,0.6828) 4 0.19 19.05 5 23.81
## [0.6828,0.752) 4 0.19 19.05 9 42.86
## [0.752,0.8212) 6 0.29 28.57 15 71.43
## [0.8212,0.8903) 1 0.05 4.76 16 76.19
## [0.8903,0.9595) 5 0.24 23.81 21 100.00
tablaFert
## planta
## Class limits f rf rf(%) cf cf(%)
## [21.78,25.22) 4 0.19 19.05 4 19.05
## [25.22,28.66) 3 0.14 14.29 7 33.33
## [28.66,32.1) 4 0.19 19.05 11 52.38
## [32.1,35.54) 3 0.14 14.29 14 66.67
## [35.54,38.98) 3 0.14 14.29 17 80.95
## [38.98,42.42) 4 0.19 19.05 21 100.00
##
## IE
## Class limits f rf rf(%) cf cf(%)
## [0.5544,0.6573) 2 0.10 9.52 2 9.52
## [0.6573,0.7601) 3 0.14 14.29 5 23.81
## [0.7601,0.863) 2 0.10 9.52 7 33.33
## [0.863,0.9659) 6 0.29 28.57 13 61.90
## [0.9659,1.069) 3 0.14 14.29 16 76.19
## [1.069,1.172) 5 0.24 23.81 21 100.00
##Histogramas y poligonos de distribuciones de frecuencia
plot(tablaCtrl,type = "fh") #Histograma de frecuencia absoluta
plot(tablaFert,type = "fh") #Histograma de frecuencia absoluta
plot(tablaFert,type = "fp") #Poligono de frecuencia absoluta
plot(tablaCtrl,type = "fp") #Poligono de frecuencia absoluta
plot(tablaCtrl,type = "rfh") #Histograma de frecuencia relativa
plot(tablaFert,type = "rfh") #Histograma de frecuencia relativa
plot(tablaCtrl,type = "rfp") #Poligono de frecuencia relativa
plot(tablaFert,type = "rfp") #Poligono de frecuencia relativa
plot(tablaCtrl,type = "cfh") #Histograma de frecuencia acumulada
plot(tablaFert,type = "cfh") #Histograma de frecuencia acumulada
plot(tablaCtrl,type = "cfp") #Poligono de frecuencia acumulada
plot(tablaFert,type = "cfp") #Poligono de frecuencia acumulada
###MEDIDAS DE TENDENCIA CENTRAL ##Cuartiles
summary(plantas)
## planta IE Tratamiento
## Min. : 1.00 Min. :0.5500 Length:42
## 1st Qu.:11.25 1st Qu.:0.7025 Class :character
## Median :21.50 Median :0.7950 Mode :character
## Mean :21.50 Mean :0.8371
## 3rd Qu.:31.75 3rd Qu.:0.9375
## Max. :42.00 Max. :1.1600
##mediante la comparacion de las graficas respecto a “Ctrl” y “Fert” podemos ver como van variando los datos dependiendo del analisis que se este realizando, esto debido a que las formas de medicion son diferentes y dependera su comprencion de cada grafica vista.
Histograma de frecuencias absolutas segun Sturges
hist(Ctrl$IE)
Analisis cuantilico
summary(Ctrl$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5500 0.7000 0.7700 0.7676 0.8700 0.9500
summary(Ctrl$IE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5500 0.7000 0.7700 0.7676 0.8700 0.9500
##PRUEBAS DE NORMALIDAD
*Prueba de normalidad de Shapiro-Wilk
shapiro.test(Ctrl$IE)
##
## Shapiro-Wilk normality test
##
## data: Ctrl$IE
## W = 0.9532, p-value = 0.3908
*Prueba de nornalidad de Smirnov-Kolmogorov
ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal. Estas es aplicable cuando se analizan muestras compuestas por menos de 50 elementos o muestras pequeñas como tambien se le suelen llamar. #Analisis ##Se trabajará con la variable Datos Ctrl\(IE y Fert\)IE
datos<- c(23,34,45,65,54,32,23,43,54,67,87,65,45,34,54)
shapiro.test(Fert$IE)
##
## Shapiro-Wilk normality test
##
## data: Fert$IE
## W = 0.95339, p-value = 0.3941
Como el p valor (0.3941) es mayor a alfa (0,05), no se rechaza la hipótesis nula (H0), por lo tanto, la variable “Fert$IE” presenta un comportamiento normal o paramétrico.
##Se trabajará con la variable Datos Ctrl\(IE y Fert\)IE
datos<- c(23,34,45,65,54,32,23,43,54,67,87,65,45,34,54)
shapiro.test(Ctrl$IE)
##
## Shapiro-Wilk normality test
##
## data: Ctrl$IE
## W = 0.9532, p-value = 0.3908
Como el p valor (0,3908) es mayor a alfa (0,05), no se rechaza la hipótesis nula (H0), por lo tanto, la variable “Ctrl$IE” presenta un comportamiento normal o paramétrico.
shapiro.test(Fert$IE)
##
## Shapiro-Wilk normality test
##
## data: Fert$IE
## W = 0.95339, p-value = 0.3941
shapiro.test(Ctrl$IE)
##
## Shapiro-Wilk normality test
##
## data: Ctrl$IE
## W = 0.9532, p-value = 0.3908
En estadística, la prueba de Kolmogórov-Smirnov es una prueba no paramétrica que determina la bondad de ajuste de dos distribuciones de probabilidad entre sí.
La distribución del estadístico de Kolmogorov-Smirnov es independiente de la distribución poblacional especificada en la hipótesis nula y los valores críticos de este estadístico están tabulados. Si la distribución postulada es la normal y se estiman sus parámetros, los valores críticos se obtienen aplicando la corrección de significación propuesta por Lilliefors.
Algunas de sus caracteristison son:
-Plantean hipótesis sobre bondad de ajuste, independencia… -El nivel de medida de las variables es bajo (ordinal). -No tienen excesivas restricciones. -Son aplicables a muestras pequeñas. -Son robustas.
En este caso, la hipótesis nula (H0) establecerá que la distribución empírica es similar a la teórica (la hipótesis nula es la que no se intenta rechazar). En otras palabras, la hipótesis nula establecerá que la distribución de frecuencias observada es consistente con la distribución teórica (y que se da por lo tanto un buen ajuste).
En contraste, la hipótesis alternativa (H1) establecerá que la distribución de frecuencias observada no es consistente con la distribución teórica (mal ajuste). Como en otras pruebas de contraste de hipótesis, el símbolo α (alfa) indicará el nivel de significación de la prueba.
##Analisis El set de datos plantas del paquete IE contiene una muestra de plantas tratadas con variables de Fert y Clrt Se pretende determinar la distribución de las plantas. Para ello se calcula la distancia de Kolmogorov–Smirnov.
library(readr)
plantas <- read_csv("plantas.csv")
## Rows: 42 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): Tratamiento
## dbl (2): planta, IE
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(plantas)