Este documento contiene la memoria de los ejercicios resueltos en la asignatura Métodos no Paramétricos de la Especialización en Estadística Aplicada de la Universidad del Valle. Aquí pueden consultar los enunciados de los ejercicios y el código empleado para generar los resultados en el software R.

Capítulo 0. Recordando conceptos básicos

Ejercicio 3.

Un fabricante de sistemas de aspersión utilizados en la prevención de incendios, afirma que el valor medio de activación del sistema es de 130ºF. Una prueba sobre 20 de estos sistemas produce los siguientes resultados:

131.67, 134.61, 137.35, 138.66, 130.52, 137.42, 132.83, 138.55, 133.02, 132.92,130.45, 140.39, 130.79, 134.06, 133.29, 133.83, 132.82, 131.32, 132.82, 143.09

Los datos respaldan la afirmación del productor?

Ta = c(131.67, 134.61, 137.35, 138.66, 130.52, 137.42, 132.83, 138.55, 133.02, 132.92, 130.45, 140.39, 130.79, 134.06,133.29, 133.83, 132.82, 131.32, 132.82, 143.09) 

# Algunas medidas resumen.
resumen=c(mean(Ta),sd(Ta),sd(Ta)/mean(Ta))
names(resumen)=c("Promedio","Desviación","Coef.Var")
round(resumen,2)
##   Promedio Desviación   Coef.Var 
##     134.52       3.54       0.03

A pesar de que el promedio muestral observado es ligeramente mayor al valor hipotético (\(\mu_0 = 130^? F\)), esta diferencia puede ser solo un resultado debido al azar y no puede ser considerada una evidencia, hasta no verificar su significancía estadística. Para ello planteamos el siguiente test de hipótesis paramétrico.

\[H_0: \mu = 130\qquad vs \qquad H_1: \mu = 130\]

Dado que la varianza de los datos es desconocida, procedemos a realizar el test T para la media de una población.

# Un Test de Hipotesis Paramétrico
t.test(Ta,mu=130,alternative="two.sided")
## 
##  One Sample t-test
## 
## data:  Ta
## t = 5.7097, df = 19, p-value = 1.672e-05
## alternative hypothesis: true mean is not equal to 130
## 95 percent confidence interval:
##  132.8634 136.1776
## sample estimates:
## mean of x 
##  134.5205

De acuerdo con el \(Valor-p < \alpha\), la diferencia es significativa, lo cual sugiere que la temperatura de activación media es superior a \(130^? F\).

Nota: Recordemos que el test-T se soporta en el supuesto de normalidad en los datos.

Para verificar la normalidad de los datos, inicialmente realizaremos una exploración gráfica.

windows(height=8, width=10)               # Nueva ventana gráfica, con dimensiones preestablecidas
par(mfrow=c(2,2))                         # particón dela ventana gráfica

hist(Ta, freq=F,main="",xlab="Temp Activación")
lines(density(Ta), col="blue",lty=2)
legend("topright","Densidad estimada",lty=2, col="blue",bg='lightblue')
boxplot(Ta,col="Blue", ylab="Temp Activación")
qqnorm(Ta); qqline(Ta)

La forma asimétrica del histograma y del boxplot, ademas de la distancia de los puntos a la linea recta en el qqplot, sugieren que los datos no provienen de una distribución Normal. Este resultados son corroborados por el test de Shapiro-Wilk.

# Un Test formal de Normalidad
shapiro.test(Ta)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ta
## W = 0.89042, p-value = 0.02738
Ejercicio 4.

Al seleccionar un concreto azufrado para la construcción de carreteras en regiones que experimentan congelamiento intenso, es importante que el concreto tenga baja conductividad térmica, a fin de reducir el da?o posterior debido a temperaturas cambiantes. Se ha pensado que la adición de agregados graduados a las mezcla de concreto puede disminuir su conductividad media. Para ello se ha diseñado un experimento que consiste en generar especímenes de prueba bajo las dos condiciones, (con agregados, sin agregados). Los resultados son lo siguientes:

Con agregados

0.166, 0.296, 0.249, 0.366, 0.415, 0.388, 0.273, 0.324, 0.413, 0.280, 0.247, 0.130, 0.279, 0.364, 0.402, 0.202, 0.255, 0.315, 0.375, 0.316

Sin agregados

0.426, 0.461, 0.476, 0.467, 0.436, 0.509, 0.428, 0.508, 0.457, 0.513, 0.448, 0.523, 0.431, 0.439, 0.395, 0.443, 0.361, 0.480, 0.467, 0.436, 0.471, 0.487, 0.498, 0.538, 0.500

De acuerdo con los datos, incorporar agregados disminuye la conductividad térmica del material?

#Ingresando los datos en el formato variable - indicador
rt = c(0.166, 0.296, 0.249, 0.366, 0.415, 0.388, 0.273, 0.324, 0.413, 0.280, 0.247, 0.130,  
       0.279, 0.364, 0.402, 0.202, 0.255, 0.315, 0.375, 0.316,
       0.426, 0.461, 0.476, 0.467, 0.436, 0.509, 0.428, 0.508, 0.457, 0.513, 0.448, 0.523, 
       0.431, 0.439, 0.395, 0.443, 0.361, 0.480, 0.467, 0.436, 0.471, 0.487, 0.498, 0.538, 0.500)
Ag = factor(c(rep("Con Agregado",20), rep("Sin Agregado",25)))

Inicialmente realizaremos un análisis exploratorio, que incluye el calculo de algunos indicadores descriptivos y la representación gráfica de los datos.

# Algunas medidas resumen.
promedios = tapply(rt,Ag,mean)
desviacion = tapply(rt,Ag,sd)
C_var = desviacion/promedios
resumen =round(cbind(promedios, desviacion, C_var),2)
colnames(resumen)= c("Promedio","Desviación","Coef.Var")
resumen
##              Promedio Desviación Coef.Var
## Con Agregado     0.30       0.08     0.27
## Sin Agregado     0.46       0.04     0.09
#Cambiando los datos al formato de columnas
rt_ca=rt[Ag =="Con Agregado"]                #resistencia térmica con agregado
rt_sa=rt[Ag =="Sin Agregado"]                #resistencia térmica sin agregado

#Preparando la ventana gráfica
M = matrix(c(1,2,3,3,4,5),ncol=3,byrow = F)  # matriz con la ubicación de 5 gráficos  
windows(height=10, width=10)                 # Nueva ventana gráfica  
layout(M)                                    # partición dela ventana gráfica según M

# Histogramas de frecuencia con densidad estimada - igualado el rango en el eje X.

hist(rt_ca, freq=F,main="",xlab="Resistencia Térmica",xlim=range(rt))
lines(density(rt_ca), col="blue",lty=2)
hist(rt_sa, freq=F,main="",xlab="Resistencia Térmica",xlim=range(rt))
lines(density(rt_sa), col="blue",lty=2)
boxplot(rt~Ag,col="Blue", ylab="Resistencia Térmica")
qqnorm(rt_ca); qqline(rt_ca)
qqnorm(rt_sa); qqline(rt_sa)

Los resultados muestran que la muestra obtenida con la adición de agregados tiene una menor conductividad eléctrica que aquella muestra que no incorporó estos agregados. La representación gráfica también sugiere que la distribución de la variable, en ambos casos, es simétrica y no se aleja mucho de la distribución normal. Lo anterior se corroboró con el test Shapiro-Wilk para ambas muestras.

# Un Test de Normalidad
shapiro.test(rt_ca)
## 
##  Shapiro-Wilk normality test
## 
## data:  rt_ca
## W = 0.95628, p-value = 0.4724
shapiro.test(rt_sa)
## 
##  Shapiro-Wilk normality test
## 
## data:  rt_sa
## W = 0.97688, p-value = 0.8171

Verificado el supuesto de normalidad para ambas poblaciones, procedemos a desarrollar el test de hipotésis:

\[H_0: \mu_{CA} = \mu_{SA} \qquad vs \qquad H_1: \mu_{CA} < \mu_{SA}\]

los resultados del test son los siguientes:

# Un Test de Hipotesis Paramétrico
t.test(rt_ca,rt_sa,alternative = "less")   
## 
##  Welch Two Sample t-test
## 
## data:  rt_ca and rt_sa
## t = -8.0981, df = 26.806, p-value = 5.608e-09
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -0.127262
## sample estimates:
## mean of x mean of y 
##   0.30275   0.46392

De acuerdo con el \(valor-p\) si existe una reducción en la conductividad térmica del concreto cuando se adicionan los agregados en la mezcla