vinos<-read.csv(url("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"), sep=";")

names(vinos)=c('Acidez Fija','Acidez volatil ','Acido citrico','Azucar residual','Cloruros','Dioxido de azufre libre','Total de dioxido de azufre','Densidad','PH','Sulfatos','Alcohol','Calidad')

VARIABLES

set.seed(5)
muestra1=sample( vinos$Alcohol, size = 29, replace = FALSE)
muestra2=sample( vinos$`Acidez volatil ` , size = 29, replace = FALSE)
muestra3=sample( vinos$`Acido citrico` , size = 29, replace = FALSE)
muestra4=sample( vinos$`Azucar residual` , size = 29, replace = FALSE)
muestra5=sample( vinos$Sulfatos , size = 29, replace = FALSE)
muestra6=sample( vinos$PH , size = 29, replace = FALSE)
alfa1=0.05
alfa2=0.06
n=length(muestra1)
t1=qt(alfa1/2,n-1,F)
t2=qt(alfa2/2,n-1,F)

Intervalos de confianza con 95%

Primer Intervalo

media1=mean(muestra1)
error1=sd(muestra1)*t1/sqrt(n)
LS1=media1+error1
LI1=media1-error1
LS1
## [1] 10.01431
LI1
## [1] 10.68914
shapiro.test(muestra1)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra1
## W = 0.91359, p-value = 0.02104

Supuesto y condiciones:

H0:la variable tiene distribucion normal h1:no tiene una distribucion normal Se utiliza un nivel de confianza del 95%, tambien un tamaño muestral de [29].considerando que sabemos su varianza utilizamos t-student para obtener el error. Y con el valor se determinara si tiene una distribucion normal o no.

Conclusion:

la variable no tiene una distribucion normal, debido a que el p-value es menor al nivel de aceptacion, por lo tanto rechazamos nuestra hipotesis nula, y asi obtenemos que dentro de este intervalo un existen vinos muy bajo en alcohol.

Segundo Intervalo

media2=mean(muestra2)
error2=sd(muestra2)*t1/sqrt(n)
LS2=media2+error2
LI2=media2-error2
LS2
## [1] 0.4768885
LI2
## [1] 0.5958702
shapiro.test(muestra2)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra2
## W = 0.95354, p-value = 0.2259

Supuesto y condiciones:

H0:la variable tiene distribucion normal h1:no tiene una distribucion normal Se utiliza un nivel de confianza del 95%, tambien un tamaño muestral de [29].considerando que sabemos su varianza utilizamos t-student para obtener el error. Y con el valor se determinara si tiene una distribucion normal o no.

Conclusion:

la variable no tiene una distribucion normal, debido a que el p-value es menor al nivel de aceptacion, por lo tanto rechazamos nuestra hipotesis nula. Mientras no pase de 0,60 gr/litro, el sabor del vino no se pierde demasiado, la calidad de un vino es mayor cuanto menor es su acidez volátil.

Tercer Intervalo

media3=mean(muestra3)
error3=sd(muestra3)*t1/sqrt(n)
LS3=media3+error3
LI3=media3-error3
LS3
## [1] 0.1596882
LI3
## [1] 0.3023808
shapiro.test(muestra3)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra3
## W = 0.92878, p-value = 0.05117

Supuesto y condiciones:

H0:la variable tiene distribucion normal h1:no tiene una distribucion normal Se utiliza un nivel de confianza del 95%, tambien un tamaño muestral de [29].considerando que sabemos su varianza utilizamos t-student para obtener el error. Y con el valor se determinara si tiene una distribucion normal o no.

Conclusion:

la variable tiene una distribucion normal, debido a que el p-value es mayor al nivel de aceptacion, por lo tanto no rechazamos nuestra hipotesis nula. Este ácido citrico desaparece lentamente al ser fermentado por las bacterias ya que este no es muy abundante en la uva.

Intervalos de confianza con 94%

Cuarto Intervalo

media4=mean(muestra4)
error4=sd(muestra4)*t2/sqrt(n)
LI4=media4+error4
LS4=media4-error4
LS4
## [1] 2.500243
LI4
## [1] 1.858378
shapiro.test(muestra4)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra4
## W = 0.66571, p-value = 7.028e-07

Supuesto y condiciones:

H0:la variable tiene distribucion normal h1:no tiene una distribucion normal Se utiliza un nivel de confianza del 96%, tambien un tamaño muestral de [29].considerando que sabemos su varianza utilizamos t-student para obtener el error. Y con el valor se determinara si tiene una distribucion normal o no.

Conclusion:

la variable no tiene una distribucion normal, debido a que el p-value es menor al nivel de aceptacion, por lo tanto rechazamos nuestra hipotesis nula. En los vinos secos en muchas ocasiones no suele sobrepasarse los 2 gramos, por lo que dentro de este intervalo tenemos vinos secos.

Quinto Intervalo

media5=mean(muestra5)
error5=sd(muestra5)*t2/sqrt(n)
LS5=media5+error5
LI5=media5-error5
LS5
## [1] 0.6349555
LI5
## [1] 0.7215962
shapiro.test(muestra5)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra5
## W = 0.97589, p-value = 0.726

Supuesto y condiciones:

H0:la variable tiene distribucion normal h1:no tiene una distribucion normal Se utiliza un nivel de confianza del 96%, tambien un tamaño muestral de [29].considerando que sabemos su varianza utilizamos t-student para obtener el error. Y con el valor se determinara si tiene una distribucion normal o no.

Conclusion:

La variable tiene una distribucion normal, debido a que el p-value es mayor al nivel de aceptacion, por lo tanto no rechazamos nuestra hipotesis nula. Un exceso de sulfatos en el vino empeora su calidad, ya que pierde color y toma un olor picante y altera su sabor.Por lo que tenemos un intervalo donde estos vinos contiene una fuerte cantidad de Sulfatos que puede ser dañinos a los consumidores si se toma excesivamente.

Sexto Intervalo

media6=mean(muestra6)
error6=sd(muestra6)*t2/sqrt(n)
LS6=media6+error6
LI6=media6-error6
LS6
## [1] 3.255753
LI6
## [1] 3.367005
shapiro.test(muestra6)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra6
## W = 0.96507, p-value = 0.435

Supuesto y condiciones:

H0:la variable tiene distribucion normal h1:no tiene una distribucion normal Se utiliza un nivel de confianza del 96%, tambien un tamaño muestral de [29].considerando que sabemos su varianza utilizamos t-student para obtener el error. Y con el valor se determinara si tiene una distribucion normal o no.

Conclusion:

la variable tiene una distribucion normal, debido a que el p-value es mayor al nivel de aceptacion, por lo tanto no rechazamos nuestra hipotesis nula. Es importante que los vinos tintos tengan pH sobre los 3,3 ya que así, su capacidad de envejecimiento mejora. Entonces, dentro de este intervalo observamos que tenemos vinos con sabores simples y planos.

PRUEBAS DE HIPOTESIS

Primera prueba

u01=10.7

test1=t.test(muestra1,y=NULL,alternative=c("less"),mu=u01,paired=FALSE,var.equal = FALSE,conf.level = 0.95)
test1
## 
##  One Sample t-test
## 
## data:  muestra1
## t = -2.1143, df = 28, p-value = 0.02176
## alternative hypothesis: true mean is less than 10.7
## 95 percent confidence interval:
##      -Inf 10.63194
## sample estimates:
## mean of x 
##  10.35172

Supuesto y condiciones:

Tenemos una media poblacional teorica(Uo) de [10.7] y usamos un tamaño muestral(n) de [29]. Siendo que desconocemos la varianza en estas muestras y solo trabajaremos con la parte derecha del intervalo, sacamos el estadistico de prueba(T), la cual su valor es de [-2.1143], y tambien la region de rechazo esta limitada por el valor de [-Inf ; 10.63194].

Conclusion:

Entonces, determinando la region de rechazo[10.63194] que esta en la derecha del intervalo de coeficientes, observamos que el estadistico de prueba[-2.1143] esta dentro de este intervalo[-Inf ; 10.63194], pero el valor P[0.02176] es menor que la significancia[0.05], por lo que la media poblacional teorica[10.7] es rechazada ya que es muy poco probable de encontrar este grado de Alcohol.

Segunda prueba

u02=0.55

test2=t.test(muestra2,y=NULL,alternative=c("less"),mu=u02,paired=FALSE,var.equal = FALSE,conf.level = 0.95)
test2
## 
##  One Sample t-test
## 
## data:  muestra2
## t = -0.46899, df = 28, p-value = 0.3214
## alternative hypothesis: true mean is less than 0.55
## 95 percent confidence interval:
##       -Inf 0.5857844
## sample estimates:
## mean of x 
## 0.5363793

Supuesto y condiciones:

Tenemos una media poblacional teorica(Uo) de [0.55] y usamos un tamaño muestral(n) de [29]. Siendo que desconocemos la varianza en estas muestras y solo trabajaremos con la parte derecha del intervalo, sacamos el estadistico de prueba(T), la cual su valor es de [-0.46899], y tambien la region de rechazo esta limitada por el valor de [-Inf ; 0.5857844].

Conclusion:

Entonces, determinando la region de rechazo[0.5857844] que esta en la derecha del intervalo de coeficientes[-Inf ; 0.5857844], observamos que el estadistico de prueba[-0.46899] esta dentro de este intervalo y el valor P[0.3214] es mayor que la significancia [0.05], por lo que la media poblacional teorica[0.55] es aceptada, entonces obtendremos un vino tinto con un buen sabor.

Tercera prueba

u03=0.21

test3=t.test(muestra3,y=NULL,alternative = c("less"),mu=u03,paired=FALSE,var.equal = FALSE,conf.level = 0.95)
test3
## 
##  One Sample t-test
## 
## data:  muestra3
## t = 0.60392, df = 28, p-value = 0.7246
## alternative hypothesis: true mean is less than 0.21
## 95 percent confidence interval:
##       -Inf 0.2902851
## sample estimates:
## mean of x 
## 0.2310345

Supuesto y condiciones:

Tenemos una media poblacional teorica(Uo) de [0.21] y usamos un tamaño muestral(n) de [29]. Siendo que desconocemos la varianza en estas muestras y solo trabajaremos con la parte derecha del intervalo, sacamos el estadistico de prueba(T), la cual su valor es de [0.60392], y tambien la region de rechazo esta limitada por el valor de [-Inf ; 0.2902851].

Conclusion:

Entonces, determinando la region de rechazo[0.2902851] que esta en la derecha del intervalo de coeficientes[-Inf ; 0.2902851], observamos que el estadistico de prueba[0.60392] esta fuera de este intervalo pero el valor P[0.7246] es mayor que la significancia [0.05], por lo que la media poblacional teorica[0.21] es aceptada porque tiene mucha probabilidad de que tenga un un sabor citrico el vino tinto.

Cuarta prueba

u04=2.20

test4=test1=t.test(muestra4,y=NULL,alternative = c("greater"),mu=u04,paired=FALSE,var.equal = FALSE,conf.level = 0.94)
test4
## 
##  One Sample t-test
## 
## data:  muestra4
## t = -0.12636, df = 28, p-value = 0.5498
## alternative hypothesis: true mean is greater than 2.2
## 94 percent confidence interval:
##  1.916735      Inf
## sample estimates:
## mean of x 
##   2.17931

Supuesto y condiciones:

Tenemos una media poblacional teorica(Uo) de [2.2] y usamos un tamaño muestral(n) de [29]. Siendo que desconocemos la varianza en estas muestras y solo trabajaremos con la parte izquierda del intervalo, sacamos el estadistico de prueba(T), la cual su valor es de [-0.12636], y tambien la region de rechazo esta limitada por el valor de [1.916735 ; Inf].

Conclusion:

Entonces, determinando la region de rechazo[1.916735] que esta en la izquierda del intervalo de coeficientes[1.916735 ; Inf], observamos que el estadistico de prueba[-0.12636] esta fuera de este intervalo, sin embargo, el valor P[0.5498] es mayor que la significancia [0.06], por lo que la media poblacional teorica[2.2] es aceptada porque tiene mucha probabilidad de que sea un vino de un sabor seco.

Quinta prueba

u05=0.6

test5=t.test(muestra5,y=NULL,alternative = c("greater"),mu=u05,paired=FALSE,var.equal = FALSE,conf.level = 0.94)
test5
## 
##  One Sample t-test
## 
## data:  muestra5
## t = 3.5418, df = 28, p-value = 0.000707
## alternative hypothesis: true mean is greater than 0.6
## 94 percent confidence interval:
##  0.6428327       Inf
## sample estimates:
## mean of x 
## 0.6782759

Supuesto y condiciones:

Tenemos una media poblacional teorica(Uo) de [0.6] y usamos un tamaño muestral(n) de [29]. Siendo que desconocemos la varianza en estas muestras y solo trabajaremos con la parte izquierda del intervalo, sacamos el estadistico de prueba(T), la cual su valor es de [3.5418], y tambien la region de rechazo esta limitada por el valor de [0.6428327 ; Inf].

Conclusion:

Entonces, determinando la region de rechazo[0.6428327] que esta en la izquierda del intervalo de coeficientes[0.6428327 ; Inf], observamos que el estadistico de prueba[3.5418] esta dentro de este intervalo, sin embargo, el valor P[0.000707] es menor que la significancia [0.06], por lo que la media poblacional teorica[0.6] es rechada porque tiene muy poca probabilidad de contener los sulfatos necesarios para producir el vino y puede dañar la calidad del vino tinto.

Sexta prueba

u06=3.35

test6=t.test(muestra6,y=NULL,alternative = c("greater"),mu=u06,paired=FALSE,var.equal = FALSE,conf.level = 0.94)
test6
## 
##  One Sample t-test
## 
## data:  muestra6
## t = -1.3609, df = 28, p-value = 0.9078
## alternative hypothesis: true mean is greater than 3.35
## 94 percent confidence interval:
##  3.265868      Inf
## sample estimates:
## mean of x 
##  3.311379

Supuesto y condiciones:

Tenemos una media poblacional teorica(Uo) de [3.35] y usamos un tamaño muestral(n) de [29]. Siendo que desconocemos la varianza en estas muestras y solo trabajaremos con la parte izquierda del intervalo, sacamos el estadistico de prueba(T), la cual su valor es de [-1.3609], y tambien la region de rechazo esta limitada por el valor de [3.265868 ; Inf].

Conclusion:

Entonces, determinando la region de rechazo[3.265868] que esta en la izquierda del intervalo de coeficientes[3.265868 ; Inf], observamos que el estadistico de prueba[-1.3609] esta fuera de este intervalo, sin embargo, el valor P[0.9078] es mayor que la significancia [0.06], por lo que la media poblacional teorica[3.35] es aceptada porque tiene alta probabilidad de que su capacidad de envejecimiento mejore.

MODELOS DE REGRESION LINEAL

Primer Modelo

n=length(muestra1)
ny=length(muestra5)

num=(n*sum(muestra1*muestra5))-(sum(muestra1)*sum(muestra5))
den=(n*sum(muestra1*muestra1))-(sum(muestra1)^2)
b1=num/den
b1
## [1] 0.04999843
b0=mean(muestra5)-(b1*mean(muestra1))
b0
## [1] 0.1607059
mod1=lm(muestra5~muestra1)
mod1
## 
## Call:
## lm(formula = muestra5 ~ muestra1)
## 
## Coefficients:
## (Intercept)     muestra1  
##      0.1607       0.0500
100*cor(muestra1,muestra5)^2
## [1] 13.88696
#valor p de la prueba KS
dv1 = sd(mod1$residuals)
ks1=ks.test(x=mod1$residuals, y = pnorm, mean=0, sd=dv1, alternative = "two.sided")
ks1$p.value
## [1] 0.9846699

Supuesto y condiciones:

Tomamos dos tamaños muestrales, en este caso muestra1 y muestra5. Se considera que tengas una similitud en distribucion de sus valores.En preferencia que tengan un mismo tamaño muestral [29].

Conclusion:

Por lo tanto, observamos que tenemos un pendiente [0.04999843] positiva y creciente, tanto como b1 y b2 se mueve hacia la derecha. Dado que tiene un bajo ajustamiento, estos tienen un margen de error de [13.88696]%, y tambien tenemos un intercepcion de [0.1607].Por ultimo tenemos un valor P[0.9846699] que nos indica que esta tiene una asociación no estadísticamente significativa.

Segundo Modelo

n2=length(muestra3)
ny2=length(muestra5)

num2=(n*sum(muestra3*muestra5))-(sum(muestra3)*sum(muestra5))
den2=(n*sum(muestra3*muestra3))-(sum(muestra3)^2)
b12=num/den
b12
## [1] 0.04999843
b02=mean(muestra5)-(b12*mean(muestra3))
b02
## [1] 0.6667245
mod2=lm(muestra5~muestra3)
mod2
## 
## Call:
## lm(formula = muestra5 ~ muestra3)
## 
## Coefficients:
## (Intercept)     muestra3  
##      0.7276      -0.2135
100*cor(muestra3,muestra5)^2
## [1] 11.32514
dv2 = sd(mod2$residuals)
ks2=ks.test(x=mod2$residuals, y = pnorm, mean=0, sd=dv2, alternative = "two.sided")
ks2$p.value
## [1] 0.8244415

Supuesto y condiciones:

Tomamos dos tamaños muestrales, en este caso muestra1 y muestra5. Se considera que tengas una similitud en distribucion de sus valores.En preferencia que tengan un mismo tamaño muestral [29].

Conclusion:

Por lo tanto, observamos que tenemos un pendiente [0.04999843] positiva pero decreciente[-0.2135], tanto como b1 y b2 se mueve hacia la derecha. Dado que tiene un bajo ajustamiento, estos tienen un margen de error de [11.32514]%, y tambien tenemos un intercepcion de [0.7276]. Por ultimo tenemos un valor P[0.8244415] que nos indica que esta tiene una asociación no estadísticamente significativa.

Tercer modelo

n3=length(muestra2)
ny3=length(muestra3)

num3=(n*sum(muestra2*muestra3))-(sum(muestra2)*sum(muestra3))
den3=(n*sum(muestra2*muestra2))-(sum(muestra2)^2)
b13=num/den
b13
## [1] 0.04999843
b03=mean(muestra3)-(b13*mean(muestra2))
b03
## [1] 0.2042164
mod3=lm(muestra3~muestra2)
mod3
## 
## Call:
## lm(formula = muestra3 ~ muestra2)
## 
## Coefficients:
## (Intercept)     muestra2  
##     0.06747      0.30495
100*cor(muestra2,muestra3)^2
## [1] 6.465681
dv3 = sd(mod3$residuals)
ks3=ks.test(x=mod3$residuals, y = pnorm, mean=0, sd=dv3, alternative = "two.sided")
ks3$p.value
## [1] 0.6257991

Supuesto y condiciones:

Tomamos dos tamaños muestrales, en este caso muestra1 y muestra5. Se considera que tengas una similitud en distribucion de sus valores.En preferencia que tengan un mismo tamaño muestral [29].

Conclusion:

Por lo tanto, observamos que tenemos un pendiente [0.04999843] positiva y creciente, entonces, b1 se movera hacia la izquierda mientras que b2 se mueve hacia la derecha. Dado que tiene un bajo ajustamiento, estos tienen un margen de error de [6.465681]%, y tambien tenemos un intercepcion de [0.06747]. Por ultimo tenemos un valor P[0.6257991] que nos indica que esta tiene una asociación no estadísticamente significativa.

Cuarto modelo

n4=length(muestra4)
ny4=length(muestra6)

num4=(n*sum(muestra4*muestra6))-(sum(muestra4)*sum(muestra6))
den4=(n*sum(muestra4*muestra4))-(sum(muestra4)^2)
b14=num/den
b14
## [1] 0.04999843
b04=mean(muestra6)-(b14*mean(muestra4))
b04
## [1] 3.202417
mod4=lm(muestra6~muestra4)
mod4
## 
## Call:
## lm(formula = muestra6 ~ muestra4)
## 
## Coefficients:
## (Intercept)     muestra4  
##     3.36095     -0.02275
100*cor(muestra4,muestra6)^2
## [1] 1.722509
dv4 = sd(mod4$residuals)
ks4=ks.test(x=mod4$residuals, y = pnorm, mean=0, sd=dv4, alternative = "two.sided")
ks4$p.value
## [1] 0.7872344

Supuesto y condiciones:

Tomamos dos tamaños muestrales, en este caso muestra1 y muestra5. Se considera que tengas una similitud en distribucion de sus valores.En preferencia que tengan un mismo tamaño muestral [29].

Conclusion:

Por lo tanto, observamos que tenemos un pendiente [0.04999843] positiva y creciente, entonces, b1 se movera hacia la izquierda mientras que b2 se mueve hacia la derecha. Dado que tiene un escaso ajustamiento, estos tienen un margen de error de [1.722509]%, y tambien tenemos un intercepcion de [3.36095]. Por ultimo tenemos un valor P[0.7872344] que nos indica que esta tiene una asociación no estadísticamente significativa.