Intervalos de confianza (una sola muestra): - Tres intervalos de confianza - Calificación por cada intervalo

#Intervalo de confianza para sulfatos

set.seed(1)
sulfa1=sample( data$sulphates , size = 28, replace = FALSE)
dessulfa=sd(sulfa1)
medsulfa=mean(sulfa1)

#el intervalo va de

infsulfa = medsulfa - (dessulfa * t /sqrt(n2))
infsulfa
## [1] 0.4189697
      < u <
supsulfa = medsulfa + (dessulfa * t /sqrt(n2))
supsulfa
## [1] 0.5281732

test de normalidad

de forma grafica por un histograma

hist(sulfatos,main = "Histograma de sulfatos",col= "lightblue")

#utilizando la prueba shapiro wilk

shapiro.test(sulfa1)
## 
##  Shapiro-Wilk normality test
## 
## data:  sulfa1
## W = 0.86644, p-value = 0.002044

si tiene distribucion normal y el valor p se acerca a 0

el comportamiento de los sulfatos en los vinos tiene forma normal, entre mayor sea la cantidad el vino podria dejar residuos en los embases del mismo


#Intervalo de confianza para ph

set.seed(1)
ph1=sample( data$pH , size = 28, replace = FALSE)
desph=sd(ph)
medph=mean(ph)

#el intervalo va de

infph = medph - (desph * t /sqrt(n2))
infph
## [1] 3.117706

< u <

supph = medph + (desph * t /sqrt(n2))
supph
## [1] 3.258828

test de normalidad

de forma grafica por un histograma

hist(ph, main = "Histograma de Ph", col="pink")

#utilizando la prueba shapiro wilk

shapiro.test(ph1)
## 
##  Shapiro-Wilk normality test
## 
## data:  ph1
## W = 0.98695, p-value = 0.9724

si tiene distribucion normal , el p value se acerca a 0

dentro de la gama de ph en los vinos encontramos que este estable relacion con los vinos de calidad teniendo asi un rango de 3.11 a 3.35


#Intervalo de confianza para alcohol

set.seed(1)
alco1=sample( data$alcohol , size = 28, replace = FALSE)
desalco=sd(alcohol)
medalco=mean(alcohol)

#el intervalo va de

infalco = medalco - (desalco * t /sqrt(n2))
infalco
## [1] 9.939212

< u <

supalco = medalco + (desalco * t /sqrt(n2))
supalco
## [1] 11.08932

#test de normalidad

de forma grafica por un histograma

hist(alcohol,main = "Histograma de Alcohol",col = "lightgreen")

utilizando prueba shapiro wilk

shapiro.test(alco1)
## 
##  Shapiro-Wilk normality test
## 
## data:  alco1
## W = 0.93346, p-value = 0.07541

no tiene distribucuion normal, p value no se acerca a lo normal

la regulacion del vino con respecto al alcol se desproporcinado, teniendo asi vinos con un muy mayor rango de alcohol pudiendo llegar asi hasta 14 grados de alcohol

#Pruebas de hipótesis (una o dos muestras):

Hipotesis para la densidad

H0 = el vino tiene una densidad consistente

H1 = Se fabrican vinos coorpulentos con una densidad mayor a 0.9905 g/mL

udensidad=0.9905

Estadistico de prueba

estadensidad= (meddensidad - udensidad)/ (desdensidad / sqrt(n2))

#concluyo que si mi estaditico de prueba sobre densidad es mayor a 0.9905

estadensidad > t
## [1] TRUE

Niego H0 y acepto H1 sabiendo asi que los vinos fabricados son corpulentos

al tener una mayor gama de vinos coorpulentos, podriamos decir que estos vinos tienen una mayor concentracion generalmetne se debo a los mismos frutos. por lo que podriamos concluir que se tiene que utlizar un segundo destilador de vino, para que este remueba las impurezas de la fruta. — # Hipotesis para el ph

H0 = para el ph del vino, se conoce que un buen vino tiene un ph entre 3.00 a 3.35

H1 = El vino tiene una acides muy alta , mayor a 3.35

uph=3.35

Estadistico de prueba

estaph= (medph - uph)/ (desph / sqrt(n2))

#concluyo que si mi estaditico de prueba sobre ph es mayor a 3

estaph > t
## [1] FALSE

Rechazo H1, acepto la hipotesis H0 tomando en cuenta que el vino tiene un rango entre 3.11 y 3.35

#estos vinos estan muy refinados con respecto a su ph, asi obteniendo un mayor tiempo para que la acidez #del mismo se mantenga.

modelos de regresión lineal simple

Relacion entre ph y alcohol

mod1=lm(ph~alcohol)
dv1=sd(mod1$residuals)
ks1=ks.test(x=mod1$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = mod1$residuals, y = pnorm, mean = 0, sd = 1, alternative
## = "two.sided"): ties should not be present for the Kolmogorov-Smirnov test
ks1$p.value
## [1] 0

#mod1$model # observamos la grafica de Q-Q de ph y alcohol

plot(mod1)

summary(mod1)
## 
## Call:
## lm(formula = ph ~ alcohol)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.45613 -0.09868 -0.01146  0.09041  0.63195 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.031603   0.018426  164.53   <2e-16 ***
## alcohol     0.014900   0.001741    8.56   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1499 on 4896 degrees of freedom
## Multiple R-squared:  0.01475,    Adjusted R-squared:  0.01454 
## F-statistic: 73.28 on 1 and 4896 DF,  p-value: < 2.2e-16

tomamos valores para sacar nuestra formula de una regresion lineal

Variable que se trata de predecir= intercepto + variable que tengo x la pendiente + promedio de residuos(error)

Y = 7.3590 + x2e-16+ 1.222 # tenemos un modelo en crecimiento por lo que cada que el ph incrementa el alcohol tambien. dado que el alcohol tiene #una base acida

Relacion entre sulfatos y densidad

mod2=lm(sulfatos~densidad)
dv2=sd(mod2$residuals)
ks2=ks.test(x=mod2$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = mod2$residuals, y = pnorm, mean = 0, sd = 1, alternative
## = "two.sided"): ties should not be present for the Kolmogorov-Smirnov test
ks2$p.value
## [1] 0

#mod2$model # observamos la grafica de Q-Q de SUlfatos y densidad

plot(mod2,col="blue")

summary(mod2)
## 
## Call:
## lm(formula = sulfatos ~ densidad)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.26255 -0.08091 -0.01475  0.05889  0.59683 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2.3357     0.5406  -4.321 1.59e-05 ***
## densidad      2.8425     0.5438   5.227 1.80e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1138 on 4896 degrees of freedom
## Multiple R-squared:  0.005549,   Adjusted R-squared:  0.005346 
## F-statistic: 27.32 on 1 and 4896 DF,  p-value: 1.795e-07

Variable que se trata de predecir= intercepto + variable que tengo x la pendiente + promedio de residuos(error)

y=-2.3357+ x1.59e-05+0.1138

# al encontrarse en u punto muy bajo, puedo determinar que para tener un equilibrio se necesita menor cantidad de sulfatos para poder manter una buena densidad en el vino.

#Supuestos Tamañoodemuestra=28

#Variable cuantitativas

AzucarRes=data$residual.sugar
clorhidratos=data$chlorides
accitrico=data$citric.acid
acvolatil=data$volatile.acidity

#Intervalo de confianza de azucar residual para la media con varianza desconocida #y una confianza de 97%

alfaAR=0.03/2
set.seed(6)
muestra2=sample(data$residual.sugar,size=28,replace=FALSE)
medpoar=mean(data$residual.sugar)
medmuar=mean(muestra2)
smuestra=sd(muestra2)
valorT=qt(alfaAR,27,lower.tail = F)
valorT
## [1] 2.290914
ICmaar=medmuar+(smuestra/sqrt(28))*valorT
ICmear=medmuar-(smuestra/sqrt(28))*valorT
ICmaar
## [1] 8.028612
ICmear
## [1] 3.607102

#Conclusion #El vino es definido como seco o dulce dependiendo del valor de azucar residual y #se concluye que la media de la muestra corresponde a un vino blanco es seco

#Intervalo de confianza de clohidratos para la media con varianza desconocida y #y una confianza de 97%

alfaCL=0.03/2
set.seed(6)
muestra3=sample(data$chlorides,size=28,replace=FALSE)
medpocl=mean(clorhidratos)
medmucl=mean(muestra3)
smuestra3=sd(muestra3)
valorT=qt(alfaCL,27,lower.tail=F)
ICmaycl=medmucl+(smuestra3/sqrt(28))*valorT
ICmencl=medmucl-(smuestra3/sqrt(28))*valorT
ICmaycl
## [1] 0.08501148
ICmencl
## [1] 0.03505995

#Conclusion

#El clorhidrato de tiamina es utilizado para ayudar a la fermentacion del vino y disminuir #acidez volatil, se concluye que la media de vino tendra una baja acidez volatil es decir #bajo porcentaje de acido acetico

#Intervalo de confianza de acido citrico para la media con varianza desconocida y #confianza de 97%

alfaNI=0.03/2
set.seed(6)
muestra4=sample(accitrico,size=28,replace=FALSE)
medponi=mean(accitrico)
medmuni=mean(muestra4)
smuestra4=sd(muestra4)
valorT=qt(alfaNI,27,lower.tail=F)
ICmayni=medmuni+(smuestra4/sqrt(28))*valorT
ICmenni=medmuni-(smuestra4/sqrt(28))*valorT
ICmayni
## [1] 0.418643
ICmenni
## [1] 0.3320712

#Prueba de hipotesis de la media para la azucar residual con significancia de #0.03, la media de azucar residual es mayor a 12 #Hipotesis inicial h0:u=12 #Hipotesis alterna h1:u<12

alfaph=0.03/2
valorTH=qt(alfaph,27,lower.tail = T)
medpoar #media poblacional 
## [1] 6.391415
u=12
valorTH
## [1] -2.290914
epar=(medmuar-u)/(smuestra/sqrt(28))
epar<valorTH
## [1] TRUE

#Concluimos que los valores de la media de la muestra son menores a 12 por lo tanto #los vinos examinados son vinos secos.

#Prueba de hipotesis de la media para la acidez volatil con significancia de 0.03 #la acidez volatil es menor a 0.2 #Hipotesis inicial h0:u1=0.2 #Hipotesis alterna h1:u1<0.2

u1=0.2
set.seed(6)
muestra=sample(acvolatil,size=28,replace=FALSE)
medmuav=mean(muestra)
sdmuav=sd(muestra)
valorTH
## [1] -2.290914
epav=((medmuav-u1)/(sdmuav/sqrt(28)))
epav<valorTH
## [1] FALSE

#concluimos que como el valor de estadistico de prueba quedo fuera significa que acidez #volatil es mayoro igual a 0.2 lo que significa que hubo una incorrecta vinificacion de los #vinos blancos y un alto nivel de acido acetico en la muestra

#Prueba de hipotesis de la media para clohidratos con significancia de 0.03, los #clohidratos son menores a 0.60 #Hipotesis inicial h0:u2=0.60 #Hipotesis alternativa h1:u2<0.60

u2=0.60
epcl=((medmucl-u2)/(smuestra3/sqrt(28)))
epcl<valorTH
## [1] TRUE
print(epcl<valorTH)
## [1] TRUE

#Concluimos que el valor de los clohidratos en la muestra es menor a 0.60 lo que significa #que esta dentro del rango legal permitido de este compuesto.

#Modelos de Regresion lineal simple

#Modelo de regresion lineal entre azucar residual y acidez volatil

mod1<-lm(AzucarRes~clorhidratos)
summary(mod1)
## 
## Call:
## lm(formula = AzucarRes ~ clorhidratos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.428 -4.543 -1.152  3.425 58.827 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    5.4490     0.1676   32.51  < 2e-16 ***
## clorhidratos  20.5883     3.3047    6.23 5.06e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.053 on 4896 degrees of freedom
## Multiple R-squared:  0.007865,   Adjusted R-squared:  0.007662 
## F-statistic: 38.81 on 1 and 4896 DF,  p-value: 5.057e-10
dv1=sd(mod1$residuals)
ks1=ks.test(x=mod1$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = mod1$residuals, y = pnorm, mean = 0, sd = 1, alternative
## = "two.sided"): ties should not be present for the Kolmogorov-Smirnov test
ks1$p.value
## [1] 0

#Observamos las grafica Q-Q deAzucar residal y acidez volatil

plot(mod1,col="red")

#Modelo de regresion lineal entre acidez volatil y acidro citrico

mod2<-lm(muestra~muestra4)
summary(mod2)
## 
## Call:
## lm(formula = muestra ~ muestra4)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.10451 -0.05202 -0.00697  0.03962  0.33623 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.34543    0.06425   5.376 1.25e-05 ***
## muestra4    -0.18858    0.16560  -1.139    0.265    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08603 on 26 degrees of freedom
## Multiple R-squared:  0.0475, Adjusted R-squared:  0.01087 
## F-statistic: 1.297 on 1 and 26 DF,  p-value: 0.2652
dv2=sd(mod1$residuals)
ks2=ks.test(x=mod1$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = mod1$residuals, y = pnorm, mean = 0, sd = 1, alternative
## = "two.sided"): ties should not be present for the Kolmogorov-Smirnov test
ks2$p.value
## [1] 0

#Observamos la grafica Q-Q de acidez volatil y acido nitrico

plot(mod2,col="blue")

#Intervalo de confianza para ph

set.seed(4)
free.sulfur.dioxide=sample( data$free.sulfur.dioxide , size = 28, replace = FALSE)
sd.free.sulfur.dioxide=sd(free.sulfur.dioxide)
mean.free.sulfur.dioxide=mean(free.sulfur.dioxide)

#el intervalo va de

inf.free.sulfur.dioxide = mean.free.sulfur.dioxide - (sd.free.sulfur.dioxide * t1 /sqrt(n2))
inf.free.sulfur.dioxide
## [1] 31.06221
sup.free.sulfur.dioxide = mean.free.sulfur.dioxide + (sd.free.sulfur.dioxide * t1 /sqrt(n2))
sup.free.sulfur.dioxide
## [1] 47.54493

test de normalidad

de forma grafica por un histograma

hist(free.sulfur.dioxide, main = "Histograma de dioxido de sulfuro", col="blue")

shapiro.test(free.sulfur.dioxide)
## 
##  Shapiro-Wilk normality test
## 
## data:  free.sulfur.dioxide
## W = 0.95626, p-value = 0.2833

el p value esta muy lejano a 0 no tiene distribucion normal conclusion: la cantidad maxima de sufuros dentro del vino sobre pasa la cantidadd regulada en una botella de vino


Intervalo de confianza para total oxido de sulfuro

set.seed(4)
total.sulfur.dioxide=sample( data$total.sulfur.dioxide , size = 28, replace = FALSE)
sd.total.sulfur.dioxide=sd(total.sulfur.dioxide)
mean.total.sulfur.dioxide=mean(total.sulfur.dioxide)

el intervalo va de

inf.total.sulfur.dioxide = mean.total.sulfur.dioxide - (sd.total.sulfur.dioxide * t1 /sqrt(n2))
inf.total.sulfur.dioxide
## [1] 133.9889
sup.total.sulfur.dioxide = mean.total.sulfur.dioxide + (sd.total.sulfur.dioxide * t1 /sqrt(n2))
sup.total.sulfur.dioxide
## [1] 167.2253

test de normalidad

de forma grafica por un histograma

hist(total.sulfur.dioxide,main = "Histograma de Dioxido de sulfuro total",col = "red")

shapiro.test(total.sulfur.dioxide)
## 
##  Shapiro-Wilk normality test
## 
## data:  total.sulfur.dioxide
## W = 0.97694, p-value = 0.772

el p value dista del 0 no tiene distribucuion normal

Conclusión para el intervalo de confianza la mayoria de los vinos pueden estar dentro de la gama de vinos con suficiente sulfuro de oxigeno

#Intervalo de confianza para total de dioxido de sulfuro

set.seed(4)
total.sulfur.dioxide=sample( data$total.sulfur.dioxide , size = 28, replace = FALSE)
sd.total.sulfur.dioxide=sd(total.sulfur.dioxide)
mean.total.sulfur.dioxide=mean(total.sulfur.dioxide)

#el intervalo va de

inf.total.sulfur.dioxide = mean.total.sulfur.dioxide - (sd.total.sulfur.dioxide * t1 /sqrt(n2))
inf.total.sulfur.dioxide
## [1] 133.9889
sup.total.sulfur.dioxide = mean.total.sulfur.dioxide + (sd.total.sulfur.dioxide * t1 /sqrt(n2))
sup.total.sulfur.dioxide
## [1] 167.2253

#test de normalidad

de forma grafica por un histograma

hist(total.sulfur.dioxide,main = "Histograma de total de dioxido de sulfuro",col = "red")

shapiro.test(total.sulfur.dioxide)
## 
##  Shapiro-Wilk normality test
## 
## data:  total.sulfur.dioxide
## W = 0.97694, p-value = 0.772

el p value dista del 0

no tiene distribucuion normal

# El intervalo total de dioxido de azufre esta fuera del rango normal que es 210

Pruebas de hipótesis (una o dos muestras):

Los vinos son calificados de menor a mayor, siendo 10 el mejor de todos.

Hipotesis para la calidad

table( calidad)
## calidad
##  4  5  6  7  8 
##  1 11 10  4  2

entonces tomamos por proporciones lo vinos para hacer una hipotesis si conocemos que 11 de los 28 vinos son de calidad media H0 = el vino tiene una calidad media,mas enfocada a baja. H1 = Se fabrican vinos con muy buena calida, mayor o igual a 7 (7, 8, 9 o 10)

ptecho= (4 + 2) /28
qtecho= 1- ptecho
p0= 11/28
q0= 1 - p0

Estadistico de prueba

Prue.calidad= (ptecho-p0)/sqrt(p0*q0/N)
z=qnorm(0.02,0,1,lower.tail = F)
Prue.calidad > z
## [1] FALSE

Rechazo H1 y acepto H0, lo vinos blancos presentes son de calidad media

Hipotesis para total de dioxido de azufre El dioxido de azufre es un gas que se ha utilizado como conservantes desde el siglo 18, funciona como aditivo y como antioxidante, para un vino blanco la cantidad total suele ser alrededor de 210 mg/l

H0= El dioxido de azufre total de una botella de vino tiene 210 mg/L H1= Una botella de vino de nuestro repertorio es diferente a 210 mg/L

u.total.sulfur.dioxide=210

Pru.total.sulfur.dioxide= (mean.total.sulfur.dioxide - u.total.sulfur.dioxide)/ (sd.total.sulfur.dioxide / sqrt(n2))

Pru.total.sulfur.dioxide > t
## [1] FALSE

Hay una variacion muy grande de dioxido de azufre en los vinos, por lo que rechazo H0 y acepto H1

modelos de regresión lineal simple Relacion entre ph y alcohol

regre1=lm(free.sulfur.dioxide~total.sulfur.dioxide)
dv1=sd(regre1$residuals)
ks1=ks.test(x=regre1$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
ks1$p.value
## [1] 8.226528e-09

observamos la grafica Q-Q

plot(regre1,col="orange")

summary(regre1)
## 
## Call:
## lm(formula = free.sulfur.dioxide ~ total.sulfur.dioxide)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.954  -7.983  -3.449   8.497  28.385 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -16.59139   10.01542  -1.657     0.11    
## total.sulfur.dioxide   0.37113    0.06451   5.753 4.67e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.87 on 26 degrees of freedom
## Multiple R-squared:   0.56,  Adjusted R-squared:  0.5431 
## F-statistic:  33.1 on 1 and 26 DF,  p-value: 4.666e-06

y=-16.59139+x0.11+12.87

Relacion entre sulfatos y densidad

regre2=lm(calidad~fix.acidez)
dv2=sd(regre2$residuals)
ks2=ks.test(x=regre2$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = regre2$residuals, y = pnorm, mean = 0, sd = 1,
## alternative = "two.sided"): ties should not be present for the Kolmogorov-
## Smirnov test
ks2$p.value
## [1] 0.7936594

observamos la grafica Q-Q

plot(regre2,col="green")

summary(regre2)
## 
## Call:
## lm(formula = calidad ~ fix.acidez)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16190 -0.68963 -0.05207  0.45315  2.23349 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.7978     1.4274   6.163 1.62e-06 ***
## fix.acidez   -0.4393     0.2091  -2.101   0.0455 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9265 on 26 degrees of freedom
## Multiple R-squared:  0.1451, Adjusted R-squared:  0.1123 
## F-statistic: 4.414 on 1 and 26 DF,  p-value: 0.04548

y=8.7978+x1.62e-06+0.9265

Bibliografia https://eprints.ucm.es/id/eprint/29446/7/PIMCD%20N%C2%BA%20243.%20ANEXO%201.%20E-BOOK-%20EL%20VINO%20Y%20SU%20AN%C3%81LISIS.pdf http://www.usc.es/caa/MetAnalisisStgo1/enologia.pdf https://www.bonvivir.com/2018/08/10/que-son-las-sedimentos-en-el-vino/ https://fhernanb.github.io/Manual-de-R/tablas.html https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/5066?ver=sindiseno https://rpubs.com/joser/RegresionSimple https://waterhouse.ucdavis.edu/whats-in-wine/fixed-acidity#::text=These%20high%2Dacid%20wines%20can,prevent%20wines%20from%20being%20flat. http://www.acenologia.com/cienciaytecnologia/azufre_seguridad_vinos_ecologicos_cienc173_1219.htm#::text=El%20di%C3%B3xido%20de%20azufre%20(SO,y%20bacterias%20del%20%C3%A1cido%20ac%C3%A9tico.