Utilice el data frame attitude e intente responder a la siguiente pregunta: ¿Qué variables parecen seguir una distribución normal? attitude
a <- attitude
for (i in c(1:ncol(a))) {
#Graficar el histograma de ozone
hist(a[[i]], freq = FALSE, xlim = c(0, 110), main = "")
title(print(paste("Histograma de variable", names(a[i]))))
#Añadir curva normal con media en la mism posición
curve(dnorm(x, mean = mean(a[[i]], na.rm = TRUE),
sd = sd(a[[i]], na.rm = TRUE)), add = TRUE)
}
## [1] "Histograma de variable rating"
## [1] "Histograma de variable complaints"
## [1] "Histograma de variable privileges"
## [1] "Histograma de variable learning"
## [1] "Histograma de variable raises"
## [1] "Histograma de variable critical"
## [1] "Histograma de variable advance"
for (i in c(1:ncol(a))) {
qqnorm(a[[i]],main = "")
qqline(a[[i]])
title(print(paste("QQ-plot de la variable", names(a[i]))))
}
## [1] "QQ-plot de la variable rating"
## [1] "QQ-plot de la variable complaints"
## [1] "QQ-plot de la variable privileges"
## [1] "QQ-plot de la variable learning"
## [1] "QQ-plot de la variable raises"
## [1] "QQ-plot de la variable critical"
## [1] "QQ-plot de la variable advance"
Respuesta: 1) Variable rating: No parece seguir una distribución normal 2) Variable complaints: No parece seguir una distribución normal 3) Variable privileges: Parece seguir cierta normalidad en ambos gráficos pero no es del todo claro, habría que confirmar con una prueba estadística 4) Variable learning: No sigue una distribución normal 5) Variable raises: Parece seguir una distribución normal en histograma y qqplot pero igual o confirmaria con una prueba estadística. 6) Variable crítical: En el histograma se observa que tiene cierta normalidad sin embargo en el qqplot no lo hace, por lo tanto hace falta una prueba estadística. 7) Variable advance: En el histograma se observa que tiene cierta normalidad sin embargo en el qqplot no lo hace, por lo tanto hace falta una prueba estadística.
setwd("/home/gerald/Documentos/maestria/2do_ciclo/graficos_R/examen")
r <- read.csv("my_research.csv")
tapply(r$age, r$group, summary)
## $control
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 15.00 43.00 50.00 49.96 57.00 84.00
##
## $patient
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 13.00 41.00 49.00 49.54 58.00 94.00
tapply(r$age, r$group, sd)
## control patient
## 10.00469 12.08433
boxplot(r$age ~ r$group, main = " Edad vs Grupo de estudio",
xlab = "Grupo de estudio",
ylab = "Edad")
Respuesta: Se puede decir que visualmente las edades entre los grupos caso y control poseen rangos cercanos, medias muy cercanas (control = 50, patient = 49), los 1er y 3er cuartiles están cercanos, pero en general se observa ligeramente mayor dispersión en el grupo de pacientes (caja más amplia), lo que se corrobora con la desviación estándar (control = 10.00469, patient = 12.08433).
Dada una pob con dist. chi cuadrado Simular muestreo de población con estos parámetros female: 0.09 ± 0.12, male: 0.11 ± 0.13
matrix(c(1:2), ncol=2)
## [,1] [,2]
## [1,] 1 2
layout(matrix(c(1:2), ncol=2, byrow=FALSE))
#layout.show(2)
#Evaluando dientes cariados en mujeres
sfemale <- rchisq(100, df=100)
sfemale
## [1] 100.47073 83.78144 110.51522 103.23623 82.51154 106.14831 87.73654
## [8] 82.02864 102.46993 111.74590 115.17122 94.43826 100.18351 100.06552
## [15] 93.10338 105.14086 96.48729 113.72563 72.01735 88.20132 89.33153
## [22] 99.72182 100.69536 91.74054 85.46145 125.99031 134.11551 102.20926
## [29] 98.56651 95.53132 123.45741 108.99250 109.96007 122.25720 114.37187
## [36] 114.35146 96.76046 115.99213 108.21894 114.67786 101.10888 128.05707
## [43] 115.23466 122.11412 87.83523 107.33121 102.14016 113.07631 96.35874
## [50] 106.09851 95.66699 109.11048 103.78841 98.83258 99.00099 84.63608
## [57] 114.02423 105.78574 78.12372 101.89878 107.15672 107.33789 105.24586
## [64] 115.21436 112.99869 91.26313 97.97094 94.18042 101.28871 113.31417
## [71] 85.34177 107.67419 93.98403 86.78339 81.18638 94.15607 109.28152
## [78] 97.95127 87.11393 109.61201 113.88684 91.40307 95.04859 101.75416
## [85] 110.46393 91.37551 120.25503 85.90765 93.52224 98.36768 91.44375
## [92] 102.38627 88.19978 95.58441 141.22331 78.39864 103.66545 92.43324
## [99] 67.85009 91.34117
hist(sfemale, main ="")
summary(sfemale)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 67.85 92.26 100.90 101.25 109.70 141.22
title("dmft en mujeres")
#Evaluando dientes cariados en hombres (n=11)
smale <- rchisq(10, df=3)
smale
## [1] 2.2214894 0.9776896 4.8820987 7.4310749 5.6476147 1.8090790 0.9721518
## [8] 2.1261339 0.7428080 0.6160432
hist(smale, main ="")
summary(smale)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6160 0.9735 1.9676 2.7426 4.2169 7.4311
title("Valores de dmft en varones")
#ajustando parámetros
matrix(c(1:2), ncol=2)
## [,1] [,2]
## [1,] 1 2
layout(matrix(c(1:2), ncol=2, byrow=FALSE))
#layout.show(2)
#Evaluando dientes cariados en mujeres
sfemale <- rchisq(50, df=36)
sfemale
## [1] 43.87426 40.61574 31.07819 42.92488 30.71962 25.75869 29.74460 28.47613
## [9] 27.87827 35.02745 39.31680 37.95619 30.37611 47.73215 37.40856 32.45268
## [17] 36.84343 29.27710 22.05157 25.82210 33.97882 36.02480 17.00884 42.52669
## [25] 43.81222 30.05479 36.35127 28.40303 24.61642 39.17679 33.98811 30.57736
## [33] 25.74436 54.31527 37.60745 38.43693 54.61271 38.66681 35.71566 38.98899
## [41] 29.94420 31.93934 31.55185 37.58582 28.92344 29.09423 50.72146 32.97408
## [49] 32.98979 26.41035
hist(sfemale, main ="")
summary(sfemale)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.01 29.39 33.48 34.56 38.61 54.61
title("dmft en mujeres")
#Evaluando dientes cariados en hombres (n=11)
smale <- rchisq(5, df=36)
smale
## [1] 41.46004 36.09422 37.39269 38.27025 23.16535
hist(smale, main ="")
summary(smale)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 23.17 36.09 37.39 35.28 38.27 41.46
title("dmft en varones")
dev.off()
## null device
## 1
Respuesta: Aparentemente la distribución de la variable dmft sigue una distribución chi cuadrado (que tiene asimetría o skewness positivo), por lo tanto esa distribución no se rige por la media ni la desviación estándar, sino por el numero de sujetos (n) de libertad (gl), mientras más aumentan los grados de libertad, la distribución se aproxima a una distribución normal, igualmente cuanto más aumenta el n, la distribución se aproxima a una distribución normal. En el estudio no tomaron suficiente muestra, por lo tanto reportar el sd y la media es algo incorrecto, loq ue pudieron haber reportado en su lugar es la mediana y el IQR.
Utilice la variable feed del data frame chickwts, represéntela gráficamente. Genere una archivo de imagen considerando lo siguiente: • Formato tiff • Nombre: tu_nombre.tiff • 14 cm de ancho × 12 cm de alto • 400 ppi • Compresión lzw • pointsize = 9 • La Figura debe tener como título: “Dietas”
tiff("gerald_moreno.tiff", height = 12, width = 14, units = "cm",
res = 400, pointsize = 9, compression = "lzw")
table(chickwts$feed)
##
## casein horsebean linseed meatmeal soybean sunflower
## 12 10 12 11 14 12
boxplot(chickwts$weight ~ chickwts$feed, main = "Dietas",
xlab = "Categorías",
ylab = "Peso")
dev.off()
## png
## 2
boxplot(chickwts$weight ~ chickwts$feed, main = "Dietas",
xlab = "Categorías",
ylab = "Peso")