Lectura incial de la base de datos de la encuesta digitalizada, en formato .csv
.
encuesta <- read.csv2("encuesta.csv", enc= "latin1")
Estructura de la base de datos.
str(encuesta)
## 'data.frame': 58 obs. of 23 variables:
## $ Encuesta : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Género : Factor w/ 2 levels "Femenino","Masculino": 2 1 2 2 2 2 1 2 2 2 ...
## $ Edad : int 16 21 17 17 20 20 18 25 17 27 ...
## $ Carrera : Factor w/ 9 levels "Economía","Estadística",..: 2 6 8 8 3 8 2 8 2 9 ...
## $ Semestre : int 2 4 2 2 8 6 2 7 2 6 ...
## $ Estrato : int 2 2 3 2 4 3 3 5 5 5 ...
## $ Red.Social : Factor w/ 3 levels "","No","Si": 3 3 3 3 3 3 3 3 3 3 ...
## $ Problemática : Factor w/ 21 levels "","Agua","A.I",..: 8 1 4 5 5 10 15 21 21 6 ...
## $ PAPA : num 4.1 3.5 3.7 4.1 4.4 3.6 4.1 3.9 4.4 3.5 ...
## $ ICFES : Factor w/ 37 levels "","10","121",..: 37 1 1 29 32 3 10 1 30 28 ...
## $ Año.Ingr.UN : int 2014 2011 2014 2014 2011 2012 2014 NA 2014 2013 ...
## $ Año.Ingr.PV : int 2014 2011 2014 2014 2011 2010 NA 2005 2014 2013 ...
## $ T..M..R.U : int 50 20 40 90 15 45 10 25 30 45 ...
## $ Hora.Llegada : Factor w/ 24 levels "05:34","05:40",..: 16 6 12 17 14 21 22 19 3 18 ...
## $ Medio.Transp : Factor w/ 9 levels "A pie","Bicicleta",..: 3 3 3 5 1 3 3 2 3 3 ...
## $ T..P..Ad.EDAED: num 6 29 5 10 2 4 2 3 5 5 ...
## $ Asig...Matric.: int 4 6 5 5 8 6 6 6 5 4 ...
## $ T..P.Ad.Total : int 20 1600 15 60 30 36 8 15 10 25 ...
## $ T.P.Internet : num 120 240 480 240 60 60 3 200 240 120 ...
## $ T.P.Televisión: int 30 0 10 30 30 30 2 0 120 30 ...
## $ T.P.Deporte : num 6 1 2 4 10 10 1 3 1 7 ...
## $ Trabajo : int 1 0 0 NA 0 0 0 0 0 4 ...
## $ Número : Factor w/ 11 levels "?","1","10","2",..: 10 9 9 8 9 7 7 2 8 9 ...
Resumen numérico de la base de datos:
with(encuesta,summary(Edad))
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 16.0 18.0 19.0 19.8 21.0 27.0 1
Construcción de un histograma de la variable Edad
.
h1 <- with(encuesta,hist(Edad, # Nombre de la variable.
main = "Histograma de las edades", # Título del histograma.
ylab = "Frecuencia", # Título del eje y.
xlab = "Edad (en años cumplidos)", # Título del eje x.
col = "cyan")) # Color del histograma.
Resultados numéricos del histograma de frecuencias:
h1
## $breaks
## [1] 16 18 20 22 24 26 28
##
## $counts
## [1] 15 23 13 2 2 2
##
## $density
## [1] 0.13158 0.20175 0.11404 0.01754 0.01754 0.01754
##
## $mids
## [1] 17 19 21 23 25 27
##
## $xname
## [1] "Edad"
##
## $equidist
## [1] TRUE
##
## attr(,"class")
## [1] "histogram"
Construcción de un histograma de la variable “Edad” y la linea de la estimación de la distribución de densidad de probabilidad mediante un kernel
.
h2 <- with(encuesta,hist(Edad, main = "Histograma de las edades",
ylab = "Densidad",
xlab = "Edad (en años cumplidos)",
col = "cyan",
freq = FALSE))
with(encuesta,lines(density(Edad[!is.na(Edad)]),lwd = 2, col = "red")) # Añadir la línea de estimación de la función de distribución de probabilidad.
Resultados numéricos del histograma
h2
## $breaks
## [1] 16 18 20 22 24 26 28
##
## $counts
## [1] 15 23 13 2 2 2
##
## $density
## [1] 0.13158 0.20175 0.11404 0.01754 0.01754 0.01754
##
## $mids
## [1] 17 19 21 23 25 27
##
## $xname
## [1] "Edad"
##
## $equidist
## [1] TRUE
##
## attr(,"class")
## [1] "histogram"
Cálculo de la media y la desviación estándar de la variable `Edad’.
(media <- mean(encuesta$Edad, na.rm = TRUE)) # Se guarda el valor en 'media'
## [1] 19.84
(desvEst <- sd(encuesta$Edad, na.rm = TRUE)) # Se guarda el valor en 'desvEst'
## [1] 2.506
Construcción de una diagrama de caja y bigotes para la variable Edad
, adicionando la media, una vez la desviación estándar y dos veces la desviación estándar.
with(encuesta, boxplot(Edad, col = "cyan", horizontal = TRUE,
main = "Diagrama de caja para las edades",
ylim = c(15, 28)))
points(media, 1, col = "red", cex=1.5, pch = 19) # Añadir la media.
points(media-desvEst, 1, col = "red", pch = 3, cex = 1.5) # Añadir menos una vez la desviación estándar.
points(media+desvEst, 1, col = "red", pch = 3, cex = 1.5) # Añadir más una vez la desviación estándar.
points(media-2*desvEst, 1, col = "magenta", pch = 3, cex = 1.5) # Añadir menos dos veces la desviación estándar.
points(media+2*desvEst, 1, col = "magenta", pch = 3, cex = 1.5) # Añadir más dos veces la desviación estándar.