Lectura incial de la base de datos de la encuesta digitalizada, en formato .csv.

encuesta <- read.csv2("encuesta.csv", enc= "latin1")

Estructura de la base de datos.

str(encuesta)
## 'data.frame':    58 obs. of  23 variables:
##  $ Encuesta      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Género        : Factor w/ 2 levels "Femenino","Masculino": 2 1 2 2 2 2 1 2 2 2 ...
##  $ Edad          : int  16 21 17 17 20 20 18 25 17 27 ...
##  $ Carrera       : Factor w/ 9 levels "Economía","Estadística",..: 2 6 8 8 3 8 2 8 2 9 ...
##  $ Semestre      : int  2 4 2 2 8 6 2 7 2 6 ...
##  $ Estrato       : int  2 2 3 2 4 3 3 5 5 5 ...
##  $ Red.Social    : Factor w/ 3 levels "","No","Si": 3 3 3 3 3 3 3 3 3 3 ...
##  $ Problemática  : Factor w/ 21 levels "","Agua","A.I",..: 8 1 4 5 5 10 15 21 21 6 ...
##  $ PAPA          : num  4.1 3.5 3.7 4.1 4.4 3.6 4.1 3.9 4.4 3.5 ...
##  $ ICFES         : Factor w/ 37 levels "","10","121",..: 37 1 1 29 32 3 10 1 30 28 ...
##  $ Año.Ingr.UN   : int  2014 2011 2014 2014 2011 2012 2014 NA 2014 2013 ...
##  $ Año.Ingr.PV   : int  2014 2011 2014 2014 2011 2010 NA 2005 2014 2013 ...
##  $ T..M..R.U     : int  50 20 40 90 15 45 10 25 30 45 ...
##  $ Hora.Llegada  : Factor w/ 24 levels "05:34","05:40",..: 16 6 12 17 14 21 22 19 3 18 ...
##  $ Medio.Transp  : Factor w/ 9 levels "A pie","Bicicleta",..: 3 3 3 5 1 3 3 2 3 3 ...
##  $ T..P..Ad.EDAED: num  6 29 5 10 2 4 2 3 5 5 ...
##  $ Asig...Matric.: int  4 6 5 5 8 6 6 6 5 4 ...
##  $ T..P.Ad.Total : int  20 1600 15 60 30 36 8 15 10 25 ...
##  $ T.P.Internet  : num  120 240 480 240 60 60 3 200 240 120 ...
##  $ T.P.Televisión: int  30 0 10 30 30 30 2 0 120 30 ...
##  $ T.P.Deporte   : num  6 1 2 4 10 10 1 3 1 7 ...
##  $ Trabajo       : int  1 0 0 NA 0 0 0 0 0 4 ...
##  $ Número        : Factor w/ 11 levels "?","1","10","2",..: 10 9 9 8 9 7 7 2 8 9 ...

Resumen numérico de la base de datos:

with(encuesta,summary(Edad))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    16.0    18.0    19.0    19.8    21.0    27.0       1

Construcción de un histograma de la variable Edad.

h1 <- with(encuesta,hist(Edad,                        # Nombre de la variable.
                   main = "Histograma de las edades", # Título del histograma.
                   ylab = "Frecuencia",               # Título del eje y.
                   xlab = "Edad (en años cumplidos)", # Título del eje x.
                   col = "cyan"))                     # Color del histograma.

plot of chunk unnamed-chunk-4

Resultados numéricos del histograma de frecuencias:

h1
## $breaks
## [1] 16 18 20 22 24 26 28
## 
## $counts
## [1] 15 23 13  2  2  2
## 
## $density
## [1] 0.13158 0.20175 0.11404 0.01754 0.01754 0.01754
## 
## $mids
## [1] 17 19 21 23 25 27
## 
## $xname
## [1] "Edad"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Construcción de un histograma de la variable “Edad” y la linea de la estimación de la distribución de densidad de probabilidad mediante un kernel.

h2 <- with(encuesta,hist(Edad, main = "Histograma de las edades",
                   ylab = "Densidad",
                   xlab = "Edad (en años cumplidos)",
                   col = "cyan",
                   freq = FALSE))
with(encuesta,lines(density(Edad[!is.na(Edad)]),lwd = 2, col = "red")) # Añadir la línea de estimación de la función de distribución de probabilidad.

plot of chunk unnamed-chunk-6

Resultados numéricos del histograma

h2
## $breaks
## [1] 16 18 20 22 24 26 28
## 
## $counts
## [1] 15 23 13  2  2  2
## 
## $density
## [1] 0.13158 0.20175 0.11404 0.01754 0.01754 0.01754
## 
## $mids
## [1] 17 19 21 23 25 27
## 
## $xname
## [1] "Edad"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Cálculo de la media y la desviación estándar de la variable `Edad’.

(media <- mean(encuesta$Edad, na.rm = TRUE))  # Se guarda el valor en 'media'
## [1] 19.84
(desvEst <- sd(encuesta$Edad, na.rm = TRUE))  # Se guarda el valor en 'desvEst'
## [1] 2.506

Construcción de una diagrama de caja y bigotes para la variable Edad, adicionando la media, una vez la desviación estándar y dos veces la desviación estándar.

with(encuesta, boxplot(Edad, col = "cyan", horizontal = TRUE,
                       main = "Diagrama de caja para las edades",
                       ylim = c(15, 28)))
points(media, 1, col = "red", cex=1.5, pch = 19)  # Añadir la media.
points(media-desvEst, 1, col = "red", pch = 3, cex = 1.5) # Añadir menos una vez la desviación estándar.
points(media+desvEst, 1, col = "red", pch = 3, cex = 1.5) # Añadir más una vez la desviación estándar.
points(media-2*desvEst, 1, col = "magenta", pch = 3, cex = 1.5) # Añadir menos dos veces la desviación estándar.
points(media+2*desvEst, 1, col = "magenta", pch = 3, cex = 1.5) # Añadir más dos veces la desviación estándar.

plot of chunk unnamed-chunk-9