La siguiente base de datos contiene información sobre el consumo de algunas sustancias psicoactivas por parte de los habitantes de calle de Bogotá censados en el año 2024.
## Warning: package 'readxl' was built under R version 4.3.3
##
## Antonio Nariño Barrios Unidos Bosa Chapinero
## 453 317 364 354
## Ciudad Bolivar Engativá Fontibón Kennedy
## 431 589 313 1005
## La Candelaria Los Mártires NA Puenta Aranda
## 143 1302 971 625
## Rafael Uribe Uribe San Cristobal Santafé Suba
## 599 282 1236 528
## Teusaquillo Tunjuelito Usaquén Usme
## 313 186 305 162
También se puede realizar con la función summary, sin embargo como la variable LOCALIDAD esta en formato carácter (texto) como resultado solo generara el número de registros que tienen información (Length: 10478)
## LOCALIDAD H 30.0.2 Cigarrillo?
## Length:10478 Length:10478
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
## H 30.0.1a Edad de inicio de consumo (Cigarrillo) H 30.0.3 Marihuana?
## Min. : 1.00 Length:10478
## 1st Qu.:12.00 Class :character
## Median :14.00 Mode :character
## Mean :14.51
## 3rd Qu.:16.00
## Max. :63.00
## NA's :4809
## H 30.0.3a Edad de inicio de consumo (Marihua)
## Min. : 0.00
## 1st Qu.:12.00
## Median :15.00
## Mean :15.34
## 3rd Qu.:17.00
## Max. :67.00
## NA's :5532
## H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)
## Length:10478
## Class :character
## Mode :character
##
##
##
##
## H 30.0.4a Edad de inicio de consumo (Alcohol)
## Min. : 1.00
## 1st Qu.:12.00
## Median :15.00
## Mean :16.57
## 3rd Qu.:18.00
## Max. :64.00
## NA's :7497
Para esto, hay que convertir la variable LOCALIDAD en factor.
## chr [1:10478] "Santafé" "Santafé" "Santafé" "Santafé" "Santafé" "Santafé" ...
## Factor w/ 20 levels "Antonio Nariño",..: 15 15 15 15 15 15 15 15 15 15 ...
## Antonio Nariño Barrios Unidos Bosa Chapinero
## 453 317 364 354
## Ciudad Bolivar Engativá Fontibón Kennedy
## 431 589 313 1005
## La Candelaria Los Mártires NA Puenta Aranda
## 143 1302 971 625
## Rafael Uribe Uribe San Cristobal Santafé Suba
## 599 282 1236 528
## Teusaquillo Tunjuelito Usaquén Usme
## 313 186 305 162
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## # A tibble: 20 × 2
## # Groups: LOCALIDAD [20]
## LOCALIDAD n
## <fct> <int>
## 1 Antonio Nariño 453
## 2 Barrios Unidos 317
## 3 Bosa 364
## 4 Chapinero 354
## 5 Ciudad Bolivar 431
## 6 Engativá 589
## 7 Fontibón 313
## 8 Kennedy 1005
## 9 La Candelaria 143
## 10 Los Mártires 1302
## 11 NA 971
## 12 Puenta Aranda 625
## 13 Rafael Uribe Uribe 599
## 14 San Cristobal 282
## 15 Santafé 1236
## 16 Suba 528
## 17 Teusaquillo 313
## 18 Tunjuelito 186
## 19 Usaquén 305
## 20 Usme 162
Se puede realizar un filtro para que solo se presente el valor de Usme
library(dplyr)
usme <- hc %>%
select(LOCALIDAD) %>%
group_by(LOCALIDAD) %>%
filter(LOCALIDAD == "Usme") %>%
count()
usme
## # A tibble: 1 × 2
## # Groups: LOCALIDAD [1]
## LOCALIDAD n
## <fct> <int>
## 1 Usme 162
Para esto primero se debe conocer el nombre de las variables que conforman la base de datos:
## [1] "LOCALIDAD"
## [2] "H 30.0.2 Cigarrillo?"
## [3] "H 30.0.1a Edad de inicio de consumo (Cigarrillo)"
## [4] "H 30.0.3 Marihuana?"
## [5] "H 30.0.3a Edad de inicio de consumo (Marihua)"
## [6] "H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)"
## [7] "H 30.0.4a Edad de inicio de consumo (Alcohol)"
La variable a usar sera:
H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)
##
## NA NO SI
## 1875 5529 3074
Rta: 3.074 personas afirmaron consumir alcohol
También se puede realizar con la función summary, sin embargo como la variable LOCALIDAD esta en formato carácter (texto) como resultado solo generara el número de registros que tienen información (Length: 10478)
## chr [1:10478] "NO" "NO" "NO" "NO" "NO" "SI" "NO" "NA" "NO" "SI" "NO" "NA" ...
hc$`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)` <- as.factor(hc$`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`)
## NA NO SI
## 1875 5529 3074
library(dplyr)
alcohol <- hc %>%
select(`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`) %>%
group_by(`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`) %>% summarise(n())
alcohol
## # A tibble: 3 × 2
## `H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)` `n()`
## <fct> <int>
## 1 NA 1875
## 2 NO 5529
## 3 SI 3074
addmargins(prop.table(table(hc$`H 30.0.4a Edad de inicio de consumo (Alcohol)`,hc$`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`)))
##
## NA NO SI Sum
## 1 0.0000000000 0.0000000000 0.0043609527 0.0043609527
## 2 0.0000000000 0.0000000000 0.0016772895 0.0016772895
## 3 0.0000000000 0.0000000000 0.0010063737 0.0010063737
## 4 0.0000000000 0.0000000000 0.0033545790 0.0033545790
## 5 0.0000000000 0.0000000000 0.0063737001 0.0063737001
## 6 0.0000000000 0.0000000000 0.0053673264 0.0053673264
## 7 0.0000000000 0.0000000000 0.0103991949 0.0103991949
## 8 0.0000000000 0.0000000000 0.0278430057 0.0278430057
## 9 0.0000000000 0.0000000000 0.0187856424 0.0187856424
## 10 0.0000000000 0.0000000000 0.0701107011 0.0701107011
## 11 0.0000000000 0.0000000000 0.0355585374 0.0355585374
## 12 0.0000000000 0.0000000000 0.0865481382 0.0865481382
## 13 0.0000000000 0.0000000000 0.0526668903 0.0526668903
## 14 0.0000000000 0.0000000000 0.0791680644 0.0791680644
## 15 0.0000000000 0.0000000000 0.1784636028 0.1784636028
## 16 0.0000000000 0.0000000000 0.0556860114 0.0556860114
## 17 0.0000000000 0.0000000000 0.0422676954 0.0422676954
## 18 0.0000000000 0.0000000000 0.0734652801 0.0734652801
## 19 0.0000000000 0.0000000000 0.0140892318 0.0140892318
## 20 0.0000000000 0.0000000000 0.0865481382 0.0865481382
## 21 0.0000000000 0.0000000000 0.0063737001 0.0063737001
## 22 0.0000000000 0.0000000000 0.0154310634 0.0154310634
## 23 0.0000000000 0.0000000000 0.0057027843 0.0057027843
## 24 0.0000000000 0.0000000000 0.0050318685 0.0050318685
## 25 0.0000000000 0.0000000000 0.0224756793 0.0224756793
## 26 0.0000000000 0.0000000000 0.0033545790 0.0033545790
## 27 0.0000000000 0.0000000000 0.0036900369 0.0036900369
## 28 0.0000000000 0.0000000000 0.0083864475 0.0083864475
## 29 0.0000000000 0.0000000000 0.0026836632 0.0026836632
## 30 0.0000000000 0.0000000000 0.0251593425 0.0251593425
## 31 0.0000000000 0.0000000000 0.0016772895 0.0016772895
## 32 0.0000000000 0.0000000000 0.0043609527 0.0043609527
## 33 0.0000000000 0.0000000000 0.0023482053 0.0023482053
## 34 0.0000000000 0.0000000000 0.0026836632 0.0026836632
## 35 0.0000000000 0.0000000000 0.0046964106 0.0046964106
## 36 0.0000000000 0.0000000000 0.0016772895 0.0016772895
## 37 0.0000000000 0.0000000000 0.0023482053 0.0023482053
## 38 0.0000000000 0.0000000000 0.0020127474 0.0020127474
## 39 0.0000000000 0.0000000000 0.0013418316 0.0013418316
## 40 0.0000000000 0.0000000000 0.0073800738 0.0073800738
## 41 0.0000000000 0.0000000000 0.0013418316 0.0013418316
## 42 0.0000000000 0.0000000000 0.0016772895 0.0016772895
## 43 0.0000000000 0.0000000000 0.0013418316 0.0013418316
## 44 0.0000000000 0.0000000000 0.0010063737 0.0010063737
## 45 0.0000000000 0.0000000000 0.0020127474 0.0020127474
## 46 0.0000000000 0.0000000000 0.0016772895 0.0016772895
## 47 0.0000000000 0.0000000000 0.0010063737 0.0010063737
## 50 0.0000000000 0.0000000000 0.0030191211 0.0030191211
## 52 0.0000000000 0.0000000000 0.0003354579 0.0003354579
## 53 0.0000000000 0.0000000000 0.0003354579 0.0003354579
## 55 0.0000000000 0.0000000000 0.0006709158 0.0006709158
## 57 0.0000000000 0.0000000000 0.0006709158 0.0006709158
## 58 0.0000000000 0.0000000000 0.0006709158 0.0006709158
## 59 0.0000000000 0.0000000000 0.0003354579 0.0003354579
## 60 0.0000000000 0.0000000000 0.0010063737 0.0010063737
## 64 0.0000000000 0.0000000000 0.0003354579 0.0003354579
## Sum 0.0000000000 0.0000000000 1.0000000000 1.0000000000
edad <- hc %>%
select(`H 30.0.4a Edad de inicio de consumo (Alcohol)`) %>%
group_by(`H 30.0.4a Edad de inicio de consumo (Alcohol)`) %>%
count() %>%
mutate(n/3074)
edad
## # A tibble: 57 × 3
## # Groups: H 30.0.4a Edad de inicio de consumo (Alcohol) [57]
## `H 30.0.4a Edad de inicio de consumo (Alcohol)` n `n/3074`
## <dbl> <int> <dbl>
## 1 1 13 0.00423
## 2 2 5 0.00163
## 3 3 3 0.000976
## 4 4 10 0.00325
## 5 5 19 0.00618
## 6 6 16 0.00520
## 7 7 31 0.0101
## 8 8 83 0.0270
## 9 9 56 0.0182
## 10 10 209 0.0680
## # ℹ 47 more rows
Guardando el valor del SI
## SI
## 3074
edad <- hc %>%
select(`H 30.0.4a Edad de inicio de consumo (Alcohol)`) %>%
group_by(`H 30.0.4a Edad de inicio de consumo (Alcohol)`) %>%
count() %>%
mutate(n/alcohol)
edad
## # A tibble: 57 × 3
## # Groups: H 30.0.4a Edad de inicio de consumo (Alcohol) [57]
## `H 30.0.4a Edad de inicio de consumo (Alcohol)` n `n/alcohol`
## <dbl> <int> <dbl>
## 1 1 13 0.00423
## 2 2 5 0.00163
## 3 3 3 0.000976
## 4 4 10 0.00325
## 5 5 19 0.00618
## 6 6 16 0.00520
## 7 7 31 0.0101
## 8 8 83 0.0270
## 9 9 56 0.0182
## 10 10 209 0.0680
## # ℹ 47 more rows
Filtrando solo para 15 años
## SI
## 3074
edad <- hc %>%
select(`H 30.0.4a Edad de inicio de consumo (Alcohol)`) %>%
group_by(`H 30.0.4a Edad de inicio de consumo (Alcohol)`) %>%
count() %>%
mutate(n/alcohol) %>%
filter(`H 30.0.4a Edad de inicio de consumo (Alcohol)`==15)
edad
## # A tibble: 1 × 3
## # Groups: H 30.0.4a Edad de inicio de consumo (Alcohol) [1]
## `H 30.0.4a Edad de inicio de consumo (Alcohol)` n `n/alcohol`
## <dbl> <int> <dbl>
## 1 15 532 0.173
## tibble [10,478 × 7] (S3: tbl_df/tbl/data.frame)
## $ LOCALIDAD : Factor w/ 20 levels "Antonio Nariño",..: 15 15 15 15 15 15 15 15 15 15 ...
## $ H 30.0.2 Cigarrillo? : chr [1:10478] "NO" "SI" "NO" "NO" ...
## $ H 30.0.1a Edad de inicio de consumo (Cigarrillo) : num [1:10478] NA 25 NA NA NA NA 6 NA NA NA ...
## $ H 30.0.3 Marihuana? : chr [1:10478] "SI" "SI" "NO" "SI" ...
## $ H 30.0.3a Edad de inicio de consumo (Marihua) : num [1:10478] 30 25 NA 6 12 27 6 NA NA NA ...
## $ H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico): Factor w/ 3 levels "NA","NO","SI": 2 2 2 2 2 3 2 1 2 3 ...
## $ H 30.0.4a Edad de inicio de consumo (Alcohol) : num [1:10478] NA NA NA NA NA 18 NA NA NA 16 ...
## Warning: package 'DescTools' was built under R version 4.3.3
## ──────────────────────────────────────────────────────────────────────────────
## hc
##
## data frame: 10478 obs. of 7 variables
## 1786 complete cases (17.0%)
##
## Nr Class ColName
## 1 fac LOCALIDAD
##
##
##
##
##
##
##
##
##
## 2 cha H 30.0.2 Cigarrillo?
## 3 num H 30.0.1a Edad de inicio de consumo (Cigarrillo)
## 4 cha H 30.0.3 Marihuana?
## 5 num H 30.0.3a Edad de inicio de consumo (Marihua)
## 6 fac H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)
##
##
##
## 7 num H 30.0.4a Edad de inicio de consumo (Alcohol)
## NAs Levels
## . ...
## ...
## ...
## ...
## ...
## ...
## ...
## ...
## ...
## ...
## . ...
## 4809 (45.9%) ...
## . ...
## 5532 (52.8%) ...
## . ...
## ...
## ...
## ...
## 7497 (71.5%) ...
## ──────────────────────────────────────────────────────────────────────────────
## hc$`H 30.0.3 Marihuana?` (character)
##
## length n NAs unique levels dupes
## 10'478 10'478 0 3 3 y
## 100.0% 0.0%
##
## level freq perc cumfreq cumperc
## 1 SI 5'073 48.4% 5'073 48.4%
## 2 NO 3'530 33.7% 8'603 82.1%
## 3 NA 1'875 17.9% 10'478 100.0%
Las personas que argumentan haber consumido marihuana son aproximadamente 5.000 lo que representa casi el 50% de los habitantes de calle censados.
Por otra parte, aproximadamente 3.500 hc afirman no haber consumido esta sustancia (aprox. 37%)
Adicionalmente, casi 2.000 no respondieron esta pregunta (~ 20%)
## ──────────────────────────────────────────────────────────────────────────────
## hc$`H 30.0.3a Edad de inicio de consumo (Marihua)` (numeric)
##
## length n NAs unique 0s mean meanCI'
## 10'478 4'946 5'532 56 1 15.34 15.18
## 47.2% 52.8% 0.0% 15.51
##
## .05 .10 .25 median .75 .90 .95
## 8.00 10.00 12.00 15.00 17.00 20.00 25.00
##
## range sd vcoef mad IQR skew kurt
## 67.00 5.88 0.38 4.45 5.00 2.47 12.00
##
## lowest : 0.0, 1.0 (13), 2.0 (3), 3.0 (7), 4.0 (6)
## highest: 58.0, 62.0 (2), 63.0, 66.0, 67.0
##
## heap(?): remarkable frequency (16.4%) for the mode(s) (= 15)
##
## ' 95%-CI (classic)
El histograma sobre la edad de inicio de consumo de marihuana muestra que la mayor frecuente es entre los 10 y 15 años, seguido por el rango entre 15 y 20 años.
El boxplot muestra que la mediana de la edad de inicio es 15 años. Con un rango intercuartilico de aproximadamente 5 años. Con un mínimo de 5 años y un máximo cercano a los 68 años. Se consideran edades atípicas por debajo de los 5 años y por encima de los 24.
La última gráfica, que representa la frecuencia relativa acumulada de la edad de inicio, indica que el 50% de los habitantes de calle censados que han consumido marihuana, iniciaron antes de los 15 años, y el 90% antes de los 20 años aproximadamente.
## ──────────────────────────────────────────────────────────────────────────────
## hc$`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)` (factor)
##
## length n NAs unique levels dupes
## 10'478 10'478 0 3 3 y
## 100.0% 0.0%
##
## level freq perc cumfreq cumperc
## 1 NO 5'529 52.8% 5'529 52.8%
## 2 SI 3'074 29.3% 8'603 82.1%
## 3 NA 1'875 17.9% 10'478 100.0%
Se tiene que esta es una pregunta que toma 3 valores (levels: 3), los cuales son SI, NO y NA.
De los 10.478 habitantes de calle censados, se tiene que el 52,8% (5.529) no han consumido alcohol. El 29.3% han consumido bebidas alcoholicas (3.074) y el 17.9% no respondieron esta pregunta, lo que corresponde a 1.875 personas.
## ──────────────────────────────────────────────────────────────────────────────
## hc$`H 30.0.4a Edad de inicio de consumo (Alcohol)` (numeric)
##
## length n NAs unique 0s mean meanCI'
## 10'478 2'981 7'497 56 0 16.57 16.30
## 28.5% 71.5% 0.0% 16.83
##
## .05 .10 .25 median .75 .90 .95
## 8.00 10.00 12.00 15.00 18.00 25.00 30.00
##
## range sd vcoef mad IQR skew kurt
## 63.00 7.48 0.45 4.45 6.00 2.04 6.47
##
## lowest : 1.0 (13), 2.0 (5), 3.0 (3), 4.0 (10), 5.0 (19)
## highest: 57.0 (2), 58.0 (2), 59.0, 60.0 (3), 64.0
##
## heap(?): remarkable frequency (17.8%) for the mode(s) (= 15)
##
## ' 95%-CI (classic)
En cuanto a la edad de inicio de consumo de alcohol se tiene que:
## [1] 7404
Y restarle el número de personas que tienen NA:
## [1] 93
Se tienen 56 edades únicas (unique)
La media de la edad de inicio de consumo de alcohol es 16 años
El 5% de las personas iniciaron a consumir a los 8 años o antes. (percentil 0.05)
La mediana de la edad de inicio es 15 años (median o percentil 0.50). Debido a que la media y la mediana no son iguales, se puede inferir que existen edades atípicas.
El rango de las edades es 63 años, lo que se puede calcular como la diferencia entre la edad máxima y la edad mínima
{{r}} 64 - 1
La desviación estándar es de 7.48, lo que indica que las edades tienden a desviarse +/- 7.48 años respecto a la media. Lo que implica que la mayoria de los valores deberan estar entre 9 y 24 años.
## [1] 16.56592
## [1] 55.98533
## [1] 7.482335
## [1] 24.04825
## [1] 9.083583
El coeficiente de variación es de 0.45 (45%), lo que implica que la dispersión de los datos es relativamente alta al compararla con la media.
## [1] 0.4516704
El rango intercuartilico (IQR) es de 6, lo que implica que el 50% de los datos (entre el primer y el tercer cuartil, 0.25 - 0.75) tiene una amplitud de 6 años. Al usar solamente los quartiles 1 y 3, el IQR deja por fuera los datos atípicos a diferencia de la desviación estándar.
Obsérvese que existe una diferencia entre el calculo de Desc y el calculo con la función quantile, lo que puede deberse a los decimales:
## 25% 75%
## 12 17
## [1] 5
Se quiere generar una tabla de resultados que cuente a los habitantes de calle según localidad.
¿Cuál de los siguientes códigos es verdadero?
a. Esta opción tiene un error y es que le hace falta un pipe en la línea 3
Error in UseMethod()
: ! no applicable method for ‘count’
applied to an object of class “NULL” b. Esta opción calcula el número de
personas que respondieron la encuesta, o la dimensión en filas de la
misma. Dado que no esta agrupando por la variable de interés.
resultado <- hc %>%
select(LOCALIDAD,`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`) %>%
count()
resultado
## # A tibble: 1 × 1
## n
## <int>
## 1 10478
c. Este código esta generando el conteo de personas según si han consumido o no alcohol, por localidad.
resultado <- hc %>%
select(LOCALIDAD,`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`) %>%
group_by(LOCALIDAD) %>%
count(`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`)
resultado
## # A tibble: 60 × 3
## # Groups: LOCALIDAD [20]
## LOCALIDAD H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etíli…¹ n
## <fct> <fct> <int>
## 1 Antonio Nariño NA 79
## 2 Antonio Nariño NO 253
## 3 Antonio Nariño SI 121
## 4 Barrios Unidos NA 77
## 5 Barrios Unidos NO 165
## 6 Barrios Unidos SI 75
## 7 Bosa NA 76
## 8 Bosa NO 166
## 9 Bosa SI 122
## 10 Chapinero NA 62
## # ℹ 50 more rows
## # ℹ abbreviated name:
## # ¹`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`
d. VERDADERO, este código esta agrupando las variables seleccionadas por localidad y generando el conteo, como no se incluye la variable de Alcohol en el group_by o en el count, no la tiene en cuenta para generar el resultado.
resultado <- hc %>%
select(LOCALIDAD,`H 30.0.4 Alcohol? (bebidas alcohólicas, chamber, etílico)`) %>%
group_by(LOCALIDAD) %>%
count()
resultado
## # A tibble: 20 × 2
## # Groups: LOCALIDAD [20]
## LOCALIDAD n
## <fct> <int>
## 1 Antonio Nariño 453
## 2 Barrios Unidos 317
## 3 Bosa 364
## 4 Chapinero 354
## 5 Ciudad Bolivar 431
## 6 Engativá 589
## 7 Fontibón 313
## 8 Kennedy 1005
## 9 La Candelaria 143
## 10 Los Mártires 1302
## 11 NA 971
## 12 Puenta Aranda 625
## 13 Rafael Uribe Uribe 599
## 14 San Cristobal 282
## 15 Santafé 1236
## 16 Suba 528
## 17 Teusaquillo 313
## 18 Tunjuelito 186
## 19 Usaquén 305
## 20 Usme 162