A continuación se presenta el promedio del nivel de educación de la muestra, el nivel de educación máximo y el mínimo.
data("wage1")
base <- wage1
library(tidyverse)
promedio_educ <- mean(base$educ)
promedioeduc1 <- round(promedio_educ, digits = 2)
print(paste("El promedio de nivel educativo es:", promedioeduc1))
## [1] "El promedio de nivel educativo es: 12.56"
min_educ <- min(base$educ)
max_educ <- max(base$educ)
print(paste("El nivel de educación menor es:", min_educ))
## [1] "El nivel de educación menor es: 0"
print(paste("El nivel de educación mayor es:", max_educ))
## [1] "El nivel de educación mayor es: 18"
promeduc <- base %>%
select(educ) %>%
summarise(promedio=mean(educ))
View(promeduc)
ggplot(base,aes(x=educ))+
geom_boxplot(color="black", fill="yellow")+
labs(title = "Distribución de los años de educación")+
theme_minimal()
minimo <- base %>%
select(educ) %>%
summarise(min(educ))
view (minimo)
maximo <- base %>%
select(educ) %>%
summarise(max(educ))
view (maximo)
salariopromedio <- mean(base$wage)
salariopromedio
## [1] 5.896103
salpromdes <- round(salariopromedio, digits = 3)
print(paste("El salario promedio es:", salpromdes, "por hora"))
## [1] "El salario promedio es: 5.896 por hora"
salaryprom <- base %>%
select(wage) %>%
summarise(promedio=mean(wage))
View(salaryprom)
ggplot(base,aes(x=wage))+
geom_boxplot (color="cornflowerblue", fill="yellow")+
labs(title = "Salarios")+
theme_light()
El salario promedio parece ser bajo, ya que en el diagrama de cajas podemos observar que hay muchas observaciones de salarios por encima del diagrama, loq ue significa que hay datos atípicos, muchas personas cuyo salario es superior a los que quedan dentro de la caja.
sexo <- table(base$female)
print(paste("La cantidad de hombres en la muestra es:", sexo[1]))
## [1] "La cantidad de hombres en la muestra es: 274"
print(paste("La cantidad de mujeres en la muestra es:", sexo[2]))
## [1] "La cantidad de mujeres en la muestra es: 252"
sexo1 <- table(base2$male)
print(paste("La cantidad de mujeres en la muestra es:", sexo1[1]))
## [1] "La cantidad de mujeres en la muestra es: 665"
fumadoras <- base2 %>%
select(cigs) %>%
filter(cigs > 0)
fumadoras
## cigs
## 1 6
## 2 10
## 3 20
## 4 40
## 5 10
## 6 10
## 7 20
## 8 3
## 9 10
## 10 20
## 11 40
## 12 4
## 13 5
## 14 10
## 15 20
## 16 8
## 17 4
## 18 20
## 19 10
## 20 12
## 21 20
## 22 10
## 23 10
## 24 20
## 25 20
## 26 4
## 27 1
## 28 20
## 29 40
## 30 20
## 31 10
## 32 10
## 33 20
## 34 15
## 35 20
## 36 20
## 37 12
## 38 8
## 39 15
## 40 10
## 41 10
## 42 20
## 43 10
## 44 20
## 45 20
## 46 4
## 47 20
## 48 10
## 49 30
## 50 15
## 51 15
## 52 5
## 53 20
## 54 20
## 55 5
## 56 20
## 57 5
## 58 5
## 59 30
## 60 10
## 61 6
## 62 20
## 63 5
## 64 20
## 65 10
## 66 2
## 67 5
## 68 1
## 69 20
## 70 10
## 71 10
## 72 20
## 73 20
## 74 20
## 75 3
## 76 10
## 77 20
## 78 40
## 79 20
## 80 8
## 81 20
## 82 10
## 83 7
## 84 8
## 85 20
## 86 10
## 87 20
## 88 5
## 89 10
## 90 20
## 91 15
## 92 7
## 93 15
## 94 1
## 95 15
## 96 5
## 97 10
## 98 12
## 99 10
## 100 20
## 101 10
## 102 10
## 103 4
## 104 4
## 105 15
## 106 3
## 107 10
## 108 10
## 109 20
## 110 2
## 111 10
## 112 20
## 113 10
## 114 5
## 115 10
## 116 20
## 117 10
## 118 10
## 119 30
## 120 10
## 121 20
## 122 10
## 123 30
## 124 30
## 125 4
## 126 10
## 127 3
## 128 20
## 129 3
## 130 20
## 131 7
## 132 20
## 133 2
## 134 10
## 135 20
## 136 5
## 137 10
## 138 20
## 139 20
## 140 5
## 141 7
## 142 15
## 143 4
## 144 10
## 145 15
## 146 15
## 147 40
## 148 10
## 149 20
## 150 20
## 151 20
## 152 10
## 153 10
## 154 10
## 155 15
## 156 15
## 157 20
## 158 5
## 159 6
## 160 20
## 161 10
## 162 20
## 163 10
## 164 20
## 165 20
## 166 10
## 167 20
## 168 20
## 169 10
## 170 6
## 171 2
## 172 20
## 173 10
## 174 4
## 175 6
## 176 10
## 177 3
## 178 5
## 179 5
## 180 20
## 181 6
## 182 20
## 183 15
## 184 8
## 185 5
## 186 10
## 187 15
## 188 12
## 189 10
## 190 46
## 191 20
## 192 5
## 193 40
## 194 20
## 195 12
## 196 10
## 197 20
## 198 5
## 199 50
## 200 20
## 201 5
## 202 15
## 203 10
## 204 9
## 205 15
## 206 10
## 207 15
## 208 20
## 209 3
## 210 10
## 211 15
## 212 20
fumemb <- count(fumadoras)
print(paste("La cantidad de mujeres que fumaron durante el embarazo es:", fumemb))
## [1] "La cantidad de mujeres que fumaron durante el embarazo es: 212"
promci13 <- base2 %>%
select(cigs) %>%
summarise(promedio=mean(cigs))
promci13
## promedio
## 1 2.087176
promcitt <- round(promci13, digits = 2)
print(paste("La cantidad promedio de cigarros fumados al día es:", promcitt))
## [1] "La cantidad promedio de cigarros fumados al día es: 2.09"
Teniendo en cuenta que la cantidad de mujeres es de 665, se considera que el promedio de cigarrillos fumados es una medida representativa frente a la cantidad de mujeres que fumaron durante el embarazo que es 212, esto es que el 31.87% de las mujeres fumaron durante el embarazo y el promedio de cigarrillos diario fumado fue de 13.67.
promcig <- base2 %>%
select(cigs) %>%
filter(cigs > 0) %>%
summarise(promedio=mean(cigs))
promcig
## promedio
## 1 13.66509
promcig2 <- round(promcig, digits = 2)
print(paste("La cantidad promedio de cigarros fumados al día por una mujer en embarazo es:", promcig2))
## [1] "La cantidad promedio de cigarros fumados al día por una mujer en embarazo es: 13.67"
sexo1 <- table(base2$male)
print(paste("La cantidad de mujeres en la muestra es:", sexo1[1]))
## [1] "La cantidad de mujeres en la muestra es: 665"
fumadoras <- base2 %>%
select(cigs) %>%
filter(cigs > 0)
fumadoras
## cigs
## 1 6
## 2 10
## 3 20
## 4 40
## 5 10
## 6 10
## 7 20
## 8 3
## 9 10
## 10 20
## 11 40
## 12 4
## 13 5
## 14 10
## 15 20
## 16 8
## 17 4
## 18 20
## 19 10
## 20 12
## 21 20
## 22 10
## 23 10
## 24 20
## 25 20
## 26 4
## 27 1
## 28 20
## 29 40
## 30 20
## 31 10
## 32 10
## 33 20
## 34 15
## 35 20
## 36 20
## 37 12
## 38 8
## 39 15
## 40 10
## 41 10
## 42 20
## 43 10
## 44 20
## 45 20
## 46 4
## 47 20
## 48 10
## 49 30
## 50 15
## 51 15
## 52 5
## 53 20
## 54 20
## 55 5
## 56 20
## 57 5
## 58 5
## 59 30
## 60 10
## 61 6
## 62 20
## 63 5
## 64 20
## 65 10
## 66 2
## 67 5
## 68 1
## 69 20
## 70 10
## 71 10
## 72 20
## 73 20
## 74 20
## 75 3
## 76 10
## 77 20
## 78 40
## 79 20
## 80 8
## 81 20
## 82 10
## 83 7
## 84 8
## 85 20
## 86 10
## 87 20
## 88 5
## 89 10
## 90 20
## 91 15
## 92 7
## 93 15
## 94 1
## 95 15
## 96 5
## 97 10
## 98 12
## 99 10
## 100 20
## 101 10
## 102 10
## 103 4
## 104 4
## 105 15
## 106 3
## 107 10
## 108 10
## 109 20
## 110 2
## 111 10
## 112 20
## 113 10
## 114 5
## 115 10
## 116 20
## 117 10
## 118 10
## 119 30
## 120 10
## 121 20
## 122 10
## 123 30
## 124 30
## 125 4
## 126 10
## 127 3
## 128 20
## 129 3
## 130 20
## 131 7
## 132 20
## 133 2
## 134 10
## 135 20
## 136 5
## 137 10
## 138 20
## 139 20
## 140 5
## 141 7
## 142 15
## 143 4
## 144 10
## 145 15
## 146 15
## 147 40
## 148 10
## 149 20
## 150 20
## 151 20
## 152 10
## 153 10
## 154 10
## 155 15
## 156 15
## 157 20
## 158 5
## 159 6
## 160 20
## 161 10
## 162 20
## 163 10
## 164 20
## 165 20
## 166 10
## 167 20
## 168 20
## 169 10
## 170 6
## 171 2
## 172 20
## 173 10
## 174 4
## 175 6
## 176 10
## 177 3
## 178 5
## 179 5
## 180 20
## 181 6
## 182 20
## 183 15
## 184 8
## 185 5
## 186 10
## 187 15
## 188 12
## 189 10
## 190 46
## 191 20
## 192 5
## 193 40
## 194 20
## 195 12
## 196 10
## 197 20
## 198 5
## 199 50
## 200 20
## 201 5
## 202 15
## 203 10
## 204 9
## 205 15
## 206 10
## 207 15
## 208 20
## 209 3
## 210 10
## 211 15
## 212 20
fumemb <- count(fumadoras)
print(paste("La cantidad de mujeres que fumaron durante el embarazo es:", fumemb))
## [1] "La cantidad de mujeres que fumaron durante el embarazo es: 212"
propor <- round (fumemb/sexo1[1], digits = 4)
propor
## n
## 1 0.3188
porcentaje <- propor*100
print(paste("La proporción de mujeres que fumaron durante el embarazo es:", porcentaje))
## [1] "La proporción de mujeres que fumaron durante el embarazo es: 31.88"
La cantidad de cigarrillos consumidos por mujeres en embarazo se relaciona con la respuesta del inciso II ya que se identifica la proporción de mujeres que fueron fumadoras durante el embarazo y ese porcentaje nos permite concluir sobre una medida representativa típica o no de la mujer.
promfath <- base2 %>%
select(fatheduc) %>%
summarise(promedio=mean(fatheduc, na.rm = TRUE))
promfath
## promedio
## 1 13.18624
print(paste("Los años de educación promedio de los padres son:", promfath))
## [1] "Los años de educación promedio de los padres son: 13.1862416107383"
obs <- base2 %>%
select(fatheduc) %>%
count(fatheduc, na.rm = TRUE)
obs
## fatheduc na.rm n
## 1 1 TRUE 1
## 2 2 TRUE 2
## 3 3 TRUE 4
## 4 4 TRUE 3
## 5 5 TRUE 4
## 6 6 TRUE 10
## 7 7 TRUE 10
## 8 8 TRUE 22
## 9 9 TRUE 17
## 10 10 TRUE 49
## 11 11 TRUE 64
## 12 12 TRUE 443
## 13 13 TRUE 87
## 14 14 TRUE 115
## 15 15 TRUE 43
## 16 16 TRUE 189
## 17 17 TRUE 32
## 18 18 TRUE 97
## 19 NA TRUE 196
Frente a la pregunta de por qué se usan solo 1192 observaciones para sacar el promedio de años de educación del padre, inicialmente pensé que era porque quizás había padres con años de estudio iguales a cero, pero teniendo en cuenta la observación realizada es probable que algunas madres sean madres solteras sin presencia de un padre razón por la cual aparece un NA y no se tiene ningún dato que en algún caso hubiera podido ser cero.
income <- base2 %>%
select(faminc) %>%
summarise(promedio=mean(faminc))
income
## promedio
## 1 29.02666
ingusd <- income*1000
ing <- round (ingusd, digits = 0)
print(paste("El ingreso familiar promedio es de:", ing, "dólares"))
## [1] "El ingreso familiar promedio es de: 29027 dólares"
desing <- base2 %>%
select(faminc) %>%
summarise(sd(faminc))
desing
## sd(faminc)
## 1 18.73928
dmil <- round(desing*1000, digits = 0)
dmil
## sd(faminc)
## 1 18739
print(paste("La desviación estandar del ingreso es:", dmil, "dólares"))
## [1] "La desviación estandar del ingreso es: 18739 dólares"