Realizar un análisis descriptivo de un conjunto de datos simulado con cuatro variables de interés.
Se solicita desarrollar un documento markdown y publicar en el servicio rpubs en su cuenta personal con el análisis descriptivo correspondiente de los datos.
library(readr)
library(fdth)
library(dplyr)
library(ggplot2)
source("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/2023/funciones/funciones%20para%20ejercicios.R")
Crear vector nombres aleatoriamente a partir de 350 nombres comunes.Se debe cambiar la semilla.
datos <- f_crear_datos_personas(n = 350, semilla = 2023)
datos
## nombres generos edades estaturas estado_civil
## 1 ANDRÉS M 37 165.20 VIUDO
## 2 ROSA F 28 142.09 SOLTERO
## 3 MARÍA DE JESÚS F 19 153.33 CASADO
## 4 MARÍA DE LA LUZ F 36 153.52 DIVORCIADO
## 5 MARÍA DE LOS ÁNGELES F 32 159.63 DIVORCIADO
## 6 JAIME M 49 163.11 UNION LIBRE
## 7 JOSÉ M 29 156.12 VIUDO
## 8 MARIO M 48 160.37 VIUDO
## 9 MIGUEL ÁNGEL M 34 155.85 SOLTERO
## 10 MARÍA GUADALUPE F 33 149.40 CASADO
## 11 ROBERTO M 41 147.74 SOLTERO
## 12 SERGIO M 34 156.80 SOLTERO
## 13 MIGUEL ÁNGEL M 44 169.65 CASADO
## 14 JAIME M 45 158.50 UNION LIBRE
## 15 ANTONIO M 32 160.76 UNION LIBRE
## 16 GUSTAVO M 45 171.37 SOLTERO
## 17 ROBERTO M 44 150.20 CASADO
## 18 GLORIA F 43 158.73 CASADO
## 19 FRANCISCO M 47 152.88 SOLTERO
## 20 ANA MARÍA F 44 154.42 UNION LIBRE
## 21 JOSÉ M 34 166.58 VIUDO
## 22 ADRIANA F 35 168.89 CASADO
## 23 MARÍA TERESA F 50 160.58 DIVORCIADO
## 24 GERARDO F 40 156.19 SOLTERO
## 25 ARMANDO M 34 168.80 CASADO
## 26 MARÍA ISABEL F 20 159.40 CASADO
## 27 ALEJANDRO M 32 168.52 SOLTERO
## 28 MARCO ANTONIO M 29 163.11 CASADO
## 29 GABRIELA F 53 165.19 UNION LIBRE
## 30 SILVIA F 65 159.62 DIVORCIADO
## 31 ROSA MARÍA F 35 176.14 CASADO
## 32 MARTHA F 51 161.28 CASADO
## 33 ISABEL F 30 161.16 CASADO
## 34 JAIME M 38 154.21 SOLTERO
## 35 MARÍA ISABEL F 32 157.15 CASADO
## 36 GERARDO F 34 160.63 DIVORCIADO
## 37 RICARDO M 43 165.52 CASADO
## 38 ANDREA F 49 162.28 CASADO
## 39 JOSÉ MANUEL F 48 145.23 SOLTERO
## 40 VÍCTOR MANUEL M 37 171.45 VIUDO
## 41 JUAN CARLOS M 42 156.88 DIVORCIADO
## 42 MANUEL M 42 160.29 DIVORCIADO
## 43 MARÍA F 42 164.88 CASADO
## 44 SILVIA F 36 149.44 SOLTERO
## 45 SALVADOR M 41 154.30 DIVORCIADO
## 46 DAVID M 45 152.93 CASADO
## 47 ALEJANDRO M 62 151.08 CASADO
## 48 JOSÉ GUADALUPE M 49 171.38 DIVORCIADO
## 49 MIGUEL ÁNGEL M 41 165.96 SOLTERO
## 50 LUIS ÁNGEL M 46 161.83 CASADO
## 51 JUAN MANUEL M 45 155.78 CASADO
## 52 GUSTAVO M 27 163.43 SOLTERO
## 53 ELIZABETH F 34 155.17 VIUDO
## 54 CARMEN F 50 175.03 UNION LIBRE
## 55 MARÍA DE LOS ÁNGELES F 54 166.68 CASADO
## 56 MANUEL M 61 164.78 SOLTERO
## 57 GABRIELA F 17 151.58 CASADO
## 58 ELIZABETH F 34 151.98 CASADO
## 59 JOSÉ MANUEL F 41 160.63 CASADO
## 60 MANUEL M 45 149.84 SOLTERO
## 61 CARMEN F 48 171.68 UNION LIBRE
## 62 VERÓNICA M 35 150.78 CASADO
## 63 MANUEL M 19 154.88 CASADO
## 64 JOSÉ LUIS M 26 162.21 SOLTERO
## 65 ENRIQUE F 48 149.29 SOLTERO
## 66 ANTONIO M 37 169.86 SOLTERO
## 67 ALICIA F 46 155.92 UNION LIBRE
## 68 GABRIELA F 34 162.21 CASADO
## 69 GUSTAVO M 48 151.90 SOLTERO
## 70 GUILLERMO M 47 154.68 VIUDO
## 71 MARÍA DEL CARMEN F 23 165.82 SOLTERO
## 72 MARÍA DE LOS ÁNGELES F 29 157.43 CASADO
## 73 RAFAEL M 37 163.22 CASADO
## 74 LUCÍA F 29 147.06 VIUDO
## 75 RAÚL M 45 161.67 SOLTERO
## 76 RAMÓN M 37 173.01 DIVORCIADO
## 77 LETICIA F 37 156.58 DIVORCIADO
## 78 ÓSCAR M 34 162.96 DIVORCIADO
## 79 RICARDO M 38 155.09 VIUDO
## 80 ROBERTO M 27 163.48 SOLTERO
## 81 GUSTAVO M 40 154.18 SOLTERO
## 82 ALBERTO M 55 157.36 UNION LIBRE
## 83 ANDRÉS M 37 155.81 VIUDO
## 84 GLORIA F 43 166.64 SOLTERO
## 85 JOSÉ MANUEL F 39 166.45 UNION LIBRE
## 86 MARÍA FERNANDA F 41 154.42 UNION LIBRE
## 87 MARÍA DEL CARMEN F 48 158.45 SOLTERO
## 88 RUBEN M 33 160.80 UNION LIBRE
## 89 DAVID M 30 152.99 SOLTERO
## 90 EDUARDO M 19 163.35 CASADO
## 91 RAMÓN M 24 147.96 CASADO
## 92 MARÍA F 42 162.90 SOLTERO
## 93 GUILLERMO M 35 158.33 UNION LIBRE
## 94 GABRIEL M 61 156.47 DIVORCIADO
## 95 JORGE JESÚS M 26 161.97 UNION LIBRE
## 96 RAFAEL M 50 150.77 VIUDO
## 97 ELIZABETH F 23 158.72 UNION LIBRE
## 98 JOSÉ ANTONIO M 36 147.62 VIUDO
## 99 MARÍA FERNANDA F 30 149.41 CASADO
## 100 MARÍA DE JESÚS F 25 171.17 UNION LIBRE
## 101 JOSEFINA M 39 161.81 SOLTERO
## 102 JUAN M 37 167.62 DIVORCIADO
## 103 RUBEN M 47 166.07 DIVORCIADO
## 104 MARÍA ISABEL F 48 154.88 CASADO
## 105 ANA MARÍA F 47 156.20 DIVORCIADO
## 106 MARÍA DE GUADALUPE F 38 146.79 SOLTERO
## 107 ALEJANDRO M 31 158.70 UNION LIBRE
## 108 LUCÍA F 41 164.54 CASADO
## 109 PABLO M 29 169.76 SOLTERO
## 110 GUSTAVO M 52 175.27 SOLTERO
## 111 JORGE JESÚS M 45 152.08 VIUDO
## 112 ARMANDO M 38 164.65 CASADO
## 113 LUIS M 41 171.52 DIVORCIADO
## 114 MARÍA DE LA LUZ F 17 160.30 UNION LIBRE
## 115 JESÚS M 46 165.18 DIVORCIADO
## 116 IRMA F 38 161.03 VIUDO
## 117 FRANCISCO JAVIER F 28 154.69 SOLTERO
## 118 JOSÉ ANTONIO M 64 166.15 VIUDO
## 119 JOSÉ M 45 163.71 CASADO
## 120 ROSA MARÍA F 57 179.35 DIVORCIADO
## 121 AGUSTÍN M 33 149.43 SOLTERO
## 122 MARÍA DEL ROSARIO F 42 156.68 SOLTERO
## 123 MARÍA GUADALUPE F 39 169.58 DIVORCIADO
## 124 PATRICIA F 41 154.68 CASADO
## 125 MARTHA F 30 158.61 CASADO
## 126 ÁNGEL M 49 154.83 CASADO
## 127 GUSTAVO M 31 162.41 UNION LIBRE
## 128 ELIZABETH F 36 153.06 DIVORCIADO
## 129 VÍCTOR MANUEL M 35 161.04 SOLTERO
## 130 JAVIER F 51 169.22 CASADO
## 131 ANDRÉS M 37 153.62 UNION LIBRE
## 132 MARÍA DEL ROSARIO F 62 148.99 VIUDO
## 133 LUIS ÁNGEL M 42 159.27 CASADO
## 134 DIEGO M 48 161.70 SOLTERO
## 135 MARTÍN M 35 159.26 SOLTERO
## 136 LUIS ÁNGEL M 51 165.11 SOLTERO
## 137 ROSA F 20 145.25 DIVORCIADO
## 138 MARÍA DE GUADALUPE F 44 151.83 CASADO
## 139 TERESA F 36 154.18 DIVORCIADO
## 140 SALVADOR M 42 168.84 SOLTERO
## 141 ÁNGEL M 36 152.15 CASADO
## 142 MARÍA DE GUADALUPE F 36 166.94 UNION LIBRE
## 143 ARMANDO M 45 158.24 DIVORCIADO
## 144 FERNANDO M 21 152.40 SOLTERO
## 145 MARÍA LUISA F 38 165.44 DIVORCIADO
## 146 JUANA F 44 137.73 VIUDO
## 147 JOSÉ DE JESÚS M 42 153.66 SOLTERO
## 148 ANA MARÍA F 40 151.76 DIVORCIADO
## 149 MARÍA TERESA F 37 155.32 UNION LIBRE
## 150 JOSÉ GUADALUPE M 33 167.09 UNION LIBRE
## 151 MARÍA ISABEL F 43 169.43 UNION LIBRE
## 152 MARCO ANTONIO M 65 166.36 CASADO
## 153 ARTURO F 26 153.44 CASADO
## 154 ROBERTO M 47 177.90 CASADO
## 155 MARÍA ELENA M 32 172.41 CASADO
## 156 JUAN CARLOS M 47 162.99 VIUDO
## 157 MARÍA ELENA M 42 167.61 SOLTERO
## 158 MARÍA DE GUADALUPE F 38 143.95 CASADO
## 159 ELIZABETH F 46 167.20 SOLTERO
## 160 DIEGO M 54 165.73 CASADO
## 161 ISABEL F 55 153.96 DIVORCIADO
## 162 ANTONIA F 41 163.06 UNION LIBRE
## 163 JAIME M 43 149.08 DIVORCIADO
## 164 LETICIA F 46 152.78 CASADO
## 165 RAFAEL M 29 166.09 DIVORCIADO
## 166 GUADALUPE F 41 165.33 DIVORCIADO
## 167 MARÍA ISABEL F 37 160.84 CASADO
## 168 ANDRÉS M 37 168.01 DIVORCIADO
## 169 MARIO M 41 141.54 UNION LIBRE
## 170 MARÍA DE GUADALUPE F 38 160.02 UNION LIBRE
## 171 MARÍA TERESA F 43 160.97 DIVORCIADO
## 172 MIGUEL M 41 149.49 DIVORCIADO
## 173 RAMÓN M 29 150.63 VIUDO
## 174 ALFREDO M 20 154.28 DIVORCIADO
## 175 MANUEL M 27 151.56 VIUDO
## 176 PEDRO M 33 157.51 VIUDO
## 177 AGUSTÍN M 58 147.93 CASADO
## 178 MARÍA LUISA F 25 148.73 CASADO
## 179 PEDRO M 33 171.64 CASADO
## 180 FERNANDO M 50 171.29 CASADO
## 181 ALEJANDRO M 39 159.09 CASADO
## 182 JUAN MANUEL M 38 158.72 DIVORCIADO
## 183 DAVID M 48 161.48 VIUDO
## 184 JOSÉ ANTONIO M 40 152.63 SOLTERO
## 185 MARÍA GUADALUPE F 28 167.60 CASADO
## 186 TERESA F 47 165.86 CASADO
## 187 RAÚL M 34 160.67 VIUDO
## 188 EDUARDO M 46 153.60 UNION LIBRE
## 189 MARÍA TERESA F 39 153.55 VIUDO
## 190 ELIZABETH F 30 170.16 DIVORCIADO
## 191 ALEJANDRA F 41 152.95 SOLTERO
## 192 GUSTAVO M 35 152.60 CASADO
## 193 DAVID M 29 171.67 UNION LIBRE
## 194 ALICIA F 31 164.42 SOLTERO
## 195 LUCÍA F 32 151.24 SOLTERO
## 196 MARÍA DEL ROSARIO F 52 171.21 UNION LIBRE
## 197 JESÚS M 56 140.49 DIVORCIADO
## 198 MARÍA ISABEL F 43 169.03 SOLTERO
## 199 MARGARITA F 54 160.34 CASADO
## 200 EDUARDO M 42 152.62 SOLTERO
## 201 GUILLERMO M 19 162.33 DIVORCIADO
## 202 EDUARDO M 53 162.15 CASADO
## 203 ARTURO F 41 158.69 CASADO
## 204 JORGE JESÚS M 62 151.48 UNION LIBRE
## 205 ÁNGEL M 43 154.31 CASADO
## 206 JOSÉ DE JESÚS M 46 171.23 DIVORCIADO
## 207 ALEJANDRO M 43 182.04 DIVORCIADO
## 208 RICARDO M 39 157.43 CASADO
## 209 MARÍA F 41 149.17 CASADO
## 210 ALEJANDRO M 32 154.89 DIVORCIADO
## 211 ALEJANDRA F 22 154.08 CASADO
## 212 TERESA F 40 166.46 UNION LIBRE
## 213 MARÍA FERNANDA F 33 168.62 VIUDO
## 214 JOSÉ LUIS M 28 152.30 UNION LIBRE
## 215 EDUARDO M 39 166.03 CASADO
## 216 MARÍA DE LOS ÁNGELES F 32 165.66 DIVORCIADO
## 217 GERARDO F 29 163.12 CASADO
## 218 JULIO CESAR M 22 170.98 SOLTERO
## 219 RUBEN M 35 168.47 DIVORCIADO
## 220 CARMEN F 55 169.40 SOLTERO
## 221 ANTONIO M 18 159.10 VIUDO
## 222 JORGE JESÚS M 29 163.93 VIUDO
## 223 SANTIAGO M 38 157.70 VIUDO
## 224 RAÚL M 23 171.72 CASADO
## 225 GLORIA F 43 159.01 CASADO
## 226 SANTIAGO M 24 156.04 UNION LIBRE
## 227 MARÍA ELENA M 30 145.00 UNION LIBRE
## 228 JUAN CARLOS M 27 171.59 CASADO
## 229 ANDREA F 31 165.44 DIVORCIADO
## 230 LUCÍA F 28 153.48 SOLTERO
## 231 IRMA F 26 158.97 CASADO
## 232 MARÍA TERESA F 39 167.97 SOLTERO
## 233 GABRIEL M 34 146.38 UNION LIBRE
## 234 MARÍA DEL ROSARIO F 42 160.17 CASADO
## 235 GERARDO F 6 156.81 UNION LIBRE
## 236 FERNANDO M 26 156.41 SOLTERO
## 237 ISABEL F 52 158.74 CASADO
## 238 TERESA F 42 153.68 CASADO
## 239 ÓSCAR M 31 155.31 SOLTERO
## 240 AGUSTÍN M 44 159.40 SOLTERO
## 241 AGUSTÍN M 35 155.56 UNION LIBRE
## 242 CARMEN F 32 158.84 CASADO
## 243 PABLO M 49 167.21 SOLTERO
## 244 MARÍA FERNANDA F 40 158.33 VIUDO
## 245 MARTHA F 40 155.41 DIVORCIADO
## 246 MARÍA FERNANDA F 31 169.59 DIVORCIADO
## 247 MARÍA DEL CARMEN F 26 162.87 DIVORCIADO
## 248 PABLO M 43 156.56 DIVORCIADO
## 249 ÓSCAR M 23 153.47 DIVORCIADO
## 250 ALICIA F 25 145.98 SOLTERO
## 251 MARÍA DEL CARMEN F 26 153.73 UNION LIBRE
## 252 ARACELI M 25 168.71 DIVORCIADO
## 253 ELIZABETH F 42 163.29 UNION LIBRE
## 254 GUSTAVO M 39 155.48 CASADO
## 255 MARÍA DE LOS ÁNGELES F 32 179.50 CASADO
## 256 MARÍA LUISA F 49 167.32 VIUDO
## 257 DANIEL M 34 161.42 CASADO
## 258 ROBERTO M 37 152.31 DIVORCIADO
## 259 MANUEL M 26 166.84 SOLTERO
## 260 JUAN M 31 153.34 UNION LIBRE
## 261 LETICIA F 41 161.03 VIUDO
## 262 MARÍA DE LOS ÁNGELES F 43 157.41 SOLTERO
## 263 MARÍA TERESA F 15 173.29 VIUDO
## 264 MARÍA DE JESÚS F 37 165.93 SOLTERO
## 265 MARÍA F 41 155.03 DIVORCIADO
## 266 JAVIER F 31 168.76 CASADO
## 267 JOSÉ DE JESÚS M 33 166.26 DIVORCIADO
## 268 JOSÉ LUIS M 31 146.59 VIUDO
## 269 ALBERTO M 41 156.93 VIUDO
## 270 MANUEL M 48 151.44 DIVORCIADO
## 271 JOSÉ MANUEL F 43 163.89 VIUDO
## 272 JUAN CARLOS M 46 148.27 VIUDO
## 273 GABRIELA F 32 155.69 CASADO
## 274 MARÍA DE LOS ÁNGELES F 28 155.31 DIVORCIADO
## 275 GABRIEL M 38 157.25 CASADO
## 276 MARÍA DEL CARMEN F 39 144.89 UNION LIBRE
## 277 MARÍA DE GUADALUPE F 46 160.90 UNION LIBRE
## 278 FRANCISCA F 40 163.99 UNION LIBRE
## 279 JORGE JESÚS M 46 149.89 DIVORCIADO
## 280 MARÍA ELENA M 62 164.87 SOLTERO
## 281 MARTHA F 22 165.77 UNION LIBRE
## 282 GUILLERMO M 40 162.13 CASADO
## 283 MARÍA DE LA LUZ F 49 140.69 DIVORCIADO
## 284 FELIPE M 43 155.71 DIVORCIADO
## 285 CARLOS M 40 167.26 UNION LIBRE
## 286 JORGE M 30 145.64 SOLTERO
## 287 FELIPE M 28 155.02 SOLTERO
## 288 GUADALUPE F 47 170.69 VIUDO
## 289 MARÍA F 43 167.08 SOLTERO
## 290 ISABEL F 45 175.87 DIVORCIADO
## 291 ISABEL F 57 160.60 CASADO
## 292 MARÍA LUISA F 50 153.52 UNION LIBRE
## 293 ROSA MARÍA F 32 157.92 UNION LIBRE
## 294 JOSÉ ANTONIO M 44 148.09 DIVORCIADO
## 295 MARÍA DE LA LUZ F 35 154.88 CASADO
## 296 MARÍA DE GUADALUPE F 41 157.07 CASADO
## 297 GABRIEL M 36 157.32 DIVORCIADO
## 298 RAÚL M 31 152.41 CASADO
## 299 ALEJANDRO M 39 162.08 SOLTERO
## 300 ANTONIO M 36 170.22 CASADO
## 301 PABLO M 46 156.41 SOLTERO
## 302 JUAN MANUEL M 84 169.73 SOLTERO
## 303 MARÍA LUISA F 28 139.66 SOLTERO
## 304 GUADALUPE F 27 152.89 CASADO
## 305 MARÍA GUADALUPE F 42 163.00 SOLTERO
## 306 GUILLERMO M 40 179.30 DIVORCIADO
## 307 MARÍA DE JESÚS F 34 161.74 VIUDO
## 308 RICARDO M 38 170.74 CASADO
## 309 MARGARITA F 27 162.68 DIVORCIADO
## 310 JUAN M 51 161.35 VIUDO
## 311 DANIEL M 23 172.40 VIUDO
## 312 JOSÉ GUADALUPE M 40 162.72 DIVORCIADO
## 313 MARÍA FERNANDA F 26 153.60 SOLTERO
## 314 DAVID M 36 169.36 SOLTERO
## 315 ANTONIO M 26 153.69 SOLTERO
## 316 RAMÓN M 34 162.18 UNION LIBRE
## 317 SILVIA F 45 165.29 CASADO
## 318 ADRIANA F 52 167.57 SOLTERO
## 319 JORGE JESÚS M 43 168.17 SOLTERO
## 320 JOSEFINA M 30 152.64 UNION LIBRE
## 321 ROSA MARÍA F 50 145.02 SOLTERO
## 322 SALVADOR M 35 146.09 DIVORCIADO
## 323 MIGUEL ÁNGEL M 43 149.08 SOLTERO
## 324 ÓSCAR M 48 163.15 SOLTERO
## 325 MARGARITA F 42 163.72 SOLTERO
## 326 ANTONIO M 35 160.05 SOLTERO
## 327 LUIS M 35 163.91 CASADO
## 328 ANTONIA F 48 168.68 UNION LIBRE
## 329 GABRIEL M 34 163.73 UNION LIBRE
## 330 ENRIQUE F 37 161.95 SOLTERO
## 331 ÁNGEL M 47 164.98 UNION LIBRE
## 332 MARGARITA F 21 145.63 CASADO
## 333 CARLOS M 39 158.84 UNION LIBRE
## 334 EDUARDO M 34 144.81 SOLTERO
## 335 MARTHA F 53 154.01 VIUDO
## 336 GUADALUPE F 28 150.54 DIVORCIADO
## 337 JAVIER F 38 168.52 CASADO
## 338 MARÍA TERESA F 23 143.88 CASADO
## 339 JOSEFINA M 23 154.75 CASADO
## 340 TERESA F 44 173.64 UNION LIBRE
## 341 ANTONIO M 38 145.85 CASADO
## 342 IRMA F 43 158.10 CASADO
## 343 ANA MARÍA F 51 153.11 UNION LIBRE
## 344 ANDRÉS M 57 162.33 SOLTERO
## 345 TERESA F 34 166.48 UNION LIBRE
## 346 JOSÉ DE JESÚS M 33 153.14 DIVORCIADO
## 347 ÓSCAR M 35 161.05 SOLTERO
## 348 MIGUEL M 43 156.10 CASADO
## 349 GABRIEL M 31 160.23 DIVORCIADO
## 350 VERÓNICA M 36 157.23 CASADO
summary(datos)
## nombres generos edades estaturas
## GUSTAVO : 8 F:159 Min. : 6.00 Min. :137.7
## ALEJANDRO : 7 M:191 1st Qu.:32.00 1st Qu.:153.7
## ANTONIO : 7 Median :38.00 Median :159.3
## ELIZABETH : 7 Mean :38.44 Mean :159.5
## MANUEL : 7 3rd Qu.:45.00 3rd Qu.:165.5
## MARÍA DE GUADALUPE: 7 Max. :84.00 Max. :182.0
## (Other) :307
## estado_civil
## CASADO :100
## DIVORCIADO : 68
## SOLTERO : 84
## UNION LIBRE: 57
## VIUDO : 41
##
##
¿Cual es el nombre que más se repite y con qué frecuencia?
tabla <- data.frame(fdt_cat(datos$nombres))
tabla
## Category f rf rf... cf cf...
## 1 GUSTAVO 8 0.022857143 2.2857143 8 2.285714
## 2 ALEJANDRO 7 0.020000000 2.0000000 15 4.285714
## 3 ANTONIO 7 0.020000000 2.0000000 22 6.285714
## 4 ELIZABETH 7 0.020000000 2.0000000 29 8.285714
## 5 MANUEL 7 0.020000000 2.0000000 36 10.285714
## 6 MARÍA DE GUADALUPE 7 0.020000000 2.0000000 43 12.285714
## 7 MARÍA DE LOS ÁNGELES 7 0.020000000 2.0000000 50 14.285714
## 8 MARÍA TERESA 7 0.020000000 2.0000000 57 16.285714
## 9 EDUARDO 6 0.017142857 1.7142857 63 18.000000
## 10 GABRIEL 6 0.017142857 1.7142857 69 19.714286
## 11 JORGE JESÚS 6 0.017142857 1.7142857 75 21.428571
## 12 MARÍA FERNANDA 6 0.017142857 1.7142857 81 23.142857
## 13 MARÍA ISABEL 6 0.017142857 1.7142857 87 24.857143
## 14 TERESA 6 0.017142857 1.7142857 93 26.571429
## 15 ANDRÉS 5 0.014285714 1.4285714 98 28.000000
## 16 DAVID 5 0.014285714 1.4285714 103 29.428571
## 17 GUILLERMO 5 0.014285714 1.4285714 108 30.857143
## 18 ISABEL 5 0.014285714 1.4285714 113 32.285714
## 19 MARÍA 5 0.014285714 1.4285714 118 33.714286
## 20 MARÍA DEL CARMEN 5 0.014285714 1.4285714 123 35.142857
## 21 MARÍA LUISA 5 0.014285714 1.4285714 128 36.571429
## 22 MARTHA 5 0.014285714 1.4285714 133 38.000000
## 23 ÓSCAR 5 0.014285714 1.4285714 138 39.428571
## 24 ROBERTO 5 0.014285714 1.4285714 143 40.857143
## 25 AGUSTÍN 4 0.011428571 1.1428571 147 42.000000
## 26 ANA MARÍA 4 0.011428571 1.1428571 151 43.142857
## 27 ÁNGEL 4 0.011428571 1.1428571 155 44.285714
## 28 CARMEN 4 0.011428571 1.1428571 159 45.428571
## 29 GABRIELA 4 0.011428571 1.1428571 163 46.571429
## 30 GERARDO 4 0.011428571 1.1428571 167 47.714286
## 31 GUADALUPE 4 0.011428571 1.1428571 171 48.857143
## 32 JAIME 4 0.011428571 1.1428571 175 50.000000
## 33 JOSÉ ANTONIO 4 0.011428571 1.1428571 179 51.142857
## 34 JOSÉ DE JESÚS 4 0.011428571 1.1428571 183 52.285714
## 35 JOSÉ MANUEL 4 0.011428571 1.1428571 187 53.428571
## 36 JUAN CARLOS 4 0.011428571 1.1428571 191 54.571429
## 37 LUCÍA 4 0.011428571 1.1428571 195 55.714286
## 38 MARGARITA 4 0.011428571 1.1428571 199 56.857143
## 39 MARÍA DE JESÚS 4 0.011428571 1.1428571 203 58.000000
## 40 MARÍA DE LA LUZ 4 0.011428571 1.1428571 207 59.142857
## 41 MARÍA DEL ROSARIO 4 0.011428571 1.1428571 211 60.285714
## 42 MARÍA ELENA 4 0.011428571 1.1428571 215 61.428571
## 43 MARÍA GUADALUPE 4 0.011428571 1.1428571 219 62.571429
## 44 MIGUEL ÁNGEL 4 0.011428571 1.1428571 223 63.714286
## 45 PABLO 4 0.011428571 1.1428571 227 64.857143
## 46 RAMÓN 4 0.011428571 1.1428571 231 66.000000
## 47 RAÚL 4 0.011428571 1.1428571 235 67.142857
## 48 RICARDO 4 0.011428571 1.1428571 239 68.285714
## 49 ROSA MARÍA 4 0.011428571 1.1428571 243 69.428571
## 50 ALICIA 3 0.008571429 0.8571429 246 70.285714
## 51 ARMANDO 3 0.008571429 0.8571429 249 71.142857
## 52 FERNANDO 3 0.008571429 0.8571429 252 72.000000
## 53 GLORIA 3 0.008571429 0.8571429 255 72.857143
## 54 IRMA 3 0.008571429 0.8571429 258 73.714286
## 55 JAVIER 3 0.008571429 0.8571429 261 74.571429
## 56 JOSÉ 3 0.008571429 0.8571429 264 75.428571
## 57 JOSÉ GUADALUPE 3 0.008571429 0.8571429 267 76.285714
## 58 JOSÉ LUIS 3 0.008571429 0.8571429 270 77.142857
## 59 JOSEFINA 3 0.008571429 0.8571429 273 78.000000
## 60 JUAN 3 0.008571429 0.8571429 276 78.857143
## 61 JUAN MANUEL 3 0.008571429 0.8571429 279 79.714286
## 62 LETICIA 3 0.008571429 0.8571429 282 80.571429
## 63 LUIS ÁNGEL 3 0.008571429 0.8571429 285 81.428571
## 64 RAFAEL 3 0.008571429 0.8571429 288 82.285714
## 65 RUBEN 3 0.008571429 0.8571429 291 83.142857
## 66 SALVADOR 3 0.008571429 0.8571429 294 84.000000
## 67 SILVIA 3 0.008571429 0.8571429 297 84.857143
## 68 ADRIANA 2 0.005714286 0.5714286 299 85.428571
## 69 ALBERTO 2 0.005714286 0.5714286 301 86.000000
## 70 ALEJANDRA 2 0.005714286 0.5714286 303 86.571429
## 71 ANDREA 2 0.005714286 0.5714286 305 87.142857
## 72 ANTONIA 2 0.005714286 0.5714286 307 87.714286
## 73 ARTURO 2 0.005714286 0.5714286 309 88.285714
## 74 CARLOS 2 0.005714286 0.5714286 311 88.857143
## 75 DANIEL 2 0.005714286 0.5714286 313 89.428571
## 76 DIEGO 2 0.005714286 0.5714286 315 90.000000
## 77 ENRIQUE 2 0.005714286 0.5714286 317 90.571429
## 78 FELIPE 2 0.005714286 0.5714286 319 91.142857
## 79 JESÚS 2 0.005714286 0.5714286 321 91.714286
## 80 LUIS 2 0.005714286 0.5714286 323 92.285714
## 81 MARCO ANTONIO 2 0.005714286 0.5714286 325 92.857143
## 82 MARIO 2 0.005714286 0.5714286 327 93.428571
## 83 MIGUEL 2 0.005714286 0.5714286 329 94.000000
## 84 PEDRO 2 0.005714286 0.5714286 331 94.571429
## 85 ROSA 2 0.005714286 0.5714286 333 95.142857
## 86 SANTIAGO 2 0.005714286 0.5714286 335 95.714286
## 87 VERÓNICA 2 0.005714286 0.5714286 337 96.285714
## 88 VÍCTOR MANUEL 2 0.005714286 0.5714286 339 96.857143
## 89 ALFREDO 1 0.002857143 0.2857143 340 97.142857
## 90 ARACELI 1 0.002857143 0.2857143 341 97.428571
## 91 FRANCISCA 1 0.002857143 0.2857143 342 97.714286
## 92 FRANCISCO 1 0.002857143 0.2857143 343 98.000000
## 93 FRANCISCO JAVIER 1 0.002857143 0.2857143 344 98.285714
## 94 JORGE 1 0.002857143 0.2857143 345 98.571429
## 95 JUANA 1 0.002857143 0.2857143 346 98.857143
## 96 JULIO CESAR 1 0.002857143 0.2857143 347 99.142857
## 97 MARTÍN 1 0.002857143 0.2857143 348 99.428571
## 98 PATRICIA 1 0.002857143 0.2857143 349 99.714286
## 99 SERGIO 1 0.002857143 0.2857143 350 100.000000
Con los cinco (top 5) de la variable nombres de los que más se repiten Elaborarlo con ggplot
ggplot(data = head(tabla, 5), aes(x = Category, y = f)) +
geom_col()
¿De que género hay mas personas FEMENINO F O MASCULINO M y cuál es el porcentaje o frecuencia porcentual?
tabla <- fdt_cat(datos$generos)
tabla
## Category f rf rf(%) cf cf(%)
## M 191 0.55 54.57 191 54.57
## F 159 0.45 45.43 350 100.00
Elaborarlo con ggplot
ggplot(data = head(tabla, 5), aes(x = Category, y = f)) +
geom_col()
¿Cuál es la media aritmética de la edad del conjunto de datos?
media <- mean(datos$edades)
media
## [1] 38.44
¿Cuál es la desviación estándar de la edad del conjunto de datos?
desv_std <- sd(datos$edades)
desv_std
## [1] 9.969616
Elaborarlo con ggplot con lineas de la media en rojo y desviaci+on en azul punteadas
ggplot(data = datos) +
geom_histogram(aes(x = edades), bins=30) +
geom_vline(xintercept = media, color = 'red', linetype = "dashed", size = 1) +
geom_vline(xintercept = media - desv_std, color = 'blue', linetype = "dashed", size = 1) +
geom_vline(xintercept = media + desv_std, color = 'blue', linetype = "dashed", size = 1) +
labs(title="Edades", subtitle = paste("Media", round(media, 2), "± Desv. Std", round(desv_std, 2)), x="Edades", y="Frecuencia")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
¿Qué significa el valor de la desviación estándar de la variable edad del conjunto de datos?
¿Cuál es la media aritmética de la estaturas del conjunto de datos
media <- mean(datos$estaturas)
media
## [1] 159.4973
¿Cuál es la desviación estándar de la estaturas del conjunto de datos
desv_std <- sd(datos$estaturas)
desv_std
## [1] 7.991748
Elaborarlo con ggplot con lineas de la media en rojo y desviación estándar en azul punteadas
ggplot(data = datos) +
geom_histogram(aes(x = estaturas), bins=30) +
geom_vline(xintercept = media, color = 'red', linetype = "dashed", size = 1) +
geom_vline(xintercept = media - desv_std, color = 'blue', linetype = "dashed", size = 1) +
geom_vline(xintercept = media + desv_std, color = 'blue', linetype = "dashed", size = 1) +
labs(title="Estaturas", subtitle = paste("Media", round(media, 2), "± Desv. Std", round(desv_std, 2)), x="Edades", y="Frecuencia")
¿Qué significa el valor de la desviación estándar de la variable estaturas del conjunto de datos?
¿Cual es la frecuencia de la variable estado civil del conjunto de datos?
tabla <- fdt_cat(datos$estado_civil)
tabla
## Category f rf rf(%) cf cf(%)
## CASADO 100 0.29 28.57 100 28.57
## SOLTERO 84 0.24 24.00 184 52.57
## DIVORCIADO 68 0.19 19.43 252 72.00
## UNION LIBRE 57 0.16 16.29 309 88.29
## VIUDO 41 0.12 11.71 350 100.00
Elaborarlo con ggplot con colores diferentes
ggplot(data = head(tabla, 5), aes(x = Category, y = f, fill = Category)) +
geom_col()
Con table se generan tablas simple y combinadas, en este caso con las dos variables de interés.
tabla <- table(datos$generos, datos$estado_civil)
tabla
##
## CASADO DIVORCIADO SOLTERO UNION LIBRE VIUDO
## F 54 29 31 30 15
## M 46 39 53 27 26
ggplot(data = datos, aes(x = estado_civil, fill = generos)) +
geom_bar()
De la muestra hacer un resume() de la muestra y comparar estadísticos de la muestra de la variable edad y estatura con respecto a los parámetros de la población de las mismas variables.
n <-25
# la muestra pendiente
muestra <- datos[sample(x = 1:nrow(datos), size = n, replace = FALSE), ]
# muestra <- #
paste("La población de ", nrow(datos), "observaciones")
## [1] "La población de 350 observaciones"
summary(datos[, c('edades', 'estaturas')])
## edades estaturas
## Min. : 6.00 Min. :137.7
## 1st Qu.:32.00 1st Qu.:153.7
## Median :38.00 Median :159.3
## Mean :38.44 Mean :159.5
## 3rd Qu.:45.00 3rd Qu.:165.5
## Max. :84.00 Max. :182.0
paste("La muestra de ", nrow(muestra), "observaciones")
## [1] "La muestra de 25 observaciones"
summary(muestra[, c('edades', 'estaturas')])
## edades estaturas
## Min. :19.0 Min. :140.7
## 1st Qu.:34.0 1st Qu.:154.4
## Median :42.0 Median :160.6
## Mean :41.2 Mean :159.5
## 3rd Qu.:47.0 3rd Qu.:164.0
## Max. :65.0 Max. :179.3
Las medias aritméticas de las variables edades como de estaturas son similares sin embargo, las diferencies son parte del error de muestreo que hay entre los parámetros de una población y los estadísticos de una muestra.
Se obtiene la mediana de las variables edades y estaturas de la población
mediana_edades <- median(datos$edades)
mediana_estaturas <- median(datos$estaturas)
print("Medianas")
## [1] "Medianas"
mediana_edades; mediana_estaturas
## [1] 38
## [1] 159.335
La moda se obtiene con la función table() ordenando de mayor a menor
print ("Moda edades")
## [1] "Moda edades"
moda_edades <- sort(table(datos$edades), decreasing = TRUE)
moda_edades
##
## 41 43 34 37 42 35 38 32 39 40 48 31 36 45 46 26 29 28 33 47 30 44 23 49 27 50
## 19 19 17 15 15 14 14 12 12 12 12 11 11 11 11 10 10 9 9 9 8 8 7 7 6 6
## 51 19 25 52 62 20 22 53 54 55 57 17 21 24 61 65 6 15 18 56 58 64 84
## 5 4 4 4 4 3 3 3 3 3 3 2 2 2 2 2 1 1 1 1 1 1 1
print ("Moda estaturas")
## [1] "Moda estaturas"
moda_edades <- sort(table(datos$estaturas), decreasing = TRUE)
moda_edades
##
## 154.88 149.08 153.52 153.6 154.18 154.42 154.68 155.31 156.41 157.43 158.33
## 3 2 2 2 2 2 2 2 2 2 2
## 158.72 158.84 159.4 160.63 161.03 162.21 162.33 163.11 165.44 168.52 137.73
## 2 2 2 2 2 2 2 2 2 2 1
## 139.66 140.49 140.69 141.54 142.09 143.88 143.95 144.81 144.89 145 145.02
## 1 1 1 1 1 1 1 1 1 1 1
## 145.23 145.25 145.63 145.64 145.85 145.98 146.09 146.38 146.59 146.79 147.06
## 1 1 1 1 1 1 1 1 1 1 1
## 147.62 147.74 147.93 147.96 148.09 148.27 148.73 148.99 149.17 149.29 149.4
## 1 1 1 1 1 1 1 1 1 1 1
## 149.41 149.43 149.44 149.49 149.84 149.89 150.2 150.54 150.63 150.77 150.78
## 1 1 1 1 1 1 1 1 1 1 1
## 151.08 151.24 151.44 151.48 151.56 151.58 151.76 151.83 151.9 151.98 152.08
## 1 1 1 1 1 1 1 1 1 1 1
## 152.15 152.3 152.31 152.4 152.41 152.6 152.62 152.63 152.64 152.78 152.88
## 1 1 1 1 1 1 1 1 1 1 1
## 152.89 152.93 152.95 152.99 153.06 153.11 153.14 153.33 153.34 153.44 153.47
## 1 1 1 1 1 1 1 1 1 1 1
## 153.48 153.55 153.62 153.66 153.68 153.69 153.73 153.96 154.01 154.08 154.21
## 1 1 1 1 1 1 1 1 1 1 1
## 154.28 154.3 154.31 154.69 154.75 154.83 154.89 155.02 155.03 155.09 155.17
## 1 1 1 1 1 1 1 1 1 1 1
## 155.32 155.41 155.48 155.56 155.69 155.71 155.78 155.81 155.85 155.92 156.04
## 1 1 1 1 1 1 1 1 1 1 1
## 156.1 156.12 156.19 156.2 156.47 156.56 156.58 156.68 156.8 156.81 156.88
## 1 1 1 1 1 1 1 1 1 1 1
## 156.93 157.07 157.15 157.23 157.25 157.32 157.36 157.41 157.51 157.7 157.92
## 1 1 1 1 1 1 1 1 1 1 1
## 158.1 158.24 158.45 158.5 158.61 158.69 158.7 158.73 158.74 158.97 159.01
## 1 1 1 1 1 1 1 1 1 1 1
## 159.09 159.1 159.26 159.27 159.62 159.63 160.02 160.05 160.17 160.23 160.29
## 1 1 1 1 1 1 1 1 1 1 1
## 160.3 160.34 160.37 160.58 160.6 160.67 160.76 160.8 160.84 160.9 160.97
## 1 1 1 1 1 1 1 1 1 1 1
## 161.04 161.05 161.16 161.28 161.35 161.42 161.48 161.67 161.7 161.74 161.81
## 1 1 1 1 1 1 1 1 1 1 1
## 161.83 161.95 161.97 162.08 162.13 162.15 162.18 162.28 162.41 162.68 162.72
## 1 1 1 1 1 1 1 1 1 1 1
## 162.87 162.9 162.96 162.99 163 163.06 163.12 163.15 163.22 163.29 163.35
## 1 1 1 1 1 1 1 1 1 1 1
## 163.43 163.48 163.71 163.72 163.73 163.89 163.91 163.93 163.99 164.42 164.54
## 1 1 1 1 1 1 1 1 1 1 1
## 164.65 164.78 164.87 164.88 164.98 165.11 165.18 165.19 165.2 165.29 165.33
## 1 1 1 1 1 1 1 1 1 1 1
## 165.52 165.66 165.73 165.77 165.82 165.86 165.93 165.96 166.03 166.07 166.09
## 1 1 1 1 1 1 1 1 1 1 1
## 166.15 166.26 166.36 166.45 166.46 166.48 166.58 166.64 166.68 166.84 166.94
## 1 1 1 1 1 1 1 1 1 1 1
## 167.08 167.09 167.2 167.21 167.26 167.32 167.57 167.6 167.61 167.62 167.97
## 1 1 1 1 1 1 1 1 1 1 1
## 168.01 168.17 168.47 168.62 168.68 168.71 168.76 168.8 168.84 168.89 169.03
## 1 1 1 1 1 1 1 1 1 1 1
## 169.22 169.36 169.4 169.43 169.58 169.59 169.65 169.73 169.76 169.86 170.16
## 1 1 1 1 1 1 1 1 1 1 1
## 170.22 170.69 170.74 170.98 171.17 171.21 171.23 171.29 171.37 171.38 171.45
## 1 1 1 1 1 1 1 1 1 1 1
## 171.52 171.59 171.64 171.67 171.68 171.72 172.4 172.41 173.01 173.29 173.64
## 1 1 1 1 1 1 1 1 1 1 1
## 175.03 175.27 175.87 176.14 177.9 179.3 179.35 179.5 182.04
## 1 1 1 1 1 1 1 1 1
El valor que más se repite en la variables edades del conjunto de datos es 41 y 43 con 19 ocasiones
El valor que más se repite de la variable estatura es 154.88 en 3 ocasiones es a moda de este datos numérico.
cuartiles <- quantile(datos$edades, probs = c(0.25, 0.50, 0.75))
paste("Primer cuartil al 25%", cuartiles[1])
## [1] "Primer cuartil al 25% 32"
paste("Segundo cuartil al 50%. Es la mediana", cuartiles[2])
## [1] "Segundo cuartil al 50%. Es la mediana 38"
paste("Tercer cuartil al 75%", cuartiles[3])
## [1] "Tercer cuartil al 75% 45"
El valor de la median coincide con el valor del segundo cuartil
El rango intercuartílico es la diferencia que hay entre el tercer cuartil y el primer cuartil y sirve con ello para detectar valores atípicos.
Los valores atípicos son los que están por debajo de el primer cuartil menos 1.5 veces el rango intercuartílio o los valores que están por encima de el primer cuartil menos 1.5 veces el rango intercuartílio
\[ \text{atipico por debajo}: \text{si valor ≤ primer cuartil - 1.5 * RI } \\ ó \\ \text{atipico por arriba}: \text{si valor ≥ tercer cuartil + 1.5 * RI } \\ \]
RI <- cuartiles[3] - cuartiles[1]
paste("El valor del rango intercuarílico de la variable edades es : ", as.numeric(RI))
## [1] "El valor del rango intercuarílico de la variable edades es : 13"
abajo <- cuartiles[1] - 1.5 * RI
paste("Los valores atípicos pueden estar por debajo de: ", as.numeric(abajo))
## [1] "Los valores atípicos pueden estar por debajo de: 12.5"
arriba <- cuartiles[3] + 1.5 * RI
paste("Los valores atípicos pueden estar por encima de: ", as.numeric(arriba))
## [1] "Los valores atípicos pueden estar por encima de: 64.5"
print("Los datos atípicos de la vriable edades del conjunto de datos son:")
## [1] "Los datos atípicos de la vriable edades del conjunto de datos son:"
datos$edades[which(datos$edades < abajo | datos$edades > arriba)]
## [1] 65 65 6 84
Estos son los datos atípicos o extraños o extremos del conjunto de datos: 65, 65, 6, y 84. ¿La pregunta que hacer con estos datos atípicos, la respuesta depende del analista, lo recomendables es cambiar o sustituir su valor por el de la media aritmética o la mediana o la moda con la fialida de hacer menos dispersos los datos.
ggplot(data = datos) +
geom_boxplot(aes(x = edades)) +
ggtitle("Edades", subtitle = paste("Med=", round(mediana_edades, 2), "; 1Q=", cuartiles[1], "; 2Q=", cuartiles[3], "; RI=", RI))
Existen tres valores atípicos de la variable edades del conjunto de datos.
cuartiles <- quantile(datos$estaturas, probs = c(0.25, 0.50, 0.75))
paste("Primer cuartil al 25%", cuartiles[1])
## [1] "Primer cuartil al 25% 153.665"
paste("Segundo cuartil al 50%. Es la mediana", cuartiles[2])
## [1] "Segundo cuartil al 50%. Es la mediana 159.335"
paste("Tercer cuartil al 75%", cuartiles[3])
## [1] "Tercer cuartil al 75% 165.5"
El valor de la mediana coincide con el valor del segundo cuartil
RI <- cuartiles[3] - cuartiles[1]
paste("El valor del rango intercuarílico de la variable estaturas es : ", as.numeric(RI))
## [1] "El valor del rango intercuarílico de la variable estaturas es : 11.835"
abajo <- cuartiles[1] - 1.5 * RI
paste("Los valores atípicos pueden estar por debajo de: ", as.numeric(abajo))
## [1] "Los valores atípicos pueden estar por debajo de: 135.9125"
arriba <- cuartiles[3] + 1.5 * RI
paste("Los valores atípicos pueden estar por encima de: ", as.numeric(arriba))
## [1] "Los valores atípicos pueden estar por encima de: 183.2525"
print("Los datos atípicos de la variable estaturas del conjunto de datos son:")
## [1] "Los datos atípicos de la variable estaturas del conjunto de datos son:"
datos$edades[which(datos$estaturas < abajo | datos$estaturas > arriba)]
## numeric(0)
No existen datos atípicos de la variable estaturas.
ggplot(data = datos) +
geom_boxplot(aes(x = estaturas)) +
ggtitle("Edades", subtitle = paste("Med=", round(mediana_estaturas, 2), "; 1Q=", cuartiles[1], "; 2Q=", cuartiles[3], "; RI=", RI))
Existen tres valores atípicos de la variable edades del conjunto de datos.
ggplot(data = datos) +
geom_boxplot(aes(x = edades, fill=generos)) +
ggtitle("Edades")
¿qué se observa en el diagrama?
ggplot(data = datos) +
geom_boxplot(aes(x = estaturas, fill=generos)) +
ggtitle("Estaturas")
¿qué se observa en el diagrama?
Redactar con sus propias palabras lo que les deja el caso alrededor de 100 palabras o más.