Objetivo

Realizar análisis descriptivo de los datos

Descripción

De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:

  1. La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia

  2. Determinar un gráfico de barra de los nombres

  3. Determinar las media y mediana de la variable edad

  4. Determinar la varianza y desviación de la variable edad

  5. Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia

  6. Visualizar un histograma de la variable edad

    Desarrollo

Cargar librerías

library(readr)
library(fdth)
library(knitr)

Cargar los datos

CArgar los datos desde github: https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding = "UTF-8", stringsAsFactors = TRUE)

Observar los datos

kable(datos, caption = "Nombres y edades de personas")
Nombres y edades de personas
X nombres edades
1 CARLOS 25
2 JUAN 20
3 CARLOS 18
4 RUBEN 16
5 ADRIANA 19
6 JUAN 14
7 LAURA 23
8 HECTOR 17
9 PATY 12
10 CARLOS 19
11 HECTOR 16
12 ADRIANA 18
13 JUAN 22
14 JUAN 15
15 CARLOS 14
16 LAURA 22
17 CARLOS 23
18 JUAN 16
19 CARLOS 23
20 RUBEN 25
21 PATY 15
22 LAURA 19
23 LAURA 19
24 CARLOS 22
25 HECTOR 17
26 PATY 18
27 CARLOS 16
28 LAURA 21
29 ADRIANA 22
30 CARLOS 19
31 CARLOS 26
32 PATY 18
33 PATY 20
34 RUBEN 23
35 CARLOS 17
36 LAURA 23
37 LAURA 18
38 HECTOR 19
39 JUAN 29
40 JUAN 20
41 CARLOS 17
42 JUAN 22
43 CARLOS 16
44 LAURA 21
45 LAURA 32
46 HECTOR 17
47 JUAN 20
48 CARLOS 20
49 LAURA 17
50 HECTOR 14
51 HECTOR 21
52 PATY 18
53 JUAN 16
54 JUAN 17
55 HECTOR 18
56 CARLOS 16
57 HECTOR 24
58 ADRIANA 18
59 PATY 22
60 RUBEN 16
61 RUBEN 20
62 PATY 22
63 CARLOS 25
64 CARLOS 19
65 JUAN 19
66 RUBEN 18
67 CARLOS 19
68 ADRIANA 18
69 JUAN 16
70 LAURA 23
71 CARLOS 27
72 PATY 21
73 HECTOR 16
74 JUAN 16
75 RUBEN 14
76 JUAN 18
77 HECTOR 22
78 CARLOS 11
79 ADRIANA 22
80 CARLOS 27
81 ADRIANA 26
82 RUBEN 17
83 CARLOS 22
84 CARLOS 27
85 CARLOS 28
86 HECTOR 21
87 LAURA 23
88 CARLOS 15
89 CARLOS 17
90 JUAN 20
91 LAURA 26
92 ADRIANA 21
93 JUAN 28
94 HECTOR 26
95 JUAN 18
96 LAURA 22
97 LAURA 27
98 ADRIANA 21
99 RUBEN 19
100 CARLOS 4

La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia

tabla <- fdt_cat(datos$nombres)
tabla
##  Category  f   rf rf(%)  cf cf(%)
##    CARLOS 27 0.27    27  27    27
##      JUAN 18 0.18    18  45    45
##     LAURA 15 0.15    15  60    60
##    HECTOR 13 0.13    13  73    73
##   ADRIANA  9 0.09     9  82    82
##      PATY  9 0.09     9  91    91
##     RUBEN  9 0.09     9 100   100

Determinar un gráfico de barra de los nombres

barplot(height = tabla$f, names.arg = tabla$Category)

Determinar las media y mediana de la variable edad

media.edad <- mean(datos$edades)
mediana.edad <- median(datos$edades)
media.edad ; mediana.edad
## [1] 19.81
## [1] 19

Determinar la varianza y desviación de la variable edad

Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene mayor frecuencia

var.edad <- var(datos$edades)
sd.edad <- sd(datos$edades)
var.edad ; sd.edad
## [1] 18.47869
## [1] 4.298684

Visualizar un histograma de la variable edad

hist(datos$edades)

summary()

summary(datos)
##        X             nombres       edades     
##  Min.   :  1.00   ADRIANA: 9   Min.   : 4.00  
##  1st Qu.: 25.75   CARLOS :27   1st Qu.:17.00  
##  Median : 50.50   HECTOR :13   Median :19.00  
##  Mean   : 50.50   JUAN   :18   Mean   :19.81  
##  3rd Qu.: 75.25   LAURA  :15   3rd Qu.:22.00  
##  Max.   :100.00   PATY   : 9   Max.   :32.00  
##                   RUBEN  : 9

Interpretación

Teniendo en cuenta que una vez realizado el análisis de la información se muestra que el nombre que mayor número de veces aparece es el de Carlos, con un 27 % y el nombre de Rubén es el que aparece en menor cantidad con un 9 %. Se presenta también el grafico de barras en cuestión de edades donde nos muestra una edad que mayormente oscila entre los 15 a los 20 años. En cuanto a la media y media de menor edad es de 19.1. También tenemos que la varianza y desviación de la variable de edad es de 18.47 y la menor 4.29.