Realizar análisis descriptivo de los datos
De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:
La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia
Determinar un gráfico de barra de los nombres
Determinar las media y mediana de la variable edad
Determinar la varianza y desviación de la variable edad
Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia
Visualizar un histograma de la variable edad
library(readr)
library(fdth)
library(knitr)
CArgar los datos desde github: https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding = "UTF-8", stringsAsFactors = TRUE)
kable(datos, caption = "Nombres y edades de personas")
X | nombres | edades |
---|---|---|
1 | CARLOS | 25 |
2 | JUAN | 20 |
3 | CARLOS | 18 |
4 | RUBEN | 16 |
5 | ADRIANA | 19 |
6 | JUAN | 14 |
7 | LAURA | 23 |
8 | HECTOR | 17 |
9 | PATY | 12 |
10 | CARLOS | 19 |
11 | HECTOR | 16 |
12 | ADRIANA | 18 |
13 | JUAN | 22 |
14 | JUAN | 15 |
15 | CARLOS | 14 |
16 | LAURA | 22 |
17 | CARLOS | 23 |
18 | JUAN | 16 |
19 | CARLOS | 23 |
20 | RUBEN | 25 |
21 | PATY | 15 |
22 | LAURA | 19 |
23 | LAURA | 19 |
24 | CARLOS | 22 |
25 | HECTOR | 17 |
26 | PATY | 18 |
27 | CARLOS | 16 |
28 | LAURA | 21 |
29 | ADRIANA | 22 |
30 | CARLOS | 19 |
31 | CARLOS | 26 |
32 | PATY | 18 |
33 | PATY | 20 |
34 | RUBEN | 23 |
35 | CARLOS | 17 |
36 | LAURA | 23 |
37 | LAURA | 18 |
38 | HECTOR | 19 |
39 | JUAN | 29 |
40 | JUAN | 20 |
41 | CARLOS | 17 |
42 | JUAN | 22 |
43 | CARLOS | 16 |
44 | LAURA | 21 |
45 | LAURA | 32 |
46 | HECTOR | 17 |
47 | JUAN | 20 |
48 | CARLOS | 20 |
49 | LAURA | 17 |
50 | HECTOR | 14 |
51 | HECTOR | 21 |
52 | PATY | 18 |
53 | JUAN | 16 |
54 | JUAN | 17 |
55 | HECTOR | 18 |
56 | CARLOS | 16 |
57 | HECTOR | 24 |
58 | ADRIANA | 18 |
59 | PATY | 22 |
60 | RUBEN | 16 |
61 | RUBEN | 20 |
62 | PATY | 22 |
63 | CARLOS | 25 |
64 | CARLOS | 19 |
65 | JUAN | 19 |
66 | RUBEN | 18 |
67 | CARLOS | 19 |
68 | ADRIANA | 18 |
69 | JUAN | 16 |
70 | LAURA | 23 |
71 | CARLOS | 27 |
72 | PATY | 21 |
73 | HECTOR | 16 |
74 | JUAN | 16 |
75 | RUBEN | 14 |
76 | JUAN | 18 |
77 | HECTOR | 22 |
78 | CARLOS | 11 |
79 | ADRIANA | 22 |
80 | CARLOS | 27 |
81 | ADRIANA | 26 |
82 | RUBEN | 17 |
83 | CARLOS | 22 |
84 | CARLOS | 27 |
85 | CARLOS | 28 |
86 | HECTOR | 21 |
87 | LAURA | 23 |
88 | CARLOS | 15 |
89 | CARLOS | 17 |
90 | JUAN | 20 |
91 | LAURA | 26 |
92 | ADRIANA | 21 |
93 | JUAN | 28 |
94 | HECTOR | 26 |
95 | JUAN | 18 |
96 | LAURA | 22 |
97 | LAURA | 27 |
98 | ADRIANA | 21 |
99 | RUBEN | 19 |
100 | CARLOS | 4 |
tabla <- fdt_cat(datos$nombres)
tabla
## Category f rf rf(%) cf cf(%)
## CARLOS 27 0.27 27 27 27
## JUAN 18 0.18 18 45 45
## LAURA 15 0.15 15 60 60
## HECTOR 13 0.13 13 73 73
## ADRIANA 9 0.09 9 82 82
## PATY 9 0.09 9 91 91
## RUBEN 9 0.09 9 100 100
Determinar un gráfico de barra de los nombres
barplot(height = tabla$f, names.arg = tabla$Category)
Determinar las media y mediana de la variable edad
media.edad <- mean(datos$edades)
mediana.edad <- median(datos$edades)
media.edad ; mediana.edad
## [1] 19.81
## [1] 19
Determinar la varianza y desviación de la variable edad
Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene mayor frecuencia
var.edad <- var(datos$edades)
sd.edad <- sd(datos$edades)
var.edad ; sd.edad
## [1] 18.47869
## [1] 4.298684
Visualizar un histograma de la variable edad
hist(datos$edades)
summary(datos)
## X nombres edades
## Min. : 1.00 ADRIANA: 9 Min. : 4.00
## 1st Qu.: 25.75 CARLOS :27 1st Qu.:17.00
## Median : 50.50 HECTOR :13 Median :19.00
## Mean : 50.50 JUAN :18 Mean :19.81
## 3rd Qu.: 75.25 LAURA :15 3rd Qu.:22.00
## Max. :100.00 PATY : 9 Max. :32.00
## RUBEN : 9
Teniendo en cuenta que una vez realizado el análisis de la información se muestra que el nombre que mayor número de veces aparece es el de Carlos, con un 27 % y el nombre de Rubén es el que aparece en menor cantidad con un 9 %. Se presenta también el grafico de barras en cuestión de edades donde nos muestra una edad que mayormente oscila entre los 15 a los 20 años. En cuanto a la media y media de menor edad es de 19.1. También tenemos que la varianza y desviación de la variable de edad es de 18.47 y la menor 4.29.