Realizar análisis descriptivo de los datos
De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:
La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia
Determinar un gráfico de barra de los nombres
Determinar las media y mediana de la variable edad
Determinar la varianza y desviación de la variable edad
Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia
Visualizar un histograma de la variable edad
library(readr)
library(fdth)
library(knitr)
CArgar los datos desde github: https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding = "UTF-8", stringsAsFactors = TRUE)
kable(datos, caption = "Nombres y edades de personas")
| X | nombres | edades |
|---|---|---|
| 1 | CARLOS | 25 |
| 2 | JUAN | 20 |
| 3 | CARLOS | 18 |
| 4 | RUBEN | 16 |
| 5 | ADRIANA | 19 |
| 6 | JUAN | 14 |
| 7 | LAURA | 23 |
| 8 | HECTOR | 17 |
| 9 | PATY | 12 |
| 10 | CARLOS | 19 |
| 11 | HECTOR | 16 |
| 12 | ADRIANA | 18 |
| 13 | JUAN | 22 |
| 14 | JUAN | 15 |
| 15 | CARLOS | 14 |
| 16 | LAURA | 22 |
| 17 | CARLOS | 23 |
| 18 | JUAN | 16 |
| 19 | CARLOS | 23 |
| 20 | RUBEN | 25 |
| 21 | PATY | 15 |
| 22 | LAURA | 19 |
| 23 | LAURA | 19 |
| 24 | CARLOS | 22 |
| 25 | HECTOR | 17 |
| 26 | PATY | 18 |
| 27 | CARLOS | 16 |
| 28 | LAURA | 21 |
| 29 | ADRIANA | 22 |
| 30 | CARLOS | 19 |
| 31 | CARLOS | 26 |
| 32 | PATY | 18 |
| 33 | PATY | 20 |
| 34 | RUBEN | 23 |
| 35 | CARLOS | 17 |
| 36 | LAURA | 23 |
| 37 | LAURA | 18 |
| 38 | HECTOR | 19 |
| 39 | JUAN | 29 |
| 40 | JUAN | 20 |
| 41 | CARLOS | 17 |
| 42 | JUAN | 22 |
| 43 | CARLOS | 16 |
| 44 | LAURA | 21 |
| 45 | LAURA | 32 |
| 46 | HECTOR | 17 |
| 47 | JUAN | 20 |
| 48 | CARLOS | 20 |
| 49 | LAURA | 17 |
| 50 | HECTOR | 14 |
| 51 | HECTOR | 21 |
| 52 | PATY | 18 |
| 53 | JUAN | 16 |
| 54 | JUAN | 17 |
| 55 | HECTOR | 18 |
| 56 | CARLOS | 16 |
| 57 | HECTOR | 24 |
| 58 | ADRIANA | 18 |
| 59 | PATY | 22 |
| 60 | RUBEN | 16 |
| 61 | RUBEN | 20 |
| 62 | PATY | 22 |
| 63 | CARLOS | 25 |
| 64 | CARLOS | 19 |
| 65 | JUAN | 19 |
| 66 | RUBEN | 18 |
| 67 | CARLOS | 19 |
| 68 | ADRIANA | 18 |
| 69 | JUAN | 16 |
| 70 | LAURA | 23 |
| 71 | CARLOS | 27 |
| 72 | PATY | 21 |
| 73 | HECTOR | 16 |
| 74 | JUAN | 16 |
| 75 | RUBEN | 14 |
| 76 | JUAN | 18 |
| 77 | HECTOR | 22 |
| 78 | CARLOS | 11 |
| 79 | ADRIANA | 22 |
| 80 | CARLOS | 27 |
| 81 | ADRIANA | 26 |
| 82 | RUBEN | 17 |
| 83 | CARLOS | 22 |
| 84 | CARLOS | 27 |
| 85 | CARLOS | 28 |
| 86 | HECTOR | 21 |
| 87 | LAURA | 23 |
| 88 | CARLOS | 15 |
| 89 | CARLOS | 17 |
| 90 | JUAN | 20 |
| 91 | LAURA | 26 |
| 92 | ADRIANA | 21 |
| 93 | JUAN | 28 |
| 94 | HECTOR | 26 |
| 95 | JUAN | 18 |
| 96 | LAURA | 22 |
| 97 | LAURA | 27 |
| 98 | ADRIANA | 21 |
| 99 | RUBEN | 19 |
| 100 | CARLOS | 4 |
tabla <- fdt_cat(datos$nombres)
tabla
## Category f rf rf(%) cf cf(%)
## CARLOS 27 0.27 27 27 27
## JUAN 18 0.18 18 45 45
## LAURA 15 0.15 15 60 60
## HECTOR 13 0.13 13 73 73
## ADRIANA 9 0.09 9 82 82
## PATY 9 0.09 9 91 91
## RUBEN 9 0.09 9 100 100
Determinar un gráfico de barra de los nombres
barplot(height = tabla$f, names.arg = tabla$Category)
Determinar las media y mediana de la variable edad
media.edad <- mean(datos$edades)
mediana.edad <- median(datos$edades)
media.edad ; mediana.edad
## [1] 19.81
## [1] 19
Determinar la varianza y desviación de la variable edad
Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene mayor frecuencia
edad <- datos$edades
tablaedad<- fdt(x= datos$edad, start=min(edad), end=max(edad),h=2)
tablaedad
## Class limits f rf rf(%) cf cf(%)
## [4,6) 1 0.01 1 1 1
## [6,8) 0 0.00 0 1 1
## [8,10) 0 0.00 0 1 1
## [10,12) 1 0.01 1 2 2
## [12,14) 1 0.01 1 3 3
## [14,16) 7 0.07 7 10 10
## [16,18) 20 0.20 20 30 30
## [18,20) 22 0.22 22 52 52
## [20,22) 14 0.14 14 66 66
## [22,24) 18 0.18 18 84 84
## [24,26) 4 0.04 4 88 88
## [26,28) 8 0.08 8 96 96
## [28,30) 3 0.03 3 99 99
## [30,32) 0 0.00 0 99 99
var.edad <- var(datos$edades)
sd.edad <- sd(datos$edades)
var.edad ; sd.edad
## [1] 18.47869
## [1] 4.298684
Visualizar un histograma de la variable edad
hist(datos$edades)
summary(datos)
## X nombres edades
## Min. : 1.00 ADRIANA: 9 Min. : 4.00
## 1st Qu.: 25.75 CARLOS :27 1st Qu.:17.00
## Median : 50.50 HECTOR :13 Median :19.00
## Mean : 50.50 JUAN :18 Mean :19.81
## 3rd Qu.: 75.25 LAURA :15 3rd Qu.:22.00
## Max. :100.00 PATY : 9 Max. :32.00
## RUBEN : 9
Al realizar el análisis nos encontramos que el nombre de mayor frecuencia o que se repite es Carlos y representa un total del 27%, seguido del nombre Juan con un 18%, los cuales son de relevancia para este estudio. En el gráfico de barrar podemos apreciar que existe diferencia entre el nombre de Carlos y de Juan, por lo tanto, se puede especificar que se trata de que es mas común encontrar el nombre de Carlos. Se tiene el histograma de edades, por lo que nos muestra que la mayor cantidad de personas esta comprendida entre 15 a 20 años. Se puede determinar que el rango de edad esta comprendido entre los 4 años y los 32 años.