OBJETIVO

Realizar análisis descriptivo de los datos

DESCRIPCION

De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:

  1. La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia

  2. Determinar un gráfico de barra de los nombres

  3. Determinar las media y mediana de la variable edad

  4. Determinar la varianza y desviación de la variable edad

  5. Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia

  6. Visualizar un histograma de la variable edad

DESARROLLO

CARGAR LIBRERIAS

library(readr)
library(fdth)
library(knitr)

CARGAR LOS DATOS

SE CARGAN LOS DATOS DESDE EL GITHUB CORRESPONDIENTE.

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding = "UTF-8", stringsAsFactors = TRUE)

##OBSERCAR LOS DATOS

SE MANDA A LLAMAR A LOS DATOS CON SUS 100 VARIABLES Y LA MOSTRAMOS EN PANTALLA.

kable(datos, caption = "Nombres y edades de personas")
Nombres y edades de personas
X nombres edades
1 CARLOS 25
2 JUAN 20
3 CARLOS 18
4 RUBEN 16
5 ADRIANA 19
6 JUAN 14
7 LAURA 23
8 HECTOR 17
9 PATY 12
10 CARLOS 19
11 HECTOR 16
12 ADRIANA 18
13 JUAN 22
14 JUAN 15
15 CARLOS 14
16 LAURA 22
17 CARLOS 23
18 JUAN 16
19 CARLOS 23
20 RUBEN 25
21 PATY 15
22 LAURA 19
23 LAURA 19
24 CARLOS 22
25 HECTOR 17
26 PATY 18
27 CARLOS 16
28 LAURA 21
29 ADRIANA 22
30 CARLOS 19
31 CARLOS 26
32 PATY 18
33 PATY 20
34 RUBEN 23
35 CARLOS 17
36 LAURA 23
37 LAURA 18
38 HECTOR 19
39 JUAN 29
40 JUAN 20
41 CARLOS 17
42 JUAN 22
43 CARLOS 16
44 LAURA 21
45 LAURA 32
46 HECTOR 17
47 JUAN 20
48 CARLOS 20
49 LAURA 17
50 HECTOR 14
51 HECTOR 21
52 PATY 18
53 JUAN 16
54 JUAN 17
55 HECTOR 18
56 CARLOS 16
57 HECTOR 24
58 ADRIANA 18
59 PATY 22
60 RUBEN 16
61 RUBEN 20
62 PATY 22
63 CARLOS 25
64 CARLOS 19
65 JUAN 19
66 RUBEN 18
67 CARLOS 19
68 ADRIANA 18
69 JUAN 16
70 LAURA 23
71 CARLOS 27
72 PATY 21
73 HECTOR 16
74 JUAN 16
75 RUBEN 14
76 JUAN 18
77 HECTOR 22
78 CARLOS 11
79 ADRIANA 22
80 CARLOS 27
81 ADRIANA 26
82 RUBEN 17
83 CARLOS 22
84 CARLOS 27
85 CARLOS 28
86 HECTOR 21
87 LAURA 23
88 CARLOS 15
89 CARLOS 17
90 JUAN 20
91 LAURA 26
92 ADRIANA 21
93 JUAN 28
94 HECTOR 26
95 JUAN 18
96 LAURA 22
97 LAURA 27
98 ADRIANA 21
99 RUBEN 19
100 CARLOS 4

LA FRECUENCIA DE NOMBRE Y SABER CUAL NOMBRE TIENE MAYOR Y MENOR FRECUENCIA

tabla <- fdt_cat(datos$nombres)
tabla
##  Category  f   rf rf(%)  cf cf(%)
##    CARLOS 27 0.27    27  27    27
##      JUAN 18 0.18    18  45    45
##     LAURA 15 0.15    15  60    60
##    HECTOR 13 0.13    13  73    73
##   ADRIANA  9 0.09     9  82    82
##      PATY  9 0.09     9  91    91
##     RUBEN  9 0.09     9 100   100

EL NOMBRE CON MAYOR FRECUENCIA SEGUN LOS RESULTADOS ES CARLOS CON 27, Y EL DE MENOR FRECUENCIA CON 9 RUBEN.

DETERMINAR UN GRAFICO DE BARRA DE LOS NOMBRES

barplot(height = tabla$f, names.arg = tabla$Category)

EN LA GRAFIA SE MUESTRA QUE HAY UN POCO MAS DE 25 PERSONAS CON EL NOMBRE DE CARLOS Y MENOS DE 10 CON EL NOMBRE DE RUBEN.

DETERMINAR LA MEDIA Y MEDIANA DE LA VARIABLE EDAD.

media.edad <- mean(datos$edades)
mediana.edad <- median(datos$edades)


media.edad ; mediana.edad
## [1] 19.81
## [1] 19

SE MUESTRA UN VALOR DE MEDIA DE 19.81 Y DE MEDIANA DE 19.

Determinar la varianza y desviación de la variable edad

var.edad <- var(datos$edades)
sd.edad <- sd(datos$edades)

var.edad ; sd.edad
## [1] 18.47869
## [1] 4.298684

LA VARIANZA DE LA EDAD ESTA EN 18.47869 Y LA DESVIACION EN 4.298684

Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene mayor frecuencia

edad <- datos$edades
tablaedad<- fdt(x= datos$edad, start=min(edad), end=max(edad),h=2)
tablaedad
##  Class limits  f   rf rf(%) cf cf(%)
##         [4,6)  1 0.01     1  1     1
##         [6,8)  0 0.00     0  1     1
##        [8,10)  0 0.00     0  1     1
##       [10,12)  1 0.01     1  2     2
##       [12,14)  1 0.01     1  3     3
##       [14,16)  7 0.07     7 10    10
##       [16,18) 20 0.20    20 30    30
##       [18,20) 22 0.22    22 52    52
##       [20,22) 14 0.14    14 66    66
##       [22,24) 18 0.18    18 84    84
##       [24,26)  4 0.04     4 88    88
##       [26,28)  8 0.08     8 96    96
##       [28,30)  3 0.03     3 99    99
##       [30,32)  0 0.00     0 99    99

LA CLASE CON MAYOR FRECUENCIA SE ENCUENTRA ENTRE LOS (18, 20) AÑOS CON UNA FRECUENCIA DE 22%

VISUALIZAR UN HISTOGRAMA DE LA VARIABLE EDAD

hist(datos$edades, col = colors)

INTERPRETACION

summary(datos)
##        X             nombres       edades     
##  Min.   :  1.00   ADRIANA: 9   Min.   : 4.00  
##  1st Qu.: 25.75   CARLOS :27   1st Qu.:17.00  
##  Median : 50.50   HECTOR :13   Median :19.00  
##  Mean   : 50.50   JUAN   :18   Mean   :19.81  
##  3rd Qu.: 75.25   LAURA  :15   3rd Qu.:22.00  
##  Max.   :100.00   PATY   : 9   Max.   :32.00  
##                   RUBEN  : 9

DE UNA LISTA DE 100 DATOS DONDE SUS VARIABLES NOMBRE Y EDAD SE ENCUENTRA LA FRECUENCIA DE NOMBRE MAX ES CARLOS Y LA MIN RUBEN CON 27 Y 9

SU MEDIA EN EDAD ES DE 19.81 Y LA MEDIANA DE 19

LA VARIANZA DE LA EDAD DE 18.47… Y LA DESVIACION DE LA EDAD 4.29…

LA FRECUENCIA DE LA EDAD ES DE ENTRE LOS 18 Y 20 AÑOS CON UN 22% DE FRECUENCIA