OBJETIVO

Realizar análisis descriptivo de los datos

DESCRIPCION

De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:

La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia
Determinar un gráfico de barra de los nombres
Determinar las media y mediana de la variable edad
Determinar la varianza y desviación de la variable edad
Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia
Visualizar un histograma de la variable edad

DESARROLLO

CARGAR LIBRERIAS

library(readr)
library(fdth)
library(knitr)

CARGAR LOS DATOS

SE CARGAN LOS DATOS DESDE EL GITHUB CORRESPONDIENTE.

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding = "UTF-8", stringsAsFactors = TRUE)

##OBSERCAR LOS DATOS

SE MANDA A LLAMAR A LOS DATOS CON SUS 100 VARIABLES Y LA MOSTRAMOS EN PANTALLA.

kable(datos, caption = "Nombres y edades de personas")

Nombres y edades de personas
X	nombres	edades
1	CARLOS	25
2	JUAN	20
3	CARLOS	18
4	RUBEN	16
5	ADRIANA	19
6	JUAN	14
7	LAURA	23
8	HECTOR	17
9	PATY	12
10	CARLOS	19
11	HECTOR	16
12	ADRIANA	18
13	JUAN	22
14	JUAN	15
15	CARLOS	14
16	LAURA	22
17	CARLOS	23
18	JUAN	16
19	CARLOS	23
20	RUBEN	25
21	PATY	15
22	LAURA	19
23	LAURA	19
24	CARLOS	22
25	HECTOR	17
26	PATY	18
27	CARLOS	16
28	LAURA	21
29	ADRIANA	22
30	CARLOS	19
31	CARLOS	26
32	PATY	18
33	PATY	20
34	RUBEN	23
35	CARLOS	17
36	LAURA	23
37	LAURA	18
38	HECTOR	19
39	JUAN	29
40	JUAN	20
41	CARLOS	17
42	JUAN	22
43	CARLOS	16
44	LAURA	21
45	LAURA	32
46	HECTOR	17
47	JUAN	20
48	CARLOS	20
49	LAURA	17
50	HECTOR	14
51	HECTOR	21
52	PATY	18
53	JUAN	16
54	JUAN	17
55	HECTOR	18
56	CARLOS	16
57	HECTOR	24
58	ADRIANA	18
59	PATY	22
60	RUBEN	16
61	RUBEN	20
62	PATY	22
63	CARLOS	25
64	CARLOS	19
65	JUAN	19
66	RUBEN	18
67	CARLOS	19
68	ADRIANA	18
69	JUAN	16
70	LAURA	23
71	CARLOS	27
72	PATY	21
73	HECTOR	16
74	JUAN	16
75	RUBEN	14
76	JUAN	18
77	HECTOR	22
78	CARLOS	11
79	ADRIANA	22
80	CARLOS	27
81	ADRIANA	26
82	RUBEN	17
83	CARLOS	22
84	CARLOS	27
85	CARLOS	28
86	HECTOR	21
87	LAURA	23
88	CARLOS	15
89	CARLOS	17
90	JUAN	20
91	LAURA	26
92	ADRIANA	21
93	JUAN	28
94	HECTOR	26
95	JUAN	18
96	LAURA	22
97	LAURA	27
98	ADRIANA	21
99	RUBEN	19
100	CARLOS	4

LA FRECUENCIA DE NOMBRE Y SABER CUAL NOMBRE TIENE MAYOR Y MENOR FRECUENCIA

tabla <- fdt_cat(datos$nombres)
tabla

##  Category  f   rf rf(%)  cf cf(%)
##    CARLOS 27 0.27    27  27    27
##      JUAN 18 0.18    18  45    45
##     LAURA 15 0.15    15  60    60
##    HECTOR 13 0.13    13  73    73
##   ADRIANA  9 0.09     9  82    82
##      PATY  9 0.09     9  91    91
##     RUBEN  9 0.09     9 100   100

EL NOMBRE CON MAYOR FRECUENCIA SEGUN LOS RESULTADOS ES CARLOS CON 27, Y EL DE MENOR FRECUENCIA CON 9 RUBEN.

DETERMINAR UN GRAFICO DE BARRA DE LOS NOMBRES

barplot(height = tabla$f, names.arg = tabla$Category)

EN LA GRAFIA SE MUESTRA QUE HAY UN POCO MAS DE 25 PERSONAS CON EL NOMBRE DE CARLOS Y MENOS DE 10 CON EL NOMBRE DE RUBEN.

DETERMINAR LA MEDIA Y MEDIANA DE LA VARIABLE EDAD.

media.edad <- mean(datos$edades)
mediana.edad <- median(datos$edades)


media.edad ; mediana.edad

## [1] 19.81

## [1] 19

SE MUESTRA UN VALOR DE MEDIA DE 19.81 Y DE MEDIANA DE 19.

Determinar la varianza y desviación de la variable edad

var.edad <- var(datos$edades)
sd.edad <- sd(datos$edades)

var.edad ; sd.edad

## [1] 18.47869

## [1] 4.298684

LA VARIANZA DE LA EDAD ESTA EN 18.47869 Y LA DESVIACION EN 4.298684

Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene mayor frecuencia

edad <- datos$edades
tablaedad<- fdt(x= datos$edad, start=min(edad), end=max(edad),h=2)
tablaedad

##  Class limits  f   rf rf(%) cf cf(%)
##         [4,6)  1 0.01     1  1     1
##         [6,8)  0 0.00     0  1     1
##        [8,10)  0 0.00     0  1     1
##       [10,12)  1 0.01     1  2     2
##       [12,14)  1 0.01     1  3     3
##       [14,16)  7 0.07     7 10    10
##       [16,18) 20 0.20    20 30    30
##       [18,20) 22 0.22    22 52    52
##       [20,22) 14 0.14    14 66    66
##       [22,24) 18 0.18    18 84    84
##       [24,26)  4 0.04     4 88    88
##       [26,28)  8 0.08     8 96    96
##       [28,30)  3 0.03     3 99    99
##       [30,32)  0 0.00     0 99    99

LA CLASE CON MAYOR FRECUENCIA SE ENCUENTRA ENTRE LOS (18, 20) AÑOS CON UNA FRECUENCIA DE 22%

VISUALIZAR UN HISTOGRAMA DE LA VARIABLE EDAD

hist(datos$edades, col = colors)

INTERPRETACION

summary(datos)

##        X             nombres       edades     
##  Min.   :  1.00   ADRIANA: 9   Min.   : 4.00  
##  1st Qu.: 25.75   CARLOS :27   1st Qu.:17.00  
##  Median : 50.50   HECTOR :13   Median :19.00  
##  Mean   : 50.50   JUAN   :18   Mean   :19.81  
##  3rd Qu.: 75.25   LAURA  :15   3rd Qu.:22.00  
##  Max.   :100.00   PATY   : 9   Max.   :32.00  
##                   RUBEN  : 9

DE UNA LISTA DE 100 DATOS DONDE SUS VARIABLES NOMBRE Y EDAD SE ENCUENTRA LA FRECUENCIA DE NOMBRE MAX ES CARLOS Y LA MIN RUBEN CON 27 Y 9

SU MEDIA EN EDAD ES DE 19.81 Y LA MEDIANA DE 19

LA VARIANZA DE LA EDAD DE 18.47… Y LA DESVIACION DE LA EDAD 4.29…

LA FRECUENCIA DE LA EDAD ES DE ENTRE LOS 18 Y 20 AÑOS CON UN 22% DE FRECUENCIA

CASO 7. Frecuencias y medidas de tendencia central y dispersión

JUAN E. PARRILLA MASCORRO

14/11/2021