Objetivo

Realizar análisis descriptivo de los datos presentados. Obtener las medidas de tendencia central y de disperción.

Descripción

De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:

  1. La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia

  2. Determinar un gráfico de barra de los nombres

  3. Determinar las media y mediana de la variable edad

  4. Determinar la varianza y desviación de la variable edad

  5. Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia

  6. Visualizar un histograma de la variable edad

Desarrollo

Cargar librerías

library(readr) # Leer archivos
library(fdth) # Usar distribuciones de frecuencia
library(knitr)  #Mejorar presentacion de tablas
library(ggplot2)

Cargar los datos

Cargar los datos desde github: https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv

datos<- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding="UTF-8" )

Se muestran los datos

kable(datos, caption="Tabla de datos")
Tabla de datos
X nombres edades
1 CARLOS 25
2 JUAN 20
3 CARLOS 18
4 RUBEN 16
5 ADRIANA 19
6 JUAN 14
7 LAURA 23
8 HECTOR 17
9 PATY 12
10 CARLOS 19
11 HECTOR 16
12 ADRIANA 18
13 JUAN 22
14 JUAN 15
15 CARLOS 14
16 LAURA 22
17 CARLOS 23
18 JUAN 16
19 CARLOS 23
20 RUBEN 25
21 PATY 15
22 LAURA 19
23 LAURA 19
24 CARLOS 22
25 HECTOR 17
26 PATY 18
27 CARLOS 16
28 LAURA 21
29 ADRIANA 22
30 CARLOS 19
31 CARLOS 26
32 PATY 18
33 PATY 20
34 RUBEN 23
35 CARLOS 17
36 LAURA 23
37 LAURA 18
38 HECTOR 19
39 JUAN 29
40 JUAN 20
41 CARLOS 17
42 JUAN 22
43 CARLOS 16
44 LAURA 21
45 LAURA 32
46 HECTOR 17
47 JUAN 20
48 CARLOS 20
49 LAURA 17
50 HECTOR 14
51 HECTOR 21
52 PATY 18
53 JUAN 16
54 JUAN 17
55 HECTOR 18
56 CARLOS 16
57 HECTOR 24
58 ADRIANA 18
59 PATY 22
60 RUBEN 16
61 RUBEN 20
62 PATY 22
63 CARLOS 25
64 CARLOS 19
65 JUAN 19
66 RUBEN 18
67 CARLOS 19
68 ADRIANA 18
69 JUAN 16
70 LAURA 23
71 CARLOS 27
72 PATY 21
73 HECTOR 16
74 JUAN 16
75 RUBEN 14
76 JUAN 18
77 HECTOR 22
78 CARLOS 11
79 ADRIANA 22
80 CARLOS 27
81 ADRIANA 26
82 RUBEN 17
83 CARLOS 22
84 CARLOS 27
85 CARLOS 28
86 HECTOR 21
87 LAURA 23
88 CARLOS 15
89 CARLOS 17
90 JUAN 20
91 LAURA 26
92 ADRIANA 21
93 JUAN 28
94 HECTOR 26
95 JUAN 18
96 LAURA 22
97 LAURA 27
98 ADRIANA 21
99 RUBEN 19
100 CARLOS 4

La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia

Se genera la distribución de frecuencias para los datos en función del nombre

tabla<- fdt_cat(x=datos$nombres)  # Crea una distribucion de frecuencias para datos cualitativos
tabla
##  Category  f   rf rf(%)  cf cf(%)
##    CARLOS 27 0.27    27  27    27
##      JUAN 18 0.18    18  45    45
##     LAURA 15 0.15    15  60    60
##    HECTOR 13 0.13    13  73    73
##   ADRIANA  9 0.09     9  82    82
##      PATY  9 0.09     9  91    91
##     RUBEN  9 0.09     9 100   100

De acuerdo a la tabla, CARLOS es el nombre mas común entre los datos, debido a que presenta la mayor frecuencia (27 veces). Así mismo, RUBEN, PATY y ADRIANA son los nombres que menos se repiten ya que tienen la menor frecuencia (los tres con 9 veces).

Creación de gráfico de barras

A continuación, se crea un gráfico de barras para la variable cualitativa “nombres”.

colors=c("red","blue","yellow","green", "pink", "purple", "cyan")  #Colores para la gráfica
barplot(height=tabla$f,names.arg=tabla$Category, col=colors)       #Generamos la gráfica de barras

De acuerdo a la gráfica de barras, se verifica que el nombre mas común es CARLOS y el menos común son ADRIANA, PATY y RUBEN.

Determinar las media y mediana de la variable edad

A continuación se calcula la media y mediana de la variable “edades”

edades<- datos$edades
media<- mean(edades)
mediana<- median(edades)
paste("La media de las edades es: ", media)
## [1] "La media de las edades es:  19.81"
paste("La mediana de las edades es: ", mediana)
## [1] "La mediana de las edades es:  19"

Se observa que la media de las edades es 19.81 y la mediana es de 19. Incluso podemos generar una visualización de la mediana y media en el comportamiento de la distribución de la variable edades.

edades2<- data.frame(datos)
ggplot(data=edades2,mapping=aes(x=edades))+geom_histogram(bins=30)+ggtitle('Histograma de edades')+xlab('Edades')+ylab('Frecuencia')+geom_vline(aes(xintercept=media,color="media"),linetype="dashed" , size=1)+ geom_vline(aes(xintercept=mediana,color="mediana"),linetype="dashed" , size=1)

Se observa que dado que la media es mayor que la mediana, la distribución de los datos tiene un comportamiento asimétrico con sesgo positivo (los datos tienden a agruparse antes de la media y forma una cola a la derecha)

Determinar la varianza y desviación de la variable edad

Procedemos a calcular la varianza y desviación estandar de los datos de edad.

var<-var(edades)
sd<-sd(edades)
paste("La varianza de las edades es: ", var)
## [1] "La varianza de las edades es:  18.4786868686869"
paste("La desviación estandar de las edades es: ", sd)
## [1] "La desviación estandar de las edades es:  4.29868431833356"

De acuerdo a la información, la varianza es de 18.47 y la desviación estandar es de 4.29. Por tanto, los datos se alejan de la media en promedio 4.29 años.

Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene mayor frecuencia

Se procede a determinar una tabla de distribución de frecuencias para identificar la clase con mayor frecuencia entre las edades. Se ha considerado anchos de clase de 2 años.

tablaedades<- fdt(x=datos$edades, start=min(edades), end=max(edades),h=2)
tablaedades
##  Class limits  f   rf rf(%) cf cf(%)
##         [4,6)  1 0.01     1  1     1
##         [6,8)  0 0.00     0  1     1
##        [8,10)  0 0.00     0  1     1
##       [10,12)  1 0.01     1  2     2
##       [12,14)  1 0.01     1  3     3
##       [14,16)  7 0.07     7 10    10
##       [16,18) 20 0.20    20 30    30
##       [18,20) 22 0.22    22 52    52
##       [20,22) 14 0.14    14 66    66
##       [22,24) 18 0.18    18 84    84
##       [24,26)  4 0.04     4 88    88
##       [26,28)  8 0.08     8 96    96
##       [28,30)  3 0.03     3 99    99
##       [30,32)  0 0.00     0 99    99

La tabla de distribucion de frecuencias indica que la mayor frecuencia la presenta la edad de 18 a 20 años.

Visualizar un histograma de la variable edad

Se genera un histograma a aprtir de la información de la distribución de frecuencias anterior.

hist(x=edades, col=colors)

Se observa en el histograma que la clase con mayor frecuencia es la de los datos de 15 a 20 años.

Interpretación

De acuerdo a toda la información analizada, se puede determinar que el nombre mas com´pun entre los datos es CARLOS (27 veces), mientras que los menos frecuentes son ADRIANA, PATY y RUBEN (9 datos cada uno).

Así mismo la media y mediana de las edades genera 19.81 y 19 respectivamente. Lo cual nos permite verificar con el las gráficas que los datos tienden a concentrarse cercanos a esos valores.

La distribución de datos de las edades muestra comportamiento asimétrico con sesgo positivo (los datos tienden a agruparse antes de la media y forma una cola a la derecha), por lo que se debe analizar a detalle la información para dar inferencias.

Las medidas de disperción muestran varianza 18.47 de y desviación estandar de 4.29. Los datos tienden a alejarse de la media en promedio 4.29 anos. Finalmente la edad con mayor frecuencia es el grupo entre 15 y 20 años.

Bibliografia

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.

Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson