caso 2 tabla de frecuencia distribucion de nombres

Objetivo

Realizar una interpretación de datos a partir de una simulación de un conjunto de datos cualitativos y por medio de una distribución de frecuencias y visualización gráfica de datos.

Descripción

A través de un proceso que incluye datos, codificación y resultados se hace un análisis e interpretación de datos.

El proceso incluye varios aspectos: la creación de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorización de los mismos; la generación de frecuencias de clase, relativas y porcentuales y la creación de la distribución de frecuencias.

El análisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualización gráfica se interpretan los resultados. La visualización de datos es mediante gráfica de barra y de pastel respectivamente y la interpretación del caso incluye responder a las cuestiones particulares del caso.

Marco teórico

pendiente

Desarrollo

Se presentan datos de cincuenta nombre de personas credos a partir de la función c() y amacenados en una variable tipo vector llamada nombres.

Se utiliza la función factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes además que se pueda determinar su frecuencia.

Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, gráficas de barra y pastel del ejercicio.

Simular la generación de una muestra diez mil (10000) nombres de personas a partir de la simulación de 50 datos nombres diferentes para determinar la ditribución de frecuencias.

Se utiliza la variable tipo vector nombres

Sembrar una semilla

set.seed(2021)

datos

nombres <- c('Jose','Lupe','Jose','Maria','Luz','Luz','Jose','Juan','Luz','Jose','Lupe','Lupe', 'Jose','Jose','Lupe','Jose','Maria','Luz','Luz','Jose','Juan','Luz','Jose','Lupe','Lupe','Jose',  'Jose','Lupe','Jose','Maria','Luz','Luz','Jose','Juan','Luz','Jose','Lupe','Lupe','Jose','Jose', 'Maria', 'Luz','Luz','Jose','Juan','Luz','Jose','Lupe','Lupe','Jose')
nombres

##  [1] "Jose"  "Lupe"  "Jose"  "Maria" "Luz"   "Luz"   "Jose"  "Juan"  "Luz"  
## [10] "Jose"  "Lupe"  "Lupe"  "Jose"  "Jose"  "Lupe"  "Jose"  "Maria" "Luz"  
## [19] "Luz"   "Jose"  "Juan"  "Luz"   "Jose"  "Lupe"  "Lupe"  "Jose"  "Jose" 
## [28] "Lupe"  "Jose"  "Maria" "Luz"   "Luz"   "Jose"  "Juan"  "Luz"   "Jose" 
## [37] "Lupe"  "Lupe"  "Jose"  "Jose"  "Maria" "Luz"   "Luz"   "Jose"  "Juan" 
## [46] "Luz"   "Jose"  "Lupe"  "Lupe"  "Jose"

simular 100 nombres

datos <- sample(nombres, size = 100, replace = TRUE)

head(datos, 50)

##  [1] "Jose"  "Lupe"  "Luz"   "Jose"  "Lupe"  "Luz"   "Lupe"  "Lupe"  "Luz"  
## [10] "Luz"   "Jose"  "Jose"  "Maria" "Jose"  "Lupe"  "Luz"   "Jose"  "Luz"  
## [19] "Jose"  "Jose"  "Jose"  "Lupe"  "Luz"   "Luz"   "Lupe"  "Juan"  "Luz"  
## [28] "Maria" "Luz"   "Luz"   "Luz"   "Lupe"  "Luz"   "Luz"   "Jose"  "Luz"  
## [37] "Luz"   "Luz"   "Lupe"  "Juan"  "Luz"   "Jose"  "Jose"  "Lupe"  "Lupe" 
## [46] "Lupe"  "Maria" "Lupe"  "Lupe"  "Jose"

tail(datos, 50)

##  [1] "Maria" "Maria" "Juan"  "Luz"   "Jose"  "Lupe"  "Maria" "Jose"  "Maria"
## [10] "Luz"   "Lupe"  "Luz"   "Jose"  "Jose"  "Lupe"  "Lupe"  "Jose"  "Lupe" 
## [19] "Luz"   "Lupe"  "Luz"   "Luz"   "Luz"   "Jose"  "Jose"  "Juan"  "Lupe" 
## [28] "Luz"   "Jose"  "Luz"   "Lupe"  "Jose"  "Jose"  "Jose"  "Jose"  "Luz"  
## [37] "Juan"  "Lupe"  "Luz"   "Juan"  "Lupe"  "Luz"   "Jose"  "Luz"   "Luz"  
## [46] "Jose"  "Maria" "Luz"   "Lupe"  "Jose"

numero de elementos

n <- length(datos)
n

## [1] 100

Determinar los datos como tipo factor o categóricos

datos <- factor(datos)

frecuencia de clase

frecuencia.clase <- table(datos)
frecuencia.clase

## datos
##  Jose  Juan  Lupe   Luz Maria 
##    28     6    25    33     8

frecuencia relativa

frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa

## datos
##  Jose  Juan  Lupe   Luz Maria 
##  0.28  0.06  0.25  0.33  0.08

frecuencia porcentual

frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual

## datos
##  Jose  Juan  Lupe   Luz Maria 
##    28     6    25    33     8

tabla de frecuencia

tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))

names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')

tabla.frecuencia

##   Clases Frecuencia de clase Relativa Porcentual
## 1   Jose                  28     0.28         28
## 2   Juan                   6     0.06          6
## 3   Lupe                  25     0.25         25
## 4    Luz                  33     0.33         33
## 5  Maria                   8     0.08          8

grafica de barra

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")

grafica de barra top 5

tabla.frecuencia <- tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]

tabla.frecuencia <- tabla.frecuencia[1:5,]
tabla.frecuencia

##   Clases Frecuencia de clase Relativa Porcentual
## 4    Luz                  33     0.33         33
## 1   Jose                  28     0.28         28
## 3   Lupe                  25     0.25         25
## 5  Maria                   8     0.08          8
## 2   Juan                   6     0.06          6

grafica de pastel

pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)

Interpretación del caso

Contestar de manera descriptiva cada una de las siguientes preguntas:

#¿Cual es el nombre de personas que más se repite y su frecuencia de clase? Luz (33)

#¿Cuál es el nombre de persona que menos se repite y su frecuencia de clase? Juan (6)

#¿Cuáles son las frecuencias relativas de cada nombres de persona?

Jose Juan Lupe Luz Maria 0.28 0.06 0.25 0.33 0.08

#¿Cuales son los procentajes de nombres de personas más y menos ? Jose Juan Lupe Luz Maria 28 6 25 33 8

#¿Que representa la tabla de distribución de frecuencias, la gráfica de barra y gráfica de pastel? La tabla de distribucion de frecuencias muestra la distribución de los datos mediante sus frecuencias. Se utiliza para variables cuantitativas o cualitativas ordinales, La grafica de barras se utiliza para comparar dos o más valores y La grafica de pastel se utiliza para representar porcentajes y proporciones.

Aspectos generales del caso:

¿Qué aprendizajes se obtuvieron? A sacar porcentaje de una manera diferente a como la sabia, a utilizar este programa y muchas funciones nuevas

¿Qué deja el caso? El saber la frecuencia de unos nombres que pusimos y saber graficar, etcetera

¿Qué habilidades se desarrollan? Usar bien las formulas sin error alguno, y saber moverle al programa con claro consentimiento

¿Qué formación se obtiene? Ya podre realizar nuevos proyectos, practicas sin necesidad de ver tutoriales en youtube

###Referencias bibliográficas:

Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning Editores,S.A. de C.V.

Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística. México, D.F.: Cengage Learning Editores, S.A. de C.V.

Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para Ingeniería y Ciencias. Octava Edición (Octava Edición ed.). México: Prentice Hill. Pearson Educación.

Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición ed.). Cd. México: Pearson.