Objetivo

Realizar una interpretación de datos a partir de una simulación de un conjunto de datos cualitativos y por medio de una distribución de frecuencias y visualización gráfica de datos.

Descripción

A través de un proceso que incluye datos, codificación y resultados se hace un análisis e interpretación de datos.

El proceso incluye varios aspectos: la creación de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorización de los mismos; la generación de frecuencias de clase, relativas y porcentuales y la creación de la distribución de frecuencias.

El análisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualización gráfica se interpretan los resultados. La visualización de datos es mediante gráfica de barra y de pastel respectivamente y la interpretación del caso incluye responder a las cuestiones particulares del caso.

Marco teórico

La estadística es la disciplina matemática que trata con el análisis y estudio de los datos y la estadística descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretación y comunicación.

¿qué datos y cuántos datos hay que analizar y estudiar?, ¿cuáles mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos íntimamente relacionados con estadística, los de población y muestra.

Anderson Sweeney y Williams (2008) conceptualizan que una “población es el conjunto de todos los elementos de interés en un estudio determinado; la muestra es un subconjunto de la población” (pág. 15).

Walpole, Myers, Myers y Ye (2012) mencionan que “la información se colecta en forma de muestras o conjuntos de observaciones, las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico” (pág. 2).

Mendenhall, Beaver, y Beaver (2010) mencionana que “en el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población” (pág. 3).

En un estudio estadístico se determinan algunas medidas, máximos, mínimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadísticos muestrales, si las medidas se determinan con los datos de una población se llaman parámetros poblacionales. (Anderson, Sweeney, & Williams, 2008).

Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categóricos emplean etiquetas o nombres para determinar categorías de elementos iguales o diferentes. Los datos cuantitativos son valores numéricos en los que se permite hacer operaciones matemáticas o determianr medidas estadísticas.

En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (pág. 10)

Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).

Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el número de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.

Para determinar una tabla de distribución de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuántos elementos hay de cada clase y que proporción existe con respecto al número total de elementos.

frecuencia.de.clase=número.de.elementos.de.cada.clase

La frecuencia relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el número de elementos

frecuencia.relativa=frecuencia.de.clasen

La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100

frecuencia.porcentual=frecuencia.relativa×100

Entonces una distribución de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribución de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).

Una gráfica de barras o un diagrama de barras, es una gráfica para representar los datos cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorías), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Después, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).

La gráfica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una gráfica de pastel, primero se dibuja un círculo que representa todos los datos. Después se usa la frecuencia relativa para subdividir el círculo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008).

Desarrollo

Se presentan datos de cincuenta nombre de personas credos a partir de la función c() y amacenados en una variable tipo vector llamada nombres.

Se utiliza la función factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes además que se pueda determinar su frecuencia.

Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, gráficas de barra y pastel del ejercicio.

Simular la generación de una muestra diez mil (10000) nombres de personas a partir de la simulación de 50 datos nombres diferentes para determinar la ditribución de frecuencias.

Se utiliza la variable tipo vector nombres

sembrar una semilla

set.seed(2021)

datos nombres de personas

nombres <- c('Javier', 'Omar', 'Saray', 'Maria','Adam','Héctor','Rita', 'Luis', 'José', 'Angel','Manuel', 'Mayra', 'Juán', 'César', 'Langa','Reiki','Cinthia', 'Lucero', 'Valeria','Yazmín','Paty', 'Jessica', 'Laura', 'Mayela','Lucy', 'Jesús', 'Bety', 'Martha', 'Guadalupe','Antonio', 'Yahwy', 'Jooin', 'Yuri','Fátima','Ana','Francisco','Fernando','Gabriel','Jeorgina','Ernesto','Rocío','Fabiola','Haru','Lupita','Jimena','Denisse','Aslan','Eiji','Verónica','Alisson')
nombres
##  [1] "Javier"    "Omar"      "Saray"     "Maria"     "Adam"      "Héctor"   
##  [7] "Rita"      "Luis"      "José"      "Angel"     "Manuel"    "Mayra"    
## [13] "Juán"      "César"     "Langa"     "Reiki"     "Cinthia"   "Lucero"   
## [19] "Valeria"   "Yazmín"    "Paty"      "Jessica"   "Laura"     "Mayela"   
## [25] "Lucy"      "Jesús"     "Bety"      "Martha"    "Guadalupe" "Antonio"  
## [31] "Yahwy"     "Jooin"     "Yuri"      "Fátima"    "Ana"       "Francisco"
## [37] "Fernando"  "Gabriel"   "Jeorgina"  "Ernesto"   "Rocío"     "Fabiola"  
## [43] "Haru"      "Lupita"    "Jimena"    "Denisse"   "Aslan"     "Eiji"     
## [49] "Verónica"  "Alisson"

simular 100 nombres

datos <- sample(nombres, size = 10000, replace = TRUE)

head(datos, 50) 
##  [1] "Rita"      "Gabriel"   "Denisse"   "Jeorgina"  "Mayra"     "Héctor"   
##  [7] "Gabriel"   "Gabriel"   "Denisse"   "Adam"      "Aslan"     "Jeorgina" 
## [13] "Rocío"     "Laura"     "Mayra"     "Lucero"    "Saray"     "Denisse"  
## [19] "Ernesto"   "Jesús"     "Francisco" "Fernando"  "Jessica"   "Yahwy"    
## [25] "Eiji"      "Fátima"    "Valeria"   "Maria"     "Jessica"   "Adam"     
## [31] "José"      "Gabriel"   "Lucero"    "Haru"      "Alisson"   "Héctor"   
## [37] "Jessica"   "Héctor"    "Langa"     "Fátima"    "Jessica"   "Alisson"  
## [43] "Reiki"     "Langa"     "Verónica"  "Mayela"    "Cinthia"   "Gabriel"  
## [49] "Fernando"  "Yazmín"
tail(datos, 50)
##  [1] "Yuri"      "Javier"    "Yazmín"    "Yazmín"    "Valeria"   "Jimena"   
##  [7] "Eiji"      "Mayela"    "Saray"     "Valeria"   "Gabriel"   "Jimena"   
## [13] "Jimena"    "Rita"      "Reiki"     "Rocío"     "Francisco" "Bety"     
## [19] "Alisson"   "Alisson"   "Lupita"    "Jesús"     "Adam"      "Denisse"  
## [25] "Valeria"   "Adam"      "José"      "Rocío"     "José"      "Javier"   
## [31] "Jesús"     "Francisco" "Mayra"     "Luis"      "Ana"       "Verónica" 
## [37] "Antonio"   "Jesús"     "Haru"      "Ana"       "Mayra"     "Luis"     
## [43] "Gabriel"   "Adam"      "Gabriel"   "Aslan"     "Héctor"    "Jooin"    
## [49] "Jeorgina"  "Javier"

numero de elementos

n <- length(datos)
n
## [1] 10000

determinar los datos como tipo factor o categoricos

datos <- factor(datos)

frecuencia de clase

frecuencia.clase <- table(datos)
frecuencia.clase
## datos
##      Adam   Alisson       Ana     Angel   Antonio     Aslan      Bety     César 
##       184       202       188       196       176       221       180       172 
##   Cinthia   Denisse      Eiji   Ernesto   Fabiola    Fátima  Fernando Francisco 
##       221       206       195       195       198       205       205       231 
##   Gabriel Guadalupe      Haru    Héctor    Javier  Jeorgina   Jessica     Jesús 
##       193       190       200       189       195       196       218       189 
##    Jimena     Jooin      José      Juán     Langa     Laura    Lucero      Lucy 
##       176       185       204       187       174       207       214       215 
##      Luis    Lupita    Manuel     Maria    Martha    Mayela     Mayra      Omar 
##       222       207       199       205       198       199       187       195 
##      Paty     Reiki      Rita     Rocío     Saray   Valeria  Verónica     Yahwy 
##       189       220       190       200       223       238       218       204 
##    Yazmín      Yuri 
##       194       205

frecuencia relativa

frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa
## datos
##      Adam   Alisson       Ana     Angel   Antonio     Aslan      Bety     César 
##    0.0184    0.0202    0.0188    0.0196    0.0176    0.0221    0.0180    0.0172 
##   Cinthia   Denisse      Eiji   Ernesto   Fabiola    Fátima  Fernando Francisco 
##    0.0221    0.0206    0.0195    0.0195    0.0198    0.0205    0.0205    0.0231 
##   Gabriel Guadalupe      Haru    Héctor    Javier  Jeorgina   Jessica     Jesús 
##    0.0193    0.0190    0.0200    0.0189    0.0195    0.0196    0.0218    0.0189 
##    Jimena     Jooin      José      Juán     Langa     Laura    Lucero      Lucy 
##    0.0176    0.0185    0.0204    0.0187    0.0174    0.0207    0.0214    0.0215 
##      Luis    Lupita    Manuel     Maria    Martha    Mayela     Mayra      Omar 
##    0.0222    0.0207    0.0199    0.0205    0.0198    0.0199    0.0187    0.0195 
##      Paty     Reiki      Rita     Rocío     Saray   Valeria  Verónica     Yahwy 
##    0.0189    0.0220    0.0190    0.0200    0.0223    0.0238    0.0218    0.0204 
##    Yazmín      Yuri 
##    0.0194    0.0205

frecuencia porcentual

frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual
## datos
##      Adam   Alisson       Ana     Angel   Antonio     Aslan      Bety     César 
##      1.84      2.02      1.88      1.96      1.76      2.21      1.80      1.72 
##   Cinthia   Denisse      Eiji   Ernesto   Fabiola    Fátima  Fernando Francisco 
##      2.21      2.06      1.95      1.95      1.98      2.05      2.05      2.31 
##   Gabriel Guadalupe      Haru    Héctor    Javier  Jeorgina   Jessica     Jesús 
##      1.93      1.90      2.00      1.89      1.95      1.96      2.18      1.89 
##    Jimena     Jooin      José      Juán     Langa     Laura    Lucero      Lucy 
##      1.76      1.85      2.04      1.87      1.74      2.07      2.14      2.15 
##      Luis    Lupita    Manuel     Maria    Martha    Mayela     Mayra      Omar 
##      2.22      2.07      1.99      2.05      1.98      1.99      1.87      1.95 
##      Paty     Reiki      Rita     Rocío     Saray   Valeria  Verónica     Yahwy 
##      1.89      2.20      1.90      2.00      2.23      2.38      2.18      2.04 
##    Yazmín      Yuri 
##      1.94      2.05

tabla de frecuencias

tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))

names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')

tabla.frecuencia
##       Clases Frecuencia de clase Relativa Porcentual
## 1       Adam                 184   0.0184       1.84
## 2    Alisson                 202   0.0202       2.02
## 3        Ana                 188   0.0188       1.88
## 4      Angel                 196   0.0196       1.96
## 5    Antonio                 176   0.0176       1.76
## 6      Aslan                 221   0.0221       2.21
## 7       Bety                 180   0.0180       1.80
## 8      César                 172   0.0172       1.72
## 9    Cinthia                 221   0.0221       2.21
## 10   Denisse                 206   0.0206       2.06
## 11      Eiji                 195   0.0195       1.95
## 12   Ernesto                 195   0.0195       1.95
## 13   Fabiola                 198   0.0198       1.98
## 14    Fátima                 205   0.0205       2.05
## 15  Fernando                 205   0.0205       2.05
## 16 Francisco                 231   0.0231       2.31
## 17   Gabriel                 193   0.0193       1.93
## 18 Guadalupe                 190   0.0190       1.90
## 19      Haru                 200   0.0200       2.00
## 20    Héctor                 189   0.0189       1.89
## 21    Javier                 195   0.0195       1.95
## 22  Jeorgina                 196   0.0196       1.96
## 23   Jessica                 218   0.0218       2.18
## 24     Jesús                 189   0.0189       1.89
## 25    Jimena                 176   0.0176       1.76
## 26     Jooin                 185   0.0185       1.85
## 27      José                 204   0.0204       2.04
## 28      Juán                 187   0.0187       1.87
## 29     Langa                 174   0.0174       1.74
## 30     Laura                 207   0.0207       2.07
## 31    Lucero                 214   0.0214       2.14
## 32      Lucy                 215   0.0215       2.15
## 33      Luis                 222   0.0222       2.22
## 34    Lupita                 207   0.0207       2.07
## 35    Manuel                 199   0.0199       1.99
## 36     Maria                 205   0.0205       2.05
## 37    Martha                 198   0.0198       1.98
## 38    Mayela                 199   0.0199       1.99
## 39     Mayra                 187   0.0187       1.87
## 40      Omar                 195   0.0195       1.95
## 41      Paty                 189   0.0189       1.89
## 42     Reiki                 220   0.0220       2.20
## 43      Rita                 190   0.0190       1.90
## 44     Rocío                 200   0.0200       2.00
## 45     Saray                 223   0.0223       2.23
## 46   Valeria                 238   0.0238       2.38
## 47  Verónica                 218   0.0218       2.18
## 48     Yahwy                 204   0.0204       2.04
## 49    Yazmín                 194   0.0194       1.94
## 50      Yuri                 205   0.0205       2.05

grafica de barra

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")

grafica de barra top 7

tabla.frecuencia <- tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]
tabla.frecuencia <- tabla.frecuencia[1:10,]
tabla.frecuencia
##       Clases Frecuencia de clase Relativa Porcentual
## 46   Valeria                 238   0.0238       2.38
## 16 Francisco                 231   0.0231       2.31
## 45     Saray                 223   0.0223       2.23
## 33      Luis                 222   0.0222       2.22
## 6      Aslan                 221   0.0221       2.21
## 9    Cinthia                 221   0.0221       2.21
## 42     Reiki                 220   0.0220       2.20
## 23   Jessica                 218   0.0218       2.18
## 47  Verónica                 218   0.0218       2.18
## 32      Lucy                 215   0.0215       2.15

grafica de pastel

pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)

Interpretación del caso

Contestar de manera descriptiva cada una de las siguientes preguntas:

¿Cual es el nombre de personas que más se repite y su frecuencia de clase?

saray 223

#¿Cuál es el nombre de persona que menos se repite y su frecuencia de clase? cesar 172

#¿Cuáles son las frecuencias relativas de cada nombres de persona?

 Adam   Alisson       Ana     Angel   Antonio     Aslan 

0.0184 0.0202 0.0188 0.0196 0.0176 0.0221 Bety César Cinthia Denisse Eiji Ernesto 0.0180 0.0172 0.0221 0.0206 0.0195 0.0195 Fabiola Fátima Fernando Francisco Gabriel Guadalupe 0.0198 0.0205 0.0205 0.0231 0.0193 0.0190 Haru Héctor Javier Jeorgina Jessica Jesús 0.0200 0.0189 0.0195 0.0196 0.0218 0.0189 Jimena Jooin José Juán Langa Laura 0.0176 0.0185 0.0204 0.0187 0.0174 0.0207 Lucero Lucy Luis Lupita Manuel Maria 0.0214 0.0215 0.0222 0.0207 0.0199 0.0205 Martha Mayela Mayra Omar Paty Reiki 0.0198 0.0199 0.0187 0.0195 0.0189 0.0220 Rita Rocío Saray Valeria Verónica Yahwy 0.0190 0.0200 0.0223 0.0238 0.0218 0.0204 Yazmín Yuri 0.0194 0.0205

#¿Cuales son los procentajes de nombres de personas más y menos ? Adam Alisson Ana Angel Antonio Aslan 1.84 2.02 1.88 1.96 1.76 2.21 Bety César Cinthia Denisse Eiji Ernesto 1.80 1.72 2.21 2.06 1.95 1.95 Fabiola Fátima Fernando Francisco Gabriel Guadalupe 1.98 2.05 2.05 2.31 1.93 1.90 Haru Héctor Javier Jeorgina Jessica Jesús 2.00 1.89 1.95 1.96 2.18 1.89 Jimena Jooin José Juán Langa Laura 1.76 1.85 2.04 1.87 1.74 2.07 Lucero Lucy Luis Lupita Manuel Maria 2.14 2.15 2.22 2.07 1.99 2.05 Martha Mayela Mayra Omar Paty Reiki 1.98 1.99 1.87 1.95 1.89 2.20 Rita Rocío Saray Valeria Verónica Yahwy 1.90 2.00 2.23 2.38 2.18 2.04 Yazmín Yuri 1.94 2.05 # Que representa la tabla de distribución de frecuencias, la gráfica de barra y gráfica de pastel? frecuencias: el numero que ocurre por cada valor barra: representa la comparacion de valores grafica de pastel:representa porcentajes

Aspectos generales del caso: # ¿qué aprendizajes se obtuvieron? es mas facil generalizar y resolver casos con los codigos correctos

¿qué deja el caso?

de los datos correctos se puede resolver todo con mas facilidad

¿qué habilidades se desarrollan?

podemos cambiar algunos simbolos por otros siempre y cuando se represente lo mismo

¿qué formación se obtiene?

frecuencias y algunos porcentajes de los nombres de todas esas personas

Referencias bibliográficas Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning Editores,S.A. de C.V.

Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística. México, D.F.: Cengage Learning Editores, S.A. de C.V.

Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para Ingeniería y Ciencias. Octava Edición (Octava Edición ed.). México: Prentice Hill. Pearson Educación.

Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición ed.). Cd. México: Pearson.