Realizar una interpretación de datos a partir de una simulación de un conjunto de datos cualitativos y por medio de una distribución de frecuencias y visualización gráfica de datos.
A través de un proceso que incluye datos, codificación y resultados se hace un análisis e interpretación de datos.
El proceso incluye varios aspectos: la creación de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorización de los mismos; la generación de frecuencias de clase, relativas y porcentuales y la creación de la distribución de frecuencias.
El análisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualización gráfica se interpretan los resultados. La visualización de datos es mediante gráfica de barra y de pastel respectivamente y la interpretación del caso incluye responder a las cuestiones particulares del caso.
La estadística es la disciplina matemática que trata con el análisis y estudio de los datos y la estadística descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretación y comunicación.
¿Qué datos y cuántos datos hay que analizar y estudiar?, ¿cuáles mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos íntimamente relacionados con estadística, los de población y muestra.
Anderson Sweeney y Williams (2008) conceptualizan que una “población es el conjunto de todos los elementos de interés en un estudio determinado; la muestra es un subconjunto de la población” (pág. 15).
Walpole, Myers, Myers y Ye (2012) mencionan que “la información se colecta en forma de muestras o conjuntos de observaciones, las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico” (pág. 2).
Mendenhall, Beaver, y Beaver (2010) mencionan que “en el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población” (pág. 3).
En un estudio estadístico se determinan algunas medidas, máximos, mínimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadísticos muéstrales, si las medidas se determinan con los datos de una población se llaman parámetros poblacionales. (Anderson, Sweeney, & Williams, 2008).
Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categóricos emplean etiquetas o nombres para determinar categorías de elementos iguales o diferentes. Los datos cuantitativos son valores numéricos en los que se permite hacer operaciones matemáticas o determinar medidas estadísticas.
En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (pág. 10)
Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).
Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el número de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.
Para determinar una tabla de distribución de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuántos elementos hay de cada clase y que proporción existe con respecto al número total de elementos.
frecuencia.de.clase = número.de.elementos.de.cada.clase
La frecuencia relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el número de elementos
frecuencia.relativa = \frac{frecuencia.de.clase}{n}
La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100
frecuencia.porcentual = frecuencia.relativa\times100
Entonces una distribución de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribución de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).
Una gráfica de barras o un diagrama de barras, es una gráfica para representar los datos cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorías), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Después, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).
La gráfica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una gráfica de pastel, primero se dibuja un círculo que representa todos los datos. Después se usa la frecuencia relativa para subdividir el círculo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008).
Se presentan datos de cincuenta nombre de personas credos a partir de la función c() y almacenados en una variable tipo vector llamada nombres.
Se utiliza la función factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes además que se pueda determinar su frecuencia.
Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, gráficas de barra y pastel del ejercicio.
Simular la generación de una muestra diez mil (10000) nombres de personas a partir de la simulación de 50 datos nombres diferentes para determinar la distribución de frecuencias.
Se utiliza la variable tipo vector nombres
set.seed() significa que al momento de generar valores aleatorios dé o genere los mismos resultados cada vez que se ejecuta alguna función de aleatoriedad como sample().
set.seed(2021)
nombres = c('Javier', 'Rubén', 'Hilda', 'Maria','Claudia','Héctor','Jairo', 'Luis', 'José', 'Angel','Manuel', 'Mayra', 'Juán', 'César', 'Edgar','Aaron','Francia', 'Lucero', 'Valeria','Yazmín','Paty', 'Jessica', 'Laura', 'Mayela','Lucy', 'Jesús', 'Bety', 'Martha', 'Guadalupe','Antonio', 'Humberto', 'Gabriela', 'Lorenzo','Joaquín','Ana','Louisa','Fernando','Gabriel','Jeorgina','Ernesto','Rocío','Vicoria','Italia','América','Jimena','Xóchitl','Lucrecia','Erendira','Verónica','Ramón' )
nombres
## [1] "Javier" "Rubén" "Hilda" "Maria" "Claudia" "Héctor"
## [7] "Jairo" "Luis" "José" "Angel" "Manuel" "Mayra"
## [13] "Juán" "César" "Edgar" "Aaron" "Francia" "Lucero"
## [19] "Valeria" "Yazmín" "Paty" "Jessica" "Laura" "Mayela"
## [25] "Lucy" "Jesús" "Bety" "Martha" "Guadalupe" "Antonio"
## [31] "Humberto" "Gabriela" "Lorenzo" "Joaquín" "Ana" "Louisa"
## [37] "Fernando" "Gabriel" "Jeorgina" "Ernesto" "Rocío" "Vicoria"
## [43] "Italia" "América" "Jimena" "Xóchitl" "Lucrecia" "Erendira"
## [49] "Verónica" "Ramón"
Con la función sample() se generan diez mil datos de nombres de personas a partir de vector con los nombres.
La variable que se utiliza es un vector llamado datos
Con la función head() y tail() se muestran los primeros y últimos registros respectivamente. Estas funciones head() y tail() se utilizan para no visualizar diez mil registros en pantalla que sería poco práctico.
datos = sample(nombres, size = 10000, replace = TRUE)
head(datos, 50) # Los primeros cincuenta
## [1] "Jairo" "Gabriel" "Xóchitl" "Jeorgina" "Mayra" "Héctor"
## [7] "Gabriel" "Gabriel" "Xóchitl" "Claudia" "Lucrecia" "Jeorgina"
## [13] "Rocío" "Laura" "Mayra" "Lucero" "Hilda" "Xóchitl"
## [19] "Ernesto" "Jesús" "Louisa" "Fernando" "Jessica" "Humberto"
## [25] "Erendira" "Joaquín" "Valeria" "Maria" "Jessica" "Claudia"
## [31] "José" "Gabriel" "Lucero" "Italia" "Ramón" "Héctor"
## [37] "Jessica" "Héctor" "Edgar" "Joaquín" "Jessica" "Ramón"
## [43] "Aaron" "Edgar" "Verónica" "Mayela" "Francia" "Gabriel"
## [49] "Fernando" "Yazmín"
tail(datos, 50) # Los últimos cincuenta
## [1] "Lorenzo" "Javier" "Yazmín" "Yazmín" "Valeria" "Jimena"
## [7] "Erendira" "Mayela" "Hilda" "Valeria" "Gabriel" "Jimena"
## [13] "Jimena" "Jairo" "Aaron" "Rocío" "Louisa" "Bety"
## [19] "Ramón" "Ramón" "América" "Jesús" "Claudia" "Xóchitl"
## [25] "Valeria" "Claudia" "José" "Rocío" "José" "Javier"
## [31] "Jesús" "Louisa" "Mayra" "Luis" "Ana" "Verónica"
## [37] "Antonio" "Jesús" "Italia" "Ana" "Mayra" "Luis"
## [43] "Gabriel" "Claudia" "Gabriel" "Lucrecia" "Héctor" "Gabriela"
## [49] "Jeorgina" "Javier"
n = length(datos)
n
## [1] 10000
Con la función factor() permite identificar que los datos en R son categóricos y no solamente char y que además se pueden contabilizar y determinar su frecuencia.
datos = factor(datos)
Utilizando una función que se llama table() se cuentan los elementos de cada clase y se identifica la frecuencia de clase.
frecuencia.clase = table(datos)
frecuencia.clase
## datos
## Aaron América Ana Angel Antonio Bety César Claudia
## 220 207 188 196 176 180 172 184
## Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe
## 174 195 195 205 221 193 185 190
## Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica
## 189 223 204 200 190 195 196 218
## Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa
## 189 176 205 204 187 207 205 231
## Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 214 221 215 222 199 205 198 199
## Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria
## 187 189 202 200 195 238 218 198
## Xóchitl Yazmín
## 206 194
La frecuencia relativa es dividir frecuencia de clase entre n previamente creada: \frac{frecuencia.clase}{n}
frecuencia.relativa = frecuencia.clase / n
frecuencia.relativa
## datos
## Aaron América Ana Angel Antonio Bety César Claudia
## 0.0220 0.0207 0.0188 0.0196 0.0176 0.0180 0.0172 0.0184
## Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe
## 0.0174 0.0195 0.0195 0.0205 0.0221 0.0193 0.0185 0.0190
## Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica
## 0.0189 0.0223 0.0204 0.0200 0.0190 0.0195 0.0196 0.0218
## Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa
## 0.0189 0.0176 0.0205 0.0204 0.0187 0.0207 0.0205 0.0231
## Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 0.0214 0.0221 0.0215 0.0222 0.0199 0.0205 0.0198 0.0199
## Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria
## 0.0187 0.0189 0.0202 0.0200 0.0195 0.0238 0.0218 0.0198
## Xóchitl Yazmín
## 0.0206 0.0194
La frecuencia porcentual es multiplicar la frecuencia relativa: frecuencia.porcentual = frecuencia.relativa∗100 dado que 100 representa el 100% del total de los datos.
frecuencia.porcentual = frecuencia.relativa * 100
frecuencia.porcentual
## datos
## Aaron América Ana Angel Antonio Bety César Claudia
## 2.20 2.07 1.88 1.96 1.76 1.80 1.72 1.84
## Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe
## 1.74 1.95 1.95 2.05 2.21 1.93 1.85 1.90
## Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica
## 1.89 2.23 2.04 2.00 1.90 1.95 1.96 2.18
## Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa
## 1.89 1.76 2.05 2.04 1.87 2.07 2.05 2.31
## Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 2.14 2.21 2.15 2.22 1.99 2.05 1.98 1.99
## Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria
## 1.87 1.89 2.02 2.00 1.95 2.38 2.18 1.98
## Xóchitl Yazmín
## 2.06 1.94
Creando un data.frame que integra las columnas de clases, frecuencias, relativas y porcentuales.
Con la función name() se identifican los nombres de los refrescos y con la función as.vector() se extraen solo los valores numéricos del tipo de datos que se crearon con la función table().
Se utiliza la variable llamada tabla.frecuencia para construir el data.frame o conjunto de datos de manera tabular que se interpreta como una tabla de frecuencias de los datos.
tabla.frecuencia = data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))
names(tabla.frecuencia) = c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')
tabla.frecuencia
## Clases Frecuencia de clase Relativa Porcentual
## 1 Aaron 220 0.0220 2.20
## 2 América 207 0.0207 2.07
## 3 Ana 188 0.0188 1.88
## 4 Angel 196 0.0196 1.96
## 5 Antonio 176 0.0176 1.76
## 6 Bety 180 0.0180 1.80
## 7 César 172 0.0172 1.72
## 8 Claudia 184 0.0184 1.84
## 9 Edgar 174 0.0174 1.74
## 10 Erendira 195 0.0195 1.95
## 11 Ernesto 195 0.0195 1.95
## 12 Fernando 205 0.0205 2.05
## 13 Francia 221 0.0221 2.21
## 14 Gabriel 193 0.0193 1.93
## 15 Gabriela 185 0.0185 1.85
## 16 Guadalupe 190 0.0190 1.90
## 17 Héctor 189 0.0189 1.89
## 18 Hilda 223 0.0223 2.23
## 19 Humberto 204 0.0204 2.04
## 20 Italia 200 0.0200 2.00
## 21 Jairo 190 0.0190 1.90
## 22 Javier 195 0.0195 1.95
## 23 Jeorgina 196 0.0196 1.96
## 24 Jessica 218 0.0218 2.18
## 25 Jesús 189 0.0189 1.89
## 26 Jimena 176 0.0176 1.76
## 27 Joaquín 205 0.0205 2.05
## 28 José 204 0.0204 2.04
## 29 Juán 187 0.0187 1.87
## 30 Laura 207 0.0207 2.07
## 31 Lorenzo 205 0.0205 2.05
## 32 Louisa 231 0.0231 2.31
## 33 Lucero 214 0.0214 2.14
## 34 Lucrecia 221 0.0221 2.21
## 35 Lucy 215 0.0215 2.15
## 36 Luis 222 0.0222 2.22
## 37 Manuel 199 0.0199 1.99
## 38 Maria 205 0.0205 2.05
## 39 Martha 198 0.0198 1.98
## 40 Mayela 199 0.0199 1.99
## 41 Mayra 187 0.0187 1.87
## 42 Paty 189 0.0189 1.89
## 43 Ramón 202 0.0202 2.02
## 44 Rocío 200 0.0200 2.00
## 45 Rubén 195 0.0195 1.95
## 46 Valeria 238 0.0238 2.38
## 47 Verónica 218 0.0218 2.18
## 48 Vicoria 198 0.0198 1.98
## 49 Xóchitl 206 0.0206 2.06
## 50 Yazmín 194 0.0194 1.94
Con la función barplot() se visualiza la gráfica de barras, los atributos height y names.arg de la función son tanto la escala en el eje vertical como los valores en el eje horizontal; el atributo main establece el título del gráfico.
barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")
Antes de graficar el top 10 o los nombres que más se repiten, es necesario ordenar el conjunto de datos.
Se puede utilizar la función order() que ordena un vector combinado con tabla.frecuencia[order()] para ordenar todo el data.frame o conjunto de datos de manera descendente por la columna Frecuencia clase.
tabla.frecuencia = tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]
Toda vez que se ordenó el data.frame, con la selección de los primeros 10 [10, ] se encuentra el top 10 de los nombres más frecuentes.
tabla.frecuencia = tabla.frecuencia[1:10,]
tabla.frecuencia
## Clases Frecuencia de clase Relativa Porcentual
## 46 Valeria 238 0.0238 2.38
## 32 Louisa 231 0.0231 2.31
## 18 Hilda 223 0.0223 2.23
## 36 Luis 222 0.0222 2.22
## 13 Francia 221 0.0221 2.21
## 34 Lucrecia 221 0.0221 2.21
## 1 Aaron 220 0.0220 2.20
## 24 Jessica 218 0.0218 2.18
## 47 Verónica 218 0.0218 2.18
## 35 Lucy 215 0.0215 2.15
Ahora si se puede graficar solo los primeros diez nombres más repetidos y se observa la gráfica más amigable
barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. Top 10")
Con la función pie() se generan una distribución de frecuencia en forma de pastel de los datos de la tabla de frecuencia, los atributos x en esta función establece los valores y el atributo labels indica las etiquetas o categorías de refrescos.
pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)
Contestar de manera descriptiva cada una de las siguientes preguntas:
1.- ¿Cuál es el nombre de persona que más se repite y su frecuencia de clase?
R= El nombre que más se repite es el de “Valeria” con una frecuencua de clase de 238.
2.- ¿Cuál es el nombre de persona que menos se repite y su frecuencia de clase?
R= El nombre que menos se repite es el de “César” con una frecuencua de clase de 172.
3.- ¿Cuáles son las frecuencias relativas de cada nombres de persona?
R= Aaron=0.0220, América=0.0207, Ana=0.0188, Angel=0.0196, Antonio=0.0176, Bety=0.0180, César=0.0172, Claudia=0.0184, Edgar=0.0174, Erendira=0.0195, Ernesto=0.0195, Fernando=0.0205, Francia=0.0221, Gabriel=0.0193, Gabriela=0.0185, Guadalupe=0.0190, Héctor=0.0189, Hilda=0.0223, Humberto=0.0204, Italia=0.0200, Jairo=0.0190, Javier=0.0195, Jeorgina=0.0196, Jessica=0.0218, Jesús=0.0189, Jimena=0.0176, Joaquín=0.0205, José=0.0204, Juán=0.0187, Laura=0.0207, Lorenzo=0.0205, Louisa=0.0231, Lucero=0.0214, Lucrecia=0.0221, Lucy=0.0215 Luis=0.0222 Manuel=0.0199, Maria=0.0205, Martha=0.0198, Mayela=0.0199, Mayra=0.0187, Paty=0.0189, Ramón=0.0202, Rocío=0.0200, Rubén=0.0195, Valeria=0.0238, Verónica=0.0218, Vicoria=0.0198, Xóchitl=0.0206, Yazmín=0.0194.
4.- ¿Cuáles son los porcentajes de nombres de personas más y menos?
R= El nombre con una mayor frecuencia porcentual es el de “Valeria” con 2.38% y el nombre con una menor frecuencia porcentual es el de “César” con 1.72%.
5.- ¿Que representa la tabla de distribución de frecuencias, la gráfica de barra y gráfica de pastel?
R= La tablad de distribución de frecuencias nos representa de una manera más práctica y organizada los datos de frecuencia de clase, frecuencia relativa y frecuencia porcentual de cada nombre de persona.
La grafica de barras se usa para representar la frecuencia de clase de los nombres de persona de una manera más gráfica, y la gráfica de barras top 10 muestra una gráfica igual solo que en esta solo se grafican los 10 nombres de persona con mas frecuencia de clase con un orden de mayor a menor.
La grafica de pastel se usa para representar de una mejor manera y de una forma más gráfica la frecuencia porcentual de los nombres de persona.
6.- Aspectos generales del caso: ¿qué aprendizajes se obtuvieron?, ¿qué deja el caso?, ¿qué habilidades se desarrollan?, ¿qué formación se obtiene?, entre otras.
R= Este caso me ayudo a volver a usar las frecuencias y gráficas igual que en el caso 1, además se agrego el tema de sembrar una semilla, crar una gráfica de barras top 10 y crear datos simulados aleatorios.
Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning Editores,S.A. de C.V.
Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística. México, D.F.: Cengage Learning Editores, S.A. de C.V.
Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para Ingeniería y Ciencias. Octava Edición (Octava Edición ed.). México: Prentice Hill. Pearson Educación.
Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición ed.). Cd. México: Pearson.