Realizar una interpretación de datos a partir de una simulación de un conjunto de datos cualitativos y por medio de una distribución de frecuencias y visualización gráfica de datos.
A través de un proceso que incluye datos, codificación y resultados se hace un análisis e interpretación de datos.
El proceso incluye varios aspectos: la creación de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorización de los mismos; la generación de frecuencias de clase, relativas y porcentuales y la creación de la distribución de frecuencias.
El análisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualización gráfica se interpretan los resultados. La visualización de datos es mediante gráfica de barra y de pastel respectivamente y la interpretación del caso incluye responder a las cuestiones particulares del caso.
La estadística es la disciplina matemática que trata con el análisis y estudio de los datos y la estadística descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretación y comunicación.
¿qué datos y cuántos datos hay que analizar y estudiar?, ¿cuáles mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos íntimamente relacionados con estadística, los de población y muestra.
Anderson Sweeney y Williams (2008) conceptualizan que una “población es el conjunto de todos los elementos de interés en un estudio determinado; la muestra es un subconjunto de la población” (pág. 15).
Walpole, Myers, Myers y Ye (2012) mencionan que “la información se colecta en forma de muestras o conjuntos de observaciones, las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico” (pág. 2).
Mendenhall, Beaver, y Beaver (2010) mencionana que “en el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población” (pág. 3).
En un estudio estadístico se determinan algunas medidas, máximos, mínimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadísticos muestrales, si las medidas se determinan con los datos de una población se llaman parámetros poblacionales. (Anderson, Sweeney, & Williams, 2008).
Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categóricos emplean etiquetas o nombres para determinar categorías de elementos iguales o diferentes. Los datos cuantitativos son valores numéricos en los que se permite hacer operaciones matemáticas o determianr medidas estadísticas.
En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (pág. 10)
Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).
Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el número de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.
Para determinar una tabla de distribución de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuántos elementos hay de cada clase y que proporción existe con respecto al número total de elementos.
frecuencia.de.clase=número.de.elementos.de.cada.clase
La frecuencia relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el número de elementos
frecuencia.relativa=frecuencia.de.clasen
La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100
frecuencia.porcentual=frecuencia.relativa×100
Entonces una distribución de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribución de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).
Una gráfica de barras o un diagrama de barras, es una gráfica para representar los datos cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorías), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Después, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).
La gráfica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una gráfica de pastel, primero se dibuja un círculo que representa todos los datos. Después se usa la frecuencia relativa para subdividir el círculo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008).
Se presentan datos de cincuenta nombre de personas credos a partir de la función c() y amacenados en una variable tipo vector llamada nombres.
Se utiliza la función factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes además que se pueda determinar su frecuencia.
Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, gráficas de barra y pastel del ejercicio.
Simular la generación de una muestra diez mil (10000) nombres de personas a partir de la simulación de 50 datos nombres diferentes para determinar la ditribución de frecuencias.
Se utiliza la variable tipo vector nombres.
nombres <- c('Javier', 'Rubén', 'Hilda', 'Maria','Claudia','Héctor','Jairo', 'Luis', 'José', 'Angel','Manuel', 'Mayra', 'Juán', 'César', 'Edgar','Aaron','Francia', 'Lucero', 'Valeria','Yazmín','Paty', 'Jessica', 'Laura', 'Mayela','Lucy', 'Jesús', 'Bety', 'Martha', 'Guadalupe','Antonio', 'Humberto', 'Gabriela', 'Lorenzo','Joaquín','Ana','Louisa','Fernando','Gabriel','Jeorgina','Ernesto','Rocío','Vicoria','Italia','América','Jimena','Xóchitl','Lucrecia','Erendira','Verónica','Ramón' )
nombres
## [1] "Javier" "Rubén" "Hilda" "Maria" "Claudia" "Héctor"
## [7] "Jairo" "Luis" "José" "Angel" "Manuel" "Mayra"
## [13] "Juán" "César" "Edgar" "Aaron" "Francia" "Lucero"
## [19] "Valeria" "Yazmín" "Paty" "Jessica" "Laura" "Mayela"
## [25] "Lucy" "Jesús" "Bety" "Martha" "Guadalupe" "Antonio"
## [31] "Humberto" "Gabriela" "Lorenzo" "Joaquín" "Ana" "Louisa"
## [37] "Fernando" "Gabriel" "Jeorgina" "Ernesto" "Rocío" "Vicoria"
## [43] "Italia" "América" "Jimena" "Xóchitl" "Lucrecia" "Erendira"
## [49] "Verónica" "Ramón"
datos <- sample(nombres, size = 10000, replace = TRUE)
head(datos, 50) # Los primeros cincuenta
## [1] "Maria" "Angel" "Javier" "Ana" "Ramón" "Gabriela"
## [7] "José" "Vicoria" "Valeria" "Italia" "Martha" "Mayela"
## [13] "Rocío" "Guadalupe" "Gabriel" "Lorenzo" "Louisa" "Valeria"
## [19] "Verónica" "América" "César" "Mayra" "Angel" "Humberto"
## [25] "Mayra" "Verónica" "Jairo" "Luis" "Maria" "Erendira"
## [31] "Gabriel" "Héctor" "Antonio" "Manuel" "Francia" "Hilda"
## [37] "Héctor" "Juán" "Héctor" "Hilda" "Maria" "Fernando"
## [43] "Lucero" "América" "Jimena" "América" "Antonio" "Mayra"
## [49] "José" "Jeorgina"
tail(datos, 50) # Los últimos cincuenta
## [1] "Bety" "Hilda" "Valeria" "Lucrecia" "Gabriela" "Ana"
## [7] "Rocío" "Luis" "Bety" "Lucy" "Edgar" "Jessica"
## [13] "Lorenzo" "Angel" "Lucy" "Erendira" "Mayra" "Jesús"
## [19] "Humberto" "Erendira" "Antonio" "Héctor" "Bety" "Lucero"
## [25] "Gabriela" "Francia" "América" "Juán" "Francia" "Lucero"
## [31] "Louisa" "José" "Aaron" "Mayra" "Laura" "Xóchitl"
## [37] "Francia" "José" "Jessica" "Paty" "Lucrecia" "Jesús"
## [43] "Erendira" "Hilda" "Maria" "Maria" "Fernando" "Jessica"
## [49] "Italia" "Bety"
n <- length(datos)
n
## [1] 10000
datos <- factor(datos)
frecuencia.clase <- table(datos)
frecuencia.clase
## datos
## Aaron América Ana Angel Antonio Bety César Claudia
## 198 221 195 190 206 206 208 209
## Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe
## 205 213 198 192 222 182 174 199
## Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica
## 202 215 214 202 192 205 195 208
## Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa
## 213 211 214 206 183 205 207 189
## Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 180 212 181 181 196 183 184 193
## Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria
## 199 220 194 201 180 223 219 186
## Xóchitl Yazmín
## 188 201
frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa
## datos
## Aaron América Ana Angel Antonio Bety César Claudia
## 0.0198 0.0221 0.0195 0.0190 0.0206 0.0206 0.0208 0.0209
## Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe
## 0.0205 0.0213 0.0198 0.0192 0.0222 0.0182 0.0174 0.0199
## Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica
## 0.0202 0.0215 0.0214 0.0202 0.0192 0.0205 0.0195 0.0208
## Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa
## 0.0213 0.0211 0.0214 0.0206 0.0183 0.0205 0.0207 0.0189
## Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 0.0180 0.0212 0.0181 0.0181 0.0196 0.0183 0.0184 0.0193
## Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria
## 0.0199 0.0220 0.0194 0.0201 0.0180 0.0223 0.0219 0.0186
## Xóchitl Yazmín
## 0.0188 0.0201
frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual
## datos
## Aaron América Ana Angel Antonio Bety César Claudia
## 1.98 2.21 1.95 1.90 2.06 2.06 2.08 2.09
## Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe
## 2.05 2.13 1.98 1.92 2.22 1.82 1.74 1.99
## Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica
## 2.02 2.15 2.14 2.02 1.92 2.05 1.95 2.08
## Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa
## 2.13 2.11 2.14 2.06 1.83 2.05 2.07 1.89
## Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 1.80 2.12 1.81 1.81 1.96 1.83 1.84 1.93
## Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria
## 1.99 2.20 1.94 2.01 1.80 2.23 2.19 1.86
## Xóchitl Yazmín
## 1.88 2.01
tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))
names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')
tabla.frecuencia
## Clases Frecuencia de clase Relativa Porcentual
## 1 Aaron 198 0.0198 1.98
## 2 América 221 0.0221 2.21
## 3 Ana 195 0.0195 1.95
## 4 Angel 190 0.0190 1.90
## 5 Antonio 206 0.0206 2.06
## 6 Bety 206 0.0206 2.06
## 7 César 208 0.0208 2.08
## 8 Claudia 209 0.0209 2.09
## 9 Edgar 205 0.0205 2.05
## 10 Erendira 213 0.0213 2.13
## 11 Ernesto 198 0.0198 1.98
## 12 Fernando 192 0.0192 1.92
## 13 Francia 222 0.0222 2.22
## 14 Gabriel 182 0.0182 1.82
## 15 Gabriela 174 0.0174 1.74
## 16 Guadalupe 199 0.0199 1.99
## 17 Héctor 202 0.0202 2.02
## 18 Hilda 215 0.0215 2.15
## 19 Humberto 214 0.0214 2.14
## 20 Italia 202 0.0202 2.02
## 21 Jairo 192 0.0192 1.92
## 22 Javier 205 0.0205 2.05
## 23 Jeorgina 195 0.0195 1.95
## 24 Jessica 208 0.0208 2.08
## 25 Jesús 213 0.0213 2.13
## 26 Jimena 211 0.0211 2.11
## 27 Joaquín 214 0.0214 2.14
## 28 José 206 0.0206 2.06
## 29 Juán 183 0.0183 1.83
## 30 Laura 205 0.0205 2.05
## 31 Lorenzo 207 0.0207 2.07
## 32 Louisa 189 0.0189 1.89
## 33 Lucero 180 0.0180 1.80
## 34 Lucrecia 212 0.0212 2.12
## 35 Lucy 181 0.0181 1.81
## 36 Luis 181 0.0181 1.81
## 37 Manuel 196 0.0196 1.96
## 38 Maria 183 0.0183 1.83
## 39 Martha 184 0.0184 1.84
## 40 Mayela 193 0.0193 1.93
## 41 Mayra 199 0.0199 1.99
## 42 Paty 220 0.0220 2.20
## 43 Ramón 194 0.0194 1.94
## 44 Rocío 201 0.0201 2.01
## 45 Rubén 180 0.0180 1.80
## 46 Valeria 223 0.0223 2.23
## 47 Verónica 219 0.0219 2.19
## 48 Vicoria 186 0.0186 1.86
## 49 Xóchitl 188 0.0188 1.88
## 50 Yazmín 201 0.0201 2.01
barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")
tabla.frecuencia <- tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]
tabla.frecuencia <- tabla.frecuencia[1:10,]
tabla.frecuencia
## Clases Frecuencia de clase Relativa Porcentual
## 46 Valeria 223 0.0223 2.23
## 13 Francia 222 0.0222 2.22
## 2 América 221 0.0221 2.21
## 42 Paty 220 0.0220 2.20
## 47 Verónica 219 0.0219 2.19
## 18 Hilda 215 0.0215 2.15
## 19 Humberto 214 0.0214 2.14
## 27 Joaquín 214 0.0214 2.14
## 10 Erendira 213 0.0213 2.13
## 25 Jesús 213 0.0213 2.13
barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. Top 10")
pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)
Contestar de manera descriptiva cada una de las siguientes preguntas:
¿Cual es el nombre de personas que más se repite y su frecuencia de clase? VALERIA (238), LOUISA (231), HILDA (223)
¿Cuál es el nombre de persona que menos se repite y su frecuencia de clase? YAZMIN (175), ERENDIDA (176), JOAQUIN (178), LORENZO (179)
¿Cuáles son las frecuencias relativas de cada nombres de persona? Aaron América Ana Angel Antonio Bety César Claudia 0.0220 0.0207 0.0188 0.0196 0.0176 0.0180 0.0172 0.0184 Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe 0.0174 0.0195 0.0195 0.0205 0.0221 0.0193 0.0185 0.0190 Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica 0.0189 0.0223 0.0204 0.0200 0.0190 0.0195 0.0196 0.0218 Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa 0.0189 0.0176 0.0205 0.0204 0.0187 0.0207 0.0205 0.0231 Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela 0.0214 0.0221 0.0215 0.0222 0.0199 0.0205 0.0198 0.0199 Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria 0.0187 0.0189 0.0202 0.0200 0.0195 0.0238 0.0218 0.0198 Xóchitl Yazmín 0.0206 0.0194
¿Cuales son los procentajes de nombres de personas más y menos ? Aaron América Ana Angel Antonio Bety César Claudia (2.20) (2.07) (1.88) (1.96) (1.76) (1.80) (1.72) (1.84) Edgar Erendira Ernesto Fernando Francia Gabriel Gabriela Guadalupe 1.74 1.95 1.95 2.05 2.21 1.93 1.85 1.90 Héctor Hilda Humberto Italia Jairo Javier Jeorgina Jessica 1.89 2.23 2.04 2.00 1.90 1.95 1.96 2.18 Jesús Jimena Joaquín José Juán Laura Lorenzo Louisa 1.89 1.76 2.05 2.04 1.87 2.07 2.05 2.31 Lucero Lucrecia Lucy Luis Manuel Maria Martha Mayela 2.14 2.21 2.15 2.22 1.99 2.05 1.98 1.99 Mayra Paty Ramón Rocío Rubén Valeria Verónica Vicoria 1.87 1.89 2.02 2.00 1.95 2.38 2.18 1.98 Xóchitl Yazmín 2.06 1.94
Que representa la tabla de distribución de frecuencias, la gráfica de barra y gráfica de pastel? Nos permiten identificar que nombre se repitio en mas ocaciones , visualizando las diferencias de frecuencia entre la categoria de nombres que estamos estudiando en nuestro analisis,
Aspectos generales del caso: ¿qué aprendizajes se obtuvieron?, ¿qué deja el caso?, ¿qué habilidades se desarrollan?, ¿qué formación se obtiene? , entre otras … Se adquirieron qprendizajes como el recopilar datos de un apoblacion con un fin especifico organizar dichos datos para tener un aobservacion mas amplia de los datos, para poder estar en ondicion de llevar a caba tanto evaluaciones como conclusiones adecuadas, y tomar desicioenes acertadas y confiables.
Referencias bibliográficas Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning Editores,S.A. de C.V.
Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística. México, D.F.: Cengage Learning Editores, S.A. de C.V.
Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para Ingeniería y Ciencias. Octava Edición (Octava Edición ed.). México: Prentice Hill. Pearson Educación.
Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición ed.). Cd. México: Pearson.