Realizar una interpretacion de datos a partir de una simulacion de un conjunto de datos cualitativos y por medio de una distribucion de frecuencias y visualizacion grafica de datos.
A traves de un proceso que incluye datos, codificacion y resultados se hace un analisis e interpretacion de datos.
El proceso incluye varios aspectos: la creacion de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorizacion de los mismos; la generacion de frecuencias de clase, relativas y porcentuales y la creacion de la distribucion de frecuencias.
El analisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualizacion grafica se interpretan los resultados. La visualizacion de datos es mediante grafica de barra y de pastel respectivamente y la interpretacion del caso incluye responder a las cuestiones particulares del caso. ## Marco teorico La estadistica es la disciplina matematica que trata con el analisis y estudio de los datos y la estadistica descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretacion y comunicacion.
que datos y cuantos datos hay que analizar y estudiar?, cuales mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos intimamente relacionados con estadistica, los de poblacion y muestra.
Anderson Sweeney y Williams (2008)## conceptualizan que una "poblacion es el conjunto de todos los elementos de interes en un estudio determinado; la muestra es un subconjunto de la poblacion" (pag. 15).
Walpole, Myers, Myers y Ye (2012) mencionan que "la informacion se colecta en forma de muestras o conjuntos de observaciones, las muestras se reunen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo especifico" (pag. 2).
Mendenhall, Beaver, y Beaver (2010) mencionana que "en el lenguaje de la estadistica, uno de los conceptos mas elementales es el muestreo. En casi todos los problemas de estadistica, un numero especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones mas grande llamado poblacion" (pag. 3).
En un estudio estadistico se determinan algunas medidas, maximos, minimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadisticos muestrales, si las medidas se determinan con los datos de una poblacion se llaman parametros poblacionales. (Anderson, Sweeney, & Williams, 2008).
Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categoricos emplean etiquetas o nombres para determinar categorias de elementos iguales o diferentes. Los datos cuantitativos son valores numericos en los que se permite hacer operaciones matematicas o determianr medidas estadisticas.
En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o caracteristica en cada unidad experimental. Las variables cuantitativas miden una cantidad numerica en cada unidad experimental. (pag. 10)
Una distribucion de frecuencia es un resumen tabular de datos que muestra el numero (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).
Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el numero de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.
Para determinar una tabla de distribucion de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuantos elementos hay de cada clase y que proporcion existe con respecto al numero total de elementos.
La frecuencia relativa de una clase es igual a la parte o proporcion de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el numero de elementos
La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100
Entonces una distribucion de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribucion de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).
Una grafica de barras o un diagrama de barras, es una grafica para representar los datos cualitativos de una distribucion de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorias), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Despues, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).
La grafica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una grafica de pastel, primero se dibuja un circulo que representa todos los datos. Despues se usa la frecuencia relativa para subdividir el circulo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008).
Se presentan datos de cincuenta nombre de personas credos a partir de la funcion c() y amacenados en una variable tipo vector llamada nombres.
Se utiliza la funcion factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes ademas que se pueda determinar su frecuencia.
Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, graficas de barra y pastel del ejercicio.
Simular la generacion de una muestra diez mil (10000) nombres de personas a partir de la simulacion de 50 datos nombres diferentes para determinar la ditribucion de frecuencias.
Sembrar una semilla set.seed() significa que al momento de generar valores aleatorios de o genere los mismos resultados cada vez que se ejecuta alguna funcion de aleatoriedad como sample().
set.seed(2021)
nombres <- c('Javier', 'Ruben', 'Hilda', 'Maria','Claudia','Dereck','Jairo', 'Luis', 'Liliana', 'Angel','Manuel', 'Mayra', 'Ju攼㸱n', 'Dariel', 'Edgar','Aaron','Francia', 'Lucero', 'Valeria','Mirna','Paty', 'Jessica', 'Laura', 'Mayela','Lucy', 'Jesus', 'Bety', 'Martha', 'Guadalupe','Antonio', 'Humberto', 'Gabriela', 'Lorenzo','Joaquin','Ana','Louisa','Fernando','Gabriel','Jeorgina','Ernesto','Vania','Vicoria','Italia','Am攼㸹rica','Jimena','Xochitl','Lucrecia','Erendira','Lola','Goyo' )
nombres
## [1] "Javier" "Ruben" "Hilda" "Maria" "Claudia"
## [6] "Dereck" "Jairo" "Luis" "Liliana" "Angel"
## [11] "Manuel" "Mayra" "Ju<e1>n" "Dariel" "Edgar"
## [16] "Aaron" "Francia" "Lucero" "Valeria" "Mirna"
## [21] "Paty" "Jessica" "Laura" "Mayela" "Lucy"
## [26] "Jesus" "Bety" "Martha" "Guadalupe" "Antonio"
## [31] "Humberto" "Gabriela" "Lorenzo" "Joaquin" "Ana"
## [36] "Louisa" "Fernando" "Gabriel" "Jeorgina" "Ernesto"
## [41] "Vania" "Vicoria" "Italia" "Am<e9>rica" "Jimena"
## [46] "Xochitl" "Lucrecia" "Erendira" "Lola" "Goyo"
Con la funcion sample() se generan diez mil datos de nombres de personas a partir de vector con los nombres.
La variable que se utilzia es un vector llamado datos
Con la funcion head() y tail() se muestran los primeros y ultimos registros respectivamente. Estas funcines head() y tail() se utilizan para no visualziar diez mil registros en pantalla que seria poco practico.
datos <- sample(nombres, size = 10000, replace = TRUE)
head(datos, 50) # Los primeros cincuenta
## [1] "Jairo" "Gabriel" "Xochitl" "Jeorgina" "Mayra" "Dereck"
## [7] "Gabriel" "Gabriel" "Xochitl" "Claudia" "Lucrecia" "Jeorgina"
## [13] "Vania" "Laura" "Mayra" "Lucero" "Hilda" "Xochitl"
## [19] "Ernesto" "Jesus" "Louisa" "Fernando" "Jessica" "Humberto"
## [25] "Erendira" "Joaquin" "Valeria" "Maria" "Jessica" "Claudia"
## [31] "Liliana" "Gabriel" "Lucero" "Italia" "Goyo" "Dereck"
## [37] "Jessica" "Dereck" "Edgar" "Joaquin" "Jessica" "Goyo"
## [43] "Aaron" "Edgar" "Lola" "Mayela" "Francia" "Gabriel"
## [49] "Fernando" "Mirna"
tail(datos, 50) # Los 昼㹡ltimos cincuenta
## [1] "Lorenzo" "Javier" "Mirna" "Mirna" "Valeria"
## [6] "Jimena" "Erendira" "Mayela" "Hilda" "Valeria"
## [11] "Gabriel" "Jimena" "Jimena" "Jairo" "Aaron"
## [16] "Vania" "Louisa" "Bety" "Goyo" "Goyo"
## [21] "Am<e9>rica" "Jesus" "Claudia" "Xochitl" "Valeria"
## [26] "Claudia" "Liliana" "Vania" "Liliana" "Javier"
## [31] "Jesus" "Louisa" "Mayra" "Luis" "Ana"
## [36] "Lola" "Antonio" "Jesus" "Italia" "Ana"
## [41] "Mayra" "Luis" "Gabriel" "Claudia" "Gabriel"
## [46] "Lucrecia" "Dereck" "Gabriela" "Jeorgina" "Javier"
n <- length(datos)
n
## [1] 10000
Con la funcion factor() permite identificar que los datos en R son categoricos y no solamente char y que ademas se pueden contabilizar y determinar su frecuencia.
datos <- factor(datos)
Utilizando una funcion que se llama table() se cuentan los elementos de cada clase y se identifica la frecuencia de clase.
frecuencia.clase <- table(datos)
frecuencia.clase
## datos
## Aaron Am<e9>rica Ana Angel Antonio Bety Claudia
## 220 207 188 196 176 180 184
## Dariel Dereck Edgar Erendira Ernesto Fernando Francia
## 172 189 174 195 195 205 221
## Gabriel Gabriela Goyo Guadalupe Hilda Humberto Italia
## 193 185 202 190 223 204 200
## Jairo Javier Jeorgina Jessica Jesus Jimena Joaquin
## 190 195 196 218 189 176 205
## Ju<e1>n Laura Liliana Lola Lorenzo Louisa Lucero
## 187 207 204 218 205 231 214
## Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 221 215 222 199 205 198 199
## Mayra Mirna Paty Ruben Valeria Vania Vicoria
## 187 194 189 195 238 200 198
## Xochitl
## 206
La frecuencia relativa es dividiir frecuencia de clase entre n previamente creada: math xmlns="http://www.w3.org/1998/Math/MathML">
frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa
## datos
## Aaron Am<e9>rica Ana Angel Antonio Bety Claudia
## 0.0220 0.0207 0.0188 0.0196 0.0176 0.0180 0.0184
## Dariel Dereck Edgar Erendira Ernesto Fernando Francia
## 0.0172 0.0189 0.0174 0.0195 0.0195 0.0205 0.0221
## Gabriel Gabriela Goyo Guadalupe Hilda Humberto Italia
## 0.0193 0.0185 0.0202 0.0190 0.0223 0.0204 0.0200
## Jairo Javier Jeorgina Jessica Jesus Jimena Joaquin
## 0.0190 0.0195 0.0196 0.0218 0.0189 0.0176 0.0205
## Ju<e1>n Laura Liliana Lola Lorenzo Louisa Lucero
## 0.0187 0.0207 0.0204 0.0218 0.0205 0.0231 0.0214
## Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 0.0221 0.0215 0.0222 0.0199 0.0205 0.0198 0.0199
## Mayra Mirna Paty Ruben Valeria Vania Vicoria
## 0.0187 0.0194 0.0189 0.0195 0.0238 0.0200 0.0198
## Xochitl
## 0.0206
La frecuencia porcentual es multiplicar la frecuencia relativa por 100: dado que 100 representa el 100% del total de los datos.
frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual
## datos
## Aaron Am<e9>rica Ana Angel Antonio Bety Claudia
## 2.20 2.07 1.88 1.96 1.76 1.80 1.84
## Dariel Dereck Edgar Erendira Ernesto Fernando Francia
## 1.72 1.89 1.74 1.95 1.95 2.05 2.21
## Gabriel Gabriela Goyo Guadalupe Hilda Humberto Italia
## 1.93 1.85 2.02 1.90 2.23 2.04 2.00
## Jairo Javier Jeorgina Jessica Jesus Jimena Joaquin
## 1.90 1.95 1.96 2.18 1.89 1.76 2.05
## Ju<e1>n Laura Liliana Lola Lorenzo Louisa Lucero
## 1.87 2.07 2.04 2.18 2.05 2.31 2.14
## Lucrecia Lucy Luis Manuel Maria Martha Mayela
## 2.21 2.15 2.22 1.99 2.05 1.98 1.99
## Mayra Mirna Paty Ruben Valeria Vania Vicoria
## 1.87 1.94 1.89 1.95 2.38 2.00 1.98
## Xochitl
## 2.06
***Creando un data.frame que integra las columnas de clases, frecuencias, relativas y porcentuales.
Con la funcion name() se identifican los nombres de los refrescos y con la funcion as.vector() se extraen solo los valores numericos del tipo de datos que se crearon con la funcion table().
Se utiliza la variable llamada tabla.frecuencia para construir el data.frame o conjunto de datos de manera tabular que se interpreta como una tabla de frecuencias de los datos.***
tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))
names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')
tabla.frecuencia
## Clases Frecuencia de clase Relativa Porcentual
## 1 Aaron 220 0.0220 2.20
## 2 Am<e9>rica 207 0.0207 2.07
## 3 Ana 188 0.0188 1.88
## 4 Angel 196 0.0196 1.96
## 5 Antonio 176 0.0176 1.76
## 6 Bety 180 0.0180 1.80
## 7 Claudia 184 0.0184 1.84
## 8 Dariel 172 0.0172 1.72
## 9 Dereck 189 0.0189 1.89
## 10 Edgar 174 0.0174 1.74
## 11 Erendira 195 0.0195 1.95
## 12 Ernesto 195 0.0195 1.95
## 13 Fernando 205 0.0205 2.05
## 14 Francia 221 0.0221 2.21
## 15 Gabriel 193 0.0193 1.93
## 16 Gabriela 185 0.0185 1.85
## 17 Goyo 202 0.0202 2.02
## 18 Guadalupe 190 0.0190 1.90
## 19 Hilda 223 0.0223 2.23
## 20 Humberto 204 0.0204 2.04
## 21 Italia 200 0.0200 2.00
## 22 Jairo 190 0.0190 1.90
## 23 Javier 195 0.0195 1.95
## 24 Jeorgina 196 0.0196 1.96
## 25 Jessica 218 0.0218 2.18
## 26 Jesus 189 0.0189 1.89
## 27 Jimena 176 0.0176 1.76
## 28 Joaquin 205 0.0205 2.05
## 29 Ju<e1>n 187 0.0187 1.87
## 30 Laura 207 0.0207 2.07
## 31 Liliana 204 0.0204 2.04
## 32 Lola 218 0.0218 2.18
## 33 Lorenzo 205 0.0205 2.05
## 34 Louisa 231 0.0231 2.31
## 35 Lucero 214 0.0214 2.14
## 36 Lucrecia 221 0.0221 2.21
## 37 Lucy 215 0.0215 2.15
## 38 Luis 222 0.0222 2.22
## 39 Manuel 199 0.0199 1.99
## 40 Maria 205 0.0205 2.05
## 41 Martha 198 0.0198 1.98
## 42 Mayela 199 0.0199 1.99
## 43 Mayra 187 0.0187 1.87
## 44 Mirna 194 0.0194 1.94
## 45 Paty 189 0.0189 1.89
## 46 Ruben 195 0.0195 1.95
## 47 Valeria 238 0.0238 2.38
## 48 Vania 200 0.0200 2.00
## 49 Vicoria 198 0.0198 1.98
## 50 Xochitl 206 0.0206 2.06
Con la funcion barplot() se visualiza la grafica de barras, los atributos height y names.arg de la funcion son tanto la escala en el eje vertical como los valores en el eje horizontal; el atributo main establece el titulo del grafico.
barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")
Se puede utilizar la funcion order() que ordena un vector combindo con tabla.frecuencia[order()] para ordenar todo el data.frame o conjunto de datos de manera descendente por la columna Frecuencia clase.
tabla.frecuencia <- tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]
Toda vez que se ordeno el dataframe, con la seleccion de los primeros 10 [10, ] se encuentra el top 10 de los nombres mas frecuentes.
tabla.frecuencia <- tabla.frecuencia[1:10,]
tabla.frecuencia
## Clases Frecuencia de clase Relativa Porcentual
## 47 Valeria 238 0.0238 2.38
## 34 Louisa 231 0.0231 2.31
## 19 Hilda 223 0.0223 2.23
## 38 Luis 222 0.0222 2.22
## 14 Francia 221 0.0221 2.21
## 36 Lucrecia 221 0.0221 2.21
## 1 Aaron 220 0.0220 2.20
## 25 Jessica 218 0.0218 2.18
## 32 Lola 218 0.0218 2.18
## 37 Lucy 215 0.0215 2.15
Ahora si se puede graficar solo los primeros diez nombres mas repetidos y se observa la grafica mas amigable
barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. Top 10")
Con la funcion pie() se generan una distribucion de frecuencia en forma de pastel de los datos de la tabla de frecuencia, los atributos x en esta funcion establece los valores y el atriuto labels indica las etiquetas o categorias de refrescos.
pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)
Contestar de manera descriptiva cada una de las siguientes preguntas:
Cual es el nombre de personas que mas se repite y su frecuencia de clase? El nombre que mas se repite es el de Valeria con su frecuencia de clase de 238.
Cual es el nombre de persona que menos se repite y su frecuencia de clase? El nombre de Dariel con su frecuencia de clase de 172.
Cuales son las frecuencias relativas de cada nombres de persona? Aaron America Ana Angel Antonio Bety Claudia 0.0220 0.0207 0.0188 0.0196 0.0176 0.0180 0.0184 Dariel Dereck Edgar Erendira Ernesto Fernando Francia 0.0172 0.0189 0.0174 0.0195 0.0195 0.0205 0.0221 Gabriel Gabriela Goyo Guadalupe Hilda Humberto Italia 0.0193 0.0185 0.0202 0.0190 0.0223 0.0204 0.0200 Jairo Javier Jeorgina Jessica Jesus Jimena Joaquin 0.0190 0.0195 0.0196 0.0218 0.0189 0.0176 0.0205 Ju
Cuales son los procentajes de nombres de personas mas y menos ?
Valeria tiene el mayor porcentaje con 2.38 y Dariel con el porcentaje menor con 1.72
Que representa la tabla de distribucion de frecuencias, la grafica de barra y grafica de pastel? representan los numeros con los que corresponden las frecuencias y porcentajes con el uso de que podamos interpretar mejor los datos
Aspectos generales del caso: Que aprendizajes se obtuvieron? Aprendi a como generar datos imaginarios esto prodria ayudar en una practica o una simulacion para obtener informacion que deja el caso? Como generar muchos datos a partir de una muestra.
que habilidades se desarrollan? logica y matematica. que formacion se obtiene? , entre otras En ragos generales que nombres son son mas populares y cuales no son tan comunes.
Anderson, D., Sweeney, D., & Williams, T. (2008). Estadistica para administracion y economia Estadistica para administracion y economia. 10a. Edicion. Mexico, D.F: Cengage Learning Editores,S.A. de C.V.
Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introduccion a la probabilidad y estadistica. Mexico, D.F.: Cengage Learning Editores, S.A. de C.V.
Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadistica para Ingenieria y Ciencias. Octava Edicion (Octava Edicion ed.). Mexico: Prentice Hill. Pearson Educacion.
Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadistica para ingenieria y ciencias (Novena Edicion ed.). Cd. Mexico: Pearson.