Objetivo

Realizar una interpretacion de datos a partir de una simulacion de un conjunto de datos cualitativos y por medio de una distribucion de frecuencias y visualizacion grafica de datos.

Descripcion

A traves de un proceso que incluye datos, codificacion y resultados se hace un analisis e interpretacion de datos.

El proceso incluye varios aspectos: la creacion de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorizacion de los mismos; la generacion de frecuencias de clase, relativas y porcentuales y la creacion de la distribucion de frecuencias.

El analisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualizacion grafica se interpretan los resultados. La visualizacion de datos es mediante grafica de barra y de pastel respectivamente y la interpretacion del caso incluye responder a las cuestiones particulares del caso. ## Marco teorico La estadistica es la disciplina matematica que trata con el analisis y estudio de los datos y la estadistica descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretacion y comunicacion.

que datos y cuantos datos hay que analizar y estudiar?, cuales mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos intimamente relacionados con estadistica, los de poblacion y muestra.

Anderson Sweeney y Williams (2008)## conceptualizan que una "poblacion es el conjunto de todos los elementos de interes en un estudio determinado; la muestra es un subconjunto de la poblacion" (pag. 15).

Walpole, Myers, Myers y Ye (2012) mencionan que "la informacion se colecta en forma de muestras o conjuntos de observaciones, las muestras se reunen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo especifico" (pag. 2).

Mendenhall, Beaver, y Beaver (2010) mencionana que "en el lenguaje de la estadistica, uno de los conceptos mas elementales es el muestreo. En casi todos los problemas de estadistica, un numero especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones mas grande llamado poblacion" (pag. 3).

En un estudio estadistico se determinan algunas medidas, maximos, minimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadisticos muestrales, si las medidas se determinan con los datos de una poblacion se llaman parametros poblacionales. (Anderson, Sweeney, & Williams, 2008).

Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categoricos emplean etiquetas o nombres para determinar categorias de elementos iguales o diferentes. Los datos cuantitativos son valores numericos en los que se permite hacer operaciones matematicas o determianr medidas estadisticas.

En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o caracteristica en cada unidad experimental. Las variables cuantitativas miden una cantidad numerica en cada unidad experimental. (pag. 10)

Una distribucion de frecuencia es un resumen tabular de datos que muestra el numero (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).

Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el numero de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.

Para determinar una tabla de distribucion de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuantos elementos hay de cada clase y que proporcion existe con respecto al numero total de elementos.

f r e c u e n c i a . d e . c l a s e = n ú m e r o . d e . e l e m e n t o s . d e . c a d a . c l a s e

La frecuencia relativa de una clase es igual a la parte o proporcion de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el numero de elementos

f r e c u e n c i a . r e l a t i v a = f r e c u e n c i a . d e . c l a s e n

La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100

f r e c u e n c i a . p o r c e n t u a l = f r e c u e n c i a . r e l a t i v a * 100

Entonces una distribucion de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribucion de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).

Una grafica de barras o un diagrama de barras, es una grafica para representar los datos cualitativos de una distribucion de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorias), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Despues, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).

La grafica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una grafica de pastel, primero se dibuja un circulo que representa todos los datos. Despues se usa la frecuencia relativa para subdividir el circulo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008).

Desarrollo

Se presentan datos de cincuenta nombre de personas credos a partir de la funcion c() y amacenados en una variable tipo vector llamada nombres.

Se utiliza la funcion factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes ademas que se pueda determinar su frecuencia.

Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, graficas de barra y pastel del ejercicio.

Simular la generacion de una muestra diez mil (10000) nombres de personas a partir de la simulacion de 50 datos nombres diferentes para determinar la ditribucion de frecuencias.

Se utiliza la variable tipo vector nombres

Sembrar una semilla set.seed() significa que al momento de generar valores aleatorios de o genere los mismos resultados cada vez que se ejecuta alguna funcion de aleatoriedad como sample().

set.seed(2021)

Datos. Los nombres de personas

nombres <- c('Javier', 'Ruben', 'Hilda', 'Maria','Claudia','Dereck','Jairo', 'Luis', 'Liliana', 'Angel','Manuel', 'Mayra', 'Ju攼㸱n', 'Dariel', 'Edgar','Aaron','Francia', 'Lucero', 'Valeria','Mirna','Paty', 'Jessica', 'Laura', 'Mayela','Lucy', 'Jesus', 'Bety', 'Martha', 'Guadalupe','Antonio', 'Humberto', 'Gabriela', 'Lorenzo','Joaquin','Ana','Louisa','Fernando','Gabriel','Jeorgina','Ernesto','Vania','Vicoria','Italia','Am攼㸹rica','Jimena','Xochitl','Lucrecia','Erendira','Lola','Goyo' )

nombres
##  [1] "Javier"     "Ruben"      "Hilda"      "Maria"      "Claudia"   
##  [6] "Dereck"     "Jairo"      "Luis"       "Liliana"    "Angel"     
## [11] "Manuel"     "Mayra"      "Ju<e1>n"    "Dariel"     "Edgar"     
## [16] "Aaron"      "Francia"    "Lucero"     "Valeria"    "Mirna"     
## [21] "Paty"       "Jessica"    "Laura"      "Mayela"     "Lucy"      
## [26] "Jesus"      "Bety"       "Martha"     "Guadalupe"  "Antonio"   
## [31] "Humberto"   "Gabriela"   "Lorenzo"    "Joaquin"    "Ana"       
## [36] "Louisa"     "Fernando"   "Gabriel"    "Jeorgina"   "Ernesto"   
## [41] "Vania"      "Vicoria"    "Italia"     "Am<e9>rica" "Jimena"    
## [46] "Xochitl"    "Lucrecia"   "Erendira"   "Lola"       "Goyo"

Simular diez mil nombres

Con la funcion sample() se generan diez mil datos de nombres de personas a partir de vector con los nombres.

La variable que se utilzia es un vector llamado datos

Con la funcion head() y tail() se muestran los primeros y ultimos registros respectivamente. Estas funcines head() y tail() se utilizan para no visualziar diez mil registros en pantalla que seria poco practico.

datos <- sample(nombres, size = 10000, replace = TRUE)

head(datos, 50)   # Los primeros cincuenta
##  [1] "Jairo"    "Gabriel"  "Xochitl"  "Jeorgina" "Mayra"    "Dereck"  
##  [7] "Gabriel"  "Gabriel"  "Xochitl"  "Claudia"  "Lucrecia" "Jeorgina"
## [13] "Vania"    "Laura"    "Mayra"    "Lucero"   "Hilda"    "Xochitl" 
## [19] "Ernesto"  "Jesus"    "Louisa"   "Fernando" "Jessica"  "Humberto"
## [25] "Erendira" "Joaquin"  "Valeria"  "Maria"    "Jessica"  "Claudia" 
## [31] "Liliana"  "Gabriel"  "Lucero"   "Italia"   "Goyo"     "Dereck"  
## [37] "Jessica"  "Dereck"   "Edgar"    "Joaquin"  "Jessica"  "Goyo"    
## [43] "Aaron"    "Edgar"    "Lola"     "Mayela"   "Francia"  "Gabriel" 
## [49] "Fernando" "Mirna"
tail(datos, 50)   # Los 昼㹡ltimos cincuenta 
##  [1] "Lorenzo"    "Javier"     "Mirna"      "Mirna"      "Valeria"   
##  [6] "Jimena"     "Erendira"   "Mayela"     "Hilda"      "Valeria"   
## [11] "Gabriel"    "Jimena"     "Jimena"     "Jairo"      "Aaron"     
## [16] "Vania"      "Louisa"     "Bety"       "Goyo"       "Goyo"      
## [21] "Am<e9>rica" "Jesus"      "Claudia"    "Xochitl"    "Valeria"   
## [26] "Claudia"    "Liliana"    "Vania"      "Liliana"    "Javier"    
## [31] "Jesus"      "Louisa"     "Mayra"      "Luis"       "Ana"       
## [36] "Lola"       "Antonio"    "Jesus"      "Italia"     "Ana"       
## [41] "Mayra"      "Luis"       "Gabriel"    "Claudia"    "Gabriel"   
## [46] "Lucrecia"   "Dereck"     "Gabriela"   "Jeorgina"   "Javier"

Numero de elementos

n <- length(datos)
n
## [1] 10000

Determinar los datos como tipo factor o categoricos

Con la funcion factor() permite identificar que los datos en R son categoricos y no solamente char y que ademas se pueden contabilizar y determinar su frecuencia.

datos <- factor(datos)

Frecuencia de clase

Utilizando una funcion que se llama table() se cuentan los elementos de cada clase y se identifica la frecuencia de clase.

frecuencia.clase <- table(datos)
frecuencia.clase
## datos
##      Aaron Am<e9>rica        Ana      Angel    Antonio       Bety    Claudia 
##        220        207        188        196        176        180        184 
##     Dariel     Dereck      Edgar   Erendira    Ernesto   Fernando    Francia 
##        172        189        174        195        195        205        221 
##    Gabriel   Gabriela       Goyo  Guadalupe      Hilda   Humberto     Italia 
##        193        185        202        190        223        204        200 
##      Jairo     Javier   Jeorgina    Jessica      Jesus     Jimena    Joaquin 
##        190        195        196        218        189        176        205 
##    Ju<e1>n      Laura    Liliana       Lola    Lorenzo     Louisa     Lucero 
##        187        207        204        218        205        231        214 
##   Lucrecia       Lucy       Luis     Manuel      Maria     Martha     Mayela 
##        221        215        222        199        205        198        199 
##      Mayra      Mirna       Paty      Ruben    Valeria      Vania    Vicoria 
##        187        194        189        195        238        200        198 
##    Xochitl 
##        206

Frecuencia relativa

La frecuencia relativa es dividiir frecuencia de clase entre n previamente creada: math xmlns="http://www.w3.org/1998/Math/MathML"> f r e c u e n c i a . c l a s e n

frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa
## datos
##      Aaron Am<e9>rica        Ana      Angel    Antonio       Bety    Claudia 
##     0.0220     0.0207     0.0188     0.0196     0.0176     0.0180     0.0184 
##     Dariel     Dereck      Edgar   Erendira    Ernesto   Fernando    Francia 
##     0.0172     0.0189     0.0174     0.0195     0.0195     0.0205     0.0221 
##    Gabriel   Gabriela       Goyo  Guadalupe      Hilda   Humberto     Italia 
##     0.0193     0.0185     0.0202     0.0190     0.0223     0.0204     0.0200 
##      Jairo     Javier   Jeorgina    Jessica      Jesus     Jimena    Joaquin 
##     0.0190     0.0195     0.0196     0.0218     0.0189     0.0176     0.0205 
##    Ju<e1>n      Laura    Liliana       Lola    Lorenzo     Louisa     Lucero 
##     0.0187     0.0207     0.0204     0.0218     0.0205     0.0231     0.0214 
##   Lucrecia       Lucy       Luis     Manuel      Maria     Martha     Mayela 
##     0.0221     0.0215     0.0222     0.0199     0.0205     0.0198     0.0199 
##      Mayra      Mirna       Paty      Ruben    Valeria      Vania    Vicoria 
##     0.0187     0.0194     0.0189     0.0195     0.0238     0.0200     0.0198 
##    Xochitl 
##     0.0206

Frecuencia porcentual

La frecuencia porcentual es multiplicar la frecuencia relativa por 100: f r e c u e n c i a . p o r c e n t u a l = f r e c u e n c i a . r e l a t i v a ∗ 100 dado que 100 representa el 100% del total de los datos.

frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual
## datos
##      Aaron Am<e9>rica        Ana      Angel    Antonio       Bety    Claudia 
##       2.20       2.07       1.88       1.96       1.76       1.80       1.84 
##     Dariel     Dereck      Edgar   Erendira    Ernesto   Fernando    Francia 
##       1.72       1.89       1.74       1.95       1.95       2.05       2.21 
##    Gabriel   Gabriela       Goyo  Guadalupe      Hilda   Humberto     Italia 
##       1.93       1.85       2.02       1.90       2.23       2.04       2.00 
##      Jairo     Javier   Jeorgina    Jessica      Jesus     Jimena    Joaquin 
##       1.90       1.95       1.96       2.18       1.89       1.76       2.05 
##    Ju<e1>n      Laura    Liliana       Lola    Lorenzo     Louisa     Lucero 
##       1.87       2.07       2.04       2.18       2.05       2.31       2.14 
##   Lucrecia       Lucy       Luis     Manuel      Maria     Martha     Mayela 
##       2.21       2.15       2.22       1.99       2.05       1.98       1.99 
##      Mayra      Mirna       Paty      Ruben    Valeria      Vania    Vicoria 
##       1.87       1.94       1.89       1.95       2.38       2.00       1.98 
##    Xochitl 
##       2.06

Tabla de frecuencias

***Creando un data.frame que integra las columnas de clases, frecuencias, relativas y porcentuales.

Con la funcion name() se identifican los nombres de los refrescos y con la funcion as.vector() se extraen solo los valores numericos del tipo de datos que se crearon con la funcion table().

Se utiliza la variable llamada tabla.frecuencia para construir el data.frame o conjunto de datos de manera tabular que se interpreta como una tabla de frecuencias de los datos.***

tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))

names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')

tabla.frecuencia
##        Clases Frecuencia de clase Relativa Porcentual
## 1       Aaron                 220   0.0220       2.20
## 2  Am<e9>rica                 207   0.0207       2.07
## 3         Ana                 188   0.0188       1.88
## 4       Angel                 196   0.0196       1.96
## 5     Antonio                 176   0.0176       1.76
## 6        Bety                 180   0.0180       1.80
## 7     Claudia                 184   0.0184       1.84
## 8      Dariel                 172   0.0172       1.72
## 9      Dereck                 189   0.0189       1.89
## 10      Edgar                 174   0.0174       1.74
## 11   Erendira                 195   0.0195       1.95
## 12    Ernesto                 195   0.0195       1.95
## 13   Fernando                 205   0.0205       2.05
## 14    Francia                 221   0.0221       2.21
## 15    Gabriel                 193   0.0193       1.93
## 16   Gabriela                 185   0.0185       1.85
## 17       Goyo                 202   0.0202       2.02
## 18  Guadalupe                 190   0.0190       1.90
## 19      Hilda                 223   0.0223       2.23
## 20   Humberto                 204   0.0204       2.04
## 21     Italia                 200   0.0200       2.00
## 22      Jairo                 190   0.0190       1.90
## 23     Javier                 195   0.0195       1.95
## 24   Jeorgina                 196   0.0196       1.96
## 25    Jessica                 218   0.0218       2.18
## 26      Jesus                 189   0.0189       1.89
## 27     Jimena                 176   0.0176       1.76
## 28    Joaquin                 205   0.0205       2.05
## 29    Ju<e1>n                 187   0.0187       1.87
## 30      Laura                 207   0.0207       2.07
## 31    Liliana                 204   0.0204       2.04
## 32       Lola                 218   0.0218       2.18
## 33    Lorenzo                 205   0.0205       2.05
## 34     Louisa                 231   0.0231       2.31
## 35     Lucero                 214   0.0214       2.14
## 36   Lucrecia                 221   0.0221       2.21
## 37       Lucy                 215   0.0215       2.15
## 38       Luis                 222   0.0222       2.22
## 39     Manuel                 199   0.0199       1.99
## 40      Maria                 205   0.0205       2.05
## 41     Martha                 198   0.0198       1.98
## 42     Mayela                 199   0.0199       1.99
## 43      Mayra                 187   0.0187       1.87
## 44      Mirna                 194   0.0194       1.94
## 45       Paty                 189   0.0189       1.89
## 46      Ruben                 195   0.0195       1.95
## 47    Valeria                 238   0.0238       2.38
## 48      Vania                 200   0.0200       2.00
## 49    Vicoria                 198   0.0198       1.98
## 50    Xochitl                 206   0.0206       2.06

Grafica de barra

Grafica de barra con todos los nombres

Con la funcion barplot() se visualiza la grafica de barras, los atributos height y names.arg de la funcion son tanto la escala en el eje vertical como los valores en el eje horizontal; el atributo main establece el titulo del grafico.

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")

Grafica de barra top 10

Antes de graficar el top 10 o los nombres que mas se repiten, es necesario ordenar el conjunto de datos.

Se puede utilizar la funcion order() que ordena un vector combindo con tabla.frecuencia[order()] para ordenar todo el data.frame o conjunto de datos de manera descendente por la columna Frecuencia clase.

tabla.frecuencia <- tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]

Toda vez que se ordeno el dataframe, con la seleccion de los primeros 10 [10, ] se encuentra el top 10 de los nombres mas frecuentes.

tabla.frecuencia <- tabla.frecuencia[1:10,]
tabla.frecuencia
##      Clases Frecuencia de clase Relativa Porcentual
## 47  Valeria                 238   0.0238       2.38
## 34   Louisa                 231   0.0231       2.31
## 19    Hilda                 223   0.0223       2.23
## 38     Luis                 222   0.0222       2.22
## 14  Francia                 221   0.0221       2.21
## 36 Lucrecia                 221   0.0221       2.21
## 1     Aaron                 220   0.0220       2.20
## 25  Jessica                 218   0.0218       2.18
## 32     Lola                 218   0.0218       2.18
## 37     Lucy                 215   0.0215       2.15

Ahora si se puede graficar solo los primeros diez nombres mas repetidos y se observa la grafica mas amigable

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. Top 10")

Grafica de pastel

Con la funcion pie() se generan una distribucion de frecuencia en forma de pastel de los datos de la tabla de frecuencia, los atributos x en esta funcion establece los valores y el atriuto labels indica las etiquetas o categorias de refrescos.

pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)

Interpretacion del caso

Contestar de manera descriptiva cada una de las siguientes preguntas:

Cual es el nombre de personas que mas se repite y su frecuencia de clase? El nombre que mas se repite es el de Valeria con su frecuencia de clase de 238.

Cual es el nombre de persona que menos se repite y su frecuencia de clase? El nombre de Dariel con su frecuencia de clase de 172.

Cuales son las frecuencias relativas de cada nombres de persona? Aaron America Ana Angel Antonio Bety Claudia 0.0220 0.0207 0.0188 0.0196 0.0176 0.0180 0.0184 Dariel Dereck Edgar Erendira Ernesto Fernando Francia 0.0172 0.0189 0.0174 0.0195 0.0195 0.0205 0.0221 Gabriel Gabriela Goyo Guadalupe Hilda Humberto Italia 0.0193 0.0185 0.0202 0.0190 0.0223 0.0204 0.0200 Jairo Javier Jeorgina Jessica Jesus Jimena Joaquin 0.0190 0.0195 0.0196 0.0218 0.0189 0.0176 0.0205 Jun Laura Liliana Lola Lorenzo Louisa Lucero 0.0187 0.0207 0.0204 0.0218 0.0205 0.0231 0.0214 Lucrecia Lucy Luis Manuel Maria Martha Mayela 0.0221 0.0215 0.0222 0.0199 0.0205 0.0198 0.0199 Mayra Mirna Paty Ruben Valeria Vania Vicoria 0.0187 0.0194 0.0189 0.0195 0.0238 0.0200 0.0198 Xochitl 0.0206

Cuales son los procentajes de nombres de personas mas y menos ?

Valeria tiene el mayor porcentaje con 2.38 y Dariel con el porcentaje menor con 1.72

Que representa la tabla de distribucion de frecuencias, la grafica de barra y grafica de pastel? representan los numeros con los que corresponden las frecuencias y porcentajes con el uso de que podamos interpretar mejor los datos

Aspectos generales del caso: Que aprendizajes se obtuvieron? Aprendi a como generar datos imaginarios esto prodria ayudar en una practica o una simulacion para obtener informacion que deja el caso? Como generar muchos datos a partir de una muestra.

que habilidades se desarrollan? logica y matematica. que formacion se obtiene? , entre otras En ragos generales que nombres son son mas populares y cuales no son tan comunes.

Referencias bibliograficas

Anderson, D., Sweeney, D., & Williams, T. (2008). Estadistica para administracion y economia Estadistica para administracion y economia. 10a. Edicion. Mexico, D.F: Cengage Learning Editores,S.A. de C.V.

Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introduccion a la probabilidad y estadistica. Mexico, D.F.: Cengage Learning Editores, S.A. de C.V.

Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadistica para Ingenieria y Ciencias. Octava Edicion (Octava Edicion ed.). Mexico: Prentice Hill. Pearson Educacion.

Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadistica para ingenieria y ciencias (Novena Edicion ed.). Cd. Mexico: Pearson.