Objetivo

Realizar una interpretación de datos a partir de una simulación de un conjunto de datos cualitativos y por medio de una distribución de frecuencias y visualización gráfica de datos.

Descripción

A través de un proceso que incluye datos, codificación y resultados se hace un análisis e interpretación de datos. El proceso incluye varios aspectos: la creación de los datos que implica crear y procesar diez mil nombres de personas a partir de un vector de cincuenta nombres diferentes; el formateo o categorización de los mismos; la generación de frecuencias de clase, relativas y porcentuales y la creación de la distribución de frecuencias.

El análisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualización gráfica se interpretan los resultados.

La visualización de datos es mediante gráfica de barra y de pastel respectivamente y la interpretación del caso incluye responder a las cuestiones particulares del caso.

Marco Teórico

La estadística es la disciplina matemática que trata con el análisis y estudio de los datos y la estadística descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretación y comunicación.

¿qué datos y cuántos datos hay que analizar y estudiar?, ¿cuáles mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos íntimamente relacionados con estadística, los de población y muestra.

Anderson Sweeney y Williams (2008) conceptualizan que una “población es el conjunto de todos los elementos de interés en un estudio determinado; la muestra es un subconjunto de la población” (pág. 15).

Walpole, Myers, Myers y Ye (2012) mencionan que “la información se colecta en forma de muestras o conjuntos de observaciones, las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico” (pág. 2).

Mendenhall, Beaver, y Beaver (2010) mencionana que “en el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población” (pág. 3).

En un estudio estadístico se determinan algunas medidas, máximos, mínimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadísticos muestrales, si las medidas se determinan con los datos de una población se llaman parámetros poblacionales. (Anderson, Sweeney, & Williams, 2008).

Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categóricos emplean etiquetas o nombres para determinar categorías de elementos iguales o diferentes. Los datos cuantitativos son valores numéricos en los que se permite hacer operaciones matemáticas o determianr medidas estadísticas.

En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (pág. 10)

Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).

Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el número de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.

Para determinar una tabla de distribución de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuántos elementos hay de cada clase y que proporción existe con respecto al número total de elementos.

\[frecuencia.de.clase=número.de.elementos.de.cada.clase\]

La frecuencia relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el número de elementos

\[frecuencia.relativa=\frac{frecuencia.de.clase}{n}\]

La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100

\[frecuencia.porcentual=frecuencia.relativa\times100\]

Entonces una distribución de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribución de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).

Una gráfica de barras o un diagrama de barras, es una gráfica para representar los datos cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorías), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Después, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).

La gráfica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una gráfica de pastel, primero se dibuja un círculo que representa todos los datos. Después se usa la frecuencia relativa para subdividir el círculo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008).

Descripción

Se presentan datos de cincuenta nombre de personas credos a partir de la función c() y amacenados en una variable tipo vector llamada nombres.

Se utiliza la función factor() para categorizar los nombres, es decir que se pueda identificar nombres diferentes además que se pueda determinar su frecuencia.

Se determinan frecuencias de clase, frecuencias relativas y porcentuales, tablas de frecuencias, gráficas de barra y pastel del ejercicio.

Simular la generación de una muestra diez mil (10000) nombres de personas a partir de la simulación de 50 datos nombres diferentes para determinar la ditribución de frecuencias.

Se utiliza la variable tipo vector nombres

Sembrar una semilla

set.seed() significa que al momento de generar valores aleatorios dé o genere los mismos resultados cada vez que se ejecuta alguna función de aleatoriedad como sample().

set.seed(3108)

Datos. Los nombres de las personas

nombres <- c('Javier', 'Rubén', 'Hilda', 'Maria','Claudia','Héctor','Jairo', 'Luis', 'José', 'Angel','Manuel', 'Mayra', 'Juán', 'César', 'Edgar','Aaron','Francia', 'Lucero', 'Valeria','Yazmín','Paty', 'Jessica', 'Laura', 'Mayela','Lucy', 'Jesús', 'Bety', 'Martha', 'Guadalupe','Antonio', 'Humberto', 'Gabriela', 'Lorenzo','Joaquín','Ana','Louisa','Fernando','Gabriel','Jeorgina','Ernesto','Rocío','Vicoria','Italia','América','Jimena','Xóchitl','Lucrecia','Erendira','Verónica','Ramón' )

nombres
##  [1] "Javier"    "Rubén"     "Hilda"     "Maria"     "Claudia"   "Héctor"   
##  [7] "Jairo"     "Luis"      "José"      "Angel"     "Manuel"    "Mayra"    
## [13] "Juán"      "César"     "Edgar"     "Aaron"     "Francia"   "Lucero"   
## [19] "Valeria"   "Yazmín"    "Paty"      "Jessica"   "Laura"     "Mayela"   
## [25] "Lucy"      "Jesús"     "Bety"      "Martha"    "Guadalupe" "Antonio"  
## [31] "Humberto"  "Gabriela"  "Lorenzo"   "Joaquín"   "Ana"       "Louisa"   
## [37] "Fernando"  "Gabriel"   "Jeorgina"  "Ernesto"   "Rocío"     "Vicoria"  
## [43] "Italia"    "América"   "Jimena"    "Xóchitl"   "Lucrecia"  "Erendira" 
## [49] "Verónica"  "Ramón"

Simular diez mil nombres

Con la función sample() se generan diez mil datos de nombres de personas a partir de vector con los nombres.

La variable que se utilzia es un vector llamado datos

Con la función head() y tail() se muestran los primeros y últimos registros respectivamente. Estas funcines head() y tail() se utilizan para no visualziar diez mil registros en pantalla que sería poco práctico.

datos <- sample(nombres, size = 10000, replace = TRUE)

head(datos, 50)
##  [1] "César"    "Italia"   "César"    "Luis"     "Gabriela" "Jimena"  
##  [7] "Fernando" "José"     "Mayra"    "Yazmín"   "Laura"    "Lucrecia"
## [13] "Ramón"    "Jesús"    "Fernando" "Juán"     "Bety"     "Angel"   
## [19] "Verónica" "Louisa"   "Joaquín"  "Mayela"   "Juán"     "Joaquín" 
## [25] "César"    "Fernando" "Maria"    "Laura"    "Héctor"   "Claudia" 
## [31] "Humberto" "José"     "Antonio"  "Lucero"   "Jeorgina" "Edgar"   
## [37] "Hilda"    "Valeria"  "Lorenzo"  "Vicoria"  "José"     "Rubén"   
## [43] "Rubén"    "Erendira" "Lucero"   "Lucero"   "Joaquín"  "Edgar"   
## [49] "Mayra"    "Louisa"
tail(datos, 50)
##  [1] "Gabriela"  "Erendira"  "Héctor"    "Ana"       "Martha"    "Mayela"   
##  [7] "Lorenzo"   "Lucero"    "César"     "Luis"      "Jessica"   "Edgar"    
## [13] "Jairo"     "Louisa"    "Jairo"     "César"     "Ana"       "Rubén"    
## [19] "Hilda"     "Laura"     "América"   "Jeorgina"  "Ramón"     "Antonio"  
## [25] "Vicoria"   "Fernando"  "Laura"     "Lucrecia"  "Bety"      "José"     
## [31] "Hilda"     "Jessica"   "Guadalupe" "César"     "Ramón"     "Antonio"  
## [37] "Rocío"     "Jimena"    "Paty"      "Vicoria"   "César"     "Maria"    
## [43] "Vicoria"   "Louisa"    "Vicoria"   "Verónica"  "José"      "Ana"      
## [49] "Jessica"   "Aaron"

Número de elementos

n <- length(datos)
n
## [1] 10000

Determinar los datos como tipo factor o categóricos

Con la función factor() permite identificar que los datos en R son categóricos y no solamente char y que además se pueden contabilizar y determinar su frecuencia.

datos <- factor(datos)

Frecuencia de clase

Utilizando una función que se llama table() se cuentan los elementos de cada clase y se identifica la frecuencia de clase.

frecuencia.clase <- table(datos)
frecuencia.clase
## datos
##     Aaron   América       Ana     Angel   Antonio      Bety     César   Claudia 
##       195       205       224       203       208       205       224       201 
##     Edgar  Erendira   Ernesto  Fernando   Francia   Gabriel  Gabriela Guadalupe 
##       209       210       183       176       204       204       201       195 
##    Héctor     Hilda  Humberto    Italia     Jairo    Javier  Jeorgina   Jessica 
##       229       185       183       199       204       193       219       227 
##     Jesús    Jimena   Joaquín      José      Juán     Laura   Lorenzo    Louisa 
##       198       205       209       202       204       182       202       202 
##    Lucero  Lucrecia      Lucy      Luis    Manuel     Maria    Martha    Mayela 
##       195       171       169       211       167       201       192       206 
##     Mayra      Paty     Ramón     Rocío     Rubén   Valeria  Verónica   Vicoria 
##       190       199       196       231       201       196       192       184 
##   Xóchitl    Yazmín 
##       210       199

Frecuencia relativa

La frecuencia relativa es dividiir frecuencia de clase entre \(n\) previamente creada:\(\frac{frecuencia.clase}{n}\)

frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa
## datos
##     Aaron   América       Ana     Angel   Antonio      Bety     César   Claudia 
##    0.0195    0.0205    0.0224    0.0203    0.0208    0.0205    0.0224    0.0201 
##     Edgar  Erendira   Ernesto  Fernando   Francia   Gabriel  Gabriela Guadalupe 
##    0.0209    0.0210    0.0183    0.0176    0.0204    0.0204    0.0201    0.0195 
##    Héctor     Hilda  Humberto    Italia     Jairo    Javier  Jeorgina   Jessica 
##    0.0229    0.0185    0.0183    0.0199    0.0204    0.0193    0.0219    0.0227 
##     Jesús    Jimena   Joaquín      José      Juán     Laura   Lorenzo    Louisa 
##    0.0198    0.0205    0.0209    0.0202    0.0204    0.0182    0.0202    0.0202 
##    Lucero  Lucrecia      Lucy      Luis    Manuel     Maria    Martha    Mayela 
##    0.0195    0.0171    0.0169    0.0211    0.0167    0.0201    0.0192    0.0206 
##     Mayra      Paty     Ramón     Rocío     Rubén   Valeria  Verónica   Vicoria 
##    0.0190    0.0199    0.0196    0.0231    0.0201    0.0196    0.0192    0.0184 
##   Xóchitl    Yazmín 
##    0.0210    0.0199

Frecuencia porcentual

La frecuencia porcentual es multiplicar la frecuencia relativa \(\times100\): \(frecuencia.porcentual=frecuencia.relativa\times100\) dado que 100 representa el 100% del total de los datos

frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual
## datos
##     Aaron   América       Ana     Angel   Antonio      Bety     César   Claudia 
##      1.95      2.05      2.24      2.03      2.08      2.05      2.24      2.01 
##     Edgar  Erendira   Ernesto  Fernando   Francia   Gabriel  Gabriela Guadalupe 
##      2.09      2.10      1.83      1.76      2.04      2.04      2.01      1.95 
##    Héctor     Hilda  Humberto    Italia     Jairo    Javier  Jeorgina   Jessica 
##      2.29      1.85      1.83      1.99      2.04      1.93      2.19      2.27 
##     Jesús    Jimena   Joaquín      José      Juán     Laura   Lorenzo    Louisa 
##      1.98      2.05      2.09      2.02      2.04      1.82      2.02      2.02 
##    Lucero  Lucrecia      Lucy      Luis    Manuel     Maria    Martha    Mayela 
##      1.95      1.71      1.69      2.11      1.67      2.01      1.92      2.06 
##     Mayra      Paty     Ramón     Rocío     Rubén   Valeria  Verónica   Vicoria 
##      1.90      1.99      1.96      2.31      2.01      1.96      1.92      1.84 
##   Xóchitl    Yazmín 
##      2.10      1.99

Tabla de frecuencias

Creando un data.frame que integra las columnas de clases, frecuencias, relativas y porcentuales.

Con la función name() se identifican los nombres de los refrescos y con la función as.vector() se extraen solo los valores numéricos del tipo de datos que se crearon con la función table().

Se utiliza la variable llamada tabla.frecuencia para construir el data.frame o conjunto de datos de manera tabular que se interpreta como una tabla de frecuencias de los datos.

tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))

names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')

tabla.frecuencia
##       Clases Frecuencia de clase Relativa Porcentual
## 1      Aaron                 195   0.0195       1.95
## 2    América                 205   0.0205       2.05
## 3        Ana                 224   0.0224       2.24
## 4      Angel                 203   0.0203       2.03
## 5    Antonio                 208   0.0208       2.08
## 6       Bety                 205   0.0205       2.05
## 7      César                 224   0.0224       2.24
## 8    Claudia                 201   0.0201       2.01
## 9      Edgar                 209   0.0209       2.09
## 10  Erendira                 210   0.0210       2.10
## 11   Ernesto                 183   0.0183       1.83
## 12  Fernando                 176   0.0176       1.76
## 13   Francia                 204   0.0204       2.04
## 14   Gabriel                 204   0.0204       2.04
## 15  Gabriela                 201   0.0201       2.01
## 16 Guadalupe                 195   0.0195       1.95
## 17    Héctor                 229   0.0229       2.29
## 18     Hilda                 185   0.0185       1.85
## 19  Humberto                 183   0.0183       1.83
## 20    Italia                 199   0.0199       1.99
## 21     Jairo                 204   0.0204       2.04
## 22    Javier                 193   0.0193       1.93
## 23  Jeorgina                 219   0.0219       2.19
## 24   Jessica                 227   0.0227       2.27
## 25     Jesús                 198   0.0198       1.98
## 26    Jimena                 205   0.0205       2.05
## 27   Joaquín                 209   0.0209       2.09
## 28      José                 202   0.0202       2.02
## 29      Juán                 204   0.0204       2.04
## 30     Laura                 182   0.0182       1.82
## 31   Lorenzo                 202   0.0202       2.02
## 32    Louisa                 202   0.0202       2.02
## 33    Lucero                 195   0.0195       1.95
## 34  Lucrecia                 171   0.0171       1.71
## 35      Lucy                 169   0.0169       1.69
## 36      Luis                 211   0.0211       2.11
## 37    Manuel                 167   0.0167       1.67
## 38     Maria                 201   0.0201       2.01
## 39    Martha                 192   0.0192       1.92
## 40    Mayela                 206   0.0206       2.06
## 41     Mayra                 190   0.0190       1.90
## 42      Paty                 199   0.0199       1.99
## 43     Ramón                 196   0.0196       1.96
## 44     Rocío                 231   0.0231       2.31
## 45     Rubén                 201   0.0201       2.01
## 46   Valeria                 196   0.0196       1.96
## 47  Verónica                 192   0.0192       1.92
## 48   Vicoria                 184   0.0184       1.84
## 49   Xóchitl                 210   0.0210       2.10
## 50    Yazmín                 199   0.0199       1.99

Gráfica De Barra

Gráfica de barra con todos los nombres

Con la función barplot() se visualiza la gráfica de barras, los atributos height y names.arg de la función son tanto la escala en el eje vertical como los valores en el eje horizontal; el atributo main establece el título del grafico.

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. ")

Gráfica de barra top 10

Antes de graficar el top 10 o los nombres que mas se repiten, es necesario ordenar el conjunto de datos.

Se puede utilizar la función order() que ordena un vector combindo con tabla.frecuencia[order()] para ordenar todo el data.frame o conjunto de datos de manera descendente por la columna Frecuencia clase.

tabla.frecuencia <- tabla.frecuencia[order(tabla.frecuencia$`Frecuencia de clase`, decreasing = TRUE), ]

Toda vez que se ordenó el dataframe, con la selección de los primeros 10 [10, ] se encuentra el top 10 de los nombres más frecuentes.

tabla.frecuencia <- tabla.frecuencia[1:10,]
tabla.frecuencia
##      Clases Frecuencia de clase Relativa Porcentual
## 44    Rocío                 231   0.0231       2.31
## 17   Héctor                 229   0.0229       2.29
## 24  Jessica                 227   0.0227       2.27
## 3       Ana                 224   0.0224       2.24
## 7     César                 224   0.0224       2.24
## 23 Jeorgina                 219   0.0219       2.19
## 36     Luis                 211   0.0211       2.11
## 10 Erendira                 210   0.0210       2.10
## 49  Xóchitl                 210   0.0210       2.10
## 9     Edgar                 209   0.0209       2.09

Ahora si se puede graficar solo los primeros diez nombres más repetidos y se observa la gráfica más amigable

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de nombres. Top 10")

Gráfica de pastel

Con la función pie() se generan una distribución de frecuencia en forma de pastel de los datos de la tabla de frecuencia, los atributos x en esta función establece los valores y el atriuto labels indica las etiquetas o categorías de refrescos.

pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)

Interpretación del caso

Contestar de manera descriptiva cada una de las siguientes preguntas:

a) ¿Cual es el nombre de personas que más se repite y su frecuencia de clase?

El nombre de la persona que más se repite es “Rocío” y su frecuencia de clase es de 231, es decir, que se repite 231 veces.

b) ¿Cuál es el nombre de persona que menos se repite y su frecuencia de clase?

El nombre de la persona que menos se repite es “Manuel” y su frecuencia de clase es de 167, es decir, que se repite 167 veces.

c) ¿Cuáles son las frecuencias relativas de cada nombres de persona?

Las frecuencias relativas de cada nombre de persona es: Aaron=0.195; América=0.0205; Ana=0.0224; Angel=0.0203; Antonio=0.0208; Bety=0.0205; César= 0.0224; Claudia= 0.0201; Edgar=0.0209; Erendira=0.0210; Ernesto=0.0183; Fernando=0.0176; Francia=0.0204; Gabriel=0.0204; Gabriela=0.0201; Guadalupe=0.0195; Héctor=0.0229; Hilda=0.0185; Humberto=0.0183; Italia=0.199; Jairo=0.0204; Javier=0.0193; Jeorgina=0.0219; Jessica=0.0227; Jesús=0.0198; Jimena=0.0205; Joaquín=0.0209; José=0.0202; Juan=0.0204; Laura=0.0182; Lorenzo=0.0202; Louisa=0.0202; Lucero=0.0195; Lucrecia= 0.0171; Lucy=0.0169; Luis=0.0211; Manuel=0.0167; Maria=0.0201; Martha=0.0192; Mayela=0.0206; Mayra=0.0190; Paty=0.0199; Ramón=0.0196; Rocío=0.0231; Rubén=0.0201; Valeria=0.0196; Verónica=0.0192; Vicoria=0.0184; Xóchitl=0.0210 y Yazmín=0.0199.

d) ¿Cuales son los procentajes de nombres de personas más y menos ?

El porcentaje de nombre más alto es 2.31% y corresponde a “Rocío”. El porcentaje de nombre más bajo es de 1.67% y corresponde a “Manuel”.

e) Que representa la tabla de distribución de frecuencias, la gráfica de barra y gráfica de pastel?

Es una forma más visual de representar la información, en el caso de la tabla de distribución de frecuencias, es una tabla que se usa para tener de una manera ordenada tus datos y poder verificar todas las frecuencias de cada clase de manera más clara.

Respecto a las gráficas, su utilidad es puramente visual. En el caso de la gráfica de barras, se utilizan las clases y sus frecuencias como ejes para hacer rectangulos que nos permitan determinar la cantidad de datos de manera más sencilla. En el caso de la gráfica de pastel, se utilizan las clases y las frecuencias porcentuales para determinar el porcentaje del circulo que cad clase se lleva y nos permite determinar lo mismo que la de barra.

f) Aspectos generales del caso: ¿qué aprendizajes se obtuvieron?, ¿qué deja el caso?, ¿qué habilidades se desarrollan?, ¿qué formación se obtiene? , entre otras cosas.

Durante este caso aprendí distintas funciones de R, como lo pueden ser el poner una semilla para que los números aleatorios se generen de la misma manera en todas las ocaciones. También aprendí como hacer para simular tener más datos de los que se tienen, debido a que se usan números aleatorios para eso. Aprendí otras funcionalidades como lo podria ser reducir la tabla de frecuencias a los 10 más altos para un mayor orden en el trabajo. Este caso nos deja con una simulación de los nombres que más se repiten, en el cual el nombre de Rocío es el más usado y el de Manuel es el que menos se usa en la muestra obtenida.

Referencias Bibliográficas

Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning Editores,S.A. de C.V.

Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística. México, D.F.: Cengage Learning Editores, S.A. de C.V.

Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para Ingeniería y Ciencias. Octava Edición (Octava Edición ed.). México: Prentice Hill. Pearson Educación.

Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición ed.). Cd. México: Pearson.