objetivo

Realizar una interpretación de datos a partir de muestras simuladas mediante una distribución de frecuencias y visualización gráfica de datos cualitativos.

descripcion

A través de un proceso que incluye datos, codificación y resultaos se hace un análisis e interpretación de datos. El proceso incluye varios aspectos: la creación de datos con una muestra de 50 elementos; el formateo o categorización de los mismos; la generación de frecuencias de clase, relativas y porcentuales y la creación de la distribución de frecuencias.

El análisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualización gráfica y se interpretan los resultados.

La visualización de datos es mediante gráfica de barra y de pastel respectivamente y la interpretación del caso incluye responder a las cuestiones particulares del ejercicio.

Marco teórico

La estadística es la disciplina matemática que trata con el análisis y estudio de los datos y la estadística descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretación y comunicación.

¿qué datos y cuántos datos hay que analizar y estudiar?, ¿cuáles mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos íntimamente relacionados con estadística, los de población y muestra.

Anderson Sweeney y Williams (2008) conceptualizan que una “población es el conjunto de todos los elementos de interés en un estudio determinado; la muestra es un subconjunto de la población” (pág. 15).

Walpole, Myers, Myers y Ye (2012) mencionan que “la información se colecta en forma de muestras o conjuntos de observaciones, las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico” (pág. 2).

Mendenhall, Beaver, y Beaver (2010) mencionana que “en el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población” (pág. 3).

En un estudio estadístico se determinan algunas medidas, máximos, mínimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadísticos muestrales, si las medidas se determinan con los datos de una población se llaman parámetros poblacionales. (Anderson, Sweeney, & Williams, 2008).

Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categóricos emplean etiquetas o nombres para determinar categorías de elementos iguales o diferentes. Los datos cuantitativos son valores numéricos en los que se permite hacer operaciones matemáticas o determianr medidas estadísticas.

En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (pág. 10)

Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).

Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el número de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.

Para determinar una tabla de distribución de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuántos elementos hay de cada clase y que proporción existe con respecto al número total de elementos.

Desarrollo

Los datos son simulados a partir de nombres de refrescos de una muestra de 50 compras que hicieron 50 clientes y se les preguntó que refresco compraron. La versión del caso original se encuentra en el ejercicio de la distribución de una muestra de compra de refrescos del libro de Anderson, Sweeney, & Williams (2008) (pág. 28).

El caso, analiza una distribución de frecuencia de 50 datos de una muestra de refrescos, simulando una encuesta a 50 personas de preferencias de refrescos.

Los datos se costruyen con la función de concatenación c().

Las variables en donde se almacenan los datos son estructuras vectores en R, categorizados con las función factor().

Se determinan frecuencias de clase con la función table(), frecuencias relativas y porcentuales, se construye la tabla de frecuencias con la función data.frame(), se generan gráficas de barra y pastel y se interpreta el caso.

datos

Se crea un vector llamdo datos() con nombres de refrescos con una muestra de 50 elementos y se muestran sus valores.

datos <- c('Coke Classic','Sprite','Pepsi',
'Diet Coke','Coke Classic','Coke Classic','Pepsi','Diet Coke','Coke Classic','Diet Coke','Coke Classic','Coke Classic',
'Coke Classic','Diet Coke','Pepsi',
'Coke Classic','Coke Classic','Dr. Pepper',
'Dr. Pepper','Sprite','Coke Classic',
'Diet Coke','Pepsi','Diet Coke',
'Pepsi','Coke Classic','Pepsi',
'Pepsi','Coke Classic','Pepsi',
'Coke Classic','Coke Classic','Pepsi',
'Dr. Pepper','Pepsi','Pepsi',
'Sprite','Coke Classic','Coke Classic',
'Coke Classic','Sprite','Dr. Pepper',
'Diet Coke','Dr. Pepper','Pepsi',
'Coke Classic','Pepsi', 'Sprite',
'Coke Classic','Diet Coke'
)

datos
##  [1] "Coke Classic" "Sprite"       "Pepsi"        "Diet Coke"    "Coke Classic"
##  [6] "Coke Classic" "Pepsi"        "Diet Coke"    "Coke Classic" "Diet Coke"   
## [11] "Coke Classic" "Coke Classic" "Coke Classic" "Diet Coke"    "Pepsi"       
## [16] "Coke Classic" "Coke Classic" "Dr. Pepper"   "Dr. Pepper"   "Sprite"      
## [21] "Coke Classic" "Diet Coke"    "Pepsi"        "Diet Coke"    "Pepsi"       
## [26] "Coke Classic" "Pepsi"        "Pepsi"        "Coke Classic" "Pepsi"       
## [31] "Coke Classic" "Coke Classic" "Pepsi"        "Dr. Pepper"   "Pepsi"       
## [36] "Pepsi"        "Sprite"       "Coke Classic" "Coke Classic" "Coke Classic"
## [41] "Sprite"       "Dr. Pepper"   "Diet Coke"    "Dr. Pepper"   "Pepsi"       
## [46] "Coke Classic" "Pepsi"        "Sprite"       "Coke Classic" "Diet Coke"

numero de elementos

n <- length(datos)
n
## [1] 50

determinar los datos como tipo factor

La función factor() transforma los datos tipo char en R a tipos categóricos llamados factor, esto identifica las clases y además se pueden contar y determinar la frecuencia de clase.

datos <- factor(datos)

Frecuencia de cada clase

Utilizando una función que se llama table(), se determina la cantidad de elementos de cada clase, es decir la frecuencia de clase.

frecuencia.clase <- table(datos)
frecuencia.clase
## datos
## Coke Classic    Diet Coke   Dr. Pepper        Pepsi       Sprite 
##           19            8            5           13            5

datos Coke Classic Diet Coke Dr. Pepper Pepsi Sprite 19 8 5 13 5

Frecuencia relativa

La frecuencia relativa es dividiir frecuencia de clase entre n previamente creada: frecuencia.clasen

frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa
## datos
## Coke Classic    Diet Coke   Dr. Pepper        Pepsi       Sprite 
##         0.38         0.16         0.10         0.26         0.10

datos

Coke Classic Diet Coke Dr. Pepper Pepsi Sprite

0.38 0.16 0.10 0.26 0.10

Frecuencia porcentual

La frecuencia porcentual es multiplicar la frecuencia relativa : frecuencia.porcentual=frecuencia.relativa∗100 dado que 100 representa el 100% del total de los datos.

frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual
## datos
## Coke Classic    Diet Coke   Dr. Pepper        Pepsi       Sprite 
##           38           16           10           26           10

datos

Coke Classic Diet Coke Dr. Pepper Pepsi Sprite

38 16 10 26 10

Construir la tabla de frecuencias

Creando un data.frame que integra las columnas de clases, frecuencias, relativas y porcentuales.

Con la función name() se identifican los nombres de los refrescos y con la función as.vector() se extraen solo los valores numéricos del tipo de datos que se crearon con la función table().

Se utiliza la variable llamada tabla.frecuencia para construir el data.frame o conjunto de datos de manera tabular que se interpreta como una tabla de frecuencias de los datos.

tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))

names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')

tabla.frecuencia
##         Clases Frecuencia de clase Relativa Porcentual
## 1 Coke Classic                  19     0.38         38
## 2    Diet Coke                   8     0.16         16
## 3   Dr. Pepper                   5     0.10         10
## 4        Pepsi                  13     0.26         26
## 5       Sprite                   5     0.10         10

Clases Frecuencia de clase Relativa Porcentual

1 Coke Classic 19 0.38 38

2 Diet Coke 8 0.16 16

3 Dr. Pepper 5 0.10 10

4 Pepsi 13 0.26 26

5 Sprite 5 0.10 10

Gráfica de barra

Con la función barplot() se visualiza la gráfica de barras, los atributos height y names.arg de la función son tanto la escala en el eje vertical como los valores en el eje horizontal; el atributo main establece el título del grafico.

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de refrescos")

### Gráfica de pastel

Con la función pie() se generan una distribución de frecuencia en forma de pastel de los datos de la tabla de frecuencia, los atributos x en esta función establece los valores y el atriuto labels indica las etiquetas o categorías de refrescos.

pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases)

interpretacion del ejercicio 1

Contestar de manera descriptiva cada una de las siguientes preguntas:

¿Cual es el refresco más comprado y su frecuencia de clase?

es coke classic 19

¿Cuál es el refresco menos comprado y su frecuencia de clase?

bueno es que hay 2, dr pepper y sprite 5

¿Cuáles son las frecuencias relativas en cada refresco? Coke Classic Diet Coke Dr. Pepper Pepsi Sprite 0.38 0.16 0.10 0.26 0.10

¿Cuáles son los procentajes de refrescos más y menos comprados? Coke Classic Dr. Pepper, Sprite 38 es el mas comprado/n 10 menos/n 10 menos ¿Qué representa la tabla de distribución de frecuencias, la gráfica de barra y gráfica de pastel? representa el numero de veces que ha sido comprado el producto, y esta expresado en porcentajes

Describir aspectos generales del caso: ¿qué aprendizajes se obtuvieron? aprendi sobre como hacer tablas de frecuenca. ¿Qué deja el caso? aprendizaje para ver la frecuencia en la que se compran los productos. ¿qué habilidades se desarrollan? nuestras habilidades para programar. ¿qué formación se obtiene, ¿qué ideas se generan?, entre otras cosas.

referencias bibliograficas

Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning Editores,S.A. de C.V.

Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística. México, D.F.: Cengage Learning Editores, S.A. de C.V.

Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para Ingeniería y Ciencias. Octava Edición (Octava Edición ed.). México: Prentice Hill. Pearson Educación.

Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición ed.). Cd. México: Pearson.