Casos 1 distribucion de frecuencias de refrescos

Objetivo

Realizar una interpretacion de datos a partir de muestras simuladas mediante una distribucion de frecuencias y visualizando graficade datos cualitativos.

Descripcion

A traves de un proceso que incluye datos, codificacion y resultaos se hace un analisis e interpretacion de datos.

El proceso incluye varios aspectos: la creacion de datos con una muestra de 50 elementos; el formateo o categorizacion de los mismos; la generacion de frecuencias de clase, relativas y porcentuales y la creacion de la distribucion de frecuencias.

El analisis de los datos se hace a partir de la tabla de frecuencias, se genera una visualizacion grafica y se interpretan los resultados.

La visualizacion de datos es mediante grafica de barra y de pastel respectivamente y la interpretacion del caso incluye responder a las cuestiones particulares del ejercicio.

Marco teorico

La estadistica es la disciplina matematica que trata con el analisis y estudio de los datos y la estadistica descriptiva es el mecanismo que presenta los datos de manera resumida comprensible para su adecuada interpretacion y comunicacion.

que datos y cuantos datos hay que analizar y estudiar?, cuales mediciones hay que hacer y determinar?, para responder a estos cuestionamientos de cualquier estudio y contexto, primero hay es necesario distinguir entre dos conceptos intimamente relacionados con estadistica, los de poblacion y muestra.

Anderson Sweeney y Williams (2008) conceptualizan que una "poblacion es el conjunto de todos los elementos de interes en un estudio determinado; la muestra es un subconjunto de la poblacion" (pag. 15).

Walpole, Myers, Myers y Ye (2012) mencionan que "la informacion se colecta en forma de muestras o conjuntos de observaciones, las muestras se reunen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo especifico" (pag. 2).

Mendenhall, Beaver, y Beaver (2010) mencionana que "en el lenguaje de la estadistica, uno de los conceptos mas elementales es el muestreo. En casi todos los problemas de estadistica, un numero especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones mas grande llamado poblacion" (pag. 3).

En un estudio estadistico se determinan algunas medidas, maximos, minimos, medias, varianzas, desviaciones, cuartiles, percentiles, frecuencias, porcentajes, entre muchas otras, si estas medidas se calculan usando los datos de una muestra, se llaman estadisticos muestrales, si las medidas se determinan con los datos de una poblacion se llaman parametros poblacionales. (Anderson, Sweeney, & Williams, 2008).

Los datos se pueden clasificar en cualitativos o cuantitativos. Los datos cualitativos o categoricos emplean etiquetas o nombres para determinar categorias de elementos iguales o diferentes. Los datos cuantitativos son valores numericos en los que se permite hacer operaciones matematicas o determianr medidas estadisticas.

En su libro Mendenhall, Beaver y Beaver (2010), establecen que las variables cualitativas miden una cualidad o caracteristica en cada unidad experimental. Las variables cuantitativas miden una cantidad numerica en cada unidad experimental. (pag. 10)

Una distribucion de frecuencia es un resumen tabular de datos que muestra el numero (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen) (Anderson, Sweeney, & Williams, 2008).

Una clase en elementos cualitativos es una etiqueta de cada tipo que hay en el conjunto de datos. Una frecuencia de clase para datos cualitativos es el numero de elementos que existen de etiquetas individuales y diferentes entre si de cada tipo del conjunto de datos.

Para determinar una tabla de distribucion de frecuencia se cuentan cada uno de los elementos de cada clase del conjunto de datos en la cual se indica cuantos elementos hay de cada clase y que proporcion existe con respecto al numero total de elementos.

frecuencia.de.clase=numero.de.elementos.de.cada.clase

La frecuencia relativa de una clase es igual a la parte o proporcion de los elementos que pertenecen a cada clase. En un conjunto de datos, en el que hay n observaciones, la frecuencia relativa de cada clase se determina como dividiendo la cantidad de cada clase entre el numero de elementos

frecuencia.relativa=frecuencia.de.clasen

La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100

frecuencia.porcentual=frecuencia.relativa*100

Entonces una distribucion de frecuencia ofrece un resumen tabular de datos en el que se muestra la frecuencia relativa de cada clase. Una distribucion de frecuencia porcentual da la frecuencia porcentual de los datos de cada clase (Anderson, Sweeney, & Williams, 2008).

Una grafica de barras o un diagrama de barras, es una grafica para representar los datos cualitativos de una distribucion de frecuencia, de frecuencia relativa o de frecuencia porcentual. En el horizontal, se especifican las etiquetas empleadas para las clases (categorias), en el eje vertical se indica una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Despues, empleando un ancho de barra fijo, se dibuja sobre cada etiqueta de las clases una barra que se extiende de la base del eje horizontal hasta la frecuencia, frecuencia relativa o frecuencia porcentual de la clase (Anderson, Sweeney, & Williams, 2008).

La grafica de pastel proporciona otra manera de mostrar distribuciones de frecuencia de clase, relativa o porcentual de datos cualitativos. Para elaborar una grafica de pastel, primero se dibuja un circulo que representa todos los datos. Despues se usa la frecuencia relativa para subdividir el circulo en sectores, o partes, que corresponden a la frecuencia relativa de cada clase (Anderson, Sweeney, & Williams, 2008). ##Desarrollo Las variables en donde se almacenan los datos son estructuras vectores en R, categorizados con las funcion factor().

Se determinan frecuencias de clase con la funcion table(), frecuencias relativas y porcentuales, se construye la tabla de frecuencias con la funcion data.frame(), se generan graficas de barra y pastel y se interpreta el caso.

Interpretacion del ejercicio 1

Contestar de manera descriptiva cada una de las siguientes preguntas:

Cual es el refresco mas comprado y su frecuencia de clase? Coke Classic es el mas comprado y su frecuencia es de 19.

Cual es el refresco menos comprado y su frecuencia de clase? El refresco Dr. Peper y el Sprite tienen la misma frecuencia que es de 5.

Cuales son las frecuencias relativas en cada refresco? Coke Classic Diet Coke Dr. Pepper Pepsi Sprite 0.38 0.16 0.10 0.26 0.10

Cuales son los procentajes de refrescos mas y menos comprados? Los mas frecuentes son: Coke Classic (38%) & Pepsi (26%). Los menos frecuentes son: Diet Coke (16%), Dr. Pepper & Sprite ( estos ultomos tienen el mismo porcentaje del 10%)

Que representa la tabla de distribucion de frecuencias, la grafica de barra y grafica de pasel? Representan la frecuencia relativa y porcentual con la que se compran dichos refrescos y se utiliza para tabular y representar de manera mas digerible toda la informacion que se nos arroja.

Describir aspectos generales del caso: Que aprendizajes se obtuvieron? Aprendi codigos nuevos y como se puede utilizar los datos para obtener informacion mas relevante, tambien que se pueden hacer muchas cosas con los datos y la manera en que las utilicemos es como les pondemos sacar probecho, tambien aprendi algunas formulas que no recordaba antes de esta materia.

Que deja el caso? Como de unos datos puedo sacar mucha informacion sobre la preferencia y la frecuencia del consumo de las peronas en el area de las bebidas con gas.

Que habilidades se desarrollan? Logica ya que no podia hacer el caso porque no me aceptaba signos especiales y matematica al recordar formulas que habia olvidado.

Que formacion se obtiene, que ideas se generan? Se optine las fecuencias y el porcentaje de algunos refrescos de preferencia de los consumidores, con ello se me ocurre que si tubiera una tiendita que refrescos compraria o dejaria de hacerlo. Tambien que puedo hacer programas a mi preferencia como tener un control de las series que veo, a cuales personas les gustan mas y si las recomiendan. Inclusive

Datos

Se crea un vector con una muestra de 50 elementos

Datos cualitativos no son numericos

datos <- c('Coke Classic','Sprite','Pepsi',
'Diet Coke','Coke Classic','Coke Classic','Pepsi','Diet Coke','Coke Classic','Diet Coke','Coke Classic','Coke Classic',
'Coke Classic','Diet Coke','Pepsi',
'Coke Classic','Coke Classic','Dr. Pepper',
'Dr. Pepper','Sprite','Coke Classic',
'Diet Coke','Pepsi','Diet Coke',
'Pepsi','Coke Classic','Pepsi',
'Pepsi','Coke Classic','Pepsi',
'Coke Classic','Coke Classic','Pepsi',
'Dr. Pepper','Pepsi','Pepsi',
'Sprite','Coke Classic','Coke Classic',
'Coke Classic','Sprite','Dr. Pepper',
'Diet Coke','Dr. Pepper','Pepsi',
'Coke Classic','Pepsi', 'Sprite',
'Coke Classic','Diet Coke'
)



datos

##  [1] "Coke Classic" "Sprite"       "Pepsi"        "Diet Coke"    "Coke Classic"
##  [6] "Coke Classic" "Pepsi"        "Diet Coke"    "Coke Classic" "Diet Coke"   
## [11] "Coke Classic" "Coke Classic" "Coke Classic" "Diet Coke"    "Pepsi"       
## [16] "Coke Classic" "Coke Classic" "Dr. Pepper"   "Dr. Pepper"   "Sprite"      
## [21] "Coke Classic" "Diet Coke"    "Pepsi"        "Diet Coke"    "Pepsi"       
## [26] "Coke Classic" "Pepsi"        "Pepsi"        "Coke Classic" "Pepsi"       
## [31] "Coke Classic" "Coke Classic" "Pepsi"        "Dr. Pepper"   "Pepsi"       
## [36] "Pepsi"        "Sprite"       "Coke Classic" "Coke Classic" "Coke Classic"
## [41] "Sprite"       "Dr. Pepper"   "Diet Coke"    "Dr. Pepper"   "Pepsi"       
## [46] "Coke Classic" "Pepsi"        "Sprite"       "Coke Classic" "Diet Coke"

Numeros de elementos

En una variable n y con la funcion lenght() se determina el numero de elementos de la muestra.

n <- length(datos)

Determinar los datos como tipo factor o categoricos

La funcion factor() transforma los datos tipo char en R a tipos categoricos llamados factor, esto identifica las clases y ademas se pueden contar y determinar la frecuencia de clase.

datos <- factor(datos)
datos

##  [1] Coke Classic Sprite       Pepsi        Diet Coke    Coke Classic
##  [6] Coke Classic Pepsi        Diet Coke    Coke Classic Diet Coke   
## [11] Coke Classic Coke Classic Coke Classic Diet Coke    Pepsi       
## [16] Coke Classic Coke Classic Dr. Pepper   Dr. Pepper   Sprite      
## [21] Coke Classic Diet Coke    Pepsi        Diet Coke    Pepsi       
## [26] Coke Classic Pepsi        Pepsi        Coke Classic Pepsi       
## [31] Coke Classic Coke Classic Pepsi        Dr. Pepper   Pepsi       
## [36] Pepsi        Sprite       Coke Classic Coke Classic Coke Classic
## [41] Sprite       Dr. Pepper   Diet Coke    Dr. Pepper   Pepsi       
## [46] Coke Classic Pepsi        Sprite       Coke Classic Diet Coke   
## Levels: Coke Classic Diet Coke Dr. Pepper Pepsi Sprite

Frecuencia de cada clase

Utilizando una funcion que se llama table(), se determina la cantidad de elementos de cada clase, es decir la frecuencia de clase.

frecuencia.clase <- table(datos)
frecuencia.clase

## datos
## Coke Classic    Diet Coke   Dr. Pepper        Pepsi       Sprite 
##           19            8            5           13            5

Frecuencia relativa

La frecuencia relativa es dividiir frecuencia de clase entre n previamente creada: $\frac{f r e c u e n c i a . c l a s e}{n}$

frecuencia.relativa <- frecuencia.clase / n
frecuencia.relativa

## datos
## Coke Classic    Diet Coke   Dr. Pepper        Pepsi       Sprite 
##         0.38         0.16         0.10         0.26         0.10

Frecuencia porcentual

La frecuencia porcentual es multiplicar la frecuencia relativa 100: $f r e c u e n c i a . p o r c e n t u a l = f r e c u e n c i a . r e l a t i v a * 100$ dado que 100 representa el 100% del total de los datos.

frecuencia.porcentual <- frecuencia.relativa * 100
frecuencia.porcentual

## datos
## Coke Classic    Diet Coke   Dr. Pepper        Pepsi       Sprite 
##           38           16           10           26           10

Construir la tabla de frecuencias

Creando un data.frame que integra las columnas de clases, frecuencias, relativas y porcentuales.

Con la funcion name() se identifican los nombres de los refrescos y con la funcion as.vector() se extraen solo los valores numericos del tipo de datos que se crearon con la funcion table().

Se utiliza la variable llamada tabla.frecuencia para construir el data.frame o conjunto de datos de manera tabular que se interpreta como una tabla de frecuencias de los datos.

tabla.frecuencia <- data.frame(names(frecuencia.clase), as.vector(frecuencia.clase), as.vector(frecuencia.relativa), as.vector(frecuencia.porcentual))

names(tabla.frecuencia) <- c('Clases', 'Frecuencia de clase', 'Relativa', 'Porcentual')

tabla.frecuencia

##         Clases Frecuencia de clase Relativa Porcentual
## 1 Coke Classic                  19     0.38         38
## 2    Diet Coke                   8     0.16         16
## 3   Dr. Pepper                   5     0.10         10
## 4        Pepsi                  13     0.26         26
## 5       Sprite                   5     0.10         10

Grafica de barra

Con la funcion barplot() se visualiza la grafica de barras, los atributos height y names.arg de la funcion son tanto la escala en el eje vertical como los valores en el eje horizontal; el atributo main establece el titulo del grafico.

barplot(height = tabla.frecuencia$`Frecuencia de clase`, names.arg = tabla.frecuencia$Clases, main = "Frecuencia de refrescos")

Grafica de pastel de la frecuencia de cada clase

Con la funcion pie() se generan una distribucion de frecuencia en forma de pastel de los datos de la tabla de frecuencia, los atributos x en esta funcion establece los valores y el atriuto labels indica las etiquetas o categorias de refrescos.

pie(x = tabla.frecuencia$`Frecuencia de clase`, labels = tabla.frecuencia$Clases, main= "**Frecuencia de clase**" )

Frecuencia de clase

Referencias bibliograficas

Anderson, D., Sweeney, D., & Williams, T. (2008). Estadistica para administracion y economia Estadistica para administracion y economia. 10a. Edicion. Mexico, D.F: Cengage Learning Editores,S.A. de C.V.

Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introduccion a la probabilidad y estadistica. Mexico, D.F.: Cengage Learning Editores, S.A. de C.V.

Walpole, R., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadistica para Ingenieria y Ciencias. Octava Edicion (Octava Edicion ed.). Mexico: Prentice Hill. Pearson Educacion.

Walpole, R., Myers, R., Myers, S., & Ye, K. (2012). Probabilidad y estadistica para ingenieria y ciencias (Novena Edicion ed.). Cd. Mexico: Pearson.