Con el objetivo de de emplear los conocimientos vistos en clase se realiza el siguiente documento en donde podremos explorar la construcción de Tablas de Frecuencias y gráficos para la exploración de variables cuantitativas y cualitativas, utilizando herramientas de programación en R.
Para ello, se ha utilizaremos la base de datos “diamonds”, que contiene información acerca de los precios y atributos de diamantes.
En particular, se ha tomado una muestra para poder identificar patrones y tendencias latentes en la información, a través del análisis de distintas variables, como el Precio ($), el quilate, el corte, el color, la claridad, la profundidad, la longitud (X), el ancho (Y) y la profundidad (Z).
La exploración de estas variables permitirá comprender mejor la estructura y los patrones de los datos, proporcionando información relevante y útil para posteriores análisis y toma de decisiones.
A continuación, se crean tres gráficos de pastel utilizando ggplot2 y dplyr para calcular los porcentajes de diamantes por color, corte y claridad. Se utilizan funciones de ggplot2 para crear gráficos de pastel polar y para agregar etiquetas con los porcentajes correspondientes. Se utilizan paletas de color de la librería RColorBrewer para personalizar la visualización de las gráficas. Finalmente, se agregan títulos a cada gráfico para explicar su contenido.
Las variables cuantitativas son aquellas que pueden ser descritas por números,en este caso analizaremos los datos de tipo cuantitativo de la muestra tomada del paquete de datos de diamantes,las cuales corresponden a precio,quilates,profundidad,tabla,largo,ancho y profundidad en mm.
La media o promedio nos permite identificar en valor exacto que se encuentra en la mitad del conjunto de datos. La mediana es el valor que se encuentra justo en la mitad del conjunto de datos luego de que estos hayan sido organizados de forma ascendente. La moda es el valor que aparece con mayor frecuencia en cada conjunto de datos analizando.
## nombres media mediana moda
## 1 precios 3963.90300 2486.00 776.00
## 2 quilates 0.80843 0.71 0.31
## 3 profundidad 61.71340 61.80 61.60
## 4 tabla 57.54490 57.00 56.00
## 5 largo 5.75302 5.72 4.32
## 6 ancho 5.75481 5.74 4.34
## 7 profundidad 3.55088 3.52 2.68
El rango nos permite identificar la diferencia entre el valor máximo y mínimo de un conjunto de datos. La varianza y la desviación estándar permiten medir e identificar la dispersión de los datos respecto a la media de estos. El coeficiente de variación (CV) analiza la dispersión de los datos frente a la media y así mismo la dispersión entre los demás valores del conjunto de datos.
## nombresv rango varianza desviacionestandar CV
## 1 precios 18401.00 1.610212e+07 4012.7447961 1.01232164
## 2 quilates 4.78 2.424435e-01 0.4923855 0.60906386
## 3 profundidad 13.90 1.925566e+00 1.3876477 0.02248535
## 4 tabla 14.00 5.116831e+00 2.2620413 0.03930915
## 5 largo 6.86 1.300670e+00 1.1404693 0.19823836
## 6 ancho 6.62 1.276470e+00 1.1298098 0.19632444
## 7 profundidad 4.57 4.951266e-01 0.7036523 0.19816279
Como se puede observar en las gráficas obtenidas anteriormente, el precio tiende a seguir un comportamiento exponencial respecto a las demás variables continuas (peso y dimensiones) a excepción de la profundidad promedio.
En el histograma y en la gráfica de densidad se aprecia que el precio tiene un sesgo positivo, lo que implica una frecuencia mayor en los valores del precio más bajos.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
Al igual que el precio, el diagrama de cajas también presenta un sesgo positivo, lo que se puede apreciar en el histograma y gráfica de densidad. Los diagramas de caja para esta variable indican valores atípicos en los diamantes de claridad SI2.
La distribución de los datos de profundidad promedio de los diamantes muestran una tendencia normal más simétrica que para las anteriores variables. Se muestran datos atípicos para ambos extremos, particularmente en los diamantes clasificados dentro de los colores “I”, “H”, “G” ,“F” y “E”.
Para estas tres variables, se presenta un comportamiento similar. Los histogramas de dichas variables son asimétricos y presentan dos picos en intervalos similares. Los diagramas de caja muestran pocos datos atípicos a diferencia de las otras variables.
Las gráficas de tendencia centrar permitieron identificar de forma visual donde se encuentran los datos correspondieres a media,mediana y moda para cada variable.
Los precios de los diamantes tiene la mayor variabilidad y está va ligada directamente con las características de este.
La relación entre el precio y las demás variables de la base de datos es la esperada, pues entre mayores sean las dimensiones y el peso del diamante, mayor es su precio.