Introducción

Con el objetivo de de emplear los conocimientos vistos en clase se realiza el siguiente documento en donde podremos explorar la construcción de Tablas de Frecuencias y gráficos para la exploración de variables cuantitativas y cualitativas, utilizando herramientas de programación en R.

Para ello, se ha utilizaremos la base de datos “diamonds”, que contiene información acerca de los precios y atributos de diamantes.

En particular, se ha tomado una muestra para poder identificar patrones y tendencias latentes en la información, a través del análisis de distintas variables, como el Precio ($), el quilate, el corte, el color, la claridad, la profundidad, la longitud (X), el ancho (Y) y la profundidad (Z).

La exploración de estas variables permitirá comprender mejor la estructura y los patrones de los datos, proporcionando información relevante y útil para posteriores análisis y toma de decisiones.

Diagrama de variables cualitativas

Diagrama de pastel

A continuación, se crean tres gráficos de pastel utilizando ggplot2 y dplyr para calcular los porcentajes de diamantes por color, corte y claridad. Se utilizan funciones de ggplot2 para crear gráficos de pastel polar y para agregar etiquetas con los porcentajes correspondientes. Se utilizan paletas de color de la librería RColorBrewer para personalizar la visualización de las gráficas. Finalmente, se agregan títulos a cada gráfico para explicar su contenido.

Diagrama de barras

Variables cuantitativas

Las variables cuantitativas son aquellas que pueden ser descritas por números,en este caso analizaremos los datos de tipo cuantitativo de la muestra tomada del paquete de datos de diamantes,las cuales corresponden a precio,quilates,profundidad,tabla,largo,ancho y profundidad en mm.

Medidas de tendencia central

La media o promedio nos permite identificar en valor exacto que se encuentra en la mitad del conjunto de datos. La mediana es el valor que se encuentra justo en la mitad del conjunto de datos luego de que estos hayan sido organizados de forma ascendente. La moda es el valor que aparece con mayor frecuencia en cada conjunto de datos analizando.

##       nombres      media mediana   moda
## 1     precios 3963.90300 2486.00 776.00
## 2    quilates    0.80843    0.71   0.31
## 3 profundidad   61.71340   61.80  61.60
## 4       tabla   57.54490   57.00  56.00
## 5       largo    5.75302    5.72   4.32
## 6       ancho    5.75481    5.74   4.34
## 7 profundidad    3.55088    3.52   2.68

Graficas de medidas de tendencia central

Medidas de variabilidad

El rango nos permite identificar la diferencia entre el valor máximo y mínimo de un conjunto de datos. La varianza y la desviación estándar permiten medir e identificar la dispersión de los datos respecto a la media de estos. El coeficiente de variación (CV) analiza la dispersión de los datos frente a la media y así mismo la dispersión entre los demás valores del conjunto de datos.

##      nombresv    rango     varianza desviacionestandar         CV
## 1     precios 18401.00 1.610212e+07       4012.7447961 1.01232164
## 2    quilates     4.78 2.424435e-01          0.4923855 0.60906386
## 3 profundidad    13.90 1.925566e+00          1.3876477 0.02248535
## 4       tabla    14.00 5.116831e+00          2.2620413 0.03930915
## 5       largo     6.86 1.300670e+00          1.1404693 0.19823836
## 6       ancho     6.62 1.276470e+00          1.1298098 0.19632444
## 7 profundidad     4.57 4.951266e-01          0.7036523 0.19816279

Comparación Precio vs otras variables

Como se puede observar en las gráficas obtenidas anteriormente, el precio tiende a seguir un comportamiento exponencial respecto a las demás variables continuas (peso y dimensiones) a excepción de la profundidad promedio.

Graficos para precio

Histograma para el Precio

En el histograma y en la gráfica de densidad se aprecia que el precio tiene un sesgo positivo, lo que implica una frecuencia mayor en los valores del precio más bajos.

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.

Gráfico de Densidad para el precio

Graficas de Quilates

Histograma de Quilates

Al igual que el precio, el diagrama de cajas también presenta un sesgo positivo, lo que se puede apreciar en el histograma y gráfica de densidad. Los diagramas de caja para esta variable indican valores atípicos en los diamantes de claridad SI2.

Gráfico de Densidad para quilates

Diagrama de cajas

Diagrama de cajas para quilates

corte vs quilates

color vs quilates

claridad vs quilates

Graficas para Profundidad

Histograma de la profundidad

La distribución de los datos de profundidad promedio de los diamantes muestran una tendencia normal más simétrica que para las anteriores variables. Se muestran datos atípicos para ambos extremos, particularmente en los diamantes clasificados dentro de los colores “I”, “H”, “G” ,“F” y “E”.

Gráfico de Densidad para profundidad

Diagrama de cajas

Diagrama de cajas para la variable Profundidad

Corte vs profundidad

Color vs profundidad

Claridad vs profundidad

Graficas para Tabla

Histograma del procentaje de tabla en diamantes

Gráfico de Densidad para tabla

Diagrama de cajas

Diagrama de cajas para tabla

corte vs tabla

color vs tabla

claridad vs tabla

Para estas tres variables, se presenta un comportamiento similar. Los histogramas de dichas variables son asimétricos y presentan dos picos en intervalos similares. Los diagramas de caja muestran pocos datos atípicos a diferencia de las otras variables.

X (largo)

Histograma del largo de los diamantes

Gráfico de Densidad para x

Diagrama de cajas

Diagrama de cajas para la variable x

Corte vs X

Color vs X

Claridad vs X

y (ancho)

Histograma del ancho de los diamantes

Gráfico de Densidad para y

Diagrama de cajas

Diagrama de cajas para la variable Y

Corte vs Y

Color vs Y

Claridad vs Y

z (Profundidad)

Histograma de la profundidad de los diamantes

Gráfico de Densidad para z

Conclusiones

Las gráficas de tendencia centrar permitieron identificar de forma visual donde se encuentran los datos correspondieres a media,mediana y moda para cada variable.

Los precios de los diamantes tiene la mayor variabilidad y está va ligada directamente con las características de este.

La relación entre el precio y las demás variables de la base de datos es la esperada, pues entre mayores sean las dimensiones y el peso del diamante, mayor es su precio.