En el presente documento se busca examinar y describir los datos presentados en la tabla predeterminada de R: “diamantes”. Este análisis se hará mediante herramientas y técnicas estadísticas, tales como tablas de frecuencias, histogramas y polígonos de frecuencia, gráficos para variables cuantitativas y cualitativas medidas de tendencia central, medidas de variabilidad, medidas de posición y apuntamiento, entre otras cosas; todo esto mediante el uso de comandos de R.
La base de datos se extrae de la tabla “diamantes”, esta contiene variables con información de 53940 diamantes, se tomó una muestra de 1000 datos con la intención de describir y reconocer patrones implícitos mediante el análisis de variables e implementación de graficas. Las variables que se analizarán son: precio ($), quilate, corte, color, claridad, profundidad, tabla (ancho de la parte superior del diamante), x(largo), y(ancho), z(altura).
A continuación, se muestran dos gráficos usados para visualizar la
distribución de las variables numéricas: el histograma, el cuál es más
utilizado cuando se tienen datos continuos o discretos agrupados en
intervalos; y el polígono, este es más adecuado para datos discretos o
cuando se desea visualizar suavemente la distribución de una variable.
En este apartado nos ayudamos con la librería fdth, la cual nos
permite realizar tablas de distribución de frecuencia, histogramas y
polígonos asociados a partir de objetos vector y data.frame para
variables numéricas y categóricas.
Precio: Esta variable se refiere el precio de la gema.
En este
apartado nos ayudamos con la librería fdth y el codigo plot.
Quilate: Esta variable se refiere a el peso de la gema, no su tamaño.
En este apartado nos ayudamos con la librería fdth.
Profundidad: Esta variable refleja la altura de un diamante desde la
mesa hasta el culet.
En este apartado nos ayudamos con la librería
fdth.
Tabla: Esta variable se refiere a la superficie plana y pulida que se
encuentra en la parte superior de la gema.
En este apartado nos
ayudamos con la librería fdth y el codigo plot.
Por medio de las gráficas (el histograma y el polígono), se puede visualizar la distribución de la variable numérica ‘X’ (largo de la gema).
Por medio de las gráficas (el histograma y el polígono), se puede visualizar la distribución de la variable numérica ‘Y’ (ancho de la gema).
Z: profundidad de la gema.
En este apartado nos ayudamos
con la libreria fdth y el codigo plot.
Son un conjunto de estadísticas que se utilizan para describir un
conjunto de datos. Estas medidas resumen el centro de una distribución
de datos y dan una idea de dónde se agrupan la mayoría de los valores.
Las tres medidas de tendencia central más comunes son la media, la
mediana y la moda.
Media: Es la suma de todos los
valores en un conjunto de datos dividida por el número de valores. Es
una medida muy sensible a los valores extremos en los datos y puede
verse afectada por ellos.
Mediana: Es el valor
medio en un conjunto de datos ordenados. Es menos sensible a los valores
extremos que la media.
Moda: Es el valor más común
en un conjunto de datos. Puede haber más de una moda o ninguna en un
conjunto de datos. Es útil para identificar valores que se repiten con
frecuencia en un conjunto de datos.
Son un conjunto de estadísticas que describen la dispersión o variabilidad de los datos en una muestra o población. Al igual que las medidas de tendencia central, las medidas de variabilidad son una parte fundamental del análisis estadístico descriptivo.
Es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
Es una medida de la dispersión de los datos respecto a la media. La varianza se calcula como la suma de los cuadrados de las desviaciones de los valores individuales con respecto a la media, dividido por el número de observaciones.
En este caso se omite la variable precio, ya que en la gráfica anterior se evidenció que posee un número muy alto, y por tanto no nos permite visualizar las demás variables.
Es la raíz cuadrada de la varianza y mide la dispersión de los datos en términos de su desviación de la media.
Para el caso particular de las dimensiones del diamante (x, y, z) decidimos hacer una gráfica en la cual pudiéramos evidenciar qué tanta variación o dispersión tienen los datos analizados, esto con el objetivo de comparar con claridad la diferencia que existe entre las tres variables que tienen que ver con la dimensión, para hacernos una idea de la diferencia que puede haber en el tamaño y contextura de los diamantes; con esta medida es mucho más sencillo visualizar a qué nivel difieren los puntos de datos individuales de la media asociada a su variable.
Para mayor entendimiento del lector sobre la información presentada, presentamos el coeficiente de variación de cada variable, esto con el fin de que se entienda un poco mejor la dispersión que presentan los datos de nuestra muestra en específico, respecto a cada variable de estudio.
## [1] "Se ha calculado el coeficiente de variación de la variable 'Precio' en la muestra, el cual es: 103.913 %"
## [1] "Se ha calculado el coeficiente de variación de la variable 'profundidad' en la muestra, el cual es: 2.25 %"
## [1] "Se ha calculado el coeficiente de variación de la variable 'quilate' en la muestra, el cual es: 59.034 %"
## [1] "El coeficiente de variación de la variable 'X', para la muestra es 19.1 %"
## [1] "El coeficiente de variación de la variable 'Y', para la muestra es 19.086 %"
## [1] "Se ha calculado el coeficiente de variación de la variable 'Z' en la muestra, el cual es: 19.409 %"
Se utilizan para caracterizar la forma y la distribución de un conjunto de datos.
Las medidas de posición indican la posición relativa de los valores
en el conjunto de datos. Las medidas de posición más comunes son la
media, la mediana y la moda.
Cuartiles: Divide los
datos en cuatro partes iguales.
Deciles: Dividen un conjunto de datos ordenados
en 10 partes iguales.
Las medidas de apuntamiento se utilizan para describir la concentración de los datos alrededor de la media. Una distribución con un alto grado de apuntamiento tiene valores que se concentran estrechamente alrededor de la media, mientras que una distribución con un bajo grado de apuntamiento tiene valores que están más dispersos.
Curtosis: Describe la forma de la distribución
de datos en términos de su concentración y extensión en la cola. Una
distribución con curtosis alta tiene una concentración de datos en el
centro y una extensión más pronunciada en las colas, mientras que una
distribución con curtosis baja tiene una extensión más uniforme y menos
concentración en el centro.
Es una herramienta gráfica utilizada en estadística descriptiva para representar un conjunto de datos numéricos a través de sus cuartiles. Consiste en un rectángulo que se extiende desde el primer cuartil (Q1) hasta el tercer cuartil (Q3) del conjunto de datos, con una línea en el medio que indica la mediana.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Aquí buscamos una forma de representar datos numéricos en una gráfica circular dividida en secciones proporcionales a la magnitud de las categorías representadas. Cada sección se etiqueta con la categoría correspondiente y se utiliza para mostrar la proporción de cada categoría en el conjunto de datos total.
A continuación, se muestra el gráfico usado para visualizar la distribución de la variable cualitativa Claridad (esta variable se refiere a las diminutas imperfecciones naturales de la gema), el grafico de pastel.
A continuación, mostramos mediante un gráfico de pastel el comportamiento de la variable cualitativa Corte (esta variable se refiere a la manera en que las facetas del diamante interactúan con la luz. La simetría, las dimensiones y el pulido, de la gema, lo determinan).
Para finalizar mostramos mediante un gráfico de pastel el comportamiento de la variable cualitativa Color (esta variable se refiere al tinte natural inherente en los diamantes blancos).
Aquí representamos los datos numéricos en una gráfica donde cada barra vertical es proporcional a la magnitud de las categorías representadas. Cada sección se etiqueta con la categoría correspondiente y se utiliza para mostrar la proporción de cada categoría.
A continuación, se muestra el gráfico usado para visualizar la distribución de la variable cualitativa Claridad (esta variable se refiere a las diminutas imperfecciones naturales de la gema), el grafico de barras.
Ahora mostramos mediante un diagrama de barras el comportamiento de la variable cualitativa Corte (esta variable se refiere a la manera en que las facetas del diamante interactúan con la luz. La simetría, las dimensiones y el pulido, de la gema, lo determinan).
Para finalizar mostramos mediante un gráfico de pastel el comportamiento de la variable cualitativa Color (esta variable se refiere al tinte natural inherente en los diamantes blancos).