El diamante es la forma cristalina del carbono, que se origina de calor y presión extremos, cristalizando en el sistema cúbico. Sus cristales tienen forma de masas granulares, compactas o redondeadas, frecuentemente en octaedros y dodecaedros, raramente en cubos. Los caracteres de identificación de un diamante son su extraordinaria dureza (de índice 10, el grado más alto de la escala de Mosh), su perfecto clivaje (salvo en las variedades bort y carbonado), y su brillo y luminosidad cuando está bien tallado, debido a que su índice de refracción y dispersión son muy altos.A continuación, se muestra un analisis de las variables cualitativas y cuantitativas acerca de una base de datos de Rstudio, la cual es una base de datos que contiene los precios,caracteristicas y otros atributos de casi 54.000 diamantes. En esta base de datos, se escogio una muestra de 1000 diamantes, para llevar a cabo el analisis.
A continuacion se muestra una breve tabla de la base de datos de los 1000 diamantes
library(DT)
DT::datatable(muestra1)
Una tabla de frecuencias muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas palabras, son las veces que se repite un número o dato.Se puede usar las tablas de frecuencias para ordenar variables cuantitativas o cualitativas.En este caso caso se hicieron tablas de frecuencia absoluta para las variables cualitativas: corte, color y claridad. La tabla de frecuencia para la variable corte muestra cuantos diamantes de 1000 tienen un corte Regular, Bueno, Muy bueno, Premium, Ideal, en la cual se puede observar que la mayoria de diamantes tienen un corte ideal con un valor de 400 y la minoria tiene un corte regular(siendo este el peor corte) con un valor de 30, por lo tanto la mayoria cumple con una buena calidad de corte en cuanto a su calidad.
##
## Regular Bueno Muy bueno Premium Ideal
## 30 82 224 264 400
Al analizar los gráficos circulares y de barras, se puede notar que más del 50% de los diamantes en la muestra tienen un corte Ideal o Premium, lo que indica que la industria de diamantes es rigurosa en la producción y fabrica de estos para asegurar una alta calidad.
Además, la cantidad de diamantes clasificados como Malos o Buenos constituyen menos del 15% de la población total analizada, lo que puede parecer insignificante si la muestra es representativa de la población.
En el gráfico de dispersión, se observa que a medida que aumenta el número de quilates, el precio de los diamantes aumenta sin importar el corte. Sin embargo, los diamantes con cortes Muy Bueno y Premium tienden a tener precios más elevados que los cortes inferiores en un mismo intervalo de quilates.
En la tabla de frecuencias para la variable color observamos que los 1000 diamantes estan clasificados en 7 colores diferentes en donde D es el mejor color el cual tiene 130 diamantes,y J es el peor color con un valor de 40 diamantes, encontrando que la mayoria de diamantes tiene un color G con un valor de 212 diamantes, ya que cuanto más cerca esté un diamante de ser “incoloro”, más excepcional es. Los estándares para calificar el color se basan en la evaluación de cada piedra comparándola con un patrón de referencia y asignándole una calificación en forma de letra, de la “D” (incoloro) a la “Z” (amarillo claro).Los diamantes con clasificacion D, E o F tienen una coloracion incolora, mientras que los diamantes con clasificacion G, H, I y J son casi incoloros.
##
## D E F G H I J
## 130 179 183 212 167 89 40
Las gráficas anteriores muestran que los diamantes clasificados como D, E o F tienen una gran representatividad en la muestra seleccionada, ya que juntos representan el 35% del total de la muestra. Los demás colores clasificados como F, G, H e I conforman el resto de la muestra. Los dos colores con mayor frecuencia son el E y el H, que corresponden a categorías distintas de color.
En cuanto al análisis de la gráfica de dispersión, se observa que el precio de los diamantes de mayor calidad (D, E o F) es significativamente mayor que el de los de menor calidad. Los diamantes más transparentes y de mejor calidad tienen precios más altos y significativos en comparación con los demás.
La claridad es una medida de pureza y rareza del diamante clasificada por la visibilidad de estas características bajo una amplificación de 10x. Una piedra se clasifica como impecable si, bajo una amplificación de 10x, no tiene inclusiones (imperfecciones internas) y no hay manchas visibles (imperfecciones externas). Para la variable claridad la tabla de frecuencias absolutas nos muestra que la mayoría de diamantes tienen una claridad de SI1 con un valor de 249, y las minorías I1 IF, con valores de 16 y 28 respectivamente, donde la claridad IF esla mejor y I1 la peor, nos podemos dar cuenta que de la mejor claridad hay muy pocos diamantes en relación a los demás.
##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 16 179 249 206 167 85 70 28
Al analizar las gráficas anteriores, se puede observar que los diamantes clasificados como VS2, también conocidos como “very slightly included”, son los más frecuentes dentro de la población de diamantes, junto con los SI1. Por otro lado, los diamantes de gran claridad, como los VVS2, VVS1 e IF, representan más del 19,9% de la muestra. Es importante destacar que los diamantes de menor claridad, clasificados como I1, tienen un porcentaje casi nulo con un 1.6% Esto sugiere que la producción de diamantes se enfoca en un término “medio”, en el que se busca una claridad que no sea mala pero tampoco perfecta.
Finalmente, en cuanto al grafico de dispersion se refiere, entra mas alta sea la calidad del diamante (como los VVS1, VVS2 e IF) estos tienen un precio ligeramente mayor que los demas tipos de diamante en cuanto a claridad dentro de ciertos rangos de quilates. Y que por el contrario, los diamantes de menor calidad como los I1, estan muy por debajo del precio de la aglomeracion de datos
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 363.0 944.2 2428.0 3809.1 5190.0 18293.0
Al analizar el histograma de precio podemos observar que las medidas de tendencia central se encuentran separadas, lo cual nos deja ver que el comportamiento de los datos es de cierta manera heterogéneo, en el diagrama de caja podemos visualizar esto al ver como una gran cantidad de datos se encuentran de forma atípica, posteriormente al ver las cajas podemos comprobar que el precio no depende exclusivamente de color del diamante, ya que no hay un color que presente únicamente precios altos, aunque ciertos colores pueden tener la media en precios mayores no significa que sea exclusivamente en base al color se da el precio, ya que hay datos atípicos en todos los colores que están muy por encima del promedio general y por color, mientras tanto al analizar el grafico de dispersión podemos observar que la mayor cantidad de datos se concentran entre 60mm y 63mm sin tener mucha relevancia en el precio, esto nos deja ver que la profundidad de un diamante no es exclusivamente lo que le da su precio.
Al observar el histograma de quilate podemos notar que la media y la moda se encuentran cerca, pero se encuentran bastante lejos de la mediana, lo cual nos permite ver que, aunque hay cierta homogeneidad en los datos no es de forma general, es así como vemos que la mediana que representa la mitad de los datos en el histograma se encuentre más atrás, la diferencia entre los datos es notable.
Al ver la gráfica de caja podemos observar como hay una gran cantidad de datos atípicos, lo cual nos permite ver que hay cierta concentración en los diamantes con quilate entre 2 y 2,3, esto nos ayuda a ver porque la media está alejada de la mediana, posteriormente en la gráfica de cajas según color se pueden ver como hay cierta tendencia de que los diamantes con mayor cantidad de quilates están distribuidos de manera descendente de J, I, H, G, F, E, D, lo cual nos permite inferir que en la mayor parte de los datos los diamantes con mayor quilate son aquellos que presentan cierta coloración, mientras que los de mayor transparencia ( menor coloración) presentan una menor cantidad de quilate(peso del diamante), aunque esto no se puede generalizar ya que hay cierta cantidad de datos atípicos en la gráfica, al analizar el grafico de dispersión podemos observar que la mayor cantidad de datos se concentran entre 60mm y 63mm sin tener mucha relevancia en el quilate, esto nos deja ver que la profundidad de un diamante no depende de los quilates que presente.
Al observar el histograma de profundidad podemos observar como hay 3 modas en la gráfica, lo cual nos dice que existen 3 datos que se repiten la mayor cantidad de veces en nuestra muestra, además de que dos de estas modas están bastante cerca de la media y la mediana lo cual nos deja ver cierta homogeneidad en nuestra muestra, aun así, no es completamente homogéneo,
Al analizar el diagrama de caja podemos notar una gran cantidad de datos atípicos tanto por encima de la media como por debajo de esta, aunque hay una mayor dispersión por encima de la media, al ver la gráfica de caja de la profundidad según el color podemos ver como hay cierta regularidad en los datos los cuales tiene un promedio similar, sin poderse notar ningún patrón que deje en evidencia que la profundidad de un diamante depende de su color, además de esto podemos observar como en todas las cajas hay una gran cantidad de datos atípicos.
Al observar el histograma de Tabla se puede notar que todas las medidas de tendencia central están concentradas en el mismo número lo cual significa que los datos son bastante homogéneo todas las medidas de tendencia central están en 57, posteriormente al analizar la gráfica de caja se pueden ver muy pocos datos atípicos, lo cual nos comprueba lo anteriormente dicho, en la gráfica de cas de tabla según su color se puede apreciar cierta constante en los datos ya que todas presentan una cantidad mínima de datos atípicos. En la gráfica de dispersión que muestra la relación entre la tabla del diamante y su profundidad, se puede observar que hay una mayor concentración de datos entre 55mm y 60mm. Además, se puede notar una gran densidad de datos para valores medios de tabla. Por otro lado, parece que los valores de tabla del diamante adquieren valores casi constantes, ya que se alcanzan varias sucesiones de puntos que parecen simular rectas verticales.
En el histograma de X podemos observar como hay dos modas lo cual significa que hay dos datos que se repiten la mayor cantidad de veces, además las medidas de tendencia central se encuentran bastante alejadas entre si lo cual nos señala una poca homogeneidad en los datos, en el diagrama de caja observamos pocos datos atípicos. En relación a los diagramas de caja de X que comparan la longitud X de los diamantes con su color, se puede notar que a medida que la cantidad de color que posee un diamante aumenta su longitud aumenta, es decir, a medida que los diamantes se clasifican como de color más “translucido¨”, su respectivo promedio de longitud tiende a disminuir. En otras palabras, los diamantes más claros suelen ser más cortos, como se puede apreciar en los diagramas de caja previamente mencionados.
En cuanto al diagrama de dispersión que muestra la relación entre la longitud X del diamante y su profundidad, se puede notar que sin importar su color la mayor parte de los diamantes se concentran en entre 60mm y 63mm, además de que no se ve un patrón que relacione la profundidad de un diamante y su longitud en X.
En el histograma de Y se puede ver como las medidas de tendencia central se encuentran bastante alejadas entre si lo cual nos permite ver que existe una poca homogeneidad en la muestra, en la gráfica de caja no se alcanzan a ver datos atípicos. En cuanto a la gráfica de cajas que compara la “Y” y el color de los diamantes, se ha notado que a medida que el color aumenta, se produce una variación significativa en el promedio de cada categoría de color entre cajas, esto nos muestra que mientras el color de un diamante empieza aumentar también lo hace su longitud Y.
En cuanto al diagrama de dispersión que muestra la relación entre la longitud Y del diamante y la profundidad se puede observar cierta concentración entre la 60mm y 63mm, lo cual nos permite afirmar que la profundidad de un diamante no está relacionada de forma exclusiva a su longitud Y.
En el histograma que relaciona la longitud Z del diamante se puede observar que las medidas de tendencia central se encuentran bastante alejadas lo que nos permite deducir que la muestra que tenemos es heterogénea, en el gráfico de caja se puede ver que hay muy poca cantidad de datos atípicos.
En cuanto al grafico de cajas de la longitud Z y el color se puede observar como al ir aumentando la escala de color (cantidad de color) va aumentando el tamaño del diamante, lo cual nos permite afirma que de cierta forma los diamantes de poco color tienden a ser más pequeños en la longitud Z, aun así, no podemos generalizar ya que hay cierta cantidad de datos atípico.
En cuanto al diagrama de dispersión que muestra la relación entre la longitud Z del diamante y su profundidad, se puede notar que sin importar su color la mayor parte de los diamantes se concentran en entre 60mm y 63mm, además de que no se evidencia un patrón que relacione la profundidad de un diamante y su longitud en Z.
De acuerdo al analisis realizado hemos podido comprobar que el precio de los diamantes depende de su corte, color y medidas.
Los diamantes no tienen una claridad uniforme, debido a las diferentes frecuencias que presentan estos datos.
El precio del diamante se ve influenciado en gran medida por sus dimensiones: largo (x), anchura (y) y profundidad (z). Además, el corte del diamante, así como su color y claridad, también son factores determinantes, aunque en menor medida.
La información contenida en la base de datos es adecuada para llevar a cabo un análisis estadístico aplicando correctamente los conceptos aprendidos en clase.
Se encontraron varias formas de clasificar un diamante, y una de ellas es mediante una escala que describe su claridad, color y corte. Aunque estas características influyen en el precio del diamante, tienen más importancia en su identificación y descripción en la población de diamantes en general, que en la determinación del costo de un diamante específico.