Analisis Estadistico de una Muestra de Diamantes:


A continuacion, se muestra un analisis de las variables cuantitativas y cualitativas acerca de una base de datos propia de RStudio, la cual es una base de datos que contiene los precios y otras caracteristicas y relaciones de mas de 52.000 Diamantes. En esta base de datos, se escogio una muestra de 1000 diamantes, con sus respectivos identificativos para llevar a cabo el analisis.

En cuanto a una breve descripcion sobre el objeto de estudio (los diamantes), Wikipedia dice:

El diamante es uno de los minerales con más valor del mundo por sus características físicas y ópticas. Debido a su estructura cristalina extremadamente rígida, puede ser contaminada por pocos tipos de impurezas, como el boro y el nitrógeno. Combinado con su gran transparencia (correspondiente a una amplia banda prohibida de 5,5 eV), esto resulta en la apariencia clara e incolora de la mayoría de diamantes naturales. Algunas pequeñas cantidades de defectos o impurezas (aproximadamente una parte por millón) inducen un color de diamante azul (boro), amarillo (nitrógeno), marrón (defectos cristalinos), verde, violeta, rosado, negro, naranja o rojo.

En base a la anterior informacion, cabe esperar los altos costos relacionados con los diamantes y su correlacion con caracteres como el color, la profundidad, el quilate, entes otros aspectos.


A continuacion se muestra una breve tabla de la base de datos de los 1000 Diamantes

Analisis de las Variables Cualitativas

Evaluacion del Corte de los Diamantes

Como se puede observar en el analisis grafico circular y de barras, se destaca que mas del 50% de la muestra de diamantes vistos, son de corte Ideal y Premium, lo que puede interpretarse en una alta rigurosidad de la industria de diamantes en cuanto a la produccion y manufactura de estos mismos, para que su producto sea de buena calidad, en cuanto a este caracter se refiere.

Por otro lado, cabe destacar que la cantidad de diamantes que entran en categoria de Malos y Buenos corresponde a menos del 15% de la poblacion total analizada, lo cual en dado caso que la poblacion elegida sea representativa con respecto a la poblacion, puede considerarse incluso insignificante.

Finalmente, en cuanto al grafico de dispersion, se puede observar que al aumentar el numero del quilate, el precio de todo diamante aumenta, independientemente del corte de este, aunque claramente es notable que los de corte Muy Bueno y Premium tienden a tener un precio mas elevado que los de corte de categoria inferior ante un mismo intervalo de quilate.


Evaluacion de la Claridad del Diamante

Muchos se preguntaran sobre como es la claridad del diamante y como se clasifica, pues bien,pues segun la pagina web TIFFANY&Co. dicen:

La claridad es una medida de pureza y rareza del diamante clasificada por la visibilidad de estas características bajo una amplificación de 10x. Una piedra se clasifica como impecable si, bajo una amplificación de 10x, no tiene inclusiones (imperfecciones internas) y no hay manchas visibles (imperfecciones externas). En Tiffany, solo aceptamos el 0.04 % de los diamantes de grado gemológico del mundo.

Con esto dicho, hay 10 tipos distintos de Diamantes: los diamantes FL son perfectos o tambien denominados como Flawless, por otro lado los diamantes IF son internamente perfectos o de otra manera Internally Flawless, los diamantes clasificados como VVS1 y VVS2 tienen inclusiones muy ligeras (Impurezas) very very slightly included; por otro lado los diamantes VS1 y VS2 son diamantes que tienen inclusiones muy ligeras (very slightly included) mientras que los diamantes de tipo SI1 y SI2 tienen inclusiones ligeras (slighrly included) y finalmente los diamantes de tipo I1-3 son netamente imperfectos Imperfect. Con esto dicho, se puede entender las graficas que vienen a continuacion:

##   I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF 
##   14  171  256  207  162   92   63   35

Con respecto a las anteriores graficas, se observa que los diamantes con clasificacion VS2 o tambien llamados very slightly included son lo que mas predominan dentro de la poblacion de diamantes junto con los SI1, mientras que los diamantes de gran claridad como los denominados VVS2, VVS1 e IF duras penas les corresponden el 19.9%. Ademas de que el diamante de menor claridad, el de clasificacion I1 tiene un porcentaje casi nulo (menos del 1%) lo cual concluye que en la muestra alegida en cuanto a la categoria del diamante, estos se encuentran en un termino “medio” es decir que su produccion se enfoca en tener diamantes de claridad no mala, pero tampoco perfecta.

Finalmente, en cuanto al grafico de dispersion se refiere, entra mas alta sea la calidad del diamante (como los VVS1, VVS2 e IF) estos tienen un precio ligeramente mayor que los demas tipos de diamante en cuanto a claridad dentro de ciertos rangos de quilates. Y que por el contrario, los diamantes de menor calidad como los I1, estan muy por debajo del precio de la aglomeracion de datos


Evaluacion del Color del Diamante

Para evaluar el color de un diamante, necesitamos saber con que se refieren al hacer alusion al color de este, y con ello, segun “Tiffany&Co” dicen:

El color se refiere al tono natural inherente a los diamantes blancos. En la naturaleza, la mayoría de los diamantes blancos tienen un ligero tono amarillo. Cuanto más cerca esté un diamante de ser “incoloro”, más excepcional es. Los estándares para calificar el color se basan en la evaluación de cada piedra comparándola con un patrón de referencia y asignándole una calificación en forma de letra, de la “D” (incoloro) a la “Z” (amarillo claro).

Con esto dicho, los diamantes con clasificacion D, E o F tienen una coloracion incolora, mientras que los diamantes con clasificacion G, H, I y J son casi incoloros, con esto ya mencionado, se puede hacer el analisis estadistico-cualitativo de este caracter

##   D   E   F   G   H   I   J 
## 134 165 181 246 133 105  36

Como se puede observar en las anteriores graficas, los diamantes con clasificacion D, E o F tienen gran representatividad en el conjunto de muestra escojido, ya que juntos representan el 33.4% del total de la muestra, y que el restante corresponde a colores de clasificacion menor commo lo son F, G, H e I. Por otro lado los dos colores con mayor frecuencia que se repiten son el E y H que corresponden a categorias distintas de color.

Por otro lado, en cuanto al analisis de la grafica de dispersion, se puede observar que el precio de un color de mayor calidad (D, E O F) con respecto a los que son de menor cualidad, hay diferencias significativas en cuanto al precio, siendo las mas transparentes (las de mejor calidad) las que contienen precios mas altos y significativos en comparacion con las demas


Otras Graficas de Variables Cualitativas con Variables Cuantitativas

##      Fair      Good Very Good   Premium     Ideal 
##        35        95       236       254       380

Como se pude observar en los diagramas de cajas, el promedio del precio varia de acuerdo al tipo de corte que se presenta en el diamante, algo curioso por destacar, es que el corte “ideal” es el que en promedio menos precio posee, pero el que mas presenta valores atipicos, esto se debe a que los cortes ideales son mas frecuentes en quilates menores, por lo que su precio tiende a ser menor, y cuando aumente el quilate, el precio ha de ser muy grande, algo que se pudo apreciar en las graficas de dispersion del analisis sobre el color y el corte del diamante, por otro lado, se observa que en promedio el precio del diamante en el corte “Fair” o lejano es el que mayor valor posee entre los diagramas de caja, esto se debe a que estos diamantes se presentaban mas a menudo en quilates de mayor magnitud, por lo que su precio se veia influido era por la magnitud del quilate mas no por la calidad del corte

En cuanto al histograma general de precios en relacion con el corte del diamante, se puede observar que gran parte de la densidad de diamantes ideales, tienen un precio relativamente bajo, lo cual confirma la conclusion hecha en el parrafo anterior y que por otro lado, la densidad de diamantes “fair” o malos, son bastantes dispersos y abarcan una gran diversidad de precios.


Analisis de las Variables Cuantitativas


Sobre el Precio

## 
## Attaching package: 'plotly'
## The following objects are masked from 'package:plyr':
## 
##     arrange, mutate, rename, summarise
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   373.0   944.5  2408.5  3929.1  5220.2 18803.0

El analisis del histograma, muestra que los lineas de tendencia central mostradas ahi, estan muy alejadas una con respecto a las otras, lo cual indica que dicho conjunto de datos es disperso y muy poco homogeneo, algo que es corroborado por el diagrama de caja relacionado con el precio, el cual presenta una gran cantidad de datos atipicos, esto quiza se debe a que no solo un caracter como el corte del diamante influye en el precio de este, sino que su profundidad, tabla, color y claridad tambien son relevantes para determinar el valor de su precio. Por otro lado, observando el comportamiento del histograma tiene un sesgo positivo, esto debido a que la densidad de datos se concentra a valores menores de los $5000 dolares, debido a que la produccion de diamantes de mayor valor conlleva a que sus caracteristicas sean de alta clasificacion. lo cual como se pudo observar en las graficas de dispersion de las variables cualitativas ocurren en menor medida.

En cuanto a los diagramas de caja de la muestra de diamantes en funcion de la claridad de estos, se observa que el promedio de un grupo de diamantes con respecto al otro no difiere signficativamente, dando a entender de que la caracteristica del color del diamante no es relevante al momento de catalogar su precio. Finalmente, en cuanto al grafico de dispersion que relaciona la profundidad del diamante con su precio, se observa que la gran mayoria de los diamante se concentran en un intervalo de valores de 65mm a 60 mm con precios menores a los $5000 dolares, este grafico, indica que la profundidad del diamante esta en un promedio fijo y que su valor no depende o influye en el precio del diamante


Sobre el Quilate

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2300  0.4000  0.7000  0.7845  1.0300  3.0000


Como se puede observar en el histograma del quilate, las lineas de tendencia central mostradas en esta grafica que es el promedio, la mediana y la moda, estan bastante alejadas una con respecto de las otras (sobre todo la linea de moda) lo cual indica que el conjunto de datos a analizar es poco homogeneo y bastante diverso, por otro lado, se observa un sesgo positivo en dicha grafica, dando a entender que hay mayor poblacion de diamante con una magnitud menor a la de un quilate.

Por otro lado, en cuanto al diagrama de caja, se observa que el promedio de la poblacion es de 0.808 quilates, mientras que la mediana es de 0.70 quilates, lo cual indica que no estan alejados una con respecto a la otra, pero si lo estan con respecto a la moda (ver linea de tendencia verde en la grafica). Ademas de que hay que denotar que hay un considerable numero de datos atipicos ubicados fuera de los quartiles del diagrama, lo cual pudo influir en la heterogeneidad de la distribucion de datos

Por otro lado, los diagramas de cajas que relacionan los valores del quilate con la claridad de estos, permiten tener las siguientes observaciones: A mayor valoracion de la claridad del diamante, el promedio del quilate de este conjunto de datos es menor, pero se encuentran mas cerca del promedio global de datos como el diagrama de distribucion de Quilate, osea que entre menor sea el valor de la magnitud del quilate, es mas probable que este sea de una claridad de clasificacion VVS2, VS1, VVS1 o IF.

Por otro lado, en el grafico de dispersion que relaciona la profundidad del diamante con el quilate de este, se observa que entre cada cierto valor de quilate, se produce una gama de profundidades distintas, como en forma de linea verical.

Sobre la Profundidad del Diamante

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   50.80   61.10   61.90   61.76   62.60   69.70

El histrograma de la profundidad del diamante, deja en claro que las lineas de tenderncia central, estan muy cerca unas con respecto de las otras, dando a entender la buena homogeneidad de estos datos con respecto a las lineas de tendencia y es que esto se refleja en la tabla de resumen, ya que mientras que la media es de 61.78,la mediana es 61.90. Sin embargo si observamos el diagrama de caja, aunque la poblacion esta concentrada en un intervalo muy reducido, esto implica la existencia de una gran cantidad de datos atipicos, los cuales se salen de los valores cuartilicos del diagrama.

En cuanto a la profundidad del diamante segun la claridad de este, se observa que, el valor de la profundidad se encuentra relativamente en un intervalo fijo, independientemente de la claridad del diamante, esto se observa por el hecho de que la mediana de una caja con respecto a otra varia insignificantemente


Sobre X (Largo en Milimetros)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.890   4.700   5.690   5.706   6.510   9.300


En el histograma sobre los datos del largo en milimetros del objeto, se puede observar que el promedio y la mediana estan bastante cercas una con respecto de la otra (5.806 y 5.780 respectivamente), por otro lado la moda esta bastante alejada de este par de datos, lo cual indica que hay cierta tendencia de los datos de ser simetricos con resepcto a la mediana y media, pero no lo suficiente como para que la moda tambien lo sea. Sin embargo, esto no implica la existencia de datos atipicos, ya que como se puede observar en el diagram de caja, no hay valores atipicos entre los rangor intercuartilicos de la grafica

Por otr0 lado, en los diagramas de cajas que relaciona el largo de los diamantes con la clardad de estos, entra mas calidad o mas claro sea catalgodo el conjunto de diamantes, se observa que su respectivo promedio tiende a disminuir, es decir que los diamantes mas claros tienen un largor pequeño, como se puede observar en los diagramas de caja anterior

Por otro lado, en relacion con el diagrama de dispercion que relaciona el largor del diamante con su precio, se puede observar que entre mas largo sea la muestra de diamantes, mas aumentara el precio de estos, y lo unico que eleva el precio de unos diamantes con respecto a otros es su claridad, ya que como se puede observar, ante cierto intervalo de largor, los de claridad mejor catalogados son los que tienen un precio mas elevado en comparacion con los demas. (Claridad VVS2, VVS1 e IF frente al resto)

Sobre Y (Ancho en Milimetros)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.920   4.718   5.695   5.708   6.500   9.140


Como se puede observar en el histograma que relacion el ancho del diamante, se puede concluir que el promedio y la mediana estan bastante cercas una con respecto de la otra (5.720 y 4.730 respectivamente), por otro lado la moda esta bastante alejada de este par de datos, lo cual indica que hay cierta tendencia de los datos de ser simetricos con resepcto a la mediana y moda, pero no lo suficiente como para que la moda tambien lo sea. Sin embargo, esto no implica la existencia de datos atipicos, ya que como se puede observar en el diagram de caja, no hay valores atipicos entre los rangor intercuartilicos de la grafica.

Por otro lado, en cuanto a los diagramas que relacionan la anchura del diamante frente a la claridad de este, se puede observar que al aumentar la calidad de la claridad, o su clasificacion, se puede observar que el promedio entre cada categoria de claridad, varia significativamente entre una caja y la otra, algo que no pasaba entre los datos del largor del diamante, en este caso incluso los rangos de valores entre una categoria y otra varian y no se observa un patron progresivo.

Por otro lado, en relacion con el diagrama de dispercion que relaciona la anchura del diamante con su precio, se puede observar que entre mas largo sea la muestra de diamantes, mas aumentara el precio de estos, y lo unico que eleva el precio de unos diamantes con respecto a otros es su claridad, ya que como se puede observar, ante cierto intervalo de anchura, los de claridad mejor catalogados son los que tienen un precio mas elevado en comparacion con los demas. (Claridad VVS2, VVS1 e IF frente al resto)

Sobre Z (Profundidad en Milimetros)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   2.910   3.520   3.520   4.022   5.600

Como se puede volver a observar en el histograma que relacion la profundidad del diamante, se vuelve a concluir que el promedio y la mediana estan bastante cercas una con respecto de la otra (3.523 y 3.530 respectivamente), por otro lado la moda esta bastante alejada de este par de datos, lo cual indica que hay cierta tendencia de los datos de ser simetricos con resepcto a la mediana y moda, pero no lo suficiente como para que la moda tambien lo sea. Sin embargo, esto no implica la existencia de datos atipicos, ya que como se puede observar en el diagrama de caja, no hay valores atipicos entre los rangor intercuartilicos de la grafica

Por otro lado, en cuanto a los diagramas que relacionan la profundidad del diamante frente a la claridad de este, se puede observar que al aumentar la calidad de la claridad, o su clasificacion, el promedio entre cada categoria de, disminuye progresivamente entre una caja y la otra, algo que no pasaba entre los datos de anchura del diamante, pero si del largor, en este caso incluso los rangos de valores entre una categoria y otra disminuye a medida que el diamante se categorize mas claro.

Por otro lado, en relacion con el diagrama de dispercion que muetra la profundidad0 del diamante con su precio, se puede observar que entre mas largo sea la muestra de diamantes, mas aumentara el precio de estos, y lo unico que eleva el precio de unos diamantes con respecto a otros es su claridad, ya que como se puede observar, ante cierto intervalo de profundidad, los de claridad mejor catalogados son los que tienen un precio mas elevado en comparacion con los demas. (Claridad VVS2, VVS1 e IF frente al resto)


Sobre la Tabla (Ancho de la Parte Superior del Diamante)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    52.0    56.0    57.0    57.6    59.0    70.0

Como se puede observar en el histograma, las lineas de tendencia central, estan unas alejadas de las otras, pero no tanto como se pudo observar en algunos histogramas anteriores, con ello, observamos que la media es de 57.53 y la mediana de 57, con ello, concluimos que la grafica muestra aparentemente que las lineas estan alejadas, cuando realmente estan mas cercas de lo que se piensa, verificandose en su respectivo diagrama de caja, ya que se puede observar que hay ausencia de datos atipicos.

Por otro lado en los diagramas de caja que relacionan claridad con valores de tabla, se ve que los valores de la media son casi iguales para clasificaciones VS1, VVS2, VVS1 e IF, mientras que hay una variacion de este valor para clasificaciones I1, SI2, SI1 y VS2.

Finalmente en la grafica de dispersion Tabla-Precio, se observa que la poblacion disminuye a medida de que el precio aumenta, ademas de que hay gran densidad de datos para valores iniciales de precio, por otro lado, parece que los valores de tabla adquiere valores casi constantes, ya que se alcanza a varias suceciones de puntos que parecen simular rectas verticales.


Conclusiones

Lo que afecta en gran medida al precio del diamante, son las dimensiones de este, es decir su largo (x), anchura (y) y profundidad (z), siendo tambien determinante aunque en menor medida el corte de este, su color y claridad..

Existen diferentes formas de clasificar un diamante, entre ellas existe una gama para denominar la claridad de un diamante, el color de este y su corte, los cuales aunque influyen en el precio del diamante, tienen mas participacion en su presencia en la poblacion de estos, es decir dichas caracteristicas se frecuentan mas para el estudio del diamante, que para determinar el costo de estos mismos

Las variables que presentaron mas homogeneidad son los relacionados con las dimensiones del diamante, puesto que sus medidas de tendencia central fueron los mas cercanos y los de variabilidad los mas acordes.