El diamante es la forma cristalina del carbono, que se origina de calor y presión extremos, cristalizando en el sistema cúbico. Sus cristales tienen forma de masas granulares, compactas o redondeadas, frecuentemente en octaedros y dodecaedros, raramente en cubos. Los caracteres de identificación de un diamante son su extraordinaria dureza (de índice 10, el grado más alto de la escala de Mosh), su perfecto clivaje (salvo en las variedades bort y carbonado), y su brillo y luminosidad cuando está bien tallado, debido a que su índice de refracción y dispersión son muy altos.A continuación, se muestra un analisis de las variables cualitativas y cuantitativas acerca de una base de datos de Rstudio, la cual es una base de datos que contiene los precios,caracteristicas y otros atributos de casi 54.000 diamantes. En esta base de datos, se escogio una muestra de 1000 diamantes, para llevar a cabo el analisis.
A continuacion se muestra una breve tabla de la base de datos de los 1000 diamantes
library(DT)
DT::datatable(muestra1)
Una tabla de frecuencias muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas palabras, son las veces que se repite un número o dato.Se puede usar las tablas de frecuencias para ordenar variables cuantitativas o cualitativas.En este caso caso se hicieron tablas de frecuencia absoluta para las variables cualitativas: corte, color y claridad. La tabla de frecuencia para la variable corte muestra cuantos diamantes de 1000 tienen un corte Regular, Bueno, Muy bueno, Premium, Ideal, en la cual se puede observar que la mayoria de diamantes tienen un corte ideal con un valor de 400 y la minoria tiene un corte regular(siendo este el peor corte) con un valor de 30, por lo tanto la mayoria cumple con una buena calidad de corte en cuanto a su calidad.
##
## Regular Bueno Muy bueno Premium Ideal
## 30 82 224 264 400
Al analizar los gráficos circulares y de barras, se puede notar que más del 50% de los diamantes en la muestra tienen un corte Ideal o Premium, lo que indica que la industria de diamantes es rigurosa en la producción y fabrica de estos para asegurar una alta calidad.
Además, la cantidad de diamantes clasificados como Malos o Buenos constituyen menos del 15% de la población total analizada, lo que puede parecer insignificante si la muestra es representativa de la población.
En el gráfico de dispersión, se observa que a medida que aumenta el número de quilates, el precio de los diamantes aumenta sin importar el corte. Sin embargo, los diamantes con cortes Muy Bueno y Premium tienden a tener precios más elevados que los cortes inferiores en un mismo intervalo de quilates.
En la tabla de frecuencias para la variable color observamos que los 1000 diamantes estan clasificados en 7 colores diferentes en donde D es el mejor color el cual tiene 130 diamantes,y J es el peor color con un valor de 40 diamantes, encontrando que la mayoria de diamantes tiene un color G con un valor de 212 diamantes, ya que cuanto más cerca esté un diamante de ser “incoloro”, más excepcional es. Los estándares para calificar el color se basan en la evaluación de cada piedra comparándola con un patrón de referencia y asignándole una calificación en forma de letra, de la “D” (incoloro) a la “Z” (amarillo claro).Los diamantes con clasificacion D, E o F tienen una coloracion incolora, mientras que los diamantes con clasificacion G, H, I y J son casi incoloros.
##
## D E F G H I J
## 130 179 183 212 167 89 40
Las gráficas anteriores muestran que los diamantes clasificados como D, E o F tienen una gran representatividad en la muestra seleccionada, ya que juntos representan el 35% del total de la muestra. Los demás colores clasificados como F, G, H e I conforman el resto de la muestra. Los dos colores con mayor frecuencia son el E y el H, que corresponden a categorías distintas de color.
En cuanto al análisis de la gráfica de dispersión, se observa que el precio de los diamantes de mayor calidad (D, E o F) es significativamente mayor que el de los de menor calidad. Los diamantes más transparentes y de mejor calidad tienen precios más altos y significativos en comparación con los demás.
La claridad es una medida de pureza y rareza del diamante clasificada por la visibilidad de estas características bajo una amplificación de 10x. Una piedra se clasifica como impecable si, bajo una amplificación de 10x, no tiene inclusiones (imperfecciones internas) y no hay manchas visibles (imperfecciones externas). Para la variable claridad la tabla de frecuencias absolutas nos muestra que la mayoría de diamantes tienen una claridad de SI1 con un valor de 249, y las minorías I1 IF, con valores de 16 y 28 respectivamente, donde la claridad IF esla mejor y I1 la peor, nos podemos dar cuenta que de la mejor claridad hay muy pocos diamantes en relación a los demás.
##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 16 179 249 206 167 85 70 28
Al analizar las gráficas anteriores, se puede observar que los diamantes clasificados como VS2, también conocidos como “very slightly included”, son los más frecuentes dentro de la población de diamantes, junto con los SI1. Por otro lado, los diamantes de gran claridad, como los VVS2, VVS1 e IF, representan más del 19,9% de la muestra. Es importante destacar que los diamantes de menor claridad, clasificados como I1, tienen un porcentaje casi nulo con un 1.6% Esto sugiere que la producción de diamantes se enfoca en un término “medio”, en el que se busca una claridad que no sea mala pero tampoco perfecta.
Finalmente, en cuanto al grafico de dispersion se refiere, entra mas alta sea la calidad del diamante (como los VVS1, VVS2 e IF) estos tienen un precio ligeramente mayor que los demas tipos de diamante en cuanto a claridad dentro de ciertos rangos de quilates. Y que por el contrario, los diamantes de menor calidad como los I1, estan muy por debajo del precio de la aglomeracion de datos
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 363.0 944.2 2428.0 3809.1 5190.0 18293.0
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
El análisis del histograma muestra que las líneas de tendencia central están muy alejadas entre sí, lo que indica que el conjunto de datos es disperso y poco homogéneo. Este hecho se confirma mediante el diagrama de caja relacionado con el precio, el cual presenta una gran cantidad de datos atípicos. Esto podría deberse a que no solo un carácter como el corte del diamante influye en su precio, sino que su profundidad, tabla, color y claridad también son relevantes para determinar el valor del precio.
En relación a los diagramas de caja de la muestra de diamantes en función de su claridad, se puede observar que el promedio de un grupo de diamantes con respecto al otro no difiere significativamente, lo que sugiere que la característica del color del diamante no es relevante al momento de catalogar su precio. Por otro lado, en cuanto al gráfico de dispersión que relaciona la profundidad del diamante con su precio, se puede apreciar que la gran mayoría de los diamantes se concentran en un intervalo de valores entre 66 mm y 60 mm, con precios menores a los $5000 dólares. Esto indica que la profundidad del diamante se encuentra en un promedio fijo y que su valor no depende o influye en el precio del diamante.
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
Como se puede ver en el histograma de quilates, las líneas de tendencia central, incluyendo la media, mediana y moda, están bastante separadas entre sí, especialmente la línea de moda. Esto sugiere que el conjunto de datos que se está analizando es diverso y no muy homogéneo. Además, hay un sesgo positivo en el gráfico, lo que indica que hay una mayor población de diamantes con un peso en quilates inferior a uno.
Además, se observa que la dispersión de los datos en cada grupo de claridad es bastante amplia, lo que sugiere que hay una gran variabilidad en la magnitud del quilate dentro de cada clasificación de claridad. También se puede notar que hay una cantidad significativa de datos atípicos en los diagramas de caja, lo que indica que hay una presencia de valores extremos en cada grupo de claridad. Esto puede deberse a factores adicionales que influyen en el precio de los diamantes, además de su quilate y claridad, como la profundidad, el color y la tabla.
Es importante notar que esta observación podría ser resultado de la forma en que se miden y cortan los diamantes, ya que al tratar de conseguir un diamante de mayor tamaño, puede que se sacrifique la profundidad o la calidad de corte. Por lo tanto, es posible que esta relación entre profundidad y quilate no sea una causalidad directa, sino más bien una consecuencia de otros factores que afectan el tamaño y calidad del diamante.
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
El histograma de la profundidad del diamante muestra claramente que las líneas de tendencia central están muy cercanas entre sí, lo que indica una buena homogeneidad de los datos en términos de estas líneas de tendencia. Este hecho se refleja en la tabla de resumen, donde la media es de 61.95 y la mediana es de 61.75. Sin embargo, si observamos el diagrama de caja, aunque la mayoría de la población se concentra en un intervalo muy estrecho, esto implica la presencia de una gran cantidad de valores atípicos que se extienden más allá de los valores cuartílicos del diagrama.
En lo que respecta a la profundidad del diamante en función de su claridad, se puede observar que el valor de la profundidad se encuentra dentro de un rango fijo, sin importar la claridad del diamante. Esto se debe a que la diferencia en la mediana entre dos grupos de diamantes con diferente claridad es insignificante.
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
En la gráfica de dispersión que muestra la relación entre la tabla del diamante y su precio, se puede observar que a medida que el precio aumenta, la población de diamantes disminuye. Además, se puede notar una gran densidad de datos para valores iniciales de precio. Por otro lado, parece que los valores de tabla del diamante adquieren valores casi constantes, ya que se alcanzan varias sucesiones de puntos que parecen simular rectas verticales.
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
En relación a los diagramas de caja que comparan la longitud de los diamantes con su claridad, se puede notar que a medida que la calidad de la claridad aumenta, es decir, a medida que los diamantes se clasifican como más claros, su respectivo promedio de longitud tiende a disminuir. En otras palabras, los diamantes más claros suelen ser más cortos, como se puede apreciar en los diagramas de caja previamente mencionados.
En cuanto al diagrama de dispersión que muestra la relación entre el largo del diamante y su precio, se puede notar que a medida que la muestra de diamantes se vuelve más amplia, el precio también aumenta. Además, la única variable que parece influir en el aumento del precio es la claridad del diamante. Se puede notar que dentro de un intervalo específico de largo, los diamantes con una mejor clasificación de claridad tienen precios más altos en comparación con otros diamantes.
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
En cuanto a los diagramas que comparan la anchura del diamante con su claridad, se ha notado que a medida que la claridad aumenta, se produce una variación significativa en el promedio de cada categoría de claridad entre cajas. Esta observación contrasta con los datos relacionados con la longitud del diamante, donde no se evidencia un patrón progresivo en los rangos de valores entre categorías. Además, incluso los rangos de valores entre categorías varían en este caso.
En cuanto al diagrama de dispersión que muestra la relación entre la anchura del diamante y su precio, se ha observado que a medida que la muestra de diamantes se vuelve más amplia, el precio también aumenta. Además, la única variable que parece influir en el aumento del precio es la claridad del diamante. Se puede notar que dentro de un intervalo específico de anchura, los diamantes con una mejor clasificación de claridad tienen precios más altos en comparación con otros diamantes.
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "xlim" is not a graphical parameter
## Warning in par(bg = "grey90", mar = c(4, 4, 2, 1), xpd = TRUE, xlim = c(0, :
## "ylim" is not a graphical parameter
En el histograma con relación a la profundidad de diamante se puede observar que la media y la mediana estan relativamente cerca una con respecto a la otra, la moda esta bastante alejada respecto a este par de datos lo que nos indica que hay cierta tendencia de los datos de ser simetricos con respecto a la mediana y la moda.
En cuanto a los diagramas que muestran la relación entre la profundidad del diamante y su claridad, se puede observar que a medida que aumenta la calidad de la claridad o su clasificación, el promedio entre cada categoría disminuye progresivamente de una caja a otra. Este fenómeno no se observó en los datos de la anchura del diamante, pero sí en los datos de su longitud. En este último caso, incluso los rangos de valores entre una categoría y otra disminuyen a medida que el diamante se clasifica como más claro.
En relación con el diagrama de dispersión que muestra la profundidad del diamante y su precio, se puede observar que a medida que la muestra de diamantes es más larga, aumenta el precio de los diamantes. La única característica que eleva el precio de unos diamantes sobre otros es su claridad, ya que se puede observar que dentro de cierto intervalo de profundidad, los diamantes con mejor clasificación de claridad tienen un precio más elevado en comparación con los demás.
De acuerdo al analisis realizado hemos podido comprobar que el precio de los diamantes depende de su corte, color y medidas.
Los diamantes no tienen una claridad uniforme, debido a las diferentes frecuencias que presentan estos datos.
El precio del diamante se ve influenciado en gran medida por sus dimensiones: largo (x), anchura (y) y profundidad (z). Además, el corte del diamante, así como su color y claridad, también son factores determinantes, aunque en menor medida.
La información contenida en la base de datos es adecuada para llevar a cabo un análisis estadístico aplicando correctamente los conceptos aprendidos en clase.
Se encontraron varias formas de clasificar un diamante, y una de ellas es mediante una escala que describe su claridad, color y corte. Aunque estas características influyen en el precio del diamante, tienen más importancia en su identificación y descripción en la población de diamantes en general, que en la determinación del costo de un diamante específico.