PARCIAL 1

Andres Camilo Castiblanco Cruz
Daniel Felipe Alejo Hurtado
Daniel Mohamad Mateus Quiñones
Jorge Andrés Torres Leal

Universidad Nacional de Colombia
Probabilidad y Estadística Fundamental
Oscar Javier Pacheco Perez
Bogotá, Colombia
2023

1. Introduccion

Este trabajo consistirá en el análisis estadístico de la base de datos “diamantes”, obtenida del paquete “datos” de R. Para este análisis, se utilizará la semilla (seed) 9953 para obtener datos aleatorios y analizar 1000 “observaciones” con 10 “variables”.

set.seed(9953) 
datos.d <- data.frame(diamantes)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
attach(muestra1)

Al ingresar la seed 9953 obtenemos nuestra base de datos de la cual podemos decir que sus variables se clasifican de la siguiente manera:

Variable Clasificación
precio Variable cuantitativa continua
quilate Variable cuantitativa continua
corte Variable cualitativa discreta ordinal
color Variable cualitativa discreta ordinal
claridad Variable cualitativa discreta ordinal
profundidad Variable cuantitativa continua
tabla Variable cuantitativa continua
X Variable cuantitativa continua
Y Variable cuantitativa continua
Z Variable cuantitativa continua

Las variables que se analizaran son:

  • precio: el precio del diamante en dólares estadounidenses
  • quilates: el peso del diamante en quilates
  • corte: la calidad del corte (variable ordinal con niveles “Regular”, “Bueno”, “Muy Bueno”, “Premium” e “Ideal”)
  • color: el color del diamante (variable ordinal con niveles “D” (mejor) a “J” (peor))
  • claridad: la claridad del diamante (variable ordinal con niveles “I1” (peor), “SI1”, “SI2”, “VS1”, “VS2”, “VVS1”, “VVS2” e “IF” (mejor))
  • profundidad: la profundidad del diamante como porcentaje de su diámetro
  • tabla: el ancho de la tabla (superficie plana superior) del diamante como porcentaje de su diámetro
  • x, y, y z: las dimensiones del diamante en milímetros (largo, ancho y profundidad, respectivamente)


Se realizarán gráficas para datos cualitativos, tales como gráficos de torta y barras, y para datos cuantitativos discretos. Asimismo, se emplearán gráficos de torta y barras para datos cuantitativos continuos, box plot, tallo y hojas, y histograma.


Además, se llevarán a cabo medidas de tendencia central, como la media aritmética, mediana y moda, y medidas de variabilidad, como el rango, varianza, desviación estándar y coeficiente de variación. También se realizarán medidas de posición, sesgo y apuntamiento, como cuantiles, cuartiles, deciles, percentiles, rango intercuartílico, curtosis y asimetría.


Todas estas actividades permitirán un análisis completo y detallado de la base de datos “diamantes” y proporcionarán información valiosa sobre las características de los diamantes en la muestra seleccionada.


2. Precio

Tabla de frecuencia

##           Class limits   f   rf rf(%)   cf cf(%)
##     [348.48,2029.4845) 446 0.45  44.6  446  44.6
##  [2029.4845,3710.4891) 163 0.16  16.3  609  60.9
##  [3710.4891,5391.4936) 148 0.15  14.8  757  75.7
##  [5391.4936,7072.4982)  73 0.07   7.3  830  83.0
##  [7072.4982,8753.5027)  45 0.04   4.5  875  87.5
##  [8753.5027,10434.507)  32 0.03   3.2  907  90.7
##  [10434.507,12115.512)  26 0.03   2.6  933  93.3
##  [12115.512,13796.516)  20 0.02   2.0  953  95.3
##  [13796.516,15477.521)  13 0.01   1.3  966  96.6
##  [15477.521,17158.525)  19 0.02   1.9  985  98.5
##   [17158.525,18839.53)  15 0.01   1.5 1000 100.0

Histograma

#histograma
ggplot(muestra1,aes(x = precio)) +
  geom_histogram(color = "black",bg="lightgreen", bins = 20) +
  labs(title = "Histograma de precios ", x = "Precio", y = "Frecuencia")

Diagrama de Tallo y Hojas

El resultado de la función stem() muestra un diagrama de tallos y hojas que permite visualizar la distribución de los precios en la muestra1. En el eje vertical se muestran los tallos, que son los dígitos más significativos de los valores, y en el eje horizontal se muestran las hojas, que son los dígitos menos significativos. Cada tallo tiene una o varias hojas asociadas, que indican la frecuencia de los valores que tienen ese tallo.

#Diagrama de tallo y hojas
stem(muestra1$precio, scale = 2)
## 
##   The decimal point is 3 digit(s) to the right of the |
## 
##    0 | 4444444444444
##    0 | 55555555555555555555555555555566666666666666666666666666666666666666+160
##    1 | 00000000000000000000000000000000111111111111111111111111222222222222+23
##    1 | 55666666666666666666667777777777777777888888888888888888888888899999
##    2 | 00000000000000000011111111111111112222222222222333333333333334444444
##    2 | 555555555555666666666666677777777888888888888889999999999
##    3 | 0000000011112222222233333444444
##    3 | 555555556666667777777777888888899999999999
##    4 | 000000000111111111112222222222222223333333333334444444
##    4 | 55555666666666677777777788888999999
##    5 | 00000000001111111222333333333444444444
##    5 | 55556666677777777899999
##    6 | 0000011112222233344444
##    6 | 555555667777888888999
##    7 | 0000111112344444
##    7 | 66777777888889999
##    8 | 01223444
##    8 | 556666778
##    9 | 000011122334
##    9 | 666677799
##   10 | 0011233444
##   10 | 5557888
##   11 | 00011234444
##   11 | 56789
##   12 | 00123333
##   12 | 556678899
##   13 | 023
##   13 | 5569
##   14 | 02222
##   14 | 6778
##   15 | 024
##   15 | 56677899
##   16 | 013344
##   16 | 678
##   17 | 00224444
##   17 | 55789
##   18 | 044
##   18 | 7

Diagrama de Caja

En el siguiente gráfico que existe una distribución asimétrica positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media), donde la mediana está más cerca del primer cuartil y no en una distancia igual entre el primer y tercer cuartil, además también podemos ver que existen varios valores atípicos que a pesar de ser altos y varios no son los suficientes como para que la gráfica tienda hacia ellos.

ggplot(muestra1, aes(x = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(x='Precio') + theme_grey() + scale_x_continuous(breaks = seq(0, 20000, by = 2500))

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 3984.321 y esta representada por la linea roja en el grafico de densidad"
## [1] "la mediana es: 2406 y esta representada por la linea azul en el grafico de densidad"
## [1] "la moda es: 802 y esta representada por la linea morada en el grafico de densidad"

## [1] 18301
## [1] "el rango del precio es de: 18301"
## [1] "la varianza del precio es de: 16527323.9479069"
## [1] "la desviacion estandar es: 4065.38115653464"
## [1] "el coeficiente de variacion es: 102.034478560704"

Curtosis y Cuartiles

#curtosis y cuartiles

kurtosis(precio)
## [1] 5.156839
skewness(precio)
## [1] 1.631251
numSummary(precio, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##      mean       sd    IQR       cv skewness kurtosis   25%  50%  75%    n
##  3984.321 4065.381 4368.5 1.020345 1.633703 2.173686 938.5 2406 5307 1000
#Cuartiles
quantile(precio)
##      0%     25%     50%     75%    100% 
##   352.0   938.5  2406.0  5307.0 18653.0

Concepto de Deciles

En el siguiente gráfico podemos ver aplicado el concepto de deciles, donde vemos que los deciles 1,2 y 3 se encuentran cercanos de manera que en éstos se concentran varios datos de valores similares

## [1] 1.631251
## [1] 5.156839

Luego vemos que tiene un valor positivo al calcular su simetría, lo cual significa que tiene una asimetría positiva teniendo en cuenta lo dicho en Skewness in R y una alta curtosis lo cual significa que es leptocúrtica.

Diagrama de Dispersión

# Precio y quilate
plot(x = muestra1$precio, y = muestra1$quilate, col = terrain.colors(length(muestra1$quilate)), xlab = "Precio", ylab = "Quilate")

Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función del tamaño de los quilates. La escala de colores indica la cantidad de diamantes con el mismo tamaño de quilate.

# Precio y profundidad
plot(x = muestra1$precio, y = muestra1$profundidad, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "Profundidad")

Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la profundidad de corte. La escala de colores indica la cantidad de diamantes con la misma profundidad de corte.

# Precio y Tabla
plot(x = muestra1$precio, y = muestra1$tabla, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "Tabla")

Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la tabla (el diámetro de la parte superior del diamante). La escala de colores indica la cantidad de diamantes con la misma tabla.

# Precio y x
plot(x = muestra1$precio, y = muestra1$x, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "x")

Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la longitud del diamante en la dirección x. La escala de colores indica la cantidad de diamantes con la misma longitud en la dirección x.

# Precio y Y
plot(x = muestra1$precio, y = muestra1$y, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "y")

Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la longitud del diamante en la dirección y. La escala de colores indica la cantidad de diamantes con la misma longitud en la dirección y.

# Precio y z
plot(x = muestra1$precio, y = muestra1$z, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "z")

Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la altura del diamante. La escala de colores indica la cantidad de diamantes con la misma altura.

3. Quilates

Tabla de frecuencias

##     Class limits   f   rf rf(%)   cf cf(%)
##  [0.2277,0.5743) 435 0.44  43.5  435  43.5
##  [0.5743,0.9208) 203 0.20  20.3  638  63.8
##   [0.9208,1.267) 220 0.22  22.0  858  85.8
##    [1.267,1.614)  80 0.08   8.0  938  93.8
##    [1.614,1.961)  22 0.02   2.2  960  96.0
##    [1.961,2.307)  31 0.03   3.1  991  99.1
##    [2.307,2.654)   8 0.01   0.8  999  99.9
##        [2.654,3)   0 0.00   0.0  999  99.9
##        [3,3.347)   0 0.00   0.0  999  99.9
##    [3.347,3.693)   0 0.00   0.0  999  99.9
##     [3.693,4.04)   1 0.00   0.1 1000 100.0

Diagrama de barras e histograma

# Diagrama de barras

ggplot(muestra1,aes(x=quilate)) + geom_bar(fill = "pink") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")

# histograma

ggplot(muestra1,aes(x=quilate)) + geom_histogram(color = "black",bg="pink",bins = 100) + labs(title = "Histograma del quilate (Peso del diamante)", x="Peso en quilates", y="Frecuencia")

Diagrama de Tallo y Hojas

El diagrama de tallos y hojas muestra que la distribución de los quilates en la variable quilates es aproximadamente simétrica, con una concentración de valores alrededor de 0.5 a 1.0 quilates. También se puede observar que hay algunos valores extremos en la parte superior del rango de quilates, lo que indica que algunos diamantes en la muestra1 son relativamente grandes.

#Diagrama de tallo y hojas
stem(muestra1$quilate, scale = 2)
## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    2 | 3333333344555555666777788899999
##    3 | 00000000000000000000000000000000000000111111111111111111111111111111+134
##    4 | 00000000000000000000000000001111111111111111111111111222222222223333+1
##    5 | 00000000000000000000111111111111111111111112222222222222222233333333+36
##    6 | 0011111222333588
##    7 | 00000000000000000000000000000000000000011111111111111111111111112222+26
##    8 | 0001111222233455557
##    9 | 00000000000000000000000000000000000011111111111111222224566679
##   10 | 00000000000000000000000000111111111111111111111111111111111111111111+57
##   11 | 00001111112223444444566778899
##   12 | 000000000011111122222222223333334445555566666667889
##   13 | 0001112234444667
##   14 | 15
##   15 | 000000000000001111111111111111112222223333444555677888899
##   16 | 03459
##   17 | 000000011123446
##   18 | 035
##   19 | 
##   20 | 001111111223344556678
##   21 | 047888
##   22 | 0889
##   23 | 2
##   24 | 00
##   25 | 1588
##   26 | 4
##   27 | 
##   28 | 
##   29 | 
##   30 | 
##   31 | 
##   32 | 
##   33 | 
##   34 | 
##   35 | 
##   36 | 
##   37 | 
##   38 | 
##   39 | 
##   40 | 0

Diagrama de Caja

#Diagrama de caja
boxplot(quilate, id=list(method="y"),col= "pink",horizontal = TRUE, main="Diagrama de caja")

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 0.80705 y esta representada por la linea verde en el grafico de densidad"
## [1] "la mediana es: 0.71 y esta representada por la linea azul en el grafico de densidad"
## [1] "la moda es: 0.31 y esta representada por la linea verde oscura en el grafico de densidad"

## [1] "el rango de los quilates es de: 3.77"
## [1] "la varianza de los quilates es de: 0.2388023998999"
## [1] "la desviacion estandar es: 0.488674124442762"
## [1] "el coeficiente de variacion es: 60.5506628390759"

Asimetría, Curtosis y Cuartiles

#Asimetria, curtosis y cuartiles
kurtosis(quilate)
## [1] 5.408061
skewness(quilate)
## [1] 1.274956
numSummary(quilate, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##     mean        sd  IQR        cv skewness kurtosis 25%  50%  75%    n
##  0.80705 0.4886741 0.64 0.6055066 1.276872 2.426169 0.4 0.71 1.04 1000
#Cuartiles
quantile(quilate)
##   0%  25%  50%  75% 100% 
## 0.23 0.40 0.71 1.04 4.00

4. Corte

En primer lugar, se utilizó la función table() para crear una tabla de frecuencias de la variable “corte” en el conjunto de datos muestra1. Luego, se convirtió esta tabla en un data frame utilizando la función as.data.frame().

Luego se generaron dos gráficos diferentes utilizando la librería ggplot2. El primer gráfico es una gráfica de torta que muestra la proporción de cada tipo de corte de diamante en la muestra. Cada sector de la torta representa un tipo de corte y su tamaño es proporcional a la frecuencia relativa de ese tipo de corte en la muestra. Se utilizó la función coord_polar() para convertir la gráfica en una gráfica polar para que parezca una torta.

El segundo gráfico es una gráfica de barras o histograma que muestra la frecuencia de cada tipo de corte de diamante en la muestra. Cada barra representa un tipo de corte y su altura es igual a la frecuencia de ese tipo de corte en la muestra. Además, se agregó una etiqueta para cada barra que muestra el porcentaje correspondiente de cada tipo de corte en la muestra.

Podemos ver que el tipo de corte “Ideal” es el más frecuente en la muestra, seguido del tipo “Premium”. También podemos observar que la gráfica de barras es más fácil de interpretar que la gráfica de torta, ya que las barras son más fáciles de comparar que los sectores de una torta. Sin embargo, ambas gráficas muestran la misma información en términos de la proporción y frecuencia de cada tipo de corte de diamante en la muestra.

En base a los porcentajes que se pueden evidenciar en las graficas y considerando que se trata de un análisis para datos cualitativos, podemos hacer algunas observaciones sobre la distribución de los tipos de corte de diamante en “muestra1”:

  • El tipo de corte más frecuente en la muestra es el corte “Ideal”, que representa el 40% de los diamantes. Esto sugiere que el mercado para diamantes en la muestra podría estar demandando principalmente diamantes con este tipo de corte.

  • Los tipos de corte “Premium” y “Muy bueno” también son bastante frecuentes, con 24% y 22% respectivamente. Esto sugiere que estos tipos de corte también son bastante populares en el mercado de diamantes.

  • Los tipos de corte “Bueno” y “Regular” son los menos frecuentes en la muestra, con solo el 10% y 3% respectivamente. Esto sugiere que estos tipos de corte pueden no ser tan populares en el mercado de diamantes o pueden estar asociados con diamantes de menor calidad.

El gráfico a continuación es de las clasificaciones del corte de los diamantes, para entender un poco sobre ella es importante decir que un corte simétricamente realizado en el diamante permite que pueda captar toda la luz que entra en él y refractarla hacia afuera, produciendo los destellos y un mayor brillo (dándole más valor), y al contrario uno mal realizado disminuye su valor, y el corte se clasifica en regular, bueno, muy bueno, premium, ideal.

ggplot(muestra1, aes(x = corte, y = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(y='Precio') + theme_grey() + scale_y_continuous(breaks = seq(0, 20000, by = 2500))

Lo que podemos ver en la gráfica anterior es que para el tercer cuartil el que tiene el mayor valor es en la clasificación de corte Premium, lo cual sugiere que en general esta clasificación es la que tiene diamantes de mejor valor, además de que al regresar a pensar en la gráfica de boxplot de la claridad donde la mejor clasificación no tenía los mejores precio(los más altos) podemos pensar que éstos podrían tener cortes regulares que como vemos en la actual gráfica es una variable que influye bastante en el precio y algo que también podemos ver como una generalidad es que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) en cada clasificación observando el segundo cuartil (la mediana), así teniendo en cuenta que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) y que existen varios valores atípicos y valores máximos altos se podría esperar que tenga una alta curtosis.

5. Color

En primer lugar, se utilizó la función table() para crear una tabla de frecuencias de la variable “color” en el conjunto de datos muestra1. Luego, se convirtió esta tabla en un data frame utilizando la función as.data.frame().

Luego se generaron dos gráficos diferentes utilizando la librería ggplot2. El primer gráfico es una gráfica de torta que muestra la proporción de cada tipo de color de diamante en la muestra. Cada sector de la torta representa un tipo de color y su tamaño es proporcional a la frecuencia relativa de ese tipo de color en la muestra. Se utilizó la función coord_polar() para convertir la gráfica en una gráfica polar para que parezca una torta.

El segundo gráfico es una gráfica de barras o histograma que muestra la frecuencia de cada tipo de color de diamante en la muestra. Cada barra representa un tipo de color y su altura es igual a la frecuencia de ese tipo de color en la muestra. Además, se agregó una etiqueta para cada barra que muestra el porcentaje correspondiente de cada tipo de color en la muestra.

Podemos ver que el tipo de color “G” es el más frecuente en la muestra, seguido del tipo “E” y “F”. También podemos observar que la gráfica de barras es más fácil de interpretar que la gráfica de torta, ya que las barras son más fáciles de comparar que los sectores de una torta. Sin embargo, ambas gráficas muestran la misma información en términos de la proporción y frecuencia de cada tipo de color de diamante en la muestra.

En base a los porcentajes que se pueden evidenciar en las gráficas y considerando que se trata de un análisis para datos cualitativos, podemos hacer algunas observaciones sobre la distribución de los tipos de color de diamante en “muestra1”:

  • El tipo de color más frecuente en la muestra es el color G, que representa el 20% de los diamantes. Esto sugiere que el mercado para diamantes en la muestra podría estar demandando principalmente diamantes con este tipo de color.

  • Los tipos de color E y F también son bastante frecuentes, con 18% y 17% respectivamente. Esto sugiere que estos tipos de color también son bastante populares en el mercado de diamantes.

  • Los tipos de color D y H tienen una frecuencia similar, con 12% y 15% respectivamente. Esto sugiere que estos tipos de color también son demandados en el mercado de diamantes, pero no tanto como los tipos de color G, E y F.

  • El tipo de color I tiene una frecuencia del 11% en la muestra, lo que sugiere que este tipo de color puede ser menos demandado en el mercado de diamantes.

  • El tipo de color J es el menos frecuente en la muestra, con solo el 6%. Esto sugiere que este tipo de color puede no ser muy popular en el mercado de diamantes o puede estar asociado con diamantes de menor calidad.

En general, podemos concluir que los tipos de color G, E y F son los más populares en el mercado de diamantes, mientras que los tipos de color I y J son menos populares. El tipo de color D y H también son populares, pero no tanto como los tipos de color G, E y F. Esta información puede ser útil para los minoristas de diamantes al tomar decisiones sobre qué tipos de diamantes ofrecer en su inventario.

El gráfico a continuación es de las clasificaciones del color de los diamantes la identificación de su color donde D (mejor), E, F son los mejores ya que son aquellos que no tienen color y G, H, I, J (peor), que son los más cercanos a los que no tienen color siguen siendo buenos pero de menor calidad, y las variaciones de sus precios visualizadas por medio de un boxplot.

ggplot(muestra1, aes(x = color, y = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(y='Precio') + theme_grey() + scale_y_continuous(breaks = seq(0, 20000, by = 2500))

Lo que podemos ver en la gráfica anterior es que para el tercer cuartil el que tiene el mayor valor es en la clasificación de color I, lo cual sugiere que en general esta clasificación es la que tiene diamantes de mejor valor aunque el G también tiene un tercer cuartil alto, además teniendo en cuenta que I no es tan bueno como G es posible que los de color I tengan características en las demás variables que los favorezcan, pero aún así el G tiene más valores atípicos altos, teniendo en cuenta que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) y que existen varios valores atípicos y valores máximos altos se podría esperar que tenga una alta curtosis.

6. Claridad

Para analizar la claridad de los diamantes cabe destacar que:

  • I1 (peor): representa diamantes con imperfecciones visibles a simple vista. Son los diamantes de menor calidad en cuanto a claridad.

  • SI1, SI2: estos niveles representan diamantes con imperfecciones visibles a 10 aumentos. Los diamantes SI1 tienen menos imperfecciones que los SI2.

  • VS1, VS2: estos niveles representan diamantes con imperfecciones muy pequeñas y apenas visibles a 10 aumentos. Los diamantes VS1 tienen menos imperfecciones que los VS2.

  • VVS1, VVS2: estos niveles representan diamantes con imperfecciones extremadamente pequeñas y difíciles de ver incluso con 10 aumentos.

  • IF (mejor): representa diamantes sin imperfecciones visibles, incluso bajo un microscopio de 10 aumentos. Son los diamantes de mayor calidad en cuanto a claridad.

La gráfica de torta puede ser útil para comparar las proporciones de cada categoría en un conjunto de datos, pero no es la mejor opción para este caso ya que puede ser difícil comparar visualmente.En cambio, la gráfica de barras muestra cada porcentaje como una barra vertical que se extiende desde el eje horizontal, permitiendo comparar fácilmente los tamaños de las barras y, por lo tanto, los porcentajes.

se puede observar que la mayoría de los diamantes en la muestra se encuentran en los niveles de claridad VS2 (24%) y SI1 (23%), seguidos de cerca por SI2 (18%) y VS1 (14%). Esto sugiere que la mayoría de los diamantes en la muestra no son de la más alta calidad (VVS1 y VVS2) ni la más baja calidad (I1), sino que se encuentran en niveles intermedios de claridad. El porcentaje de diamantes de la mejor calidad (IF) es bastante bajo, solo un 3%, lo que es consistente con el hecho de que estos diamantes son relativamente raros y costosos.

El gráfico a continuación es de las clasificaciones de la claridad de los diamantes la cual es la medida de que tan claro es el diamante teniendo en cuenta el tipo de inclusiones que tenga ya sean blancas,puntos negros, burbujas y demás, su clasificación es la siguiente I1 (peor), SI1, SI2, VS1, VS2, VVS1, VVS2, IF (mejor), y las variaciones de sus precios visualizadas por medio de un boxplot.

library(moments)
ggplot(muestra1, aes(x = claridad, y = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(y='Precio') + theme_grey() + scale_y_continuous(breaks = seq(0, 20000, by = 2500))

Lo que podemos ver en la gráfica anterior es que para el tercer cuartil que es el límite superior de la caja el que tiene el mayor valor es la claridad de VS1, lo cual sugiere que en general esta clasificación es la que tiene diamantes de mejor valor (aunque hay que tener en cuenta las demás variables que pueden influir en el valor) siendo la cuarta mejor clasificación, y algo que también podemos ver como una generalidad es que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) en cada clasificación observando el segundo cuartil (la mediana), teniendo en cuenta que existe una asimetría positiva y que existen varios valores atípicos y valores máximos altos se podría esperar que tenga una alta curtosis.

Por otro lado algo que podríamos apreciar es que en general la mejor clasificación de claridad la cual es IF no tiene los mejores precios, sino por el contrario precios más bajos, por lo tanto podríamos pensar que los diamantes que tienen esta clasificación tan buena pueden tener peores clasificaciones o valores (en el caso del peso que está en quilates) en las demás variables como su peso, ya que al ser tan valiosos puede que sus pesos por unidad no sean tan grandes, o puede que su corte sea precario, además para analizar ésto se tendrían que ver 5 varibles a la vez en un gráfico

7. Profundidad

Tabla de frecuencia

##     Class limits   f   rf rf(%)   cf cf(%)
##  [54.549,56.164)   2 0.00   0.2    2   0.2
##  [56.164,57.779)   5 0.00   0.5    7   0.7
##  [57.779,59.395)  38 0.04   3.8   45   4.5
##   [59.395,61.01) 164 0.16  16.4  209  20.9
##   [61.01,62.625) 568 0.57  56.8  777  77.7
##   [62.625,64.24) 189 0.19  18.9  966  96.6
##   [64.24,65.855)  29 0.03   2.9  995  99.5
##   [65.855,67.47)   3 0.00   0.3  998  99.8
##   [67.47,69.086)   1 0.00   0.1  999  99.9
##  [69.086,70.701)   0 0.00   0.0  999  99.9
##  [70.701,72.316)   1 0.00   0.1 1000 100.0

Diagrama de Barras e Histograma

# Diagrama de barras

ggplot(muestra1,aes(x=profundidad)) + geom_bar(fill = "cadetblue") + labs(title = "diagrama de barras de profundidad", x = "profundidad", y = "frecuencia")

# histograma

ggplot(muestra1, aes(x=profundidad))+ geom_histogram(color = "black",bg="cadetblue",bins = 100) + labs(title = "Histograma de la profundidad", x="Profundidad", y="Frecuencia")

Diagrama de Tallo y Hojas

El diagrama de tallos y hojas muestra que la distribución de la profundidad en la variable profundidad es aproximadamente simétrica, con una concentración de valores alrededor de 61.0 a 63.0. También se puede observar que hay algunos valores extremos en la parte superior del rango de profundidad, lo que indica que algunos diamantes en la muestra1 son relativamente profundos

#Diagrama de tallo y hojas
stem(muestra1$profundidad, scale = 2)
## 
##   The decimal point is at the |
## 
##   55 | 13
##   55 | 
##   56 | 2
##   56 | 9
##   57 | 123
##   57 | 899
##   58 | 01233
##   58 | 5557778888999
##   59 | 0011122222223333344444
##   59 | 5566667777778888899999999
##   60 | 00000000111111111111111112222223333333333333444444
##   60 | 55555555555555666666666677777777777777788888888888888888999999999999
##   61 | 00000000000000011111111111111111111111111111112222222222222222222222+47
##   61 | 55555555555555555555555555555555555666666666666666666666666666666666+129
##   62 | 00000000000000000000000000000000000000000000000000111111111111111111+114
##   62 | 55555555555555555555555566666666666666666666666666666777777777777777+29
##   63 | 00000000000000000000011111111111111111122222233333333333333444444444
##   63 | 55555566666666666777777777778888888888899999999
##   64 | 0000001122233333
##   64 | 556667778
##   65 | 22223444
##   65 | 5567888
##   66 | 44
##   66 | 8
##   67 | 
##   67 | 7
##   68 | 
##   68 | 
##   69 | 
##   69 | 
##   70 | 
##   70 | 
##   71 | 
##   71 | 6

Diagrama de Caja

#Diagrama de caja
boxplot(profundidad, id=list(method="y"),col= "cadetblue",horizontal = TRUE, main="Diagrama de caja")

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 61.8488 y esta representada por la linea negra en el grafico de densidad"
## [1] "la mediana es: 61.9 y esta representada por la linea rojo en el grafico de densidad"
## [1] "la moda es: 61.9 y esta representada por la linea naranja en el grafico de densidad"

## [1] "en este caso la moda y la mediana tienen el mism valor."
## [1] "el rango de la profundidad es de: 16.5"
## [1] "la varianza de la profundidad es de: 1.95199055055055"
## [1] "la desviacion estandar es: 1.39713655400986"
## [1] "el coeficiente de variacion es: 2.25895499025019"

Asimetría, Curtosis y Cuartiles

#Asimetria, curtosis y cuartiles
kurtosis(profundidad)
## [1] 7.396755
skewness(profundidad)
## [1] 0.02966616
numSummary(profundidad, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##     mean       sd IQR         cv   skewness kurtosis  25%  50%  75%    n
##  61.8488 1.397137 1.4 0.02258955 0.02971074 4.424842 61.2 61.9 62.6 1000
#Cuartiles
quantile(profundidad)
##   0%  25%  50%  75% 100% 
## 55.1 61.2 61.9 62.6 71.6

8. Tabla

Tabla de frecuencia

# tabla de frecuencia 
tdfp8 <- fdt(tabla);tdfp8
##     Class limits   f   rf rf(%)   cf cf(%)
##   [51.48,53.044)  13 0.01   1.3   13   1.3
##  [53.044,54.607)  44 0.04   4.4   57   5.7
##  [54.607,56.171) 306 0.31  30.6  363  36.3
##  [56.171,57.735) 178 0.18  17.8  541  54.1
##  [57.735,59.298) 284 0.28  28.4  825  82.5
##  [59.298,60.862)  82 0.08   8.2  907  90.7
##  [60.862,62.425)  66 0.07   6.6  973  97.3
##  [62.425,63.989)  14 0.01   1.4  987  98.7
##  [63.989,65.553)   8 0.01   0.8  995  99.5
##  [65.553,67.116)   4 0.00   0.4  999  99.9
##   [67.116,68.68)   1 0.00   0.1 1000 100.0

Diagrama de Barras e Histograma

# Diagrama de barras

ggplot(muestra1,aes(x=tabla)) + geom_bar(fill = "brown") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")

# histograma

ggplot(muestra1, aes(x=tabla))+ geom_histogram(color = "black",bg="brown",bins = 30) + labs(title = "Histograma de tabla de los diamantes", x="Tabla", y="Frecuencia")

Diagrama de Tallo y Hojas

El diagrama de tallos y hojas muestra tiene una forma bimodal, con dos concentraciones de valores alrededor de 54.0 y 58.0. Esto indica que hay dos grupos de diamantes en la muestra1, con diferentes tamaños de tabla. También se puede observar que hay algunos valores extremos en la parte superior del rango de tabla, lo que indica que algunos diamantes en la muestra1 tienen una tabla relativamente grande.

#Diagrama de tallo y hojas
stem(muestra1$tabla, scale = 2)
## 
##   The decimal point is at the |
## 
##   52 | 0
##   52 | 
##   53 | 000000000000
##   53 | 
##   54 | 000000000000000000000000000000000000000024
##   54 | 55
##   55 | 00000000000000000000000000000000000000000000000000000000000000000000+36
##   55 | 8
##   56 | 00000000000000000000000000000000000000000000000000000000000000000000+110
##   56 | 6
##   57 | 00000000000000000000000000000000000000000000000000000000000000000000+95
##   57 | 68
##   58 | 00000000000000000000000000000000000000000000000000000000000000000000+86
##   58 | 
##   59 | 00000000000000000000000000000000000000000000000000000000000000000000+37
##   59 | 
##   60 | 00000000000000000000000000000000000000000000000000000000000000000000+2
##   60 | 
##   61 | 0000000000000000000000000000000000000000002
##   61 | 
##   62 | 00000000000000000000000
##   62 | 
##   63 | 00000000000003
##   63 | 
##   64 | 0000000
##   64 | 
##   65 | 0
##   65 | 
##   66 | 000
##   66 | 
##   67 | 0
##   67 | 
##   68 | 0

Diagrama de Caja

#Diagrama de caja

boxplot(tabla, id=list(method="y"),col= "brown",horizontal = TRUE, main="Diagrama de caja")

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 57.519 y esta representada por la linea amarilla en el grafico de densidad"
## [1] "la mediana es: 57 y esta representada por la linea color marfil en el grafico de densidad"
## [1] "la moda es: 56 y esta representada por la linea naranja en el grafico de densidad"

## [1] "el rango de la tabla es de: 16"
## [1] "la varianza de la tabla es de: 5.01319219219219"
## [1] "la desviacion estandar es: 2.2390158981553"
## [1] "el coeficiente de variacion es: 3.89265442402563"

Asimetría, Curtosis y Cuartiles

#Asimetria, curtosis y cuartiles
kurtosis(tabla)
## [1] 4.045469
skewness(tabla)
## [1] 0.746404
numSummary(tabla, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##    mean       sd IQR         cv  skewness kurtosis 25% 50% 75%    n
##  57.519 2.239016   3 0.03892654 0.7475257 1.056739  56  57  59 1000
#Cuartiles
quantile(tabla)
##   0%  25%  50%  75% 100% 
##   52   56   57   59   68

9. X

Tabla de frecuencia

# tabla de frecuencia 
tdfp9 <- fdt(x);tdfp9
##     Class limits   f   rf rf(%)   cf cf(%)
##  [3.8115,4.3841) 121 0.12  12.1  121  12.1
##  [4.3841,4.9567) 200 0.20  20.0  321  32.1
##  [4.9567,5.5293) 130 0.13  13.0  451  45.1
##  [5.5293,6.1019) 146 0.15  14.6  597  59.7
##  [6.1019,6.6745) 192 0.19  19.2  789  78.9
##  [6.6745,7.2471)  98 0.10   9.8  887  88.7
##  [7.2471,7.8197)  70 0.07   7.0  957  95.7
##  [7.8197,8.3923)  29 0.03   2.9  986  98.6
##  [8.3923,8.9649)  12 0.01   1.2  998  99.8
##  [8.9649,9.5375)   1 0.00   0.1  999  99.9
##   [9.5375,10.11)   1 0.00   0.1 1000 100.0

Diagrama de Barras e histograma

# Diagrama de barras e histograma

ggplot(muestra1,aes(x=x)) + geom_bar(fill = "darkseagreen1") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")

# histograma

ggplot(muestra1, aes(x=x))+ geom_histogram(color = "black",bg="darkseagreen1",bins = 50) + labs(title = "Histograma de largo en milimetros", x="Largo", y="Frecuencia")

Diagrama de Tallo y Hojas

#Diagrama de tallo y hojas
stem(muestra1$x, scale = 2)
## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    38 | 550235899
##    40 | 01444469003678
##    42 | 00014455666777788888888999900001111122222233333333444444444444445555+24
##    44 | 00000001111122222222223333344444444555555667777788899999999000000111+14
##    46 | 00112233444456677788888990001111112223444455555566667777777788888889
##    48 | 0001111222344456678902222234456788
##    50 | 0223335566888899990000122222233444444455555566666777778899999
##    52 | 00111222333334444444588899990011112222334455666777899
##    54 | 0011147777993345566788999
##    56 | 00112223333334444555666777778889990000111112222222333334455666666777
##    58 | 0011223455556777778899001224466799
##    60 | 0111122335555677789900001111222333333444455566777789999
##    62 | 0011223334455567880001112222233344555666666777788889999999999
##    64 | 00000111112222333344455566666777778888899999900000111111112223333444+1
##    66 | 000111134455566667788888899900011223344666789999
##    68 | 001111122334444445566666688999990112234666689
##    70 | 00113467778994679
##    72 | 0001122557788888899901112223344456777899999
##    74 | 1345567789033444555788
##    76 | 123456672669
##    78 | 2911477
##    80 | 144679014788
##    82 | 0023456177
##    84 | 1223798
##    86 | 265
##    88 | 48
##    90 | 8
##    92 | 
##    94 | 
##    96 | 
##    98 | 
##   100 | 1

Diagrama de Caja

#Diagrama de caja

boxplot(x, id=list(method="y"),col= "darkseagreen1",horizontal = TRUE, main="Diagrama de caja")

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 5.74286 y esta representada por la linea turquesa en el grafico de densidad"
## [1] "la mediana es: 5.7 y esta representada por la linea color salmon en el grafico de densidad"
## [1] "la moda es: 4.34 y esta representada por la linea cafe en el grafico de densidad"

## [1] "el rango de x es de: 6.16"
## [1] "la varianza de x es de: 1.2788748952953"
## [1] "la desviacion estandar es: 1.13087350985656"
## [1] "el coeficiente de variacion es: 19.6918174891354"

Asimetría, Curtosis y Cuartiles

#Asimetria, curtosis y cuartiles
kurtosis(x)
## [1] 2.455848
skewness(x)
## [1] 0.4320225
numSummary(x, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##     mean       sd    IQR        cv  skewness   kurtosis  25% 50%    75%    n
##  5.74286 1.130874 1.8125 0.1969182 0.4326717 -0.5408583 4.71 5.7 6.5225 1000
#Cuartiles
quantile(x)
##      0%     25%     50%     75%    100% 
##  3.8500  4.7100  5.7000  6.5225 10.0100

10. Y

Tabla de frecuencia

##     Class limits   f   rf rf(%)   cf cf(%)
##   [3.861,4.4227) 146 0.15  14.6  146  14.6
##  [4.4227,4.9843) 178 0.18  17.8  324  32.4
##   [4.9843,5.546) 132 0.13  13.2  456  45.6
##   [5.546,6.1077) 139 0.14  13.9  595  59.5
##  [6.1077,6.6694) 194 0.19  19.4  789  78.9
##   [6.6694,7.231) 101 0.10  10.1  890  89.0
##   [7.231,7.7927)  68 0.07   6.8  958  95.8
##  [7.7927,8.3544)  31 0.03   3.1  989  98.9
##  [8.3544,8.9161)   9 0.01   0.9  998  99.8
##  [8.9161,9.4777)   1 0.00   0.1  999  99.9
##  [9.4777,10.039)   1 0.00   0.1 1000 100.0

Diagrama de Barras e histograma

# Diagrama de barras e histograma

ggplot(muestra1,aes(x=y)) + geom_bar(fill = "darkgoldenrod1") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")

# histograma

ggplot(muestra1, aes(x=y)) + geom_histogram(color = "black",bg="darkgoldenrod1",bins = 50) + labs(title = "Histograma de ancho en milimetros", x="Ancho", y="Frecuencia")

Diagrama de Tallo y Hojas

#Diagrama de tallo y hojas

stem(muestra1$y, scale = 2)
## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   38 | 0225589
##   40 | 02223467782236678
##   42 | 11333356678888899999999900000001111111111222333333334444445555555666+21
##   44 | 00000000011111222222233333444444555556666666666777777777788889900011+7
##   46 | 00000111222333445677788889990011112222223334444455555566677777888889
##   48 | 0000000001111223334455666778888045777889
##   50 | 02224466778899999991112233344555666777777777888899999
##   52 | 000000111222333344444556667777778888899112333333334444556668999
##   54 | 03447900011223455689
##   56 | 01222233344444556666666777788888990000000011122233344455555666666777
##   58 | 000222222233444455667779901233333467788899
##   60 | 111225667888999000222345555555666667777788899
##   62 | 00000001112233334455566677778890000112233333444445555555556668888888
##   64 | 00111112223344444455555556677777888899999990011111223333333445555555
##   66 | 0112222344445556777788899000012223444455667999
##   68 | 00001123334444444445677788888990111222345667788
##   70 | 012344567015667889
##   72 | 01113344555555677889900122222444469999
##   74 | 02455578011123446799
##   76 | 0001226678801269
##   78 | 60499
##   80 | 0123556888135567799
##   82 | 61124456
##   84 | 5017
##   86 | 169
##   88 | 3
##   90 | 1
##   92 | 
##   94 | 
##   96 | 
##   98 | 4

Diagrama de Caja

#Diagrama de caja
boxplot(y, id=list(method="y"),col= "darkgoldenrod1",horizontal = TRUE, main="Diagrama de caja")

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 5.7433 y esta representada por la linea gris en el grafico de densidad"
## [1] "la mediana es: 5.7 y esta representada por la linea color azul en el grafico de densidad"
## [1] "la moda es: 4.38 y esta representada por la linea verde en el grafico de densidad"

## [1] "el rango de y es de: 6.04"
## [1] "la varianza de y es de: 1.25995586586587"
## [1] "la desviacion estandar es: 1.1224775569542"
## [1] "el coeficiente de variacion es: 19.544121967409"

Asimetría, Curtosis y Cuartiles

#Asimetria, curtosis y cuartiles
kurtosis(y)
## [1] 2.435862
skewness(y)
## [1] 0.4218266
numSummary(y, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##    mean       sd  IQR        cv  skewness   kurtosis  25% 50%  75%    n
##  5.7433 1.122478 1.81 0.1954412 0.4224606 -0.5609448 4.72 5.7 6.53 1000
#Cuartiles
quantile(y)
##   0%  25%  50%  75% 100% 
## 3.90 4.72 5.70 6.53 9.94

11. Z

Tabla de frecuencia

# tabla de frecuencia 
tdfp11 <- fdt(z);tdfp11
##   Class limits   f   rf rf(%)   cf cf(%)
##  [2.356,2.721) 137 0.14  13.7  137  13.7
##  [2.721,3.087) 189 0.19  18.9  326  32.6
##  [3.087,3.452) 135 0.14  13.5  461  46.1
##  [3.452,3.817) 138 0.14  13.8  599  59.9
##  [3.817,4.182) 211 0.21  21.1  810  81.0
##  [4.182,4.547)  87 0.09   8.7  897  89.7
##  [4.547,4.912)  64 0.06   6.4  961  96.1
##  [4.912,5.278)  34 0.03   3.4  995  99.5
##  [5.278,5.643)   4 0.00   0.4  999  99.9
##  [5.643,6.008)   0 0.00   0.0  999  99.9
##  [6.008,6.373)   1 0.00   0.1 1000 100.0

Diagrama de Barras e histograma

# Diagrama de barras

ggplot(muestra1,aes(x=z)) + geom_bar(fill = "darkolivegreen1") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")

# histograma

ggplot(muestra1, aes(x=z)) + geom_histogram(color = "black",bg="darkolivegreen1",bins = 50) + labs(title = "Histograma de profundidad en milimetros", x="Profundo", y="Frecuencia")

Diagrama de Tallo y Hojas

#Diagrama de tallo y hojas
stem(muestra1$z, scale = 2)
## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   23 | 89
##   24 | 022346888
##   25 | 00022256667788
##   26 | 00111223333333444555555666666666667777777777777888888888899999999999
##   27 | 00000000000000011111111111111122222222222333333333344444444444444455+21
##   28 | 000001111112222233333334444455555556666667777788999
##   29 | 0000000111222222333333344444444455555555566666677777788889
##   30 | 001111122223355667889999
##   31 | 0112222344444556666666677777778888888899999999
##   32 | 0000000011111112222233333334444445555555555666677888888999999
##   33 | 0002344555566667788
##   34 | 001236777888889999
##   35 | 00000111222222233333444444444445555555555555566667777777888888888899
##   36 | 00000111124445556667778889
##   37 | 0002244445555566778899
##   38 | 01111122233333333334455555555666667777777778888889999999
##   39 | 00000011111111222223333444445555556666777777888888899
##   40 | 00000111111111122222222222233333333333344444444555555556666777777778
##   41 | 0001122233334445556666667788999
##   42 | 0001122333333334444444444555556667777778889999
##   43 | 001223345566677899
##   44 | 00155669
##   45 | 001112223444556666777778888999
##   46 | 0000000111222233444445556789
##   47 | 0011134556679
##   48 | 01489
##   49 | 22446789
##   50 | 11234555677889
##   51 | 12688
##   52 | 0125567
##   53 | 3
##   54 | 9
##   55 | 27
##   56 | 
##   57 | 
##   58 | 
##   59 | 
##   60 | 
##   61 | 
##   62 | 
##   63 | 1

Diagrama de Caja

#Diagrama de caja
boxplot(z, id=list(method="y"),col= "darkolivegreen1",horizontal = TRUE, main="Diagrama de caja")

Densidad, Tendencia central, Variabilidad

## [1] "la media es: 3.55259 y esta representada por la linea gris en el grafico de densidad"
## [1] "la mediana es: 3.54 y esta representada por la linea color azul en el grafico de densidad"
## [1] "la moda es: 2.7 y esta representada por la linea verde en el grafico de densidad"

## [1] "el rango de z es de: 3.93"
## [1] "la varianza de z es de: 0.495752544444444"
## [1] "la desviacion estandar es: 0.704096970909863"
## [1] "el coeficiente de variacion es: 19.8192578065542"

Asimetría, Curtosis y Cuartiles

#Asimetria, curtosis y cuartiles
kurtosis(z)
## [1] 2.411232
skewness(z)
## [1] 0.417627
numSummary(z, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
           quantiles= c(.25,.5,.75),type = "2")
##     mean       sd  IQR        cv  skewness   kurtosis 25%  50%  75%    n
##  3.55259 0.704097 1.15 0.1981926 0.4182547 -0.5856979 2.9 3.54 4.05 1000
#Cuartiles
quantile(z)
##   0%  25%  50%  75% 100% 
## 2.38 2.90 3.54 4.05 6.31

12. conclusiones

  • Las medidas de posición son estadísticas descriptivas que se utilizan para describir la ubicación de los datos en una distribución. Son valores numéricos que indican dónde se encuentra un punto o grupo de puntos en relación con el resto de los datos, entre ellas se encuentran los cuantiles que tienen distinto tipos como los cuartiles,deciles y percentiles, con la diferencia de que cada uno divide en distinto número de partes un conjunto de datos ordenado de menor a mayor.

  • Los cuartiles son cuantiles que dividen los datos en 4 partes iguales de manera que son tres cuartiles, donde el primer cuartil (Q1) divide los datos en el 25% inferior y el 75% superior, el segundo cuartil (Q2) es equivalente a la mediana y divide los datos en dos partes iguales (50% cada una), y el tercer cuartil (Q3) divide los datos en el 75% inferior y el 25% superior, por lo cual sirven como un método para analizar si en dos categoría distintas de un mismo tema una es mayor o menor en general respecto a la otra por medio de comparar los mismos cuartiles, por ejemplo el análiss que se hicieron a la claridad, el colo y el corte donde podíamos ver qué categoría en cada tema era mayor o menor en general, además nos permite darnos cuenta de la distribución de los datos dentro de cierto valores, su variabilidad y los valores atípicos que el conjunto pueda tener.

  • En general existen varios valores atípicos para el precio en la muestra, que dependiendo de nuestros intereses podría favorecernos pues si se compraran por ejemplo por lotes (la muestra) los diamantes y no particularmente uno a uno, entonces nos favorecería comprar lotes de éstos diamante donde podríamos llegar a encontrar varios diamantes que muestran precios consistentes con tendencia a tener varios de mayor valor que pueden representar ganancias una vez se vendan uno a uno.