ANÁLISIS DE LA BASE DE DATOS DIAMANTES

En el presente informe se presenta un análisis de la base de datos diamantes a partir de los conceptos vistos en clase y el uso de la herramienta R. La base de datos diamantes está disponible con la librería ggplot con el fin de ser objeto de análisis y estudio y contiene 53940 registros de diferentes diamantes, los diamantes son las piedras preciosas mas valoradas del mundo gracias a su belleza y brillo, lo que a su vez obedece a su composición química de carbono. Los atributos disponibles para cada diamante son quilates, corte, color, claridad, profundidad, precio y sus dimensiones, por lo que para cada uno de estos atributos se presentarán las estadísticas descriptivas fundamentales junto con gráficos que nos permitirán hacer una caracterización a partir de una muestra de 1000 diamantes, para finalmente extraer algunas conclusiones sobre los resultados obtenidos.

QUILATES

Los quilates de un diamante indican el peso de este y cada quilate equivale a 0,20 gramos. A continuación se muestran estadísticas y gráficos descriptivos para esta característica junto con los comandos en r para obtenerlos, partiendo de que ya se instalaron las librerías correspondientes para el uso de estos y el uso de la base:

library(ggplot2)
library(datos)
diamantes
set.seed(2105) 
datos.d <- data.frame(diamantes)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
View(muestra1)

A continuación se calculan las estadísticas descriptivas del campo quilates:

media_quilates <- mean(muestra1$carat)
media_profundidad
tabla_frecuencias <- table(muestra1$carat)
dato_mas_comun_quilates <- names(which.max(tabla_frecuencias))
dato_mas_comun_quilates
mediana_quilates<- median(muestra1$carat)
varianza_quilates <- var(muestra1$carat)
varianza_quilates
rango_quilates<- range (muestra1$carat)          
rango_quilates
de_quilates<-sd(muestra1$carat)
de_quilates
cv_quilates <- (de_quilates / media_quilates)*100
cv_quilates
hist(muestra1$carat,main = "Histograma de quilates por diamante", xlab = "Quilates", ylab = "Frecuencia", col = "steelblue")
library(modeest)
## Warning: package 'modeest' was built under R version 4.2.3
library(ggplot2)
library(datos)
## Warning: package 'datos' was built under R version 4.2.3
diamantes
set.seed(2105) # dentro del paréntesis escriba el último número de la cédula de cada integrante del grupo.
datos.d <- data.frame(diamantes)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
#Con base en la base de datos muestra1 realice el análisis
View(muestra1)

Curso, color y clarity

#Analisis de color El color se refiere al tinte natural inherente en los diamantes blancos. La mayoría de los diamantes blancos tienen un tono ligero de color amarillo. Mientras más “incoloro” sea, un diamante es más raro. El estándar de la industria para la clasificación de color es evaluar cada piedra preciosa frente a un “conjunto maestro” y asignar una clasificación que va de la letra “D” (incoloro) hasta la “Z” (amarillo claro).

En esta base de datos encontraremos unicamente una clasificacion de diamantes desde D hasta J De los cuales “D”, “E” y “F,” son incoloros y “G”, “H”, “I” y “J” se clasifican como “casi sin color”.

Tcolor<-table(muestra1$color)

Tcolor <- #Tabla de la variable “color” #Diagrama de torta

pie(Tcolor, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371"))

#Grafica de barras

barplot(Tcolor, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371"))

#Frecuencias

Tcolor
## 
##   D   E   F   G   H   I   J 
## 124 180 193 225 150  85  43
fabsColor <-Tcolor
frelColor <-fabsColor/length(muestra1$color)
fabsacumColor <-cumsum(fabsColor)
frelacumColor <-cumsum(frelColor)

#Tabla de frecuencias

Tabla_de_frecuencias_de_color = cbind(fabsColor, frelColor, fabsacumColor, frelacumColor)
Tabla_de_frecuencias_de_color
##   fabsColor frelColor fabsacumColor frelacumColor
## D       124     0.124           124         0.124
## E       180     0.180           304         0.304
## F       193     0.193           497         0.497
## G       225     0.225           722         0.722
## H       150     0.150           872         0.872
## I        85     0.085           957         0.957
## J        43     0.043          1000         1.000

#Analisis de claridad

La claridad es una medida de pureza y rareza del diamante clasificada por la visibilidad de estas características bajo una amplificación de 10x. Una piedra se clasifica como impecable si, bajo una amplificación de 10x, no tiene inclusiones (imperfecciones internas) y no hay manchas visibles (imperfecciones externas).

Segun su prfeccion los diameantes tienen asignado un grado de calidad.

IF:El diamante tiene perfeccion interna VVS1 VVS2: El diamante tiene inclusiones(imperfecciones) muy muy ligeras VS1 VS2: El diamante tiene inclusiones(imperfecciones) muy ligeras SI1 SI2: El diamante tiene inclusiones(imperfecciones) ligeras I1: El diamante es imperfecto

Tclaridad<-table(muestra1$claridad)

Tclaridad <- #Tabla de la variable “claridad” #Diagrama de torta

pie(Tclaridad, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371", "#8B008B"))

#Diagrama de barras

barplot(Tclaridad, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371", "#8B008B"))

#Frecuencias

Tclaridad
## 
##   I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF 
##   11  158  280  203  156   88   75   29
fabsClaridad <-Tclaridad
frelClaridad <-fabsClaridad/length(muestra1$claridad)
fabsacumClaridad <-cumsum(fabsClaridad)
frelacumClaridad <-cumsum(frelClaridad)

#Tabla de frecuencias

Tabla_de_frecuencias_de_claridad = cbind(fabsClaridad, frelClaridad, fabsacumClaridad, frelacumClaridad)
Tabla_de_frecuencias_de_claridad
##      fabsClaridad frelClaridad fabsacumClaridad frelacumClaridad
## I1             11        0.011               11            0.011
## SI2           158        0.158              169            0.169
## SI1           280        0.280              449            0.449
## VS2           203        0.203              652            0.652
## VS1           156        0.156              808            0.808
## VVS2           88        0.088              896            0.896
## VVS1           75        0.075              971            0.971
## IF             29        0.029             1000            1.000

#Analisis de corte

Se refiere a la manera en que las facetas del diamante interactúan con la luz. La simetría, las dimensiones y el pulido lo determinan. Más que cualquier otro factor, el corte determina la belleza de la piedra.

Clasificaciones: (“Regular”, “bueno”, “muy bueno”, “premium” e “ideal”)

Tcorte<-table(muestra1$corte)

Tcorte <- #Tabla de la variable “corte” #Diagrama de corte

pie(Tcorte, col=c("#EEE8AA", "#FFEFD5", "#8B4513", "#F4A460", "#F5F5F5"))

#Diagrama de barras

barplot(Tcorte, col=c("#EEE8AA", "#FFEFD5", "#8B4513", "#F4A460", "#F5F5F5"))

#Frecuencias

Tcorte
## 
##   Regular     Bueno Muy bueno   Premium     Ideal 
##        30        80       201       280       409
fabsCorte <-Tcorte
frelCorte <-fabsCorte/length(muestra1$corte)
fabsacumCorte <-cumsum(fabsCorte)
frelacumCorte <-cumsum(frelCorte)

#Tabla de frecuencias

Tabla_de_frecuencias_de_corte = cbind(fabsCorte, frelCorte, fabsacumCorte, frelacumCorte)
Tabla_de_frecuencias_de_corte
##           fabsCorte frelCorte fabsacumCorte frelacumCorte
## Regular          30     0.030            30         0.030
## Bueno            80     0.080           110         0.110
## Muy bueno       201     0.201           311         0.311
## Premium         280     0.280           591         0.591
## Ideal           409     0.409          1000         1.000

Profundidad en porcentaje

Aqui se tiene en cuenta la profundidad del diamante en porcentaje

as.data.frame(table(muestra1$profundidad))
Tablefrecuenciadeprof<-as.data.frame(table(muestra1$profundidad))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))
#medidas descriptivas 
media_profundidad <- mean(muestra1$profundidad)
media_profundidad
## [1] 61.6978
tabla_frecuencias <- table(muestra1$profundidad)
dato_mas_comunprof <- names(which.max(tabla_frecuencias))
dato_mas_comunprof
## [1] "62"
mediana_profundidad<- median(muestra1$profundidad)
varianza_profundidad <- var(muestra1$profundidad)
varianza_profundidad
## [1] 2.00506
rango_profundidad<- range (muestra1$profundidad)          
rango_profundidad
## [1] 55.9 68.9
deprof<-sd(muestra1$profundidad)
deprof
## [1] 1.416001
cv_profundidad <- (deprof / media_profundidad)*100
cv_profundidad
## [1] 2.29506
#gráficos
hist(muestra1$profundidad,main = "Histograma de Profundidad", xlab = "Valores de Profundidad", ylab = "Frecuencia", col = "steelblue")

boxplot(muestra1$profundidad, 
        main = "Diagrama de caja para la profundidad ", 
        xlab = "Diamante", 
        ylab = "Profundidad")

library(ggplot2)

ggplot(muestra1, aes(y = profundidad)) +
  geom_boxplot(fill = "steelblue", color = "violet", alpha = 0.8) +
  labs(title = "Diagrama de caja para la profundidad", y = "prof") +
  theme_classic()

plot(muestra1$profundidad, 
     main = "Diagrama de dispersión para la profundidad ", 
     xlab = "Diamante", 
     ylab = "profundidad")

library(ggplot2)

ggplot(muestra1, aes(x = profundidad, y = tabla)) + 
  geom_point(color = "darkgreen") +
  labs(title = "Diagrama de dispersión", x = "Profundidad", y = "Tabla") +
  theme_classic()

#tallo y hojas
stem(muestra1$profundidad)
## 
##   The decimal point is at the |
## 
##   55 | 9
##   56 | 3689
##   57 | 1244455677
##   58 | 00013344455666688889999999
##   59 | 011222223333333444455555566666777778888888888899999999999
##   60 | 00000000111111111222222222222222222333333333334444444444444444455555+66
##   61 | 00000000000000001111111111111111111112222222222222222222222222222333+214
##   62 | 00000000000000000000000000000000000000000000111111111111111111111111+260
##   63 | 00000000000000011111111111111112222222223333333334444444444444455555+11
##   64 | 00011233355667999
##   65 | 0124799
##   66 | 079
##   67 | 7
##   68 | 359

Tabla

Ancho de la parte superior del diamante con relación a su punto más ancho

as.data.frame(table(muestra1$tabla))
Tablefrecuenciadetabla<-as.data.frame(table(muestra1$tabla))
transform(Tablefrecuenciadetabla,frecuenciaAc=cumsum(Tablefrecuenciadetabla$Freq),frecuenciarel=round(prop.table(Tablefrecuenciadetabla$Freq),3),freqrelAc=round(cumsum(prop.table(Tablefrecuenciadetabla$Freq)),3))
#medidas descriptivas 
media_tabla <- mean(muestra1$tabla)
media_tabla
## [1] 57.5099
tabla_frecuenciastab <- table(muestra1$tabla)
dato_mas_comuntab <- names(which.max(tabla_frecuenciastab))
dato_mas_comuntab
## [1] "56"
mediana_tabla<- median(muestra1$tabla)
varianza_tabla <- var(muestra1$tabla)
varianza_tabla 
## [1] 5.179391
rango_tabla<- range (muestra1$tabla)          
rango_tabla
## [1] 51 70
detabla<-sd(muestra1$tabla)
detabla
## [1] 2.275828
cv_tabla <- (detabla / media_tabla)*100
cv_tabla
## [1] 3.95728
#gráficos
hist(muestra1$tabla,main = "Histograma de tabla", xlab = "Diamond", ylab = "Table", col = "pink")

boxplot(muestra1$tabla, 
        main = "Diagrama de caja para la tabla ", 
        xlab = "Profundidad", 
        ylab = "Valores")

library(ggplot2)

ggplot(muestra1, aes(y = tabla)) +
  geom_boxplot(fill = "red", color = "purple", alpha = 0.8) +
  labs(title = "Diagrama de caja para la profundidad", y = "tabla") +
  theme_classic()

plot(muestra1$tabla, 
     main = "Diagrama de dispersión para la profundidad ", 
     xlab = "Diamante", 
     ylab = "tabla")

library(ggplot2)

ggplot(muestra1, aes(x = profundidad, y = tabla)) + 
  geom_point(color = "darkgreen") +
  labs(title = "Diagrama de dispersión", x = "Profundidad", y = "Tabla") +
  theme_classic()

#tallo y hojas
stem(muestra1$tabla)
## 
##   The decimal point is at the |
## 
##   51 | 0
##   52 | 00
##   53 | 000000149
##   54 | 000000000000000000000000000000000000000000000000224678
##   55 | 00000000000000000000000000000000000000000000000000000000000000000000+30
##   56 | 00000000000000000000000000000000000000000000000000000000000000000000+112
##   57 | 00000000000000000000000000000000000000000000000000000000000000000000+98
##   58 | 00000000000000000000000000000000000000000000000000000000000000000000+78
##   59 | 00000000000000000000000000000000000000000000000000000000000000000000+47
##   60 | 000000000000000000000000000000000000000000000000000000000000000045
##   61 | 000000000000000000000000000000000000000000000000000
##   62 | 0000000000000000000000000000
##   63 | 0000000000000
##   64 | 000000
##   65 | 
##   66 | 0
##   67 | 00
##   68 | 0
##   69 | 
##   70 | 0

Precio

Precio en dólares americanos ($326-$18,823)

as.data.frame(table(muestra1$precio))
Tablefrecuenciadeprecio<-as.data.frame(table(muestra1$precio))
transform(Tablefrecuenciadeprecio,frecuenciaAc=cumsum(Tablefrecuenciadeprecio$Freq),frecuenciarel=round(prop.table(Tablefrecuenciadeprecio$Freq),3),freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprecio$Freq)),3))
#medidas descriptivas 
media_precio <- mean(muestra1$precio)
media_precio
## [1] 3895.148
tabla_frecuenciasprecio <- table(muestra1$precio)
dato_mas_comunprecio <- names(which.max(tabla_frecuenciasprecio))
dato_mas_comunprecio
## [1] "680"
mediana_precio<- median(muestra1$precio)
varianza_precio<- var(muestra1$precio)
varianza_precio
## [1] 15467935
rango_precio<- range (muestra1$precio)          
rango_precio
## [1]   326 18487
deprecio<-sd(muestra1$precio)
deprecio
## [1] 3932.93
cv_precio <- (deprecio / media_precio)*100
cv_precio
## [1] 100.97
#gráficos
hist(muestra1$precio,main = "Histograma de Precio", xlab = "Diamond", ylab = "Precio", col = "yellow")

boxplot(muestra1$precio, 
        main = "Diagrama de caja para el precio ", 
        xlab = "Diamante", 
        ylab = "Precio")

library(ggplot2)

ggplot(muestra1, aes(y = precio)) +
  geom_boxplot(fill = "steelblue", color = "violet", alpha = 0.8) +
  labs(title = "Diagrama de caja para la precio", y = "prof") +
  theme_classic()

plot(muestra1$profundidad, 
     main = "Diagrama de dispersión para el precio", 
     xlab = "Diamante", 
     ylab = "precio")

library(ggplot2)

ggplot(muestra1, aes(x = precio, y = tabla)) + 
  geom_point(color = "darkgreen") +
  labs(title = "Diagrama de dispersión", x = "Precio", y = "Tabla") +
  theme_classic()

#tallo y hojas
stem(muestra1$precio)
## 
##   The decimal point is 3 digit(s) to the right of the |
## 
##    0 | 34444444444444555555555555555555555555555555566666666666666666666666+160
##    1 | 00000000000000000000000000000000000000000001111111111111111111111111+115
##    2 | 00000000000000111111111112222222222222233333333334444444444444444555+34
##    3 | 00000000001111111112222233333333334444455555555555566666666677777777+4
##    4 | 00000000011111122222222333333333444444455555555566666666667777777777+17
##    5 | 00000001111111111111222222222222333333333444555555566677778888888999
##    6 | 00000011111112333333445555666777799999
##    7 | 011111222223333455556667777788888999
##    8 | 0111223344466677889
##    9 | 000112466778999
##   10 | 00234446777778
##   11 | 00222223455678889
##   12 | 12233445677
##   13 | 223467789
##   14 | 22566799
##   15 | 356778899
##   16 | 222444688
##   17 | 011255889
##   18 | 000245

Longitud

Graficos

Tallo y hojas

stem(muestra1$x) #largo
## 
##   The decimal point is at the |
## 
##   0 | 0
##   0 | 
##   1 | 
##   1 | 
##   2 | 
##   2 | 
##   3 | 
##   3 | 99
##   4 | 00000000001111112222222223333333333333333333333333333333333333333333+76
##   4 | 55555555555555555555555555555555555555666666666666666666666666666666+85
##   5 | 00000000011111111111111111111111111111111112222222222222222222222222+46
##   5 | 55555555555555555666666666666667777777777777777777777777777777777777+56
##   6 | 00000000000011111111111111111112222222222222222222222233333333333333+47
##   6 | 55555555555555555555555555555555555555555555555666666666666666666666+77
##   7 | 000000000000011111111122222222333333333333344444444444444
##   7 | 555555555555555566666667777777888889999
##   8 | 00001111122222222333334444444
##   8 | 5668
##   9 | 
##   9 | 9

Histograma de longitud

px <- mean(muestra1$x) 
mx <- median(muestra1$x) 
vx <- mfv(muestra1$x) 
titulo <- "Histograma de longitud"
subtitulo <- paste("Media=",px, " Mediana = ",mx, " Moda=",vx)
ggplot(data = muestra1, mapping = aes(x=x)) +
  geom_histogram(bins=30) + ggtitle(titulo, subtitle = subtitulo) + xlab('Valores') + ylab('Frecuencia') +
  geom_vline(aes(xintercept = px,color = "media"), linetype = "dashed", size = 1)  +
  geom_vline(aes(xintercept = mx,color = "mediana"),linetype = "dashed", size = 1) +
  geom_vline(aes(xintercept = vx,color = "moda"), linetype = "dashed", size = 1) 
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

###Diagrama de caja de longitud

# Box plot
ggplot(muestra1, aes(x = "Diamantes", y = x)) + 
  geom_boxplot() +
  geom_jitter() 

Medidas desriptivas

Tendencia central

#medidas descriptivas
px <- mean(muestra1$x) 
px #Promedio
## [1] 5.71874
mx <- median(muestra1$x) 
mx #Mediana
## [1] 5.705
vx <- mfv(muestra1$x) 
vx #Varianza 
## [1] 4.37

Variabilidad

Rango

rx <- range(muestra1$x)
rx #rango de longitud
## [1] 0.00 9.86

Varianza

vvx <- var(muestra1$x)
vvx #varianza de la longitud
## [1] 1.254234

Desviacion estandar

dx <- sd(muestra1$x)
dx #densivacion estandar de la longitud
## [1] 1.119926

Coeficiente de variacion

cvx <- (dx / px)*100
cvx #coeficiente de varianza de la longitud
## [1] 19.58344

Tabla de frecuencias

as.data.frame(table(muestra1$x))
Tablefrecuenciadeprof<-as.data.frame(table(muestra1$x))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),
          frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),
          freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))

Ancho

Graficos

Tallo y hojas

stem(muestra1$y) #largo
## 
##   The decimal point is at the |
## 
##   0 | 0
##   0 | 
##   1 | 
##   1 | 
##   2 | 
##   2 | 
##   3 | 
##   3 | 8
##   4 | 00000000001111222222223333333333333333333333333333333333333333333333+74
##   4 | 55555555555555555555555555555555555555555666666666666666666666666666+89
##   5 | 00000000000111111111111111111111111111111111222222222222222222222222+44
##   5 | 55555555555555566666666666666666677777777777777777777777777777777788+55
##   6 | 00000000000000001111111111111122222222222222222222222222222233333333+60
##   6 | 55555555555555555555555555555555555556666666666666666666666666666666+67
##   7 | 00000000000011111111222222222222333333333333333444444444444
##   7 | 5555555555555666666667777777788899999
##   8 | 0011111111222222233333334444
##   8 | 5567
##   9 | 
##   9 | 8

Histograma de ancho

py <- mean(muestra1$y) 
my <- median(muestra1$y) 
vy <- mfv(muestra1$y) 
titulo <- "Histograma del ancho"
subtitulo <- paste("Media=",py, " Mediana = ",my, " Moda=",vy)
ggplot(data = muestra1, mapping = aes(x=y)) +
  geom_histogram(bins=30) + ggtitle(titulo, subtitle = subtitulo) + xlab('Valores') + ylab('Frecuencia') +
  geom_vline(aes(xintercept = py,color = "media"), linetype = "dashed", size = 1)  +
  geom_vline(aes(xintercept = my,color = "mediana"), linetype = "dashed", size = 1) +
  geom_vline(aes(xintercept = vy, color = "moda"), linetype = "dashed", size = 1) 

###Diagrama de caja del ancho

# Box plot
ggplot(muestra1, aes(x = "Diamantes", y = y)) + 
  geom_boxplot() +
  geom_jitter() 

Medidas desriptivas

Tendencia central

py <- mean(muestra1$y) 
py #Promedio de anchura
## [1] 5.71725
my <- median(muestra1$y) 
my #Mediana de anchura
## [1] 5.7
vy <- mfv(muestra1$y) 
vy #Varianza de anchura
## [1] 4.34

Variabilidad

Rango

ry <- range(muestra1$y)
ry #rango de ancho
## [1] 0.00 9.81

Varianza

vvy <- var(muestra1$y)
vvy #varianza del ancho
## [1] 1.236402

Desviacion estandar

dy <- sd(muestra1$y)
dy #desvacion estandar del ancho
## [1] 1.111936

Coeficiente de variacion

cvy <- (dy / py)*100
cvy #coeficiente de varianza del ancho
## [1] 19.44879

Tabla de frecuencias

as.data.frame(table(muestra1$y))
Tablefrecuenciadeprof<-as.data.frame(table(muestra1$y))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),
          frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),
          freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))

Profundidad

Graficos

Tallo y hojas

stem(muestra1$z) #largo
## 
##   The decimal point is at the |
## 
##   0 | 0
##   0 | 
##   1 | 
##   1 | 
##   2 | 3444444
##   2 | 55555555666666666666666666666677777777777777777777777777777777777777+192
##   3 | 00000000000000000000000000000000000000000011111111111111111111222222+117
##   3 | 55555555555555555555555555555555555555555555556666666666666666666666+122
##   4 | 00000000000000000000000000000000000000000000000000000000000000000000+139
##   4 | 55555555555555555555556666666666666666666666666666777777777888888999
##   5 | 00000000001111111111111122222333
##   5 | 5
##   6 | 1

Histograma de profundidad

pz <- mean(muestra1$z) 
mz <- median(muestra1$z) 
vz <- mfv(muestra1$z) 
titulo <- "Histograma de la profundidad"
subtitulo <- paste("Media=",pz, " Mediana = ",mz, " Moda=",vz)
ggplot(data = muestra1, mapping = aes(x=z)) +
  geom_histogram(bins=30) + ggtitle(titulo, subtitle = subtitulo) + xlab('Valores') + ylab('Frecuencia') +
  geom_vline(aes(xintercept = pz,color = "media"), linetype = "dashed", size = 1)  +
  geom_vline(aes(xintercept = mz,color = "mediana"), linetype = "dashed", size = 1) +
  geom_vline(aes(xintercept = vz, color = "moda"), linetype = "dashed", size = 1) 

###Diagrama de caja de la profundidad

# Box plot
ggplot(muestra1, aes(x = "Diamantes", y = z)) + 
  geom_boxplot() +
  geom_jitter() 

Medidas desriptivas

Tendencia central

pz <- mean(muestra1$z) 
pz #Promedio de profundidad
## [1] 3.52697
mz <- median(muestra1$z) 
mz #Mediana de profundidad
## [1] 3.51
vz <- mfv(muestra1$z) 
vz #Varianza de profundidad
## [1] 2.72

Variabilidad

Rango

rz <- range(muestra1$z)
rz #rango de profundidad
## [1] 0.00 6.13

Varianza

vvz <- var(muestra1$z)
vvz #varianza de la profundidad
## [1] 0.4742117

Desviacion estandar

dz <- sd(muestra1$z)
dz #densivacion estandar de la profundidad
## [1] 0.6886303

Coeficiente de variacion

cvz <- (dz / pz)*100
cvz #coeficiente de varianza de la profundidad
## [1] 19.5247

Tabla de frecuencias

as.data.frame(table(muestra1$z))
Tablefrecuenciadeprof<-as.data.frame(table(muestra1$z))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),
          frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),
          freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))

Conclusiones

Después de haber calculado las estadísticas descriptivas y haber gráfico los principales diagramas para cada característica. Podemos extraer las siguientes conclusiones: Alrededor de la mitad de los diamantes analizados son diamantes incoloros ya que pertenecen a las categorías D,E,F del atributo color. En cuanto a claridad se observa que es muy pequeña la porción de diamantes que no presentan imperfecciones, es decir, la gran mayoría de piedras entran en categorías que denotan imperfecciones. En cuanto al corte la muestra tiene una gran parte de diamantes con corte muy bueno o superior, es decir que si los segmentos regular, bueno, muy bueno, premium e ideal están en orden de calidad tenemos que el 89% de la muestra tiene un muy buen corte. En cuanto a profundidad se observa en el histograma que la mayoría de los diamantes entran en los intervalos de 58 a 62, que es el rango de profundidad considerado como excelente. Respecto al precio encontramos que en promedio un diamante cuesta 3895 dólares, siendo lo más común encontrar diamantes de 680 dólares, a partir del histograma de esta variable encontramos que su distribución está centrada a la izquierda, es decir, que las mayoría de clases e intervalos corresponden a diamantes con precios menores a 6000 dólares aproximadamente.

```