En el presente informe se presenta un análisis de la base de datos diamantes a partir de los conceptos vistos en clase y el uso de la herramienta R. La base de datos diamantes está disponible con la librería ggplot con el fin de ser objeto de análisis y estudio y contiene 53940 registros de diferentes diamantes, los diamantes son las piedras preciosas mas valoradas del mundo gracias a su belleza y brillo, lo que a su vez obedece a su composición química de carbono. Los atributos disponibles para cada diamante son quilates, corte, color, claridad, profundidad, precio y sus dimensiones, por lo que para cada uno de estos atributos se presentarán las estadísticas descriptivas fundamentales junto con gráficos que nos permitirán hacer una caracterización a partir de una muestra de 1000 diamantes, para finalmente extraer algunas conclusiones sobre los resultados obtenidos.
Los quilates de un diamante indican el peso de este y cada quilate equivale a 0,20 gramos. A continuación se muestran estadísticas y gráficos descriptivos para esta característica junto con los comandos en r para obtenerlos, partiendo de que ya se instalaron las librerías correspondientes para el uso de estos y el uso de la base:
library(ggplot2)
library(datos)
diamantes
set.seed(2105)
datos.d <- data.frame(diamantes)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
View(muestra1)
A continuación se calculan las estadísticas descriptivas del campo quilates:
media_quilates <- mean(muestra1$carat)
media_profundidad
tabla_frecuencias <- table(muestra1$carat)
dato_mas_comun_quilates <- names(which.max(tabla_frecuencias))
dato_mas_comun_quilates
mediana_quilates<- median(muestra1$carat)
varianza_quilates <- var(muestra1$carat)
varianza_quilates
rango_quilates<- range (muestra1$carat)
rango_quilates
de_quilates<-sd(muestra1$carat)
de_quilates
cv_quilates <- (de_quilates / media_quilates)*100
cv_quilates
hist(muestra1$carat,main = "Histograma de quilates por diamante", xlab = "Quilates", ylab = "Frecuencia", col = "steelblue")
library(modeest)## Warning: package 'modeest' was built under R version 4.2.3
library(ggplot2)
library(datos)## Warning: package 'datos' was built under R version 4.2.3
diamantesset.seed(2105) # dentro del paréntesis escriba el último número de la cédula de cada integrante del grupo.
datos.d <- data.frame(diamantes)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
#Con base en la base de datos muestra1 realice el análisis
View(muestra1)#Analisis de color El color se refiere al tinte natural inherente en los diamantes blancos. La mayoría de los diamantes blancos tienen un tono ligero de color amarillo. Mientras más “incoloro” sea, un diamante es más raro. El estándar de la industria para la clasificación de color es evaluar cada piedra preciosa frente a un “conjunto maestro” y asignar una clasificación que va de la letra “D” (incoloro) hasta la “Z” (amarillo claro).
En esta base de datos encontraremos unicamente una clasificacion de diamantes desde D hasta J De los cuales “D”, “E” y “F,” son incoloros y “G”, “H”, “I” y “J” se clasifican como “casi sin color”.
Tcolor<-table(muestra1$color)Tcolor <- #Tabla de la variable “color” #Diagrama de torta
pie(Tcolor, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371"))
#Grafica de barras
barplot(Tcolor, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371"))
#Frecuencias
Tcolor##
## D E F G H I J
## 124 180 193 225 150 85 43
fabsColor <-Tcolor
frelColor <-fabsColor/length(muestra1$color)
fabsacumColor <-cumsum(fabsColor)
frelacumColor <-cumsum(frelColor)#Tabla de frecuencias
Tabla_de_frecuencias_de_color = cbind(fabsColor, frelColor, fabsacumColor, frelacumColor)
Tabla_de_frecuencias_de_color## fabsColor frelColor fabsacumColor frelacumColor
## D 124 0.124 124 0.124
## E 180 0.180 304 0.304
## F 193 0.193 497 0.497
## G 225 0.225 722 0.722
## H 150 0.150 872 0.872
## I 85 0.085 957 0.957
## J 43 0.043 1000 1.000
#Analisis de claridad
La claridad es una medida de pureza y rareza del diamante clasificada por la visibilidad de estas características bajo una amplificación de 10x. Una piedra se clasifica como impecable si, bajo una amplificación de 10x, no tiene inclusiones (imperfecciones internas) y no hay manchas visibles (imperfecciones externas).
Segun su prfeccion los diameantes tienen asignado un grado de calidad.
IF:El diamante tiene perfeccion interna VVS1 VVS2: El diamante tiene inclusiones(imperfecciones) muy muy ligeras VS1 VS2: El diamante tiene inclusiones(imperfecciones) muy ligeras SI1 SI2: El diamante tiene inclusiones(imperfecciones) ligeras I1: El diamante es imperfecto
Tclaridad<-table(muestra1$claridad)Tclaridad <- #Tabla de la variable “claridad” #Diagrama de torta
pie(Tclaridad, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371", "#8B008B"))
#Diagrama de barras
barplot(Tclaridad, col=c("#C71585", "#7B68EE", "#191970", "#FAF0E6", "#66CDAA", "#00FA9A", "#3CB371", "#8B008B"))
#Frecuencias
Tclaridad##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 11 158 280 203 156 88 75 29
fabsClaridad <-Tclaridad
frelClaridad <-fabsClaridad/length(muestra1$claridad)
fabsacumClaridad <-cumsum(fabsClaridad)
frelacumClaridad <-cumsum(frelClaridad)#Tabla de frecuencias
Tabla_de_frecuencias_de_claridad = cbind(fabsClaridad, frelClaridad, fabsacumClaridad, frelacumClaridad)
Tabla_de_frecuencias_de_claridad## fabsClaridad frelClaridad fabsacumClaridad frelacumClaridad
## I1 11 0.011 11 0.011
## SI2 158 0.158 169 0.169
## SI1 280 0.280 449 0.449
## VS2 203 0.203 652 0.652
## VS1 156 0.156 808 0.808
## VVS2 88 0.088 896 0.896
## VVS1 75 0.075 971 0.971
## IF 29 0.029 1000 1.000
#Analisis de corte
Se refiere a la manera en que las facetas del diamante interactúan con la luz. La simetría, las dimensiones y el pulido lo determinan. Más que cualquier otro factor, el corte determina la belleza de la piedra.
Clasificaciones: (“Regular”, “bueno”, “muy bueno”, “premium” e “ideal”)
Tcorte<-table(muestra1$corte)Tcorte <- #Tabla de la variable “corte” #Diagrama de corte
pie(Tcorte, col=c("#EEE8AA", "#FFEFD5", "#8B4513", "#F4A460", "#F5F5F5"))
#Diagrama de barras
barplot(Tcorte, col=c("#EEE8AA", "#FFEFD5", "#8B4513", "#F4A460", "#F5F5F5"))
#Frecuencias
Tcorte##
## Regular Bueno Muy bueno Premium Ideal
## 30 80 201 280 409
fabsCorte <-Tcorte
frelCorte <-fabsCorte/length(muestra1$corte)
fabsacumCorte <-cumsum(fabsCorte)
frelacumCorte <-cumsum(frelCorte)#Tabla de frecuencias
Tabla_de_frecuencias_de_corte = cbind(fabsCorte, frelCorte, fabsacumCorte, frelacumCorte)
Tabla_de_frecuencias_de_corte## fabsCorte frelCorte fabsacumCorte frelacumCorte
## Regular 30 0.030 30 0.030
## Bueno 80 0.080 110 0.110
## Muy bueno 201 0.201 311 0.311
## Premium 280 0.280 591 0.591
## Ideal 409 0.409 1000 1.000
Aqui se tiene en cuenta la profundidad del diamante en porcentaje
as.data.frame(table(muestra1$profundidad))Tablefrecuenciadeprof<-as.data.frame(table(muestra1$profundidad))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))#medidas descriptivas
media_profundidad <- mean(muestra1$profundidad)
media_profundidad## [1] 61.6978
tabla_frecuencias <- table(muestra1$profundidad)
dato_mas_comunprof <- names(which.max(tabla_frecuencias))
dato_mas_comunprof## [1] "62"
mediana_profundidad<- median(muestra1$profundidad)
varianza_profundidad <- var(muestra1$profundidad)
varianza_profundidad## [1] 2.00506
rango_profundidad<- range (muestra1$profundidad)
rango_profundidad## [1] 55.9 68.9
deprof<-sd(muestra1$profundidad)
deprof## [1] 1.416001
cv_profundidad <- (deprof / media_profundidad)*100
cv_profundidad## [1] 2.29506
#gráficos
hist(muestra1$profundidad,main = "Histograma de Profundidad", xlab = "Valores de Profundidad", ylab = "Frecuencia", col = "steelblue")boxplot(muestra1$profundidad,
main = "Diagrama de caja para la profundidad ",
xlab = "Diamante",
ylab = "Profundidad")library(ggplot2)
ggplot(muestra1, aes(y = profundidad)) +
geom_boxplot(fill = "steelblue", color = "violet", alpha = 0.8) +
labs(title = "Diagrama de caja para la profundidad", y = "prof") +
theme_classic()plot(muestra1$profundidad,
main = "Diagrama de dispersión para la profundidad ",
xlab = "Diamante",
ylab = "profundidad")library(ggplot2)
ggplot(muestra1, aes(x = profundidad, y = tabla)) +
geom_point(color = "darkgreen") +
labs(title = "Diagrama de dispersión", x = "Profundidad", y = "Tabla") +
theme_classic()#tallo y hojas
stem(muestra1$profundidad)##
## The decimal point is at the |
##
## 55 | 9
## 56 | 3689
## 57 | 1244455677
## 58 | 00013344455666688889999999
## 59 | 011222223333333444455555566666777778888888888899999999999
## 60 | 00000000111111111222222222222222222333333333334444444444444444455555+66
## 61 | 00000000000000001111111111111111111112222222222222222222222222222333+214
## 62 | 00000000000000000000000000000000000000000000111111111111111111111111+260
## 63 | 00000000000000011111111111111112222222223333333334444444444444455555+11
## 64 | 00011233355667999
## 65 | 0124799
## 66 | 079
## 67 | 7
## 68 | 359
Ancho de la parte superior del diamante con relación a su punto más ancho
as.data.frame(table(muestra1$tabla))Tablefrecuenciadetabla<-as.data.frame(table(muestra1$tabla))
transform(Tablefrecuenciadetabla,frecuenciaAc=cumsum(Tablefrecuenciadetabla$Freq),frecuenciarel=round(prop.table(Tablefrecuenciadetabla$Freq),3),freqrelAc=round(cumsum(prop.table(Tablefrecuenciadetabla$Freq)),3))#medidas descriptivas
media_tabla <- mean(muestra1$tabla)
media_tabla## [1] 57.5099
tabla_frecuenciastab <- table(muestra1$tabla)
dato_mas_comuntab <- names(which.max(tabla_frecuenciastab))
dato_mas_comuntab## [1] "56"
mediana_tabla<- median(muestra1$tabla)
varianza_tabla <- var(muestra1$tabla)
varianza_tabla ## [1] 5.179391
rango_tabla<- range (muestra1$tabla)
rango_tabla## [1] 51 70
detabla<-sd(muestra1$tabla)
detabla## [1] 2.275828
cv_tabla <- (detabla / media_tabla)*100
cv_tabla## [1] 3.95728
#gráficos
hist(muestra1$tabla,main = "Histograma de tabla", xlab = "Diamond", ylab = "Table", col = "pink")boxplot(muestra1$tabla,
main = "Diagrama de caja para la tabla ",
xlab = "Profundidad",
ylab = "Valores")library(ggplot2)
ggplot(muestra1, aes(y = tabla)) +
geom_boxplot(fill = "red", color = "purple", alpha = 0.8) +
labs(title = "Diagrama de caja para la profundidad", y = "tabla") +
theme_classic()plot(muestra1$tabla,
main = "Diagrama de dispersión para la profundidad ",
xlab = "Diamante",
ylab = "tabla")library(ggplot2)
ggplot(muestra1, aes(x = profundidad, y = tabla)) +
geom_point(color = "darkgreen") +
labs(title = "Diagrama de dispersión", x = "Profundidad", y = "Tabla") +
theme_classic()#tallo y hojas
stem(muestra1$tabla)##
## The decimal point is at the |
##
## 51 | 0
## 52 | 00
## 53 | 000000149
## 54 | 000000000000000000000000000000000000000000000000224678
## 55 | 00000000000000000000000000000000000000000000000000000000000000000000+30
## 56 | 00000000000000000000000000000000000000000000000000000000000000000000+112
## 57 | 00000000000000000000000000000000000000000000000000000000000000000000+98
## 58 | 00000000000000000000000000000000000000000000000000000000000000000000+78
## 59 | 00000000000000000000000000000000000000000000000000000000000000000000+47
## 60 | 000000000000000000000000000000000000000000000000000000000000000045
## 61 | 000000000000000000000000000000000000000000000000000
## 62 | 0000000000000000000000000000
## 63 | 0000000000000
## 64 | 000000
## 65 |
## 66 | 0
## 67 | 00
## 68 | 0
## 69 |
## 70 | 0
Precio en dólares americanos ($326-$18,823)
as.data.frame(table(muestra1$precio))Tablefrecuenciadeprecio<-as.data.frame(table(muestra1$precio))
transform(Tablefrecuenciadeprecio,frecuenciaAc=cumsum(Tablefrecuenciadeprecio$Freq),frecuenciarel=round(prop.table(Tablefrecuenciadeprecio$Freq),3),freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprecio$Freq)),3))#medidas descriptivas
media_precio <- mean(muestra1$precio)
media_precio## [1] 3895.148
tabla_frecuenciasprecio <- table(muestra1$precio)
dato_mas_comunprecio <- names(which.max(tabla_frecuenciasprecio))
dato_mas_comunprecio## [1] "680"
mediana_precio<- median(muestra1$precio)
varianza_precio<- var(muestra1$precio)
varianza_precio## [1] 15467935
rango_precio<- range (muestra1$precio)
rango_precio## [1] 326 18487
deprecio<-sd(muestra1$precio)
deprecio## [1] 3932.93
cv_precio <- (deprecio / media_precio)*100
cv_precio## [1] 100.97
#gráficos
hist(muestra1$precio,main = "Histograma de Precio", xlab = "Diamond", ylab = "Precio", col = "yellow")boxplot(muestra1$precio,
main = "Diagrama de caja para el precio ",
xlab = "Diamante",
ylab = "Precio")library(ggplot2)
ggplot(muestra1, aes(y = precio)) +
geom_boxplot(fill = "steelblue", color = "violet", alpha = 0.8) +
labs(title = "Diagrama de caja para la precio", y = "prof") +
theme_classic()plot(muestra1$profundidad,
main = "Diagrama de dispersión para el precio",
xlab = "Diamante",
ylab = "precio")library(ggplot2)
ggplot(muestra1, aes(x = precio, y = tabla)) +
geom_point(color = "darkgreen") +
labs(title = "Diagrama de dispersión", x = "Precio", y = "Tabla") +
theme_classic()#tallo y hojas
stem(muestra1$precio)##
## The decimal point is 3 digit(s) to the right of the |
##
## 0 | 34444444444444555555555555555555555555555555566666666666666666666666+160
## 1 | 00000000000000000000000000000000000000000001111111111111111111111111+115
## 2 | 00000000000000111111111112222222222222233333333334444444444444444555+34
## 3 | 00000000001111111112222233333333334444455555555555566666666677777777+4
## 4 | 00000000011111122222222333333333444444455555555566666666667777777777+17
## 5 | 00000001111111111111222222222222333333333444555555566677778888888999
## 6 | 00000011111112333333445555666777799999
## 7 | 011111222223333455556667777788888999
## 8 | 0111223344466677889
## 9 | 000112466778999
## 10 | 00234446777778
## 11 | 00222223455678889
## 12 | 12233445677
## 13 | 223467789
## 14 | 22566799
## 15 | 356778899
## 16 | 222444688
## 17 | 011255889
## 18 | 000245
stem(muestra1$x) #largo##
## The decimal point is at the |
##
## 0 | 0
## 0 |
## 1 |
## 1 |
## 2 |
## 2 |
## 3 |
## 3 | 99
## 4 | 00000000001111112222222223333333333333333333333333333333333333333333+76
## 4 | 55555555555555555555555555555555555555666666666666666666666666666666+85
## 5 | 00000000011111111111111111111111111111111112222222222222222222222222+46
## 5 | 55555555555555555666666666666667777777777777777777777777777777777777+56
## 6 | 00000000000011111111111111111112222222222222222222222233333333333333+47
## 6 | 55555555555555555555555555555555555555555555555666666666666666666666+77
## 7 | 000000000000011111111122222222333333333333344444444444444
## 7 | 555555555555555566666667777777888889999
## 8 | 00001111122222222333334444444
## 8 | 5668
## 9 |
## 9 | 9
px <- mean(muestra1$x)
mx <- median(muestra1$x)
vx <- mfv(muestra1$x)
titulo <- "Histograma de longitud"
subtitulo <- paste("Media=",px, " Mediana = ",mx, " Moda=",vx)
ggplot(data = muestra1, mapping = aes(x=x)) +
geom_histogram(bins=30) + ggtitle(titulo, subtitle = subtitulo) + xlab('Valores') + ylab('Frecuencia') +
geom_vline(aes(xintercept = px,color = "media"), linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = mx,color = "mediana"),linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = vx,color = "moda"), linetype = "dashed", size = 1) ## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
###Diagrama de caja de longitud
# Box plot
ggplot(muestra1, aes(x = "Diamantes", y = x)) +
geom_boxplot() +
geom_jitter() #medidas descriptivas
px <- mean(muestra1$x)
px #Promedio## [1] 5.71874
mx <- median(muestra1$x)
mx #Mediana## [1] 5.705
vx <- mfv(muestra1$x)
vx #Varianza ## [1] 4.37
rx <- range(muestra1$x)
rx #rango de longitud## [1] 0.00 9.86
vvx <- var(muestra1$x)
vvx #varianza de la longitud## [1] 1.254234
dx <- sd(muestra1$x)
dx #densivacion estandar de la longitud## [1] 1.119926
cvx <- (dx / px)*100
cvx #coeficiente de varianza de la longitud## [1] 19.58344
as.data.frame(table(muestra1$x))Tablefrecuenciadeprof<-as.data.frame(table(muestra1$x))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),
frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),
freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))stem(muestra1$y) #largo##
## The decimal point is at the |
##
## 0 | 0
## 0 |
## 1 |
## 1 |
## 2 |
## 2 |
## 3 |
## 3 | 8
## 4 | 00000000001111222222223333333333333333333333333333333333333333333333+74
## 4 | 55555555555555555555555555555555555555555666666666666666666666666666+89
## 5 | 00000000000111111111111111111111111111111111222222222222222222222222+44
## 5 | 55555555555555566666666666666666677777777777777777777777777777777788+55
## 6 | 00000000000000001111111111111122222222222222222222222222222233333333+60
## 6 | 55555555555555555555555555555555555556666666666666666666666666666666+67
## 7 | 00000000000011111111222222222222333333333333333444444444444
## 7 | 5555555555555666666667777777788899999
## 8 | 0011111111222222233333334444
## 8 | 5567
## 9 |
## 9 | 8
py <- mean(muestra1$y)
my <- median(muestra1$y)
vy <- mfv(muestra1$y)
titulo <- "Histograma del ancho"
subtitulo <- paste("Media=",py, " Mediana = ",my, " Moda=",vy)
ggplot(data = muestra1, mapping = aes(x=y)) +
geom_histogram(bins=30) + ggtitle(titulo, subtitle = subtitulo) + xlab('Valores') + ylab('Frecuencia') +
geom_vline(aes(xintercept = py,color = "media"), linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = my,color = "mediana"), linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = vy, color = "moda"), linetype = "dashed", size = 1)
###Diagrama de caja del ancho
# Box plot
ggplot(muestra1, aes(x = "Diamantes", y = y)) +
geom_boxplot() +
geom_jitter() py <- mean(muestra1$y)
py #Promedio de anchura## [1] 5.71725
my <- median(muestra1$y)
my #Mediana de anchura## [1] 5.7
vy <- mfv(muestra1$y)
vy #Varianza de anchura## [1] 4.34
ry <- range(muestra1$y)
ry #rango de ancho## [1] 0.00 9.81
vvy <- var(muestra1$y)
vvy #varianza del ancho## [1] 1.236402
dy <- sd(muestra1$y)
dy #desvacion estandar del ancho## [1] 1.111936
cvy <- (dy / py)*100
cvy #coeficiente de varianza del ancho## [1] 19.44879
as.data.frame(table(muestra1$y))Tablefrecuenciadeprof<-as.data.frame(table(muestra1$y))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),
frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),
freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))stem(muestra1$z) #largo##
## The decimal point is at the |
##
## 0 | 0
## 0 |
## 1 |
## 1 |
## 2 | 3444444
## 2 | 55555555666666666666666666666677777777777777777777777777777777777777+192
## 3 | 00000000000000000000000000000000000000000011111111111111111111222222+117
## 3 | 55555555555555555555555555555555555555555555556666666666666666666666+122
## 4 | 00000000000000000000000000000000000000000000000000000000000000000000+139
## 4 | 55555555555555555555556666666666666666666666666666777777777888888999
## 5 | 00000000001111111111111122222333
## 5 | 5
## 6 | 1
pz <- mean(muestra1$z)
mz <- median(muestra1$z)
vz <- mfv(muestra1$z)
titulo <- "Histograma de la profundidad"
subtitulo <- paste("Media=",pz, " Mediana = ",mz, " Moda=",vz)
ggplot(data = muestra1, mapping = aes(x=z)) +
geom_histogram(bins=30) + ggtitle(titulo, subtitle = subtitulo) + xlab('Valores') + ylab('Frecuencia') +
geom_vline(aes(xintercept = pz,color = "media"), linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = mz,color = "mediana"), linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = vz, color = "moda"), linetype = "dashed", size = 1)
###Diagrama de caja de la profundidad
# Box plot
ggplot(muestra1, aes(x = "Diamantes", y = z)) +
geom_boxplot() +
geom_jitter() pz <- mean(muestra1$z)
pz #Promedio de profundidad## [1] 3.52697
mz <- median(muestra1$z)
mz #Mediana de profundidad## [1] 3.51
vz <- mfv(muestra1$z)
vz #Varianza de profundidad## [1] 2.72
rz <- range(muestra1$z)
rz #rango de profundidad## [1] 0.00 6.13
vvz <- var(muestra1$z)
vvz #varianza de la profundidad## [1] 0.4742117
dz <- sd(muestra1$z)
dz #densivacion estandar de la profundidad## [1] 0.6886303
cvz <- (dz / pz)*100
cvz #coeficiente de varianza de la profundidad## [1] 19.5247
as.data.frame(table(muestra1$z))Tablefrecuenciadeprof<-as.data.frame(table(muestra1$z))
transform(Tablefrecuenciadeprof,frecuenciaAc=cumsum(Tablefrecuenciadeprof$Freq),
frecuenciarel=round(prop.table(Tablefrecuenciadeprof$Freq),3),
freqrelAc=round(cumsum(prop.table(Tablefrecuenciadeprof$Freq)),3))Después de haber calculado las estadísticas descriptivas y haber gráfico los principales diagramas para cada característica. Podemos extraer las siguientes conclusiones: Alrededor de la mitad de los diamantes analizados son diamantes incoloros ya que pertenecen a las categorías D,E,F del atributo color. En cuanto a claridad se observa que es muy pequeña la porción de diamantes que no presentan imperfecciones, es decir, la gran mayoría de piedras entran en categorías que denotan imperfecciones. En cuanto al corte la muestra tiene una gran parte de diamantes con corte muy bueno o superior, es decir que si los segmentos regular, bueno, muy bueno, premium e ideal están en orden de calidad tenemos que el 89% de la muestra tiene un muy buen corte. En cuanto a profundidad se observa en el histograma que la mayoría de los diamantes entran en los intervalos de 58 a 62, que es el rango de profundidad considerado como excelente. Respecto al precio encontramos que en promedio un diamante cuesta 3895 dólares, siendo lo más común encontrar diamantes de 680 dólares, a partir del histograma de esta variable encontramos que su distribución está centrada a la izquierda, es decir, que las mayoría de clases e intervalos corresponden a diamantes con precios menores a 6000 dólares aproximadamente.
```