En el presente se analiza datos proporcionados por la base de datos Diamantes, con el fin de resumir, clasificar y tabular la información; reduciendo así una base de datos bastante amplia de tal manera que sea mas sencillo de analizar. Por consiguiente sera necesario usar las definiciones de variable cualitativa, cuantitativa y las medidas descriptivas vistas en clases de probabilidad y estadistica impartidas por el docente.
Como se mecionó anteriormente se utilizará una muestra de la base de datos “Diamantes”, que será creada aleatroriamente con una semilla establecida a partir del ultimo dijito del documneto de identidad de cada intergrante a participar en este análisis. La muestra se visualizará como una tabla denominada muestra1 y constará de una columna con 1000 diamantes y una fila con 10 variables entre cuantitativas y cualitativas.
#Realizamos la semilla con nuestros ultimos dijitos de los dococumentos de identidad.
set.seed(3848)library(ggplot2)
#Realizamos la semilla con nuestros ultimos dijitos de los doc de id.
set.seed(3848)
datos.d <- data.frame(diamonds)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
muestra1Tabla extraida de la base de datos “Diamonds”, de manera aleatoria segun nuestra semilla
# dist nos brinda una tabla con calculos de la distribución de frecuencias.
# dist = fdt(muestra1,breaks="Sturges") # Calcula la distribucion de frecuencias utilizando la regla Sturge
# dist# carat
# Class limits f rf rf(%) cf cf(%)
# [0.2178,0.6112) 452 0.45 45.2 452 45.2
# [0.6112,1.005) 226 0.23 22.6 678 67.8
# [1.005,1.398) 201 0.20 20.1 879 87.9
# [1.398,1.791) 72 0.07 7.2 951 95.1
# [1.791,2.185) 37 0.04 3.7 988 98.8
# [2.185,2.578) 9 0.01 0.9 997 99.7
# [2.578,2.971) 1 0.00 0.1 998 99.8
# [2.971,3.365) 1 0.00 0.1 999 99.9
# [3.365,3.758) 0 0.00 0.0 999 99.9
# [3.758,4.152) 0 0.00 0.0 999 99.9
# [4.152,4.545) 1 0.00 0.1 1000 100.0
# depth
# Class limits f rf rf(%) cf cf(%)
# [55.44,56.993) 2 0.00 0.2 2 0.2
# [56.993,58.545) 22 0.02 2.2 24 2.4
# [58.545,60.098) 74 0.07 7.4 98 9.8
# [60.098,61.65) 301 0.30 30.1 399 39.9
# [61.65,63.203) 496 0.50 49.6 895 89.5
# [63.203,64.755) 88 0.09 8.8 983 98.3
# [64.755,66.308) 9 0.01 0.9 992 99.2
# [66.308,67.86) 3 0.00 0.3 995 99.5
# [67.86,69.413) 3 0.00 0.3 998 99.8
# [69.413,70.965) 1 0.00 0.1 999 99.9
# [70.965,72.518) 1 0.00 0.1 1000 100.0
# table
# Class limits f rf rf(%) cf cf(%)
# [51.48,52.952) 1 0.00 0.1 1 0.1
# [52.952,54.424) 58 0.06 5.8 59 5.9
# [54.424,55.895) 117 0.12 11.7 176 17.6
# [55.895,57.367) 355 0.36 35.5 531 53.1
# [57.367,58.839) 175 0.17 17.5 706 70.6
# [58.839,60.311) 223 0.22 22.3 929 92.9
# [60.311,61.783) 37 0.04 3.7 966 96.6
# [61.783,63.255) 27 0.03 2.7 993 99.3
# [63.255,64.726) 1 0.00 0.1 994 99.4
# [64.726,66.198) 3 0.00 0.3 997 99.7
# [66.198,67.67) 3 0.00 0.3 1000 100.0
# price
# Class limits f rf rf(%) cf cf(%)
# [333.63,2029.2064) 444 0.44 44.4 444 44.4
# [2029.2064,3724.7827) 160 0.16 16.0 604 60.4
# [3724.7827,5420.3591) 150 0.15 15.0 754 75.4
# [5420.3591,7115.9355) 78 0.08 7.8 832 83.2
# [7115.9355,8811.5118) 42 0.04 4.2 874 87.4
# [8811.5118,10507.088) 32 0.03 3.2 906 90.6
# [10507.088,12202.665) 38 0.04 3.8 944 94.4
# [12202.665,13898.241) 14 0.01 1.4 958 95.8
# [13898.241,15593.817) 15 0.01 1.5 973 97.3
# [15593.817,17289.394) 16 0.02 1.6 989 98.9
# [17289.394,18984.97) 11 0.01 1.1 1000 100.0
# x
# Class limits f rf rf(%) cf cf(%)
# [3.8115,4.4043) 143 0.14 14.3 143 14.3
# [4.4043,4.9971) 195 0.20 19.5 338 33.8
# [4.9971,5.5899) 119 0.12 11.9 457 45.7
# [5.5899,6.1827) 160 0.16 16.0 617 61.7
# [6.1827,6.7755) 211 0.21 21.1 828 82.8
# [6.7755,7.3683) 84 0.08 8.4 912 91.2
# [7.3683,7.9611) 50 0.05 5.0 962 96.2
# [7.9611,8.5539) 34 0.03 3.4 996 99.6
# [8.5539,9.1467) 2 0.00 0.2 998 99.8
# [9.1467,9.7395) 1 0.00 0.1 999 99.9
# [9.7395,10.332) 1 0.00 0.1 1000 100.0
# y
# Class limits f rf rf(%) cf cf(%)
# [3.7422,4.3349) 77 0.08 7.7 77 7.7
# [4.3349,4.9275) 254 0.25 25.4 331 33.1
# [4.9275,5.5202) 125 0.12 12.5 456 45.6
# [5.5202,6.1129) 138 0.14 13.8 594 59.4
# [6.1129,6.7056) 215 0.22 21.5 809 80.9
# [6.7056,7.2982) 89 0.09 8.9 898 89.8
# [7.2982,7.8909) 61 0.06 6.1 959 95.9
# [7.8909,8.4836) 35 0.04 3.5 994 99.4
# [8.4836,9.0763) 4 0.00 0.4 998 99.8
# [9.0763,9.6689) 1 0.00 0.1 999 99.9
# [9.6689,10.262) 1 0.00 0.1 1000 100.0
# z
# Class limits f rf rf(%) cf cf(%)
# [2.376,2.777) 189 0.19 18.9 189 18.9
# [2.777,3.178) 172 0.17 17.2 361 36.1
# [3.178,3.579) 168 0.17 16.8 529 52.9
# [3.579,3.98) 170 0.17 17.0 699 69.9
# [3.98,4.381) 178 0.18 17.8 877 87.7
# [4.381,4.782) 76 0.08 7.6 953 95.3
# [4.782,5.183) 38 0.04 3.8 991 99.1
# [5.183,5.584) 6 0.01 0.6 997 99.7
# [5.584,5.985) 2 0.00 0.2 999 99.9
# [5.985,6.386) 0 0.00 0.0 999 99.9
# [6.386,6.787) 1 0.00 0.1 1000 100.0Donde:
f= frecuencia absoluta, rf= frecuencia relativa, rf(%)= frecuencia relativa porcentual, cf= frecuencia acumulada y cf(%)=frecuencia acumulada porcentual
Def: Es una caracterista de una población o muestra de datos que puede acojerse a distintas variables, usualmente la podemos encontrar de dos tipos; variable cualitativa y Variable cuantitativa.
Bien, para empezar se ha tomado una muestra1 que contiene 1000 diamentes aleatorios de la base de datos “Diamantes” con 10 distintas variables entre cualitativas y cuantitativa.
Def: Hace alución a una cualidad, como bien lo dice el nombre y se expresa en palabras.
Def: En una tabla de frecuencia podemos encontrar información agrupada y ordenada de tal forma que sea efectivo y rapido el analisis de ciertos datos. Por ello, utilizaremos esta gran herramienta para analizar datos cualitativos como, color, corte y claridad.
Ahora bien, para este apartado tenemos una tabla de frecuencia absotuta con una muestra de 1000 diamentes con una variable denominada color que permite variar los diamantes entre 7 distintas tonalidades.
# table (muestra1$color)# Tabla de frecuencia absoluta con relación a la variable color.
# D E F G H I J #Colores de los diamantes, de mejor a peor.
# 133 190 166 221 145 103 42 #Cantidad de diamantes.Esta tabla nos permite observar qué cantidad de diamantes estan clasificados en cada uno de los colores; pudiendo variar entre ellos desde el color D hasta el color J. De esta manera sabemos que para el grupo del color D existen 133 diamantes, para el color E ; 190 diamantes, para el color F ; 66 diamantes, para el color G ; 221 diamantes,para el color H ; 145 diamantes, para el color I ; 103 diamantes y para el color J ; 42 diamantes. Ahora, como D es el color deseado para una esmeralda y J el menos deseado, podemos concluir que esta variable puede influenciar en otras como precio, por lo tanto, se buscaría tener una mayor proporción de diamantes entre los colores D y E para tener una mejor calidad de diamante.
plot(x = muestra1$color, main = "Histograma color de diamante",
xlab = "Color", ylab = "Frecuencia",
col = c("aliceblue", "lightsteelblue1", "lightblue","cadetblue1","paleturquoise3","cadetblue3","lightblue4"))porcentaje=c(13.3,19,16.6,22.1,14.5,10.3,4.2)
etiqueta =paste(porcentaje,"%",sep=" ")
colores=c("aliceblue","lightsteelblue1","lightblue","cadetblue1","paleturquoise3","cadetblue3", "lightblue4")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma porcentual color de diamante")
legend("topright",c("D","E","F","G","H","I","J"),cex=0.9,fill=colores)En esta parte tenemos para estudiar 5 tipos de cortes efectuados a 1000 diamantes. Para esto realizaremos una tabla de frecuencias como en el anterior analisis cualitativo.
# table (muestra1$cut)# Tabla de frecuencia absoluta de la varibale corte.
# Fair Good Very Good Premium Ideal # Cualidades con respecto a los cortes.
# 26 76 227 285 386 # Cantidad de diamantes. Podemos observar en la anterior tabla que a 285 de 1000 diamantes se les realizó un corte premium, a 227 un corte muy bueno, a 76 un corte bueno, a 386 un corte deseable y a 26 diamantes de 1000 un corte regular. Lo que nos permite apreciar que fueron muchos mas los diamanetes bien cortados que los que no se cortaron adecuadamente.
plot(x = muestra1$cut, main = "Histograma color de diamante",
xlab = "Corte", ylab = "Frecuencia",
col = c("#87CEEB", "#00F5FF", "green1","#EEEE00","#FF4500"))porcentaje=c(2.6,7.6,22.7,28.5,38.6)
etiqueta =paste(porcentaje,"%",sep=" ")
colores=c("#87CEEB","#00F5FF","green1","#EEEE00","#FF4500")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma corte de diamante")
legend("topright",c("Fair","Good","Very Good","Premium","Ideal"),cex=0.9,fill=colores)En esta parte tenemos para analizar 8 tipos de claridades con respecto a cada uno de los 1000 diamantes, en este caso las claridades van de peor a mejor. Para esto realizaremos una tabla de frecuencias como en el anterior analisis cualitativo.
# table (muestra1$clarity)# Tabla de frecuencia absoluta de la varibale claridad.
# I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF # Calidades del nivel de claridad.
# 13 167 253 221 130 100 78 38 # Cantidad de diamantes. Podemos observar en la anterior tabla que 13 de 1000 diamantes tienen la peor claridad posible I1, 167 tienen calidad SI2, 253 calidad SI1, 221 ya de claridad media VS2, 130 de VS1, 100 de VVS2, 78 de VVS1 y solo 38 con la calidad másima IF. En este caso la mayoria de los diamantes tuvieron una claridad media y casi ninguno tuvo la peor ni la mejor claridad posible.
colores =c("#FDF5E6","#FFE7BA","#FFE4E1","#90EE90","#54FF9F","#40E0D0","#20B2AA","#B0E0E6")
plot(x = muestra1$clarity, main = "Histograma claridad de diamante",
xlab = "Claridad", ylab = "Frecuencia",
col = colores)colores =c("#FDF5E6","#FFE7BA","#FFE4E1","#90EE90","#54FF9F","#40E0D0","#20B2AA","#B0E0E6")
porcentaje=c(1.3,16.7,25.3,22.1,13,10,7.8,3,8)
etiqueta=paste(porcentaje,"%",sep=" ")
pie(porcentaje,labels= etiqueta ,clockwise = TRUE,col=colores, main = "Histograma porcentual claridad de diamante")
legend("topright",c("l1", "lF", "Sl1", "Sl2", "VS1","VS2","VVS1","VVS2"),title="Niveles de claridad",cex=0.4,fill=colores)Def: Se refiere a una medida cuantitativa y se caracterisa por su expresión númerica.
La variable precio es esencial para tener un punto de referencia contra las demás variables por eso en esta sección se comparará graficamente la variable precio contra las demás variables.
## Class limits f rf rf(%) cf cf(%)
## [0,1000) 261 0.26 26.1 261 26.1
## [1000,2000) 181 0.18 18.1 442 44.2
## [2000,3000) 107 0.11 10.7 549 54.9
## [3000,4000) 73 0.07 7.3 622 62.2
## [4000,5000) 100 0.10 10.0 722 72.2
## [5000,6000) 62 0.06 6.2 784 78.4
## [6000,7000) 46 0.05 4.6 830 83.0
## [7000,8000) 26 0.03 2.6 856 85.6
## [8000,9000) 22 0.02 2.2 878 87.8
## [9000,10000) 17 0.02 1.7 895 89.5
## [10000,11000) 24 0.02 2.4 919 91.9
## [11000,12000) 23 0.02 2.3 942 94.2
## [12000,13000) 5 0.00 0.5 947 94.7
## [13000,14000) 11 0.01 1.1 958 95.8
## [14000,15000) 9 0.01 0.9 967 96.7
## [15000,16000) 9 0.01 0.9 976 97.6
## [16000,17000) 7 0.01 0.7 983 98.3
## [17000,18000) 11 0.01 1.1 994 99.4
## [18000,19000) 6 0.01 0.6 1000 100.0
## [19000,20000) 0 0.00 0.0 1000 100.0
En la anterior gráfica aparte de la frecuencia podemos observar las tres medidas de tendencia central para la variable diamantes, media, mediana y moda, la última solo se pudo aplicar para un intervalo de precios.
Podemos ver que se encuentra una mayor frecuencia de diamantes en los precios mas bajos, por ende la moda se ubica en el intervalo de precios [0,1000)
Se puede apreciar en esta gráfica que un aumento en el quilate conlleva a un aumento en el precio del diamante.
Como se menciona en el título primero se obtuvo un promedio de precio para cada tipo de corte y luego se ubicaron los datos obtenidos en la siguiente gráfica.
splitcorte <- split(muestra1, muestra1$corte)
aci <- mean((splitcorte$Ideal)$precio)
acp <- mean((splitcorte$Premium)$precio)
acmb <- mean((splitcorte$`Muy bueno`)$precio)
acb<- mean((splitcorte$Bueno)$precio)
acr <- mean((splitcorte$Regular)$precio)
vavrpp <- c(aci,acp,acmb,acb,acr)
vcortes <- c("Regular","Bueno","Muy Bueno","Premium","Ideal")
tablacortes <- data.frame(vavrpp,vcortes)
barplot(vavrpp,names.arg = vcortes,ylim=c(0,5000),
col=paletteer_c("ggthemes::Green-Gold", 5)
,xlab="Corte",ylab="Precio promedio")Se aprecia a simple vista una variación no muy alta en el precio promedio para cada tipo de corte, aunque el corte regular tiene un menor precio promedio.
Al igual que en la anterior gráfica primero se obtuvo un promedio de precio para cada color y se graficaron los datos obtenidos.
Es visible un precio promedio mayor para un color de menor calidad, por ende se concluye un mejor color no influye en el aumento del precio de un diamante.
Se repite el proceso de las dos anteriores gráficas para la claridad y el precio.
El precio promedio mas alto es para la claridad mas baja, entonces se concluye que una claridad mejor no influye en la subida de precio del diamante
Al ser las dos variables cuantitativas es posible hacer un análisis gráfico de ellas con una gráfica de puntos.
tablaprof <- data.frame(muestra1$profundidad,muestra1$precio)
tablaprof <- tablaprof %>%
arrange(muestra1$profundidad)
plot(tablaprof,
col=paletteer_c("ggthemes::Orange-Gold", 1000),
xlab="Profundidad",ylab="Precio",ylim=c(0,20000),
xlim=c(55,75),type="p",pch=20)Es notorio que la profundidad no afecta al precio.
Al estar estas 4 variables muy relacionadas entre si es mas efectivo compactar la información en 4 gráficas contenidas en una sola imagen.
par(mfrow=c(2,2))
tablatabla <- data.frame(muestra1$precio,muestra1$tabla)
tablatabla <- tablatabla %>%
arrange(muestra1$precio)
plot(tablatabla,type="p",lwd = 1,pch=20,xlab="Precio",ylab="Tabla",
xlim=c(0,20000),
col=paletteer_c("ggthemes::Red-Green-Gold Diverging", 1000))
#X
tablax <- data.frame(muestra1$precio,muestra1$x)
tablax <- tablax %>%
arrange(muestra1$precio)
plot(tablax,type="p",lwd = 1,pch=20,xlab="Precio",ylab="X",
xlim=c(0,20000),
col=paletteer_c("ggthemes::Sunset-Sunrise Diverging", 1000))
#Y
tablay <- data.frame(muestra1$precio,muestra1$y)
tablay <- tablay %>%
arrange(muestra1$precio)
plot(tablay,type="p",lwd = 1,pch=20,xlab="Precio",ylab="Y",
xlim=c(0,20000),
col=paletteer_c("ggthemes::Temperature Diverging", 1000))
#Z
tablaz <- data.frame(muestra1$precio,muestra1$z)
tablaz <- tablaz %>%
arrange(muestra1$precio)
plot(tablaz,type="p",lwd = 1,pch=20,xlab="Precio",ylab="Z",
xlim=c(0,20000),
col=rev(paletteer_c("grDevices::ag_GrnYl", 1000)))par(mfrow=c(1,1))Los datos de la variable Tabla están muy concentrados con respecto al precio, además es notorio que un aumento en cualquiera de las medidas X,Y,Z implica un aumento en el precio.
En esta parte se verá que tan dispersos se encuentran los datos de la variable precio.
par(mfrow=c(1,2))
f_precio_cuantiles <- fdt(muestra1$precio,start = 0,end=20000,h=500)
plot(f_precio_cuantiles,type="fh",col="#212121",xlim=c(0,20000),
xlab="Intervalos de precio",ylab="Frecuencia",main="Cuartiles")
Q1precio <- quantile(muestra1$precio,0.25)
Q2precio <- quantile(muestra1$precio,0.5)
Q3precio <- quantile(muestra1$precio,0.75)
abline(v = Q1precio, col = "olivedrab4", lwd = 3,lty=2)
abline(v = Q2precio, col = "steelblue4", lwd = 3,lty=2)
abline(v = Q3precio, col="#FFB90F", lwd=3,lty=2)
legend("topright", legend =c(paste("Q1=",Q1precio),
paste("Q2=",Q2precio),
paste("Q3=",Q3precio)),
fill = c("olivedrab4","steelblue4","#FFB90F"), cex = 0.8)
f_precio_cuantiles <- fdt(muestra1$precio,start = 0,end=20000,h=500)
plot(f_precio_cuantiles,type="fh",col="#212121",xlim=c(0,20000),
xlab="Intervalos de precio",ylab="Frecuencia",main="Percentiles")
P10precio <- quantile(muestra1$precio,0.10)
P25precio <- quantile(muestra1$precio,0.25)
P50precio <- quantile(muestra1$precio,0.5)
P75precio <- quantile(muestra1$precio,0.75)
P90precio <- quantile(muestra1$precio,0.9)
abline(v = P10precio, col = "olivedrab4", lwd = 3,lty=2)
abline(v = P25precio, col = "steelblue4", lwd = 3,lty=2)
abline(v = P50precio, col="#FFB90F", lwd=3,lty=2)
abline(v = P75precio, col = "#EE9A49", lwd = 3,lty=2)
abline(v = P90precio, col = "#CD1076", lwd = 3,lty=2)
legend("topright", legend =c(paste("P10=",P10precio),
paste("P25=",P25precio),
paste("P50=",P50precio),
paste("P75=",P75precio),
paste("P90=",P90precio)),
fill = c("olivedrab4","steelblue4","#FFB90F","#EE9A49","#CD1076"), cex = 0.8)par(mfrow=c(1,1))En la gráfica de percentiles es visible la cercanía del percentíl 10 al percentíl 25, además es posible decir que la mitad de los datos de encuentran antes de un precio de 2492$.
Los diagramas de caja son útiles para ver los intervalos donde hay una mayor densidad de datos, mientras que los datos fuera de la caja se les denomina “datos atípicos”.
boxplot(muestra1$precio,
main="Diagrama de caja para precio de los diamantes",
col="#00868B",pars = list(boxwex=0.5),ylim=c(0,20000),pch=19)La variable quilate es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.
## [1] [0,0.5)
## 10 Levels: [0,0.5) [0.5,1) [1,1.5) [1.5,2) [2,2.5) [2.5,3) [3,3.5) ... [4.5,5)
Así como en el precio, en el quilate es visible una mayor frecuencia en los intervalos mas bajos por ello la moda está en el intervalo de quilate [0,0.5), además hay que resaltar que la mediana está muy cerca al promedio.
Se puede concluir que la mitad de datos se encuentran antes de un valor de quilate igual a 0.71
boxplot(muestra1$quilate,
main="Diagrama de caja para quilate de los diamantes",
col="#473C8B",pars = list(boxwex=0.5),ylim=c(0,5),pch=19)## Class limits f rf rf(%) cf cf(%)
## [55.44,56.993) 2 0.00 0.2 2 0.2
## [56.993,58.545) 22 0.02 2.2 24 2.4
## [58.545,60.098) 74 0.07 7.4 98 9.8
## [60.098,61.65) 301 0.30 30.1 399 39.9
## [61.65,63.203) 496 0.50 49.6 895 89.5
## [63.203,64.755) 88 0.09 8.8 983 98.3
## [64.755,66.308) 9 0.01 0.9 992 99.2
## [66.308,67.86) 3 0.00 0.3 995 99.5
## [67.86,69.413) 3 0.00 0.3 998 99.8
## [69.413,70.965) 1 0.00 0.1 999 99.9
## [70.965,72.518) 1 0.00 0.1 1000 100.0
## Class limits f rf rf(%) cf cf(%)
## [55.44,56.993) 2 0.00 0.2 2 0.2
## [56.993,58.545) 22 0.02 2.2 24 2.4
## [58.545,60.098) 74 0.07 7.4 98 9.8
## [60.098,61.65) 301 0.30 30.1 399 39.9
## [61.65,63.203) 496 0.50 49.6 895 89.5
## [63.203,64.755) 88 0.09 8.8 983 98.3
## [64.755,66.308) 9 0.01 0.9 992 99.2
## [66.308,67.86) 3 0.00 0.3 995 99.5
## [67.86,69.413) 3 0.00 0.3 998 99.8
## [69.413,70.965) 1 0.00 0.1 999 99.9
## [70.965,72.518) 1 0.00 0.1 1000 100.0
## Class limits f rf rf(%) cf cf(%)
## [51.48,52.952) 1 0.00 0.1 1 0.1
## [52.952,54.424) 58 0.06 5.8 59 5.9
## [54.424,55.895) 117 0.12 11.7 176 17.6
## [55.895,57.367) 355 0.36 35.5 531 53.1
## [57.367,58.839) 175 0.17 17.5 706 70.6
## [58.839,60.311) 223 0.22 22.3 929 92.9
## [60.311,61.783) 37 0.04 3.7 966 96.6
## [61.783,63.255) 27 0.03 2.7 993 99.3
## [63.255,64.726) 1 0.00 0.1 994 99.4
## [64.726,66.198) 3 0.00 0.3 997 99.7
## [66.198,67.67) 3 0.00 0.3 1000 100.0
## Class limits f rf rf(%) cf cf(%)
## [51.48,52.952) 1 0.00 0.1 1 0.1
## [52.952,54.424) 58 0.06 5.8 59 5.9
## [54.424,55.895) 117 0.12 11.7 176 17.6
## [55.895,57.367) 355 0.36 35.5 531 53.1
## [57.367,58.839) 175 0.17 17.5 706 70.6
## [58.839,60.311) 223 0.22 22.3 929 92.9
## [60.311,61.783) 37 0.04 3.7 966 96.6
## [61.783,63.255) 27 0.03 2.7 993 99.3
## [63.255,64.726) 1 0.00 0.1 994 99.4
## [64.726,66.198) 3 0.00 0.3 997 99.7
## [66.198,67.67) 3 0.00 0.3 1000 100.0
La variable X (largo en mm) es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.
## [1] [0,0.5)
## 22 Levels: [0,0.5) [0.5,1) [1,1.5) [1.5,2) [2,2.5) [2.5,3) [3,3.5) ... [10.5,11)
## Class limits f rf rf(%) cf cf(%)
## [0,0.5) 0 0.00 0.0 0 0.0
## [0.5,1) 0 0.00 0.0 0 0.0
## [1,1.5) 0 0.00 0.0 0 0.0
## [1.5,2) 0 0.00 0.0 0 0.0
## [2,2.5) 0 0.00 0.0 0 0.0
## [2.5,3) 0 0.00 0.0 0 0.0
## [3,3.5) 0 0.00 0.0 0 0.0
## [3.5,4) 15 0.01 1.5 15 1.5
## [4,4.5) 180 0.18 18.0 195 19.5
## [4.5,5) 143 0.14 14.3 338 33.8
## [5,5.5) 113 0.11 11.3 451 45.1
## [5.5,6) 122 0.12 12.2 573 57.3
## [6,6.5) 154 0.15 15.4 727 72.7
## [6.5,7) 141 0.14 14.1 868 86.8
## [7,7.5) 63 0.06 6.3 931 93.1
## [7.5,8) 32 0.03 3.2 963 96.3
## [8,8.5) 31 0.03 3.1 994 99.4
## [8.5,9) 4 0.00 0.4 998 99.8
## [9,9.5) 1 0.00 0.1 999 99.9
## [9.5,10) 0 0.00 0.0 999 99.9
## [10,10.5) 1 0.00 0.1 1000 100.0
## [10.5,11) 0 0.00 0.0 1000 100.0
Para la variable X, como para las anteriores, tiene una moda baja, pero su media y su mediana se solapan al ser casi iguales, haciendo que sea imposible visualizar ambas líneas.
Aquí se puede concluir que aunque la mitad matemática de las cantidades de X sea 5.72 la mayoría de sus datos están más cercanos a los otros cuartiles y percentiles (excepto P90).
boxplot(muestra1$x,
main="Diagrama de cajas para x de los diamantes",
col="#FF4500",pars = list(boxwex=0.5),ylim=c(0,11),pch=19)La variable Y (ancho en mm) es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.
## Class limits f rf rf(%) cf cf(%)
## [0,0.5) 0 0.00 0.0 0 0.0
## [0.5,1) 0 0.00 0.0 0 0.0
## [1,1.5) 0 0.00 0.0 0 0.0
## [1.5,2) 0 0.00 0.0 0 0.0
## [2,2.5) 0 0.00 0.0 0 0.0
## [2.5,3) 0 0.00 0.0 0 0.0
## [3,3.5) 0 0.00 0.0 0 0.0
## [3.5,4) 13 0.01 1.3 13 1.3
## [4,4.5) 179 0.18 17.9 192 19.2
## [4.5,5) 143 0.14 14.3 335 33.5
## [5,5.5) 116 0.12 11.6 451 45.1
## [5.5,6) 123 0.12 12.3 574 57.4
## [6,6.5) 150 0.15 15.0 724 72.4
## [6.5,7) 143 0.14 14.3 867 86.7
## [7,7.5) 61 0.06 6.1 928 92.8
## [7.5,8) 38 0.04 3.8 966 96.6
## [8,8.5) 28 0.03 2.8 994 99.4
## [8.5,9) 4 0.00 0.4 998 99.8
## [9,9.5) 1 0.00 0.1 999 99.9
## [9.5,10) 0 0.00 0.0 999 99.9
## [10,10.5) 1 0.00 0.1 1000 100.0
## [10.5,11) 0 0.00 0.0 1000 100.0
Para la variable Y, como para las anteriores, tiene una moda baja, pero justo como con X, su media y su mediana se solapan al ser casi iguales, haciendo que sea imposible visualizar ambas líneas.
Aquí se puede concluir que aunque la mitad matemática de las cantidades de Y sea 5.72 (de nuevo como en X) la mayoría de sus datos están más cercanos a los otros cuartiles (aunque en este caso la mayoría están antes que el primer cuartil) y percentiles (excepto P90).
boxplot(muestra1$y,
main="Diagrama de cajas para y de los diamantes",
col="#FF4500",pars = list(boxwex=0.5),ylim=c(0,11),pch=19)La variable Z (profundidad en mm) es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.
## Class limits f rf rf(%) cf cf(%)
## [0,0.5) 0 0.00 0.0 0 0.0
## [0.5,1) 0 0.00 0.0 0 0.0
## [1,1.5) 0 0.00 0.0 0 0.0
## [1.5,2) 0 0.00 0.0 0 0.0
## [2,2.5) 17 0.02 1.7 17 1.7
## [2.5,3) 302 0.30 30.2 319 31.9
## [3,3.5) 143 0.14 14.3 462 46.2
## [3.5,4) 250 0.25 25.0 712 71.2
## [4,4.5) 180 0.18 18.0 892 89.2
## [4.5,5) 76 0.08 7.6 968 96.8
## [5,5.5) 29 0.03 2.9 997 99.7
## [5.5,6) 2 0.00 0.2 999 99.9
## [6,6.5) 0 0.00 0.0 999 99.9
## [6.5,7) 1 0.00 0.1 1000 100.0
Para la variable Z, a diferencia de las anteriores, su moda esta adelante de la media y la mediana (que por costumbre de las variables de las dimensiones de los diamantes, se solapan), aunque en este caso pareciera que la moda es incorrecta al mirrar el gráfico, pero es correcta, es simplemente que la mayoría de los datos estan alrededor de 3 (bastantes de 2.9-3.1).
En este caso exacto los cuartiles se en loquecen, no pudimos descubrir por qué, así que el analisis será de los percentiles. De nuevo, expecto por el P90 (y parte del P50), la mayoría de los datos se agrupan cercanos a los percentiles dados
boxplot(muestra1$z,
main="Diagrama de cajas para z de los diamantes",
col="#FF4500",pars = list(boxwex=0.5),ylim=c(0,7),pch=19)#Varianza
varianzas <- c(var(muestra1$precio),
var(muestra1$quilate),
var(muestra1$profundidad),
var(muestra1$tabla),
var(muestra1$x),
var(muestra1$y),
var(muestra1$z))
variables <- c("Precio","Quilate","Profundidad","Tabla","X","Y","Z")
varianzas_tabla <- data.frame(variables,varianzas)
varianzas_tabla #Tablaggplot(varianzas_tabla, aes(x=variables, y=varianzas)) +
geom_segment(aes(x = variables, xend = variables, y = 0,
yend = varianzas),linewidth=2,col=viridis(7)) +
geom_point(color=viridis(7)) +
xlab("Variable") + ylab("Varianza") +
ggtitle("Varianzas por variable")La varianza del precio es muy alta con respecto a las demás por ende se hace un análisis excluyendo esta variable
Es visible que en orden de mayor a menor las varianzas van así: Precio, Tabla, Profundidad, X, Y, Z, Quilate.
La desviacion estandar es la raíz cuadrada de la varianza.
Debido a que la desviación estandar es la raiz cuadrada de la varianza entonces en orden de mayor a menor la desviación va así: Precio, Tabla, Profundidad, X, Y, Z, Quilate.
Hay una variación muy alta en los precios.
Las variables que mas afectan el precio son el quilate y las medidas X,Y,Z.
Existe mayor frecuencia de diamantes en los precios mas bajos.
Aunque la moda se pueda visualizar en las gráficas con facilidad en la mayoría de los casos, puede que en otros no se note facilmente debido a una concentración de datos muy cercanos (cada uno de estos menor a la moda).
Fueron muchos mas los diamantes bien cortados que los que no se cortaron adecuadamente.
Tenemos una claridad media mas que alta o baja en los diamantes.