En la presente práctica se aplican los conceptos de Tablas de Frecuencias, gráficos para variables cuantitativas y cualitativas mediante el uso de comandos de R. Para la ejecución de esta práctica usaremos la base de datos denominada “diamonds” que se incluye por defecto en R. Diamonds es un conjunto de datos que contiene los precios y otros atributos de casi 54.000 diamantes.
De esta base de datos se tomó una muestra que contiene 1000 datos, la cual usamos con la intención de descubrir y reconocer patrones y tendencias implicitos mediante el analisís de variables e implementación de graficas. Las variables que se analizarón fueron: Precio($), quilate, corte, color, claridad, profundidad, Tabla(ancho de la parte superior del diamante), X(longitud), Y(ancho), Z(profundidad).
(tb_fp <- fdt(muestra1))
## precio
## Class limits f rf rf(%) cf cf(%)
## [331.65,2029.3345) 451 0.45 45.1 451 45.1
## [2029.3345,3727.0191) 156 0.16 15.6 607 60.7
## [3727.0191,5424.7036) 121 0.12 12.1 728 72.8
## [5424.7036,7122.3882) 89 0.09 8.9 817 81.7
## [7122.3882,8820.0727) 44 0.04 4.4 861 86.1
## [8820.0727,10517.757) 41 0.04 4.1 902 90.2
## [10517.757,12215.442) 32 0.03 3.2 934 93.4
## [12215.442,13913.126) 22 0.02 2.2 956 95.6
## [13913.126,15610.811) 13 0.01 1.3 969 96.9
## [15610.811,17308.495) 18 0.02 1.8 987 98.7
## [17308.495,19006.18) 13 0.01 1.3 1000 100.0
##
## quilate
## Class limits f rf rf(%) cf cf(%)
## [0.2079,0.4305) 292 0.29 29.2 292 29.2
## [0.4305,0.6531) 171 0.17 17.1 463 46.3
## [0.6531,0.8756) 125 0.12 12.5 588 58.8
## [0.8756,1.098) 186 0.19 18.6 774 77.4
## [1.098,1.321) 87 0.09 8.7 861 86.1
## [1.321,1.543) 58 0.06 5.8 919 91.9
## [1.543,1.766) 34 0.03 3.4 953 95.3
## [1.766,1.989) 8 0.01 0.8 961 96.1
## [1.989,2.211) 31 0.03 3.1 992 99.2
## [2.211,2.434) 6 0.01 0.6 998 99.8
## [2.434,2.656) 2 0.00 0.2 1000 100.0
##
## profundidad
## Class limits f rf rf(%) cf cf(%)
## [55.341,56.673) 3 0.00 0.3 3 0.3
## [56.673,58.005) 15 0.01 1.5 18 1.8
## [58.005,59.337) 40 0.04 4.0 58 5.8
## [59.337,60.669) 116 0.12 11.6 174 17.4
## [60.669,62.001) 423 0.42 42.3 597 59.7
## [62.001,63.333) 310 0.31 31.0 907 90.7
## [63.333,64.665) 76 0.08 7.6 983 98.3
## [64.665,65.997) 13 0.01 1.3 996 99.6
## [65.997,67.329) 1 0.00 0.1 997 99.7
## [67.329,68.661) 1 0.00 0.1 998 99.8
## [68.661,69.993) 2 0.00 0.2 1000 100.0
##
## tabla
## Class limits f rf rf(%) cf cf(%)
## [51.48,53.23) 14 0.01 1.4 14 1.4
## [53.23,54.97) 67 0.07 6.7 81 8.1
## [54.97,56.72) 306 0.31 30.6 387 38.7
## [56.72,58.47) 326 0.33 32.6 713 71.3
## [58.47,60.22) 195 0.20 19.5 908 90.8
## [60.22,61.96) 50 0.05 5.0 958 95.8
## [61.96,63.71) 34 0.03 3.4 992 99.2
## [63.71,65.46) 7 0.01 0.7 999 99.9
## [65.46,67.21) 0 0.00 0.0 999 99.9
## [67.21,68.95) 0 0.00 0.0 999 99.9
## [68.95,70.7) 1 0.00 0.1 1000 100.0
##
## x
## Class limits f rf rf(%) cf cf(%)
## [3.851,4.315) 55 0.06 5.5 55 5.5
## [4.315,4.78) 210 0.21 21.0 265 26.5
## [4.78,5.244) 131 0.13 13.1 396 39.6
## [5.244,5.708) 101 0.10 10.1 497 49.7
## [5.708,6.173) 116 0.12 11.6 613 61.3
## [6.173,6.637) 154 0.15 15.4 767 76.7
## [6.637,7.101) 103 0.10 10.3 870 87.0
## [7.101,7.566) 62 0.06 6.2 932 93.2
## [7.566,8.03) 33 0.03 3.3 965 96.5
## [8.03,8.494) 31 0.03 3.1 996 99.6
## [8.494,8.959) 4 0.00 0.4 1000 100.0
##
## y
## Class limits f rf rf(%) cf cf(%)
## [3.821,4.289) 32 0.03 3.2 32 3.2
## [4.289,4.757) 223 0.22 22.3 255 25.5
## [4.757,5.225) 130 0.13 13.0 385 38.5
## [5.225,5.693) 106 0.11 10.6 491 49.1
## [5.693,6.161) 119 0.12 11.9 610 61.0
## [6.161,6.629) 153 0.15 15.3 763 76.3
## [6.629,7.097) 105 0.10 10.5 868 86.8
## [7.097,7.565) 66 0.07 6.6 934 93.4
## [7.565,8.033) 33 0.03 3.3 967 96.7
## [8.033,8.501) 30 0.03 3.0 997 99.7
## [8.501,8.969) 3 0.00 0.3 1000 100.0
##
## z
## Class limits f rf rf(%) cf cf(%)
## [2.267,2.566) 11 0.01 1.1 11 1.1
## [2.566,2.865) 199 0.20 19.9 210 21.0
## [2.865,3.164) 120 0.12 12.0 330 33.0
## [3.164,3.463) 146 0.15 14.6 476 47.6
## [3.463,3.762) 115 0.12 11.5 591 59.1
## [3.762,4.06) 167 0.17 16.7 758 75.8
## [4.06,4.359) 104 0.10 10.4 862 86.2
## [4.359,4.658) 71 0.07 7.1 933 93.3
## [4.658,4.957) 33 0.03 3.3 966 96.6
## [4.957,5.256) 27 0.03 2.7 993 99.3
## [5.256,5.555) 7 0.01 0.7 1000 100.0
Histograma basado en la tabla de frecuencia con la libreria fdth con muestra de poligonos de frecuencias
attach(muestra1)
(a<- fdt(muestra1$precio))
## Class limits f rf rf(%) cf cf(%)
## [331.65,2029.3345) 451 0.45 45.1 451 45.1
## [2029.3345,3727.0191) 156 0.16 15.6 607 60.7
## [3727.0191,5424.7036) 121 0.12 12.1 728 72.8
## [5424.7036,7122.3882) 89 0.09 8.9 817 81.7
## [7122.3882,8820.0727) 44 0.04 4.4 861 86.1
## [8820.0727,10517.757) 41 0.04 4.1 902 90.2
## [10517.757,12215.442) 32 0.03 3.2 934 93.4
## [12215.442,13913.126) 22 0.02 2.2 956 95.6
## [13913.126,15610.811) 13 0.01 1.3 969 96.9
## [15610.811,17308.495) 18 0.02 1.8 987 98.7
## [17308.495,19006.18) 13 0.01 1.3 1000 100.0
plot(a,type= "fh",main = "Precio", xlab="Precio" ,ylab = "Frecuencia", col=viridis(10))
plot(a, type="fp", xlab="Precio" ,ylab = "Frecuencia",col=viridis(10) )
(b<- fdt(muestra1$quilate))
## Class limits f rf rf(%) cf cf(%)
## [0.2079,0.4305) 292 0.29 29.2 292 29.2
## [0.4305,0.6531) 171 0.17 17.1 463 46.3
## [0.6531,0.8756) 125 0.12 12.5 588 58.8
## [0.8756,1.098) 186 0.19 18.6 774 77.4
## [1.098,1.321) 87 0.09 8.7 861 86.1
## [1.321,1.543) 58 0.06 5.8 919 91.9
## [1.543,1.766) 34 0.03 3.4 953 95.3
## [1.766,1.989) 8 0.01 0.8 961 96.1
## [1.989,2.211) 31 0.03 3.1 992 99.2
## [2.211,2.434) 6 0.01 0.6 998 99.8
## [2.434,2.656) 2 0.00 0.2 1000 100.0
plot(b, type="fh",main = "Quilates", xlab="quilate" ,ylab = "Frecuencia", col=viridis(10))
plot(b, type="fp", xlab="Quilate" ,ylab = "Frecuencia",col=viridis(10))
(c<-fdt(muestra1$profundidad))
## Class limits f rf rf(%) cf cf(%)
## [55.341,56.673) 3 0.00 0.3 3 0.3
## [56.673,58.005) 15 0.01 1.5 18 1.8
## [58.005,59.337) 40 0.04 4.0 58 5.8
## [59.337,60.669) 116 0.12 11.6 174 17.4
## [60.669,62.001) 423 0.42 42.3 597 59.7
## [62.001,63.333) 310 0.31 31.0 907 90.7
## [63.333,64.665) 76 0.08 7.6 983 98.3
## [64.665,65.997) 13 0.01 1.3 996 99.6
## [65.997,67.329) 1 0.00 0.1 997 99.7
## [67.329,68.661) 1 0.00 0.1 998 99.8
## [68.661,69.993) 2 0.00 0.2 1000 100.0
plot(c, type="fh",main = "Profundidad", xlab="Profundidad" ,ylab = "Frecuencia", col=viridis(10))
plot(c, type="fp", xlab="Profundidad" ,ylab = "Frecuencia",col=viridis(10))
(d<-fdt(muestra1$tabla))
## Class limits f rf rf(%) cf cf(%)
## [51.48,53.23) 14 0.01 1.4 14 1.4
## [53.23,54.97) 67 0.07 6.7 81 8.1
## [54.97,56.72) 306 0.31 30.6 387 38.7
## [56.72,58.47) 326 0.33 32.6 713 71.3
## [58.47,60.22) 195 0.20 19.5 908 90.8
## [60.22,61.96) 50 0.05 5.0 958 95.8
## [61.96,63.71) 34 0.03 3.4 992 99.2
## [63.71,65.46) 7 0.01 0.7 999 99.9
## [65.46,67.21) 0 0.00 0.0 999 99.9
## [67.21,68.95) 0 0.00 0.0 999 99.9
## [68.95,70.7) 1 0.00 0.1 1000 100.0
plot(d, type="fh",main = "Tabla", xlab="Tabla" ,ylab = "Frecuencia", col=viridis(10))
plot(d, type="fp", xlab="Tabla" ,ylab = "Frecuencia",col=viridis(10))
(e<-fdt(muestra1$x))
## Class limits f rf rf(%) cf cf(%)
## [3.851,4.315) 55 0.06 5.5 55 5.5
## [4.315,4.78) 210 0.21 21.0 265 26.5
## [4.78,5.244) 131 0.13 13.1 396 39.6
## [5.244,5.708) 101 0.10 10.1 497 49.7
## [5.708,6.173) 116 0.12 11.6 613 61.3
## [6.173,6.637) 154 0.15 15.4 767 76.7
## [6.637,7.101) 103 0.10 10.3 870 87.0
## [7.101,7.566) 62 0.06 6.2 932 93.2
## [7.566,8.03) 33 0.03 3.3 965 96.5
## [8.03,8.494) 31 0.03 3.1 996 99.6
## [8.494,8.959) 4 0.00 0.4 1000 100.0
plot(e, type="fh",main = "X", xlab="X" ,ylab = "Frecuencia", col=viridis(10))
plot(e, type="fp", xlab="X" ,ylab = "Frecuencia",col=viridis(10))
(f<-fdt(muestra1$y))
## Class limits f rf rf(%) cf cf(%)
## [3.821,4.289) 32 0.03 3.2 32 3.2
## [4.289,4.757) 223 0.22 22.3 255 25.5
## [4.757,5.225) 130 0.13 13.0 385 38.5
## [5.225,5.693) 106 0.11 10.6 491 49.1
## [5.693,6.161) 119 0.12 11.9 610 61.0
## [6.161,6.629) 153 0.15 15.3 763 76.3
## [6.629,7.097) 105 0.10 10.5 868 86.8
## [7.097,7.565) 66 0.07 6.6 934 93.4
## [7.565,8.033) 33 0.03 3.3 967 96.7
## [8.033,8.501) 30 0.03 3.0 997 99.7
## [8.501,8.969) 3 0.00 0.3 1000 100.0
plot(f, type="fh",main = "Y", xlab="Y" ,ylab = "Frecuencia", col=viridis(10))
plot(f, type="fp", xlab="Y" ,ylab = "Frecuencia",col=viridis(10))
(g<-fdt(muestra1$z))
## Class limits f rf rf(%) cf cf(%)
## [2.267,2.566) 11 0.01 1.1 11 1.1
## [2.566,2.865) 199 0.20 19.9 210 21.0
## [2.865,3.164) 120 0.12 12.0 330 33.0
## [3.164,3.463) 146 0.15 14.6 476 47.6
## [3.463,3.762) 115 0.12 11.5 591 59.1
## [3.762,4.06) 167 0.17 16.7 758 75.8
## [4.06,4.359) 104 0.10 10.4 862 86.2
## [4.359,4.658) 71 0.07 7.1 933 93.3
## [4.658,4.957) 33 0.03 3.3 966 96.6
## [4.957,5.256) 27 0.03 2.7 993 99.3
## [5.256,5.555) 7 0.01 0.7 1000 100.0
plot(g, type="fh",main = "Z", xlab="Z" ,ylab = "Frecuencia", col=viridis(10))
plot(g, type="fp", xlab="Z" ,ylab = "Frecuencia",col=viridis(10))
La media o promedio: Se entiende por tendencia central a algún punto o cantidad que describa lo que podemos considerar como “el centro” de los datos, que podría coincidir con el espacio donde se concentra “la mayoría” de los datos.
La mediana: Esta es otra medida de tendencia central que no tiene que coincidir con la media, aunque a veces resultan valores cercanos entre sí.
La moda: Es el número que se presenta con más frecuencia en un conjunto de datos.
La primer grafica de varianza muestra la varianza incluyendo la columna precio
Graficando la varianza de cada una de las características del diamante, el precio presenta una mayor varianza con respecto a las demás. Esta diferencia es tan grande que no se logra apreciar la diferencia de varianzas entre las otras variables, por tanto para reforzar el análisis de datos, se hace una grafica extra sin tomar en cuenta el precio.
Para la desviación se hace el mismo proceso.
En cuanto a la desviación, se presenta una grafica similar a la grafica de la varianza, aunque con cierta particularidad. Lo que ocurre para los datos con varianza mayor a 1, es que se disminuyó su valor para la gráfica de desviación, para los valores iguales a 1 en la varianza, en la gráfica de desviación permanecieron constantes, pero para valores de varianza menores a 1, el valor de cada uno de estos aumentó respectivamente
ggplot(desviacion2, aes(x = categoria, y = desviacion)) +
geom_segment(aes(x = categoria, xend = categoria, y = 0, yend = desviacion)) +
geom_point() +
geom_emoji(emoji = "1f48e")+add_emoji(emoji = "1f48e")
plot(x = muestra1$precio, y = muestra1$profundidad, col= viridis(10) ,xlab="Precio",ylab="Profundidad")
plot(x = muestra1$quilate, y = muestra1$profundidad, col= viridis(12) ,xlab="Precio",ylab="Quilate")
Los diagramas de caja permiten visualizar y comparar la distribución y la tendencia central de valores numéricos mediante sus cuartiles. El diagrama comienza en el primer cuartil (25%) y termina en el tercero (75%). Por lo tanto, la caja representa el 50% de los datos centrales, con una línea dentro que representa la mediana. En este gráfico también se pueden encontrar valores atípicos, representados con puntos, los cuales son obsvaciones que están muy lejos del resto de datos, 1.5 veces Q3-Q1.
boxplot(precio, main="Diagrama de cajas para precio de los diamantes en dolares",col="#3885B6",pars = list(boxwex=0.5))
boxplot(quilate, main="Diagrama de cajas para quilate de los diamantes en dolares",col="#244D7F",pars = list(boxwex=0.5))
boxplot(tabla, main="Diagrama de cajas para ancho de la parte superior de los diamantes",col="#1C6FAE",pars = list(boxwex=0.5))
boxplot(profundidad, main="Diagrama de cajas para profundidad de los diamantes",col="#B4D4DA",pars = list(boxwex=0.5))
boxplot(data.frame(x,y,z), main="Diagrama de cajas para Longitud(x), Ancho (Y) y Profundidad (Z)", col = c("#B4D4DA","#72BCDC","#3885B6"))
Las tablas de frecuencia son una herramienta útil para organizar un conjunto de datos y para saber fácilmente cuantas veces se repite cada dato. En este caso se hicieron tablas de frecuencia absoluta para las variables cualitativas: corte, color y claridad.
## corte
## Bueno Ideal Muy bueno Premium Regular
## 108 396 205 268 23
## corte
## Bueno Ideal Muy bueno Premium Regular Sum
## 108 396 205 268 23 1000
La tabla de frecuencias para la variable corte muestra cuantos diamantes de 1000 tienen un corte Bueno, Ideal, Muy Bueno, Regular y Premium, dandonos cuenta rápidamnte que la mayoría de diamantes tiene un corte ideal con un valor de 396, y la minoría tienen un corte regular(siendo este el peor corte) con un valor de 23, es decir, que en cuanto a la calidad del corte la mayoria cumple con una buena calidad.
table(color)
## color
## D E F G H I J
## 143 170 180 196 159 98 54
tablac2 <- table(color)
addmargins(tablac2)
## color
## D E F G H I J Sum
## 143 170 180 196 159 98 54 1000
En este caso la tabla de frecuencias para la variable color nos muestra que los 1000 diamantes están clasificados en 7 diferentes colores, en donde D es el mejor color, el cual 143 diamantes tienen, y J es el peor color con un valor de 54 diamantes, la mayoría de diamantes tienen un color G, el cuál se encuentra en la mitad de los colores, con un valor de 196 diamantes.
table(claridad)
## claridad
## I1 IF SI1 SI2 VS1 VS2 VVS1 VVS2
## 9 37 247 164 163 218 62 100
tablac3 <- table(claridad)
addmargins(tablac3)
## claridad
## I1 IF SI1 SI2 VS1 VS2 VVS1 VVS2 Sum
## 9 37 247 164 163 218 62 100 1000
Para la variable claridad la tabla de frecuencias absolutas nos muestra que la mayoría de diamantes tienen una claridad de SI1 con un valor de 247, y las minorías I1 IF, con valores de 9 y 37 respectivamente, donde la claridad IF esla mejor y I1 la peor, nos podemos dar cuenta que de la mejor claridad hay muy pocos diamantes en relación a los demás.
Los diagramas de barras son una herramienta gráfica muy útil para identificar visualmente los patrones de un conjunto de datos, esta se puede realizar respecto a frecuencia absoluta o relativa, en este caso se realizo respecto a la absoluta para las diferentes variables cuantitativas, pudiendo verificar y recalcar la información presentada en las tablas de frecuencia. Estas tablas se realizaron con la función freq. de R estudio, débido a que nos generaba una tabla con los porcentajes, lo cuál sera muy útil para los siguientes diagramas (diagrama de torta).
freq(muestra1$corte, col=c("#DA5D17","#FC8B50","#6AB1D6","#2D7DB4","#244D7F"),ylim=c(0,500),xlab = "Corte",ylab = "Frecuencia absoluta", main="Tipo de corte del diamante y su frecuencia")
## muestra1$corte
## Frequency Percent
## Bueno 108 10.8
## Ideal 396 39.6
## Muy bueno 205 20.5
## Premium 268 26.8
## Regular 23 2.3
## Total 1000 100.0
Los diagramas de frecuencia también nos permiten organizar visualmente que datos tienen más predominancia que otros, en este caso para el corte de los diamantes se podria organizar de menor a mayor, según el patrón que estamos observando en su frecuencia absoluta, de la siguiente manera: regular, bueno, muy bueno, premium e ideal.
freq(muestra1$claridad, col=c("#DA5D17","#E76C2A","#F37B3B","#6AB1D6","#2D7DB4","#1C6FAE","#244D7F","#26456E"),ylim=c(0,300),xlab = "Claridad",ylab = "Frecuencia absoluta", main="Claridad del diamante y su frecuencia")
## muestra1$claridad
## Frequency Percent
## I1 9 0.9
## IF 37 3.7
## SI1 247 24.7
## SI2 164 16.4
## VS1 163 16.3
## VS2 218 21.8
## VVS1 62 6.2
## VVS2 100 10.0
## Total 1000 100.0
En este caso, podemos observar como estan organizados la cantidad de diamantes según su claridad, dónde nos damos cuenta de las diferentes magnitudes de cada uno, las cuales son muy diferentes entre si.
freq(muestra1$color, col=c("#DA5D17","#E76C2A","#F37B3B","#6AB1D6","#2D7DB4","#1C6FAE","#244D7F","#26456E"),ylim=c(0,200),xlab = "Color",ylab = "Frecuencia absoluta", main="Color del diamante y su frecuencia")
## muestra1$color
## Frequency Percent
## D 143 14.3
## E 170 17.0
## F 180 18.0
## G 196 19.6
## H 159 15.9
## I 98 9.8
## J 54 5.4
## Total 1000 100.0
Para la variable color, el diagrama de barras se ve más uniforme, sin embargo por la cantidad de colores y su frecuencia absoluta, no hay un color característico para los diamantes.
Los diagramas de torta son útiles para representar una variables en cuanto a proporciones, debido a que este circulo o torta se divide según la frecuencia de cada dato. Una ventaja de este gráfico es que nos permite comparar cada porción de la torta con respecto al total de ella misma, analizando y sacando conclusiones sobre los datos representados. Es conveniente también colocar los procentajes correspondientes a cada frecuencia de datos, débido a que muchas veces las particiones no seran proporcionales o similares.
pie3D(tablac1, main= "Tipo de corte de los diamantes", col=c("#DA5D17","#FC8B50","#6AB1D6","#2D7DB4","#244D7F"), radius = 1, labels = c("B-10.8%","I-39.6%","MB-20.5%","P-26.8%", "R-2.3%"),explode = 0.1,border ="black",labelcex = 1 )
legend(x="topright" ,legend = c("B=bueno", "R=regular", "I=ideal", "MB=muy bueno", "P=premium"), fill = c("#DA5D17","#FC8B50","#6B9AC2","#4B79A5","#2E5A87"), title = "Corte", cex = 0.4)
pie3D(tablac2, main= "Color de los diamantes", col=c("#DA5D17","#E76C2A","#F37B3B","#6AB1D6","#2D7DB4","#1C6FAE","#244D7F","#26456E"), radius = 0.8, labels = c("D-14.3%","E-17%","F-18%","G-19.6%", "H.15.9%","I-9.8%","J-5.4%"),explode = 0.08,border ="black",labelcex = 0.9)
legend(x="topright" ,legend = c("D", "E", "F","G", "H","I","J"), fill = c("#DA5D17","#E76C2A","#F37B3B","#6AB1D6","#2D7DB4","#1C6FAE","#244D7F","#26456E"), title = "Color", cex = 0.4)
pie3D(tablac3, main= "Claridad de los diamantes", col=c("#A8C3DC","#E76C2A","#F37B3B","#FC8B50","#2D7DB4","#1C6FAE","#244D7F","#26456E"), radius = 0.8, labels = c("l1-0.9%","lF-3.7%","Sl1-24.7%","Sl2-16.4%", "VS1-16.3%","VS2-21.8%","VVS1-6.2%","VVS2-10%"),explode = 0.1,border ="black",labelcex = 0.8 )
legend(x="topright" ,legend = c("l1", "lF", "Sl1", "Sl2", "VS1","VS2","VVS1","VVS2"), fill = c("#A8C3DC","#E76C2A","#F37B3B","#FC8B50","#2D7DB4","#1C6FAE","#244D7F","#26456E"), title = "Claridad", cex = 0.3)
pie(tablac3, main= "Claridad de los diamantes", col=c("#A8C3DC","#E76C2A","#F37B3B","#FC8B50","#2D7DB4","#1C6FAE","#244D7F","#26456E"))
legend(x="topright" ,legend = c("l1", "lF", "Sl1", "Sl2", "VS1","VS2","VVS1","VVS2"), fill = c("#A8C3DC","#E76C2A","#F37B3B","#FC8B50","#2D7DB4","#1C6FAE","#244D7F","#26456E"), title = "Claridad", cex = 0.5)
Tras el analisís podemos afirmar que la base de datos diamantes contiene precios coherentes con respecto a las caracteristicas de los diamantes.
Tal y como hemos podido comprobar el precio de los diamantes depende de su corte, color y medidas.
La base de datos contiene información suficiente para realizar un analisis estadistico con aplicación de conceptos vistos en clase correctamente.
La variable cuantitativa precio es bastante extensa débido a que presenta valores desde los $326(valor mínimo) hasta los $18.823(valor máximo) dolares.
Los diamantes no tienen una claridad uniforme, debido a las diferentes frecuencias que presentan estos datos.
Los diagramas de cajas son útiles para comparar cada partición es decir cada porcentaje con respecto al total, es decir al 100% de los datos. Sin embargo hay que tener cuidado al graficar los pequeños porcentajes.
La variable tabla es la que menos datos atípicos tiene y las variables x, y y z no tienen datos atípicos.
Fue posible hacer un diagrama de cajas para las variables x, y y x ya que estas variables estaban en las mismas unidades (mm). x longitud y ancho z profundidad (mm)