Este trabajo consistirá en el análisis estadístico de la base de
datos “diamantes”, obtenida del paquete “datos” de R. Para este
análisis, se utilizará la semilla (seed) 9953 para obtener datos
aleatorios y analizar 1000 “observaciones” con 10 “variables”.
set.seed(9953)
datos.d <- data.frame(diamantes)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
attach(muestra1)
Al ingresar la seed 9953 obtenemos nuestra base de datos de la cual podemos decir que sus variables se clasifican de la siguiente manera:
| Variable | Clasificación |
|---|---|
| precio | Variable cuantitativa continua |
| quilate | Variable cuantitativa continua |
| corte | Variable cualitativa discreta ordinal |
| color | Variable cualitativa discreta ordinal |
| claridad | Variable cualitativa discreta ordinal |
| profundidad | Variable cuantitativa continua |
| tabla | Variable cuantitativa continua |
| X | Variable cuantitativa continua |
| Y | Variable cuantitativa continua |
| Z | Variable cuantitativa continua |
Las variables que se analizaran son:
Se realizarán gráficas para datos cualitativos, tales como
gráficos de torta y barras, y para datos cuantitativos discretos.
Asimismo, se emplearán gráficos de torta y barras para datos
cuantitativos continuos, box plot, tallo y hojas, y histograma.
Además, se llevarán a cabo medidas de tendencia central, como la
media aritmética, mediana y moda, y medidas de variabilidad, como el
rango, varianza, desviación estándar y coeficiente de variación. También
se realizarán medidas de posición, sesgo y apuntamiento, como cuantiles,
cuartiles, deciles, percentiles, rango intercuartílico, curtosis y
asimetría.
Todas estas actividades permitirán un análisis completo y
detallado de la base de datos “diamantes” y proporcionarán información
valiosa sobre las características de los diamantes en la muestra
seleccionada.
## Class limits f rf rf(%) cf cf(%)
## [348.48,2029.4845) 446 0.45 44.6 446 44.6
## [2029.4845,3710.4891) 163 0.16 16.3 609 60.9
## [3710.4891,5391.4936) 148 0.15 14.8 757 75.7
## [5391.4936,7072.4982) 73 0.07 7.3 830 83.0
## [7072.4982,8753.5027) 45 0.04 4.5 875 87.5
## [8753.5027,10434.507) 32 0.03 3.2 907 90.7
## [10434.507,12115.512) 26 0.03 2.6 933 93.3
## [12115.512,13796.516) 20 0.02 2.0 953 95.3
## [13796.516,15477.521) 13 0.01 1.3 966 96.6
## [15477.521,17158.525) 19 0.02 1.9 985 98.5
## [17158.525,18839.53) 15 0.01 1.5 1000 100.0
#histograma
ggplot(muestra1,aes(x = precio)) +
geom_histogram(color = "black",bg="lightgreen", bins = 20) +
labs(title = "Histograma de precios ", x = "Precio", y = "Frecuencia")
El resultado de la función stem() muestra un diagrama de tallos y hojas que permite visualizar la distribución de los precios en la muestra1. En el eje vertical se muestran los tallos, que son los dígitos más significativos de los valores, y en el eje horizontal se muestran las hojas, que son los dígitos menos significativos. Cada tallo tiene una o varias hojas asociadas, que indican la frecuencia de los valores que tienen ese tallo.
#Diagrama de tallo y hojas
stem(muestra1$precio, scale = 2)
##
## The decimal point is 3 digit(s) to the right of the |
##
## 0 | 4444444444444
## 0 | 55555555555555555555555555555566666666666666666666666666666666666666+160
## 1 | 00000000000000000000000000000000111111111111111111111111222222222222+23
## 1 | 55666666666666666666667777777777777777888888888888888888888888899999
## 2 | 00000000000000000011111111111111112222222222222333333333333334444444
## 2 | 555555555555666666666666677777777888888888888889999999999
## 3 | 0000000011112222222233333444444
## 3 | 555555556666667777777777888888899999999999
## 4 | 000000000111111111112222222222222223333333333334444444
## 4 | 55555666666666677777777788888999999
## 5 | 00000000001111111222333333333444444444
## 5 | 55556666677777777899999
## 6 | 0000011112222233344444
## 6 | 555555667777888888999
## 7 | 0000111112344444
## 7 | 66777777888889999
## 8 | 01223444
## 8 | 556666778
## 9 | 000011122334
## 9 | 666677799
## 10 | 0011233444
## 10 | 5557888
## 11 | 00011234444
## 11 | 56789
## 12 | 00123333
## 12 | 556678899
## 13 | 023
## 13 | 5569
## 14 | 02222
## 14 | 6778
## 15 | 024
## 15 | 56677899
## 16 | 013344
## 16 | 678
## 17 | 00224444
## 17 | 55789
## 18 | 044
## 18 | 7
En el siguiente gráfico que existe una distribución asimétrica positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media), donde la mediana está más cerca del primer cuartil y no en una distancia igual entre el primer y tercer cuartil, además también podemos ver que existen varios valores atípicos que a pesar de ser altos y varios no son los suficientes como para que la gráfica tienda hacia ellos.
ggplot(muestra1, aes(x = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(x='Precio') + theme_grey() + scale_x_continuous(breaks = seq(0, 20000, by = 2500))
## [1] "la media es: 3984.321 y esta representada por la linea roja en el grafico de densidad"
## [1] "la mediana es: 2406 y esta representada por la linea azul en el grafico de densidad"
## [1] "la moda es: 802 y esta representada por la linea morada en el grafico de densidad"
## [1] 18301
## [1] "el rango del precio es de: 18301"
## [1] "la varianza del precio es de: 16527323.9479069"
## [1] "la desviacion estandar es: 4065.38115653464"
## [1] "el coeficiente de variacion es: 102.034478560704"
#curtosis y cuartiles
kurtosis(precio)
## [1] 5.156839
skewness(precio)
## [1] 1.631251
numSummary(precio, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 3984.321 4065.381 4368.5 1.020345 1.633703 2.173686 938.5 2406 5307 1000
#Cuartiles
quantile(precio)
## 0% 25% 50% 75% 100%
## 352.0 938.5 2406.0 5307.0 18653.0
En el siguiente gráfico podemos ver aplicado el concepto de deciles, donde vemos que los deciles 1,2 y 3 se encuentran cercanos de manera que en éstos se concentran varios datos de valores similares
## [1] 1.631251
## [1] 5.156839
Luego vemos que tiene un valor positivo al calcular su simetría, lo cual significa que tiene una asimetría positiva teniendo en cuenta lo dicho en Skewness in R y una alta curtosis lo cual significa que es leptocúrtica.
# Precio y quilate
plot(x = muestra1$precio, y = muestra1$quilate, col = terrain.colors(length(muestra1$quilate)), xlab = "Precio", ylab = "Quilate")
Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función del tamaño de los quilates. La escala de colores indica la cantidad de diamantes con el mismo tamaño de quilate.
# Precio y profundidad
plot(x = muestra1$precio, y = muestra1$profundidad, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "Profundidad")
Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la profundidad de corte. La escala de colores indica la cantidad de diamantes con la misma profundidad de corte.
# Precio y Tabla
plot(x = muestra1$precio, y = muestra1$tabla, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "Tabla")
Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la tabla (el diámetro de la parte superior del diamante). La escala de colores indica la cantidad de diamantes con la misma tabla.
# Precio y x
plot(x = muestra1$precio, y = muestra1$x, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "x")
Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la longitud del diamante en la dirección x. La escala de colores indica la cantidad de diamantes con la misma longitud en la dirección x.
# Precio y Y
plot(x = muestra1$precio, y = muestra1$y, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "y")
Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la longitud del diamante en la dirección y. La escala de colores indica la cantidad de diamantes con la misma longitud en la dirección y.
# Precio y z
plot(x = muestra1$precio, y = muestra1$z, col = terrain.colors(length(muestra1$precio)), xlab = "Precio", ylab = "z")
Este gráfico de dispersión muestra cómo el precio de los diamantes varía en función de la altura del diamante. La escala de colores indica la cantidad de diamantes con la misma altura.
## Class limits f rf rf(%) cf cf(%)
## [0.2277,0.5743) 435 0.44 43.5 435 43.5
## [0.5743,0.9208) 203 0.20 20.3 638 63.8
## [0.9208,1.267) 220 0.22 22.0 858 85.8
## [1.267,1.614) 80 0.08 8.0 938 93.8
## [1.614,1.961) 22 0.02 2.2 960 96.0
## [1.961,2.307) 31 0.03 3.1 991 99.1
## [2.307,2.654) 8 0.01 0.8 999 99.9
## [2.654,3) 0 0.00 0.0 999 99.9
## [3,3.347) 0 0.00 0.0 999 99.9
## [3.347,3.693) 0 0.00 0.0 999 99.9
## [3.693,4.04) 1 0.00 0.1 1000 100.0
# Diagrama de barras
ggplot(muestra1,aes(x=quilate)) + geom_bar(fill = "pink") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")
# histograma
ggplot(muestra1,aes(x=quilate)) + geom_histogram(color = "black",bg="pink",bins = 100) + labs(title = "Histograma del quilate (Peso del diamante)", x="Peso en quilates", y="Frecuencia")
El diagrama de tallos y hojas muestra que la distribución de los quilates en la variable quilates es aproximadamente simétrica, con una concentración de valores alrededor de 0.5 a 1.0 quilates. También se puede observar que hay algunos valores extremos en la parte superior del rango de quilates, lo que indica que algunos diamantes en la muestra1 son relativamente grandes.
#Diagrama de tallo y hojas
stem(muestra1$quilate, scale = 2)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 2 | 3333333344555555666777788899999
## 3 | 00000000000000000000000000000000000000111111111111111111111111111111+134
## 4 | 00000000000000000000000000001111111111111111111111111222222222223333+1
## 5 | 00000000000000000000111111111111111111111112222222222222222233333333+36
## 6 | 0011111222333588
## 7 | 00000000000000000000000000000000000000011111111111111111111111112222+26
## 8 | 0001111222233455557
## 9 | 00000000000000000000000000000000000011111111111111222224566679
## 10 | 00000000000000000000000000111111111111111111111111111111111111111111+57
## 11 | 00001111112223444444566778899
## 12 | 000000000011111122222222223333334445555566666667889
## 13 | 0001112234444667
## 14 | 15
## 15 | 000000000000001111111111111111112222223333444555677888899
## 16 | 03459
## 17 | 000000011123446
## 18 | 035
## 19 |
## 20 | 001111111223344556678
## 21 | 047888
## 22 | 0889
## 23 | 2
## 24 | 00
## 25 | 1588
## 26 | 4
## 27 |
## 28 |
## 29 |
## 30 |
## 31 |
## 32 |
## 33 |
## 34 |
## 35 |
## 36 |
## 37 |
## 38 |
## 39 |
## 40 | 0
#Diagrama de caja
boxplot(quilate, id=list(method="y"),col= "pink",horizontal = TRUE, main="Diagrama de caja")
## [1] "la media es: 0.80705 y esta representada por la linea verde en el grafico de densidad"
## [1] "la mediana es: 0.71 y esta representada por la linea azul en el grafico de densidad"
## [1] "la moda es: 0.31 y esta representada por la linea verde oscura en el grafico de densidad"
## [1] "el rango de los quilates es de: 3.77"
## [1] "la varianza de los quilates es de: 0.2388023998999"
## [1] "la desviacion estandar es: 0.488674124442762"
## [1] "el coeficiente de variacion es: 60.5506628390759"
#Asimetria, curtosis y cuartiles
kurtosis(quilate)
## [1] 5.408061
skewness(quilate)
## [1] 1.274956
numSummary(quilate, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 0.80705 0.4886741 0.64 0.6055066 1.276872 2.426169 0.4 0.71 1.04 1000
#Cuartiles
quantile(quilate)
## 0% 25% 50% 75% 100%
## 0.23 0.40 0.71 1.04 4.00
En primer lugar, se utilizó la función table() para crear una tabla de frecuencias de la variable “corte” en el conjunto de datos muestra1. Luego, se convirtió esta tabla en un data frame utilizando la función as.data.frame().
Luego se generaron dos gráficos diferentes utilizando la librería ggplot2. El primer gráfico es una gráfica de torta que muestra la proporción de cada tipo de corte de diamante en la muestra. Cada sector de la torta representa un tipo de corte y su tamaño es proporcional a la frecuencia relativa de ese tipo de corte en la muestra. Se utilizó la función coord_polar() para convertir la gráfica en una gráfica polar para que parezca una torta.
El segundo gráfico es una gráfica de barras o histograma que muestra la frecuencia de cada tipo de corte de diamante en la muestra. Cada barra representa un tipo de corte y su altura es igual a la frecuencia de ese tipo de corte en la muestra. Además, se agregó una etiqueta para cada barra que muestra el porcentaje correspondiente de cada tipo de corte en la muestra.
Podemos ver que el tipo de corte “Ideal” es el más frecuente en la muestra, seguido del tipo “Premium”. También podemos observar que la gráfica de barras es más fácil de interpretar que la gráfica de torta, ya que las barras son más fáciles de comparar que los sectores de una torta. Sin embargo, ambas gráficas muestran la misma información en términos de la proporción y frecuencia de cada tipo de corte de diamante en la muestra.
En base a los porcentajes que se pueden evidenciar en las graficas y considerando que se trata de un análisis para datos cualitativos, podemos hacer algunas observaciones sobre la distribución de los tipos de corte de diamante en “muestra1”:
El tipo de corte más frecuente en la muestra es el corte “Ideal”, que representa el 40% de los diamantes. Esto sugiere que el mercado para diamantes en la muestra podría estar demandando principalmente diamantes con este tipo de corte.
Los tipos de corte “Premium” y “Muy bueno” también son bastante frecuentes, con 24% y 22% respectivamente. Esto sugiere que estos tipos de corte también son bastante populares en el mercado de diamantes.
Los tipos de corte “Bueno” y “Regular” son los menos frecuentes en la muestra, con solo el 10% y 3% respectivamente. Esto sugiere que estos tipos de corte pueden no ser tan populares en el mercado de diamantes o pueden estar asociados con diamantes de menor calidad.
El gráfico a continuación es de las clasificaciones del corte de los diamantes, para entender un poco sobre ella es importante decir que un corte simétricamente realizado en el diamante permite que pueda captar toda la luz que entra en él y refractarla hacia afuera, produciendo los destellos y un mayor brillo (dándole más valor), y al contrario uno mal realizado disminuye su valor, y el corte se clasifica en regular, bueno, muy bueno, premium, ideal.
ggplot(muestra1, aes(x = corte, y = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(y='Precio') + theme_grey() + scale_y_continuous(breaks = seq(0, 20000, by = 2500))
Lo que podemos ver en la gráfica anterior es que para el tercer cuartil el que tiene el mayor valor es en la clasificación de corte Premium, lo cual sugiere que en general esta clasificación es la que tiene diamantes de mejor valor, además de que al regresar a pensar en la gráfica de boxplot de la claridad donde la mejor clasificación no tenía los mejores precio(los más altos) podemos pensar que éstos podrían tener cortes regulares que como vemos en la actual gráfica es una variable que influye bastante en el precio y algo que también podemos ver como una generalidad es que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) en cada clasificación observando el segundo cuartil (la mediana), así teniendo en cuenta que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) y que existen varios valores atípicos y valores máximos altos se podría esperar que tenga una alta curtosis.
En primer lugar, se utilizó la función table() para crear una tabla de frecuencias de la variable “color” en el conjunto de datos muestra1. Luego, se convirtió esta tabla en un data frame utilizando la función as.data.frame().
Luego se generaron dos gráficos diferentes utilizando la librería ggplot2. El primer gráfico es una gráfica de torta que muestra la proporción de cada tipo de color de diamante en la muestra. Cada sector de la torta representa un tipo de color y su tamaño es proporcional a la frecuencia relativa de ese tipo de color en la muestra. Se utilizó la función coord_polar() para convertir la gráfica en una gráfica polar para que parezca una torta.
El segundo gráfico es una gráfica de barras o histograma que muestra la frecuencia de cada tipo de color de diamante en la muestra. Cada barra representa un tipo de color y su altura es igual a la frecuencia de ese tipo de color en la muestra. Además, se agregó una etiqueta para cada barra que muestra el porcentaje correspondiente de cada tipo de color en la muestra.
Podemos ver que el tipo de color “G” es el más frecuente en la muestra, seguido del tipo “E” y “F”. También podemos observar que la gráfica de barras es más fácil de interpretar que la gráfica de torta, ya que las barras son más fáciles de comparar que los sectores de una torta. Sin embargo, ambas gráficas muestran la misma información en términos de la proporción y frecuencia de cada tipo de color de diamante en la muestra.
En base a los porcentajes que se pueden evidenciar en las gráficas y considerando que se trata de un análisis para datos cualitativos, podemos hacer algunas observaciones sobre la distribución de los tipos de color de diamante en “muestra1”:
El tipo de color más frecuente en la muestra es el color G, que representa el 20% de los diamantes. Esto sugiere que el mercado para diamantes en la muestra podría estar demandando principalmente diamantes con este tipo de color.
Los tipos de color E y F también son bastante frecuentes, con 18% y 17% respectivamente. Esto sugiere que estos tipos de color también son bastante populares en el mercado de diamantes.
Los tipos de color D y H tienen una frecuencia similar, con 12% y 15% respectivamente. Esto sugiere que estos tipos de color también son demandados en el mercado de diamantes, pero no tanto como los tipos de color G, E y F.
El tipo de color I tiene una frecuencia del 11% en la muestra, lo que sugiere que este tipo de color puede ser menos demandado en el mercado de diamantes.
El tipo de color J es el menos frecuente en la muestra, con solo el 6%. Esto sugiere que este tipo de color puede no ser muy popular en el mercado de diamantes o puede estar asociado con diamantes de menor calidad.
En general, podemos concluir que los tipos de color G, E y F son los más populares en el mercado de diamantes, mientras que los tipos de color I y J son menos populares. El tipo de color D y H también son populares, pero no tanto como los tipos de color G, E y F. Esta información puede ser útil para los minoristas de diamantes al tomar decisiones sobre qué tipos de diamantes ofrecer en su inventario.
El gráfico a continuación es de las clasificaciones del color de los diamantes la identificación de su color donde D (mejor), E, F son los mejores ya que son aquellos que no tienen color y G, H, I, J (peor), que son los más cercanos a los que no tienen color siguen siendo buenos pero de menor calidad, y las variaciones de sus precios visualizadas por medio de un boxplot.
ggplot(muestra1, aes(x = color, y = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(y='Precio') + theme_grey() + scale_y_continuous(breaks = seq(0, 20000, by = 2500))
Lo que podemos ver en la gráfica anterior es que para el tercer cuartil el que tiene el mayor valor es en la clasificación de color I, lo cual sugiere que en general esta clasificación es la que tiene diamantes de mejor valor aunque el G también tiene un tercer cuartil alto, además teniendo en cuenta que I no es tan bueno como G es posible que los de color I tengan características en las demás variables que los favorezcan, pero aún así el G tiene más valores atípicos altos, teniendo en cuenta que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) y que existen varios valores atípicos y valores máximos altos se podría esperar que tenga una alta curtosis.
Para analizar la claridad de los diamantes cabe destacar que:
I1 (peor): representa diamantes con imperfecciones visibles a simple vista. Son los diamantes de menor calidad en cuanto a claridad.
SI1, SI2: estos niveles representan diamantes con imperfecciones visibles a 10 aumentos. Los diamantes SI1 tienen menos imperfecciones que los SI2.
VS1, VS2: estos niveles representan diamantes con imperfecciones muy pequeñas y apenas visibles a 10 aumentos. Los diamantes VS1 tienen menos imperfecciones que los VS2.
VVS1, VVS2: estos niveles representan diamantes con imperfecciones extremadamente pequeñas y difíciles de ver incluso con 10 aumentos.
IF (mejor): representa diamantes sin imperfecciones visibles, incluso bajo un microscopio de 10 aumentos. Son los diamantes de mayor calidad en cuanto a claridad.
La gráfica de torta puede ser útil para comparar las proporciones de cada categoría en un conjunto de datos, pero no es la mejor opción para este caso ya que puede ser difícil comparar visualmente.En cambio, la gráfica de barras muestra cada porcentaje como una barra vertical que se extiende desde el eje horizontal, permitiendo comparar fácilmente los tamaños de las barras y, por lo tanto, los porcentajes.
se puede observar que la mayoría de los diamantes en la muestra se encuentran en los niveles de claridad VS2 (24%) y SI1 (23%), seguidos de cerca por SI2 (18%) y VS1 (14%). Esto sugiere que la mayoría de los diamantes en la muestra no son de la más alta calidad (VVS1 y VVS2) ni la más baja calidad (I1), sino que se encuentran en niveles intermedios de claridad. El porcentaje de diamantes de la mejor calidad (IF) es bastante bajo, solo un 3%, lo que es consistente con el hecho de que estos diamantes son relativamente raros y costosos.
El gráfico a continuación es de las clasificaciones de la claridad de los diamantes la cual es la medida de que tan claro es el diamante teniendo en cuenta el tipo de inclusiones que tenga ya sean blancas,puntos negros, burbujas y demás, su clasificación es la siguiente I1 (peor), SI1, SI2, VS1, VS2, VVS1, VVS2, IF (mejor), y las variaciones de sus precios visualizadas por medio de un boxplot.
library(moments)
ggplot(muestra1, aes(x = claridad, y = precio)) + geom_boxplot(outlier.shape = 1, outlier.size = 0.8, outlier.color = "blue") + labs(y='Precio') + theme_grey() + scale_y_continuous(breaks = seq(0, 20000, by = 2500))
Lo que podemos ver en la gráfica anterior es que para el tercer cuartil que es el límite superior de la caja el que tiene el mayor valor es la claridad de VS1, lo cual sugiere que en general esta clasificación es la que tiene diamantes de mejor valor (aunque hay que tener en cuenta las demás variables que pueden influir en el valor) siendo la cuarta mejor clasificación, y algo que también podemos ver como una generalidad es que existe una asimetría positiva (solo vizualmente,haría falta calcularla para saberlo realmente pues es una medida que se relaciona con la media) en cada clasificación observando el segundo cuartil (la mediana), teniendo en cuenta que existe una asimetría positiva y que existen varios valores atípicos y valores máximos altos se podría esperar que tenga una alta curtosis.
Por otro lado algo que podríamos apreciar es que en general la mejor clasificación de claridad la cual es IF no tiene los mejores precios, sino por el contrario precios más bajos, por lo tanto podríamos pensar que los diamantes que tienen esta clasificación tan buena pueden tener peores clasificaciones o valores (en el caso del peso que está en quilates) en las demás variables como su peso, ya que al ser tan valiosos puede que sus pesos por unidad no sean tan grandes, o puede que su corte sea precario, además para analizar ésto se tendrían que ver 5 varibles a la vez en un gráfico
## Class limits f rf rf(%) cf cf(%)
## [54.549,56.164) 2 0.00 0.2 2 0.2
## [56.164,57.779) 5 0.00 0.5 7 0.7
## [57.779,59.395) 38 0.04 3.8 45 4.5
## [59.395,61.01) 164 0.16 16.4 209 20.9
## [61.01,62.625) 568 0.57 56.8 777 77.7
## [62.625,64.24) 189 0.19 18.9 966 96.6
## [64.24,65.855) 29 0.03 2.9 995 99.5
## [65.855,67.47) 3 0.00 0.3 998 99.8
## [67.47,69.086) 1 0.00 0.1 999 99.9
## [69.086,70.701) 0 0.00 0.0 999 99.9
## [70.701,72.316) 1 0.00 0.1 1000 100.0
# Diagrama de barras
ggplot(muestra1,aes(x=profundidad)) + geom_bar(fill = "cadetblue") + labs(title = "diagrama de barras de profundidad", x = "profundidad", y = "frecuencia")
# histograma
ggplot(muestra1, aes(x=profundidad))+ geom_histogram(color = "black",bg="cadetblue",bins = 100) + labs(title = "Histograma de la profundidad", x="Profundidad", y="Frecuencia")
El diagrama de tallos y hojas muestra que la distribución de la profundidad en la variable profundidad es aproximadamente simétrica, con una concentración de valores alrededor de 61.0 a 63.0. También se puede observar que hay algunos valores extremos en la parte superior del rango de profundidad, lo que indica que algunos diamantes en la muestra1 son relativamente profundos
#Diagrama de tallo y hojas
stem(muestra1$profundidad, scale = 2)
##
## The decimal point is at the |
##
## 55 | 13
## 55 |
## 56 | 2
## 56 | 9
## 57 | 123
## 57 | 899
## 58 | 01233
## 58 | 5557778888999
## 59 | 0011122222223333344444
## 59 | 5566667777778888899999999
## 60 | 00000000111111111111111112222223333333333333444444
## 60 | 55555555555555666666666677777777777777788888888888888888999999999999
## 61 | 00000000000000011111111111111111111111111111112222222222222222222222+47
## 61 | 55555555555555555555555555555555555666666666666666666666666666666666+129
## 62 | 00000000000000000000000000000000000000000000000000111111111111111111+114
## 62 | 55555555555555555555555566666666666666666666666666666777777777777777+29
## 63 | 00000000000000000000011111111111111111122222233333333333333444444444
## 63 | 55555566666666666777777777778888888888899999999
## 64 | 0000001122233333
## 64 | 556667778
## 65 | 22223444
## 65 | 5567888
## 66 | 44
## 66 | 8
## 67 |
## 67 | 7
## 68 |
## 68 |
## 69 |
## 69 |
## 70 |
## 70 |
## 71 |
## 71 | 6
#Diagrama de caja
boxplot(profundidad, id=list(method="y"),col= "cadetblue",horizontal = TRUE, main="Diagrama de caja")
## [1] "la media es: 61.8488 y esta representada por la linea negra en el grafico de densidad"
## [1] "la mediana es: 61.9 y esta representada por la linea rojo en el grafico de densidad"
## [1] "la moda es: 61.9 y esta representada por la linea naranja en el grafico de densidad"
## [1] "en este caso la moda y la mediana tienen el mism valor."
## [1] "el rango de la profundidad es de: 16.5"
## [1] "la varianza de la profundidad es de: 1.95199055055055"
## [1] "la desviacion estandar es: 1.39713655400986"
## [1] "el coeficiente de variacion es: 2.25895499025019"
#Asimetria, curtosis y cuartiles
kurtosis(profundidad)
## [1] 7.396755
skewness(profundidad)
## [1] 0.02966616
numSummary(profundidad, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 61.8488 1.397137 1.4 0.02258955 0.02971074 4.424842 61.2 61.9 62.6 1000
#Cuartiles
quantile(profundidad)
## 0% 25% 50% 75% 100%
## 55.1 61.2 61.9 62.6 71.6
# tabla de frecuencia
tdfp8 <- fdt(tabla);tdfp8
## Class limits f rf rf(%) cf cf(%)
## [51.48,53.044) 13 0.01 1.3 13 1.3
## [53.044,54.607) 44 0.04 4.4 57 5.7
## [54.607,56.171) 306 0.31 30.6 363 36.3
## [56.171,57.735) 178 0.18 17.8 541 54.1
## [57.735,59.298) 284 0.28 28.4 825 82.5
## [59.298,60.862) 82 0.08 8.2 907 90.7
## [60.862,62.425) 66 0.07 6.6 973 97.3
## [62.425,63.989) 14 0.01 1.4 987 98.7
## [63.989,65.553) 8 0.01 0.8 995 99.5
## [65.553,67.116) 4 0.00 0.4 999 99.9
## [67.116,68.68) 1 0.00 0.1 1000 100.0
# Diagrama de barras
ggplot(muestra1,aes(x=tabla)) + geom_bar(fill = "brown") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")
# histograma
ggplot(muestra1, aes(x=tabla))+ geom_histogram(color = "black",bg="brown",bins = 30) + labs(title = "Histograma de tabla de los diamantes", x="Tabla", y="Frecuencia")
El diagrama de tallos y hojas muestra tiene una forma bimodal, con dos concentraciones de valores alrededor de 54.0 y 58.0. Esto indica que hay dos grupos de diamantes en la muestra1, con diferentes tamaños de tabla. También se puede observar que hay algunos valores extremos en la parte superior del rango de tabla, lo que indica que algunos diamantes en la muestra1 tienen una tabla relativamente grande.
#Diagrama de tallo y hojas
stem(muestra1$tabla, scale = 2)
##
## The decimal point is at the |
##
## 52 | 0
## 52 |
## 53 | 000000000000
## 53 |
## 54 | 000000000000000000000000000000000000000024
## 54 | 55
## 55 | 00000000000000000000000000000000000000000000000000000000000000000000+36
## 55 | 8
## 56 | 00000000000000000000000000000000000000000000000000000000000000000000+110
## 56 | 6
## 57 | 00000000000000000000000000000000000000000000000000000000000000000000+95
## 57 | 68
## 58 | 00000000000000000000000000000000000000000000000000000000000000000000+86
## 58 |
## 59 | 00000000000000000000000000000000000000000000000000000000000000000000+37
## 59 |
## 60 | 00000000000000000000000000000000000000000000000000000000000000000000+2
## 60 |
## 61 | 0000000000000000000000000000000000000000002
## 61 |
## 62 | 00000000000000000000000
## 62 |
## 63 | 00000000000003
## 63 |
## 64 | 0000000
## 64 |
## 65 | 0
## 65 |
## 66 | 000
## 66 |
## 67 | 0
## 67 |
## 68 | 0
#Diagrama de caja
boxplot(tabla, id=list(method="y"),col= "brown",horizontal = TRUE, main="Diagrama de caja")
## [1] "la media es: 57.519 y esta representada por la linea amarilla en el grafico de densidad"
## [1] "la mediana es: 57 y esta representada por la linea color marfil en el grafico de densidad"
## [1] "la moda es: 56 y esta representada por la linea naranja en el grafico de densidad"
## [1] "el rango de la tabla es de: 16"
## [1] "la varianza de la tabla es de: 5.01319219219219"
## [1] "la desviacion estandar es: 2.2390158981553"
## [1] "el coeficiente de variacion es: 3.89265442402563"
#Asimetria, curtosis y cuartiles
kurtosis(tabla)
## [1] 4.045469
skewness(tabla)
## [1] 0.746404
numSummary(tabla, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 57.519 2.239016 3 0.03892654 0.7475257 1.056739 56 57 59 1000
#Cuartiles
quantile(tabla)
## 0% 25% 50% 75% 100%
## 52 56 57 59 68
# tabla de frecuencia
tdfp9 <- fdt(x);tdfp9
## Class limits f rf rf(%) cf cf(%)
## [3.8115,4.3841) 121 0.12 12.1 121 12.1
## [4.3841,4.9567) 200 0.20 20.0 321 32.1
## [4.9567,5.5293) 130 0.13 13.0 451 45.1
## [5.5293,6.1019) 146 0.15 14.6 597 59.7
## [6.1019,6.6745) 192 0.19 19.2 789 78.9
## [6.6745,7.2471) 98 0.10 9.8 887 88.7
## [7.2471,7.8197) 70 0.07 7.0 957 95.7
## [7.8197,8.3923) 29 0.03 2.9 986 98.6
## [8.3923,8.9649) 12 0.01 1.2 998 99.8
## [8.9649,9.5375) 1 0.00 0.1 999 99.9
## [9.5375,10.11) 1 0.00 0.1 1000 100.0
# Diagrama de barras e histograma
ggplot(muestra1,aes(x=x)) + geom_bar(fill = "darkseagreen1") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")
# histograma
ggplot(muestra1, aes(x=x))+ geom_histogram(color = "black",bg="darkseagreen1",bins = 50) + labs(title = "Histograma de largo en milimetros", x="Largo", y="Frecuencia")
#Diagrama de tallo y hojas
stem(muestra1$x, scale = 2)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 38 | 550235899
## 40 | 01444469003678
## 42 | 00014455666777788888888999900001111122222233333333444444444444445555+24
## 44 | 00000001111122222222223333344444444555555667777788899999999000000111+14
## 46 | 00112233444456677788888990001111112223444455555566667777777788888889
## 48 | 0001111222344456678902222234456788
## 50 | 0223335566888899990000122222233444444455555566666777778899999
## 52 | 00111222333334444444588899990011112222334455666777899
## 54 | 0011147777993345566788999
## 56 | 00112223333334444555666777778889990000111112222222333334455666666777
## 58 | 0011223455556777778899001224466799
## 60 | 0111122335555677789900001111222333333444455566777789999
## 62 | 0011223334455567880001112222233344555666666777788889999999999
## 64 | 00000111112222333344455566666777778888899999900000111111112223333444+1
## 66 | 000111134455566667788888899900011223344666789999
## 68 | 001111122334444445566666688999990112234666689
## 70 | 00113467778994679
## 72 | 0001122557788888899901112223344456777899999
## 74 | 1345567789033444555788
## 76 | 123456672669
## 78 | 2911477
## 80 | 144679014788
## 82 | 0023456177
## 84 | 1223798
## 86 | 265
## 88 | 48
## 90 | 8
## 92 |
## 94 |
## 96 |
## 98 |
## 100 | 1
#Diagrama de caja
boxplot(x, id=list(method="y"),col= "darkseagreen1",horizontal = TRUE, main="Diagrama de caja")
## [1] "la media es: 5.74286 y esta representada por la linea turquesa en el grafico de densidad"
## [1] "la mediana es: 5.7 y esta representada por la linea color salmon en el grafico de densidad"
## [1] "la moda es: 4.34 y esta representada por la linea cafe en el grafico de densidad"
## [1] "el rango de x es de: 6.16"
## [1] "la varianza de x es de: 1.2788748952953"
## [1] "la desviacion estandar es: 1.13087350985656"
## [1] "el coeficiente de variacion es: 19.6918174891354"
#Asimetria, curtosis y cuartiles
kurtosis(x)
## [1] 2.455848
skewness(x)
## [1] 0.4320225
numSummary(x, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 5.74286 1.130874 1.8125 0.1969182 0.4326717 -0.5408583 4.71 5.7 6.5225 1000
#Cuartiles
quantile(x)
## 0% 25% 50% 75% 100%
## 3.8500 4.7100 5.7000 6.5225 10.0100
## Class limits f rf rf(%) cf cf(%)
## [3.861,4.4227) 146 0.15 14.6 146 14.6
## [4.4227,4.9843) 178 0.18 17.8 324 32.4
## [4.9843,5.546) 132 0.13 13.2 456 45.6
## [5.546,6.1077) 139 0.14 13.9 595 59.5
## [6.1077,6.6694) 194 0.19 19.4 789 78.9
## [6.6694,7.231) 101 0.10 10.1 890 89.0
## [7.231,7.7927) 68 0.07 6.8 958 95.8
## [7.7927,8.3544) 31 0.03 3.1 989 98.9
## [8.3544,8.9161) 9 0.01 0.9 998 99.8
## [8.9161,9.4777) 1 0.00 0.1 999 99.9
## [9.4777,10.039) 1 0.00 0.1 1000 100.0
# Diagrama de barras e histograma
ggplot(muestra1,aes(x=y)) + geom_bar(fill = "darkgoldenrod1") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")
# histograma
ggplot(muestra1, aes(x=y)) + geom_histogram(color = "black",bg="darkgoldenrod1",bins = 50) + labs(title = "Histograma de ancho en milimetros", x="Ancho", y="Frecuencia")
#Diagrama de tallo y hojas
stem(muestra1$y, scale = 2)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 38 | 0225589
## 40 | 02223467782236678
## 42 | 11333356678888899999999900000001111111111222333333334444445555555666+21
## 44 | 00000000011111222222233333444444555556666666666777777777788889900011+7
## 46 | 00000111222333445677788889990011112222223334444455555566677777888889
## 48 | 0000000001111223334455666778888045777889
## 50 | 02224466778899999991112233344555666777777777888899999
## 52 | 000000111222333344444556667777778888899112333333334444556668999
## 54 | 03447900011223455689
## 56 | 01222233344444556666666777788888990000000011122233344455555666666777
## 58 | 000222222233444455667779901233333467788899
## 60 | 111225667888999000222345555555666667777788899
## 62 | 00000001112233334455566677778890000112233333444445555555556668888888
## 64 | 00111112223344444455555556677777888899999990011111223333333445555555
## 66 | 0112222344445556777788899000012223444455667999
## 68 | 00001123334444444445677788888990111222345667788
## 70 | 012344567015667889
## 72 | 01113344555555677889900122222444469999
## 74 | 02455578011123446799
## 76 | 0001226678801269
## 78 | 60499
## 80 | 0123556888135567799
## 82 | 61124456
## 84 | 5017
## 86 | 169
## 88 | 3
## 90 | 1
## 92 |
## 94 |
## 96 |
## 98 | 4
#Diagrama de caja
boxplot(y, id=list(method="y"),col= "darkgoldenrod1",horizontal = TRUE, main="Diagrama de caja")
## [1] "la media es: 5.7433 y esta representada por la linea gris en el grafico de densidad"
## [1] "la mediana es: 5.7 y esta representada por la linea color azul en el grafico de densidad"
## [1] "la moda es: 4.38 y esta representada por la linea verde en el grafico de densidad"
## [1] "el rango de y es de: 6.04"
## [1] "la varianza de y es de: 1.25995586586587"
## [1] "la desviacion estandar es: 1.1224775569542"
## [1] "el coeficiente de variacion es: 19.544121967409"
#Asimetria, curtosis y cuartiles
kurtosis(y)
## [1] 2.435862
skewness(y)
## [1] 0.4218266
numSummary(y, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 5.7433 1.122478 1.81 0.1954412 0.4224606 -0.5609448 4.72 5.7 6.53 1000
#Cuartiles
quantile(y)
## 0% 25% 50% 75% 100%
## 3.90 4.72 5.70 6.53 9.94
# tabla de frecuencia
tdfp11 <- fdt(z);tdfp11
## Class limits f rf rf(%) cf cf(%)
## [2.356,2.721) 137 0.14 13.7 137 13.7
## [2.721,3.087) 189 0.19 18.9 326 32.6
## [3.087,3.452) 135 0.14 13.5 461 46.1
## [3.452,3.817) 138 0.14 13.8 599 59.9
## [3.817,4.182) 211 0.21 21.1 810 81.0
## [4.182,4.547) 87 0.09 8.7 897 89.7
## [4.547,4.912) 64 0.06 6.4 961 96.1
## [4.912,5.278) 34 0.03 3.4 995 99.5
## [5.278,5.643) 4 0.00 0.4 999 99.9
## [5.643,6.008) 0 0.00 0.0 999 99.9
## [6.008,6.373) 1 0.00 0.1 1000 100.0
# Diagrama de barras
ggplot(muestra1,aes(x=z)) + geom_bar(fill = "darkolivegreen1") + labs(title = "diagrama de barras del quilate", x = "quilate", y = "frecuencia")
# histograma
ggplot(muestra1, aes(x=z)) + geom_histogram(color = "black",bg="darkolivegreen1",bins = 50) + labs(title = "Histograma de profundidad en milimetros", x="Profundo", y="Frecuencia")
#Diagrama de tallo y hojas
stem(muestra1$z, scale = 2)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 23 | 89
## 24 | 022346888
## 25 | 00022256667788
## 26 | 00111223333333444555555666666666667777777777777888888888899999999999
## 27 | 00000000000000011111111111111122222222222333333333344444444444444455+21
## 28 | 000001111112222233333334444455555556666667777788999
## 29 | 0000000111222222333333344444444455555555566666677777788889
## 30 | 001111122223355667889999
## 31 | 0112222344444556666666677777778888888899999999
## 32 | 0000000011111112222233333334444445555555555666677888888999999
## 33 | 0002344555566667788
## 34 | 001236777888889999
## 35 | 00000111222222233333444444444445555555555555566667777777888888888899
## 36 | 00000111124445556667778889
## 37 | 0002244445555566778899
## 38 | 01111122233333333334455555555666667777777778888889999999
## 39 | 00000011111111222223333444445555556666777777888888899
## 40 | 00000111111111122222222222233333333333344444444555555556666777777778
## 41 | 0001122233334445556666667788999
## 42 | 0001122333333334444444444555556667777778889999
## 43 | 001223345566677899
## 44 | 00155669
## 45 | 001112223444556666777778888999
## 46 | 0000000111222233444445556789
## 47 | 0011134556679
## 48 | 01489
## 49 | 22446789
## 50 | 11234555677889
## 51 | 12688
## 52 | 0125567
## 53 | 3
## 54 | 9
## 55 | 27
## 56 |
## 57 |
## 58 |
## 59 |
## 60 |
## 61 |
## 62 |
## 63 | 1
#Diagrama de caja
boxplot(z, id=list(method="y"),col= "darkolivegreen1",horizontal = TRUE, main="Diagrama de caja")
## [1] "la media es: 3.55259 y esta representada por la linea gris en el grafico de densidad"
## [1] "la mediana es: 3.54 y esta representada por la linea color azul en el grafico de densidad"
## [1] "la moda es: 2.7 y esta representada por la linea verde en el grafico de densidad"
## [1] "el rango de z es de: 3.93"
## [1] "la varianza de z es de: 0.495752544444444"
## [1] "la desviacion estandar es: 0.704096970909863"
## [1] "el coeficiente de variacion es: 19.8192578065542"
#Asimetria, curtosis y cuartiles
kurtosis(z)
## [1] 2.411232
skewness(z)
## [1] 0.417627
numSummary(z, statistics=c("mean","skewness","quantiles","IQR","kurtosis","sd", "cv"),
quantiles= c(.25,.5,.75),type = "2")
## mean sd IQR cv skewness kurtosis 25% 50% 75% n
## 3.55259 0.704097 1.15 0.1981926 0.4182547 -0.5856979 2.9 3.54 4.05 1000
#Cuartiles
quantile(z)
## 0% 25% 50% 75% 100%
## 2.38 2.90 3.54 4.05 6.31