Introducción

En el presente se analiza datos proporcionados por la base de datos Diamantes, con el fin de resumir, clasificar y tabular la información; reduciendo así una base de datos bastante amplia de tal manera que sea mas sencillo de analizar. Por consiguiente sera necesario usar las definiciones de variable cualitativa, cuantitativa y las medidas descriptivas vistas en clases de probabilidad y estadistica impartidas por el docente.

Como se mecionó anteriormente se utilizará una muestra de la base de datos “Diamantes”, que será creada aleatroriamente con una semilla establecida a partir del ultimo dijito del documneto de identidad de cada intergrante a participar en este análisis. La muestra se visualizará como una tabla denominada muestra1 y constará de una columna con 1000 diamantes y una fila con 10 variables entre cuantitativas y cualitativas.

Material para realizar el analisis estadistico

Semilla

#Realizamos la semilla con nuestros ultimos dijitos de los dococumentos de identidad.
set.seed(3848)

Tabla muestra1

library(ggplot2)

#Realizamos la semilla con nuestros ultimos dijitos de los doc de id.
set.seed(3848)

datos.d <- data.frame(diamonds)
muestra1 <- datos.d[sample(nrow(datos.d),size=1000),0:10]
muestra1

Tabla extraida de la base de datos “Diamonds”, de manera aleatoria segun nuestra semilla

Tablas de frecuencias cuantitativas

# dist nos brinda una tabla con calculos de la distribución de frecuencias. 
# dist = fdt(muestra1,breaks="Sturges")    # Calcula la distribucion de frecuencias utilizando la regla Sturge
# dist

# carat 
#    Class limits   f   rf rf(%)   cf cf(%)
# [0.2178,0.6112) 452 0.45  45.2  452  45.2
#  [0.6112,1.005) 226 0.23  22.6  678  67.8
#   [1.005,1.398) 201 0.20  20.1  879  87.9
#   [1.398,1.791)  72 0.07   7.2  951  95.1
#   [1.791,2.185)  37 0.04   3.7  988  98.8
#   [2.185,2.578)   9 0.01   0.9  997  99.7
#   [2.578,2.971)   1 0.00   0.1  998  99.8
#   [2.971,3.365)   1 0.00   0.1  999  99.9
#   [3.365,3.758)   0 0.00   0.0  999  99.9
#   [3.758,4.152)   0 0.00   0.0  999  99.9
#   [4.152,4.545)   1 0.00   0.1 1000 100.0

# depth 
#    Class limits   f   rf rf(%)   cf cf(%)
#  [55.44,56.993)   2 0.00   0.2    2   0.2
# [56.993,58.545)  22 0.02   2.2   24   2.4
# [58.545,60.098)  74 0.07   7.4   98   9.8
#  [60.098,61.65) 301 0.30  30.1  399  39.9
#  [61.65,63.203) 496 0.50  49.6  895  89.5
# [63.203,64.755)  88 0.09   8.8  983  98.3
# [64.755,66.308)   9 0.01   0.9  992  99.2
#  [66.308,67.86)   3 0.00   0.3  995  99.5
#  [67.86,69.413)   3 0.00   0.3  998  99.8
# [69.413,70.965)   1 0.00   0.1  999  99.9
# [70.965,72.518)   1 0.00   0.1 1000 100.0

# table 
#    Class limits   f   rf rf(%)   cf cf(%)
# [51.48,52.952)   1 0.00   0.1    1   0.1
# [52.952,54.424)  58 0.06   5.8   59   5.9
# [54.424,55.895) 117 0.12  11.7  176  17.6
# [55.895,57.367) 355 0.36  35.5  531  53.1
# [57.367,58.839) 175 0.17  17.5  706  70.6
# [58.839,60.311) 223 0.22  22.3  929  92.9
# [60.311,61.783)  37 0.04   3.7  966  96.6
# [61.783,63.255)  27 0.03   2.7  993  99.3
# [63.255,64.726)   1 0.00   0.1  994  99.4
# [64.726,66.198)   3 0.00   0.3  997  99.7
# [66.198,67.67)   3 0.00   0.3 1000 100.0

# price 
#          Class limits   f   rf rf(%)   cf cf(%)
#   [333.63,2029.2064) 444 0.44  44.4  444  44.4
# [2029.2064,3724.7827) 160 0.16  16.0  604  60.4
# [3724.7827,5420.3591) 150 0.15  15.0  754  75.4
# [5420.3591,7115.9355)  78 0.08   7.8  832  83.2
# [7115.9355,8811.5118)  42 0.04   4.2  874  87.4
# [8811.5118,10507.088)  32 0.03   3.2  906  90.6
# [10507.088,12202.665)  38 0.04   3.8  944  94.4
# [12202.665,13898.241)  14 0.01   1.4  958  95.8
# [13898.241,15593.817)  15 0.01   1.5  973  97.3
# [15593.817,17289.394)  16 0.02   1.6  989  98.9
# [17289.394,18984.97)  11 0.01   1.1 1000 100.0

#  x 
#    Class limits   f   rf rf(%)   cf cf(%)
# [3.8115,4.4043) 143 0.14  14.3  143  14.3
# [4.4043,4.9971) 195 0.20  19.5  338  33.8
# [4.9971,5.5899) 119 0.12  11.9  457  45.7
# [5.5899,6.1827) 160 0.16  16.0  617  61.7
# [6.1827,6.7755) 211 0.21  21.1  828  82.8
# [6.7755,7.3683)  84 0.08   8.4  912  91.2
# [7.3683,7.9611)  50 0.05   5.0  962  96.2

# [7.9611,8.5539)  34 0.03   3.4  996  99.6
# [8.5539,9.1467)   2 0.00   0.2  998  99.8
# [9.1467,9.7395)   1 0.00   0.1  999  99.9
# [9.7395,10.332)   1 0.00   0.1 1000 100.0

#  y 
#    Class limits   f   rf rf(%)   cf cf(%)
# [3.7422,4.3349)  77 0.08   7.7   77   7.7
# [4.3349,4.9275) 254 0.25  25.4  331  33.1
# [4.9275,5.5202) 125 0.12  12.5  456  45.6
# [5.5202,6.1129) 138 0.14  13.8  594  59.4
# [6.1129,6.7056) 215 0.22  21.5  809  80.9
# [6.7056,7.2982)  89 0.09   8.9  898  89.8
# [7.2982,7.8909)  61 0.06   6.1  959  95.9
# [7.8909,8.4836)  35 0.04   3.5  994  99.4
# [8.4836,9.0763)   4 0.00   0.4  998  99.8
# [9.0763,9.6689)   1 0.00   0.1  999  99.9
# [9.6689,10.262)   1 0.00   0.1 1000 100.0

#  z 
#  Class limits   f   rf rf(%)   cf cf(%)
# [2.376,2.777) 189 0.19  18.9  189  18.9
# [2.777,3.178) 172 0.17  17.2  361  36.1
# [3.178,3.579) 168 0.17  16.8  529  52.9
#  [3.579,3.98) 170 0.17  17.0  699  69.9
#  [3.98,4.381) 178 0.18  17.8  877  87.7
# [4.381,4.782)  76 0.08   7.6  953  95.3
# [4.782,5.183)  38 0.04   3.8  991  99.1
# [5.183,5.584)   6 0.01   0.6  997  99.7
# [5.584,5.985)   2 0.00   0.2  999  99.9
# [5.985,6.386)   0 0.00   0.0  999  99.9
# [6.386,6.787)   1 0.00   0.1 1000 100.0

Donde:

f= frecuencia absoluta, rf= frecuencia relativa, rf(%)= frecuencia relativa porcentual, cf= frecuencia acumulada y cf(%)=frecuencia acumulada porcentual

Variable Estadistica

Def: Es una caracterista de una población o muestra de datos que puede acojerse a distintas variables, usualmente la podemos encontrar de dos tipos; variable cualitativa y Variable cuantitativa.

Bien, para empezar se ha tomado una muestra1 que contiene 1000 diamentes aleatorios de la base de datos “Diamantes” con 10 distintas variables entre cualitativas y cuantitativa.

Variable cualitativa

Def: Hace alución a una cualidad, como bien lo dice el nombre y se expresa en palabras.

Frecuencia

Def: En una tabla de frecuencia podemos encontrar información agrupada y ordenada de tal forma que sea efectivo y rapido el analisis de ciertos datos. Por ello, utilizaremos esta gran herramienta para analizar datos cualitativos como, color, corte y claridad.

Tabla de frecuencia - color de diamante.

Ahora bien, para este apartado tenemos una tabla de frecuencia absotuta con una muestra de 1000 diamentes con una variable denominada color que permite variar los diamantes entre 7 distintas tonalidades.

# table (muestra1$color)

# Tabla de frecuencia absoluta con relación a la variable color.
#   D   E   F   G   H   I   J       #Colores de los diamantes, de mejor a peor.
# 133 190 166 221 145 103  42       #Cantidad de diamantes.

Esta tabla nos permite observar qué cantidad de diamantes estan clasificados en cada uno de los colores; pudiendo variar entre ellos desde el color D hasta el color J. De esta manera sabemos que para el grupo del color D existen 133 diamantes, para el color E ; 190 diamantes, para el color F ; 66 diamantes, para el color G ; 221 diamantes,para el color H ; 145 diamantes, para el color I ; 103 diamantes y para el color J ; 42 diamantes. Ahora, como D es el color deseado para una esmeralda y J el menos deseado, podemos concluir que esta variable puede influenciar en otras como precio, por lo tanto, se buscaría tener una mayor proporción de diamantes entre los colores D y E para tener una mejor calidad de diamante.

Histograma color de diamante.

plot(x = muestra1$color, main = "Histograma color de diamante",
     xlab = "Color", ylab = "Frecuencia", 
     col = c("aliceblue", "lightsteelblue1", "lightblue","cadetblue1","paleturquoise3","cadetblue3","lightblue4"))

Histograma porcentual color de diamante.

porcentaje=c(13.3,19,16.6,22.1,14.5,10.3,4.2)
etiqueta =paste(porcentaje,"%",sep="   ")
colores=c("aliceblue","lightsteelblue1","lightblue","cadetblue1","paleturquoise3","cadetblue3", "lightblue4")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma porcentual color de diamante")

legend("topright",c("D","E","F","G","H","I","J"),cex=0.9,fill=colores)

Tabla de frecuencia - corte del diamante.

En esta parte tenemos para estudiar 5 tipos de cortes efectuados a 1000 diamantes. Para esto realizaremos una tabla de frecuencias como en el anterior analisis cualitativo.

# table (muestra1$cut)

# Tabla de frecuencia absoluta de la varibale corte.
#  Fair   Good   Very Good   Premium     Ideal       # Cualidades con respecto a los cortes.
#   26      76         227       285       386       # Cantidad de diamantes.

Podemos observar en la anterior tabla que a 285 de 1000 diamantes se les realizó un corte premium, a 227 un corte muy bueno, a 76 un corte bueno, a 386 un corte deseable y a 26 diamantes de 1000 un corte regular. Lo que nos permite apreciar que fueron muchos mas los diamanetes bien cortados que los que no se cortaron adecuadamente.

Histograma corte de diamante.

plot(x = muestra1$cut, main = "Histograma color de diamante",
     xlab = "Corte", ylab = "Frecuencia", 
     col = c("#87CEEB", "#00F5FF", "green1","#EEEE00","#FF4500"))

Histograma porcentual corte de diamante.

porcentaje=c(2.6,7.6,22.7,28.5,38.6)
etiqueta =paste(porcentaje,"%",sep="   ")
colores=c("#87CEEB","#00F5FF","green1","#EEEE00","#FF4500")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma corte de diamante")

legend("topright",c("Fair","Good","Very Good","Premium","Ideal"),cex=0.9,fill=colores)

Tabla de frecuencia - claridad del diamante.

En esta parte tenemos para analizar 8 tipos de claridades con respecto a cada uno de los 1000 diamantes, en este caso las claridades van de peor a mejor. Para esto realizaremos una tabla de frecuencias como en el anterior analisis cualitativo.

# table (muestra1$clarity)

# Tabla de frecuencia absoluta de la varibale claridad.
# I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF     # Calidades del nivel de claridad.
# 13  167  253  221  130  100   78   38     # Cantidad de diamantes.

Podemos observar en la anterior tabla que 13 de 1000 diamantes tienen la peor claridad posible I1, 167 tienen calidad SI2, 253 calidad SI1, 221 ya de claridad media VS2, 130 de VS1, 100 de VVS2, 78 de VVS1 y solo 38 con la calidad másima IF. En este caso la mayoria de los diamantes tuvieron una claridad media y casi ninguno tuvo la peor ni la mejor claridad posible.

Histograma claridad de diamante.

colores =c("#FDF5E6","#FFE7BA","#FFE4E1","#90EE90","#54FF9F","#40E0D0","#20B2AA","#B0E0E6")
plot(x = muestra1$clarity, main = "Histograma claridad de diamante",
     xlab = "Claridad", ylab = "Frecuencia", 
     col = colores)

Histograma porcentual claridad de diamante.

colores =c("#FDF5E6","#FFE7BA","#FFE4E1","#90EE90","#54FF9F","#40E0D0","#20B2AA","#B0E0E6")
porcentaje=c(1.3,16.7,25.3,22.1,13,10,7.8,3,8)
etiqueta=paste(porcentaje,"%",sep=" ")
pie(porcentaje,labels= etiqueta ,clockwise = TRUE,col=colores, main = "Histograma porcentual claridad de diamante")
legend("topright",c("l1", "lF", "Sl1", "Sl2", "VS1","VS2","VVS1","VVS2"),title="Niveles de claridad",cex=0.4,fill=colores)

Variable cuantitativa

Def: Se refiere a una medida cuantitativa y se caracterisa por su expresión númerica.

Análisis para la variable precio

La variable precio es esencial para tener un punto de referencia contra las demás variables por eso en esta sección se comparará graficamente la variable precio contra las demás variables.

Tabla de frecuencias y tendencia central

##   Class limits   f   rf rf(%)   cf cf(%)
##       [0,1000) 261 0.26  26.1  261  26.1
##    [1000,2000) 181 0.18  18.1  442  44.2
##    [2000,3000) 107 0.11  10.7  549  54.9
##    [3000,4000)  73 0.07   7.3  622  62.2
##    [4000,5000) 100 0.10  10.0  722  72.2
##    [5000,6000)  62 0.06   6.2  784  78.4
##    [6000,7000)  46 0.05   4.6  830  83.0
##    [7000,8000)  26 0.03   2.6  856  85.6
##    [8000,9000)  22 0.02   2.2  878  87.8
##   [9000,10000)  17 0.02   1.7  895  89.5
##  [10000,11000)  24 0.02   2.4  919  91.9
##  [11000,12000)  23 0.02   2.3  942  94.2
##  [12000,13000)   5 0.00   0.5  947  94.7
##  [13000,14000)  11 0.01   1.1  958  95.8
##  [14000,15000)   9 0.01   0.9  967  96.7
##  [15000,16000)   9 0.01   0.9  976  97.6
##  [16000,17000)   7 0.01   0.7  983  98.3
##  [17000,18000)  11 0.01   1.1  994  99.4
##  [18000,19000)   6 0.01   0.6 1000 100.0
##  [19000,20000)   0 0.00   0.0 1000 100.0

En la anterior gráfica aparte de la frecuencia podemos observar las tres medidas de tendencia central para la variable diamantes, media, mediana y moda, la última solo se pudo aplicar para un intervalo de precios.

Podemos ver que se encuentra una mayor frecuencia de diamantes en los precios mas bajos, por ende la moda se ubica en el intervalo de precios [0,1000)

Quilate vs. Precio

Se puede apreciar en esta gráfica que un aumento en el quilate conlleva a un aumento en el precio del diamante.

Corte vs. Precio promedio

Como se menciona en el título primero se obtuvo un promedio de precio para cada tipo de corte y luego se ubicaron los datos obtenidos en la siguiente gráfica.

splitcorte <- split(muestra1, muestra1$corte)
aci <- mean((splitcorte$Ideal)$precio)
acp <- mean((splitcorte$Premium)$precio)
acmb <- mean((splitcorte$`Muy bueno`)$precio)
acb<- mean((splitcorte$Bueno)$precio)
acr <- mean((splitcorte$Regular)$precio)
vavrpp <- c(aci,acp,acmb,acb,acr)
vcortes <- c("Regular","Bueno","Muy Bueno","Premium","Ideal")
tablacortes <- data.frame(vavrpp,vcortes)
barplot(vavrpp,names.arg = vcortes,ylim=c(0,5000),
        col=paletteer_c("ggthemes::Green-Gold", 5)
        ,xlab="Corte",ylab="Precio promedio")

Se aprecia a simple vista una variación no muy alta en el precio promedio para cada tipo de corte, aunque el corte regular tiene un menor precio promedio.

Color vs. Precio promedio

Al igual que en la anterior gráfica primero se obtuvo un promedio de precio para cada color y se graficaron los datos obtenidos.

Es visible un precio promedio mayor para un color de menor calidad, por ende se concluye un mejor color no influye en el aumento del precio de un diamante.

Claridad vs. Precio promedio

Se repite el proceso de las dos anteriores gráficas para la claridad y el precio.

El precio promedio mas alto es para la claridad mas baja, entonces se concluye que una claridad mejor no influye en la subida de precio del diamante

Profundidad vs. Precio

Al ser las dos variables cuantitativas es posible hacer un análisis gráfico de ellas con una gráfica de puntos.

tablaprof <- data.frame(muestra1$profundidad,muestra1$precio)
tablaprof <- tablaprof %>%
  arrange(muestra1$profundidad)
plot(tablaprof,
     col=paletteer_c("ggthemes::Orange-Gold", 1000),
     xlab="Profundidad",ylab="Precio",ylim=c(0,20000),
     xlim=c(55,75),type="p",pch=20)

Es notorio que la profundidad no afecta al precio.

Gráficas para comparar precio contra las variables Tabla,X,Y,X

Al estar estas 4 variables muy relacionadas entre si es mas efectivo compactar la información en 4 gráficas contenidas en una sola imagen.

par(mfrow=c(2,2))
tablatabla <- data.frame(muestra1$precio,muestra1$tabla)
tablatabla <- tablatabla %>%
  arrange(muestra1$precio)
plot(tablatabla,type="p",lwd = 1,pch=20,xlab="Precio",ylab="Tabla",
     xlim=c(0,20000),
     col=paletteer_c("ggthemes::Red-Green-Gold Diverging", 1000))
  #X
tablax <- data.frame(muestra1$precio,muestra1$x)
tablax <- tablax %>%
  arrange(muestra1$precio)
plot(tablax,type="p",lwd = 1,pch=20,xlab="Precio",ylab="X",
     xlim=c(0,20000),
     col=paletteer_c("ggthemes::Sunset-Sunrise Diverging", 1000))
  #Y
tablay <- data.frame(muestra1$precio,muestra1$y)
tablay <- tablay %>%
  arrange(muestra1$precio)
plot(tablay,type="p",lwd = 1,pch=20,xlab="Precio",ylab="Y",
     xlim=c(0,20000),
     col=paletteer_c("ggthemes::Temperature Diverging", 1000))
  #Z
tablaz <- data.frame(muestra1$precio,muestra1$z)
tablaz <- tablaz %>%
  arrange(muestra1$precio)
plot(tablaz,type="p",lwd = 1,pch=20,xlab="Precio",ylab="Z",
     xlim=c(0,20000),
     col=rev(paletteer_c("grDevices::ag_GrnYl", 1000)))

par(mfrow=c(1,1))

Los datos de la variable Tabla están muy concentrados con respecto al precio, además es notorio que un aumento en cualquiera de las medidas X,Y,Z implica un aumento en el precio.

Medidas de posición para la variable precio

En esta parte se verá que tan dispersos se encuentran los datos de la variable precio.

Cuartiles y percentiles

par(mfrow=c(1,2))
f_precio_cuantiles <- fdt(muestra1$precio,start = 0,end=20000,h=500)
plot(f_precio_cuantiles,type="fh",col="#212121",xlim=c(0,20000),
     xlab="Intervalos de precio",ylab="Frecuencia",main="Cuartiles")
Q1precio <- quantile(muestra1$precio,0.25)
Q2precio <- quantile(muestra1$precio,0.5)
Q3precio <- quantile(muestra1$precio,0.75)
abline(v = Q1precio, col = "olivedrab4", lwd = 3,lty=2)
abline(v = Q2precio, col = "steelblue4", lwd = 3,lty=2)
abline(v = Q3precio, col="#FFB90F", lwd=3,lty=2)
legend("topright", legend =c(paste("Q1=",Q1precio),
                             paste("Q2=",Q2precio),
                             paste("Q3=",Q3precio)),
       fill = c("olivedrab4","steelblue4","#FFB90F"), cex = 0.8)

f_precio_cuantiles <- fdt(muestra1$precio,start = 0,end=20000,h=500)
plot(f_precio_cuantiles,type="fh",col="#212121",xlim=c(0,20000),
     xlab="Intervalos de precio",ylab="Frecuencia",main="Percentiles")
P10precio <- quantile(muestra1$precio,0.10)
P25precio <- quantile(muestra1$precio,0.25)
P50precio <- quantile(muestra1$precio,0.5)
P75precio <- quantile(muestra1$precio,0.75)
P90precio <- quantile(muestra1$precio,0.9)
abline(v = P10precio, col = "olivedrab4", lwd = 3,lty=2)
abline(v = P25precio, col = "steelblue4", lwd = 3,lty=2)
abline(v = P50precio, col="#FFB90F", lwd=3,lty=2)
abline(v = P75precio, col = "#EE9A49", lwd = 3,lty=2)
abline(v = P90precio, col = "#CD1076", lwd = 3,lty=2)
legend("topright", legend =c(paste("P10=",P10precio),
                             paste("P25=",P25precio),
                             paste("P50=",P50precio),
                             paste("P75=",P75precio),
                             paste("P90=",P90precio)),
       fill = c("olivedrab4","steelblue4","#FFB90F","#EE9A49","#CD1076"), cex = 0.8)

par(mfrow=c(1,1))

En la gráfica de percentiles es visible la cercanía del percentíl 10 al percentíl 25, además es posible decir que la mitad de los datos de encuentran antes de un precio de 2492$.

Diagrama de caja para la variable precio

Los diagramas de caja son útiles para ver los intervalos donde hay una mayor densidad de datos, mientras que los datos fuera de la caja se les denomina “datos atípicos”.

boxplot(muestra1$precio,
        main="Diagrama de caja para precio de los diamantes",
        col="#00868B",pars = list(boxwex=0.5),ylim=c(0,20000),pch=19)

Análisis para la variable quilate

La variable quilate es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.

Histograma, polígono de frecuencia y medidas de tendencia central para la variable quilate

## [1] [0,0.5)
## 10 Levels: [0,0.5) [0.5,1) [1,1.5) [1.5,2) [2,2.5) [2.5,3) [3,3.5) ... [4.5,5)

Así como en el precio, en el quilate es visible una mayor frecuencia en los intervalos mas bajos por ello la moda está en el intervalo de quilate [0,0.5), además hay que resaltar que la mediana está muy cerca al promedio.

Medidas de posición para la variable Quilate

Cuartiles y percentiles

Se puede concluir que la mitad de datos se encuentran antes de un valor de quilate igual a 0.71

Diagrama de caja para la variable quilate

boxplot(muestra1$quilate,
        main="Diagrama de caja para quilate de los diamantes",
        col="#473C8B",pars = list(boxwex=0.5),ylim=c(0,5),pch=19)

Gráfica de frecuencia de Profundidad

##     Class limits   f   rf rf(%)   cf cf(%)
##   [55.44,56.993)   2 0.00   0.2    2   0.2
##  [56.993,58.545)  22 0.02   2.2   24   2.4
##  [58.545,60.098)  74 0.07   7.4   98   9.8
##   [60.098,61.65) 301 0.30  30.1  399  39.9
##   [61.65,63.203) 496 0.50  49.6  895  89.5
##  [63.203,64.755)  88 0.09   8.8  983  98.3
##  [64.755,66.308)   9 0.01   0.9  992  99.2
##   [66.308,67.86)   3 0.00   0.3  995  99.5
##   [67.86,69.413)   3 0.00   0.3  998  99.8
##  [69.413,70.965)   1 0.00   0.1  999  99.9
##  [70.965,72.518)   1 0.00   0.1 1000 100.0

Gráfica de Poligono de Frecuencia de Profundidad

##     Class limits   f   rf rf(%)   cf cf(%)
##   [55.44,56.993)   2 0.00   0.2    2   0.2
##  [56.993,58.545)  22 0.02   2.2   24   2.4
##  [58.545,60.098)  74 0.07   7.4   98   9.8
##   [60.098,61.65) 301 0.30  30.1  399  39.9
##   [61.65,63.203) 496 0.50  49.6  895  89.5
##  [63.203,64.755)  88 0.09   8.8  983  98.3
##  [64.755,66.308)   9 0.01   0.9  992  99.2
##   [66.308,67.86)   3 0.00   0.3  995  99.5
##   [67.86,69.413)   3 0.00   0.3  998  99.8
##  [69.413,70.965)   1 0.00   0.1  999  99.9
##  [70.965,72.518)   1 0.00   0.1 1000 100.0

Gráfica de caja para la variable Profundidad

Gráfica de Cuartiles y Percentiles para la variable Profundidad

Gráfica de frecuencia de Tabla

##     Class limits   f   rf rf(%)   cf cf(%)
##   [51.48,52.952)   1 0.00   0.1    1   0.1
##  [52.952,54.424)  58 0.06   5.8   59   5.9
##  [54.424,55.895) 117 0.12  11.7  176  17.6
##  [55.895,57.367) 355 0.36  35.5  531  53.1
##  [57.367,58.839) 175 0.17  17.5  706  70.6
##  [58.839,60.311) 223 0.22  22.3  929  92.9
##  [60.311,61.783)  37 0.04   3.7  966  96.6
##  [61.783,63.255)  27 0.03   2.7  993  99.3
##  [63.255,64.726)   1 0.00   0.1  994  99.4
##  [64.726,66.198)   3 0.00   0.3  997  99.7
##   [66.198,67.67)   3 0.00   0.3 1000 100.0

Gráfica de Poligono de Frecuencia de Tabla

##     Class limits   f   rf rf(%)   cf cf(%)
##   [51.48,52.952)   1 0.00   0.1    1   0.1
##  [52.952,54.424)  58 0.06   5.8   59   5.9
##  [54.424,55.895) 117 0.12  11.7  176  17.6
##  [55.895,57.367) 355 0.36  35.5  531  53.1
##  [57.367,58.839) 175 0.17  17.5  706  70.6
##  [58.839,60.311) 223 0.22  22.3  929  92.9
##  [60.311,61.783)  37 0.04   3.7  966  96.6
##  [61.783,63.255)  27 0.03   2.7  993  99.3
##  [63.255,64.726)   1 0.00   0.1  994  99.4
##  [64.726,66.198)   3 0.00   0.3  997  99.7
##   [66.198,67.67)   3 0.00   0.3 1000 100.0

Gráfica de caja para la variable Tabla

Gráfica de Cuartiles y Percentiles para la variable Tabla

Análisis para la variable X

La variable X (largo en mm) es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.

Histograma, polígono de frecuencia y medidas de tendencia central para la variable X

## [1] [0,0.5)
## 22 Levels: [0,0.5) [0.5,1) [1,1.5) [1.5,2) [2,2.5) [2.5,3) [3,3.5) ... [10.5,11)

##  Class limits   f   rf rf(%)   cf cf(%)
##       [0,0.5)   0 0.00   0.0    0   0.0
##       [0.5,1)   0 0.00   0.0    0   0.0
##       [1,1.5)   0 0.00   0.0    0   0.0
##       [1.5,2)   0 0.00   0.0    0   0.0
##       [2,2.5)   0 0.00   0.0    0   0.0
##       [2.5,3)   0 0.00   0.0    0   0.0
##       [3,3.5)   0 0.00   0.0    0   0.0
##       [3.5,4)  15 0.01   1.5   15   1.5
##       [4,4.5) 180 0.18  18.0  195  19.5
##       [4.5,5) 143 0.14  14.3  338  33.8
##       [5,5.5) 113 0.11  11.3  451  45.1
##       [5.5,6) 122 0.12  12.2  573  57.3
##       [6,6.5) 154 0.15  15.4  727  72.7
##       [6.5,7) 141 0.14  14.1  868  86.8
##       [7,7.5)  63 0.06   6.3  931  93.1
##       [7.5,8)  32 0.03   3.2  963  96.3
##       [8,8.5)  31 0.03   3.1  994  99.4
##       [8.5,9)   4 0.00   0.4  998  99.8
##       [9,9.5)   1 0.00   0.1  999  99.9
##      [9.5,10)   0 0.00   0.0  999  99.9
##     [10,10.5)   1 0.00   0.1 1000 100.0
##     [10.5,11)   0 0.00   0.0 1000 100.0

Para la variable X, como para las anteriores, tiene una moda baja, pero su media y su mediana se solapan al ser casi iguales, haciendo que sea imposible visualizar ambas líneas.

Medidas de posición para la variable X

Cuartiles y percentiles

Aquí se puede concluir que aunque la mitad matemática de las cantidades de X sea 5.72 la mayoría de sus datos están más cercanos a los otros cuartiles y percentiles (excepto P90).

Diagrama de caja para la variable X

boxplot(muestra1$x,
        main="Diagrama de cajas para x de los diamantes",
        col="#FF4500",pars = list(boxwex=0.5),ylim=c(0,11),pch=19)

Análisis para la variable Y

La variable Y (ancho en mm) es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.

Histograma, polígono de frecuencia y medidas de tendencia central para la variable Y

##  Class limits   f   rf rf(%)   cf cf(%)
##       [0,0.5)   0 0.00   0.0    0   0.0
##       [0.5,1)   0 0.00   0.0    0   0.0
##       [1,1.5)   0 0.00   0.0    0   0.0
##       [1.5,2)   0 0.00   0.0    0   0.0
##       [2,2.5)   0 0.00   0.0    0   0.0
##       [2.5,3)   0 0.00   0.0    0   0.0
##       [3,3.5)   0 0.00   0.0    0   0.0
##       [3.5,4)  13 0.01   1.3   13   1.3
##       [4,4.5) 179 0.18  17.9  192  19.2
##       [4.5,5) 143 0.14  14.3  335  33.5
##       [5,5.5) 116 0.12  11.6  451  45.1
##       [5.5,6) 123 0.12  12.3  574  57.4
##       [6,6.5) 150 0.15  15.0  724  72.4
##       [6.5,7) 143 0.14  14.3  867  86.7
##       [7,7.5)  61 0.06   6.1  928  92.8
##       [7.5,8)  38 0.04   3.8  966  96.6
##       [8,8.5)  28 0.03   2.8  994  99.4
##       [8.5,9)   4 0.00   0.4  998  99.8
##       [9,9.5)   1 0.00   0.1  999  99.9
##      [9.5,10)   0 0.00   0.0  999  99.9
##     [10,10.5)   1 0.00   0.1 1000 100.0
##     [10.5,11)   0 0.00   0.0 1000 100.0

Para la variable Y, como para las anteriores, tiene una moda baja, pero justo como con X, su media y su mediana se solapan al ser casi iguales, haciendo que sea imposible visualizar ambas líneas.

Medidas de posición para la variable Y

Cuartiles y percentiles

Aquí se puede concluir que aunque la mitad matemática de las cantidades de Y sea 5.72 (de nuevo como en X) la mayoría de sus datos están más cercanos a los otros cuartiles (aunque en este caso la mayoría están antes que el primer cuartil) y percentiles (excepto P90).

Diagrama de caja para la variable Y

boxplot(muestra1$y,
        main="Diagrama de cajas para y de los diamantes",
        col="#FF4500",pars = list(boxwex=0.5),ylim=c(0,11),pch=19)

Análisis para la variable Z

La variable Z (profundidad en mm) es de tipo cuantitativo por ende para ella aparte de un análisis de frecuencias es posible ver su tendencia central y obtener de ella medidas de posición.

Histograma, polígono de frecuencia y medidas de tendencia central para la variable Z

##  Class limits   f   rf rf(%)   cf cf(%)
##       [0,0.5)   0 0.00   0.0    0   0.0
##       [0.5,1)   0 0.00   0.0    0   0.0
##       [1,1.5)   0 0.00   0.0    0   0.0
##       [1.5,2)   0 0.00   0.0    0   0.0
##       [2,2.5)  17 0.02   1.7   17   1.7
##       [2.5,3) 302 0.30  30.2  319  31.9
##       [3,3.5) 143 0.14  14.3  462  46.2
##       [3.5,4) 250 0.25  25.0  712  71.2
##       [4,4.5) 180 0.18  18.0  892  89.2
##       [4.5,5)  76 0.08   7.6  968  96.8
##       [5,5.5)  29 0.03   2.9  997  99.7
##       [5.5,6)   2 0.00   0.2  999  99.9
##       [6,6.5)   0 0.00   0.0  999  99.9
##       [6.5,7)   1 0.00   0.1 1000 100.0

Para la variable Z, a diferencia de las anteriores, su moda esta adelante de la media y la mediana (que por costumbre de las variables de las dimensiones de los diamantes, se solapan), aunque en este caso pareciera que la moda es incorrecta al mirrar el gráfico, pero es correcta, es simplemente que la mayoría de los datos estan alrededor de 3 (bastantes de 2.9-3.1).

Medidas de posición para la variable Z

Cuartiles y percentiles

En este caso exacto los cuartiles se en loquecen, no pudimos descubrir por qué, así que el analisis será de los percentiles. De nuevo, expecto por el P90 (y parte del P50), la mayoría de los datos se agrupan cercanos a los percentiles dados

Diagrama de caja para la variable Z

boxplot(muestra1$z,
        main="Diagrama de cajas para z de los diamantes",
        col="#FF4500",pars = list(boxwex=0.5),ylim=c(0,7),pch=19)

Medidas de variabilidad

Varianza

#Varianza 

varianzas <- c(var(muestra1$precio),
               var(muestra1$quilate),
               var(muestra1$profundidad),
               var(muestra1$tabla),
               var(muestra1$x),
               var(muestra1$y),
               var(muestra1$z))
variables <- c("Precio","Quilate","Profundidad","Tabla","X","Y","Z")
varianzas_tabla <- data.frame(variables,varianzas)
varianzas_tabla #Tabla

ggplot(varianzas_tabla, aes(x=variables, y=varianzas)) + 
  geom_segment(aes(x = variables, xend = variables, y = 0,
                   yend = varianzas),linewidth=2,col=viridis(7)) +
  geom_point(color=viridis(7)) +
  xlab("Variable") + ylab("Varianza") +
  ggtitle("Varianzas por variable")

La varianza del precio es muy alta con respecto a las demás por ende se hace un análisis excluyendo esta variable

Es visible que en orden de mayor a menor las varianzas van así: Precio, Tabla, Profundidad, X, Y, Z, Quilate.

Desviación estandar

La desviacion estandar es la raíz cuadrada de la varianza.

Debido a que la desviación estandar es la raiz cuadrada de la varianza entonces en orden de mayor a menor la desviación va así: Precio, Tabla, Profundidad, X, Y, Z, Quilate.

Conclusiones

Hay una variación muy alta en los precios.
Las variables que mas afectan el precio son el quilate y las medidas X,Y,Z.
Existe mayor frecuencia de diamantes en los precios mas bajos.
Aunque la moda se pueda visualizar en las gráficas con facilidad en la mayoría de los casos, puede que en otros no se note facilmente debido a una concentración de datos muy cercanos (cada uno de estos menor a la moda).
Fueron muchos mas los diamantes bien cortados que los que no se cortaron adecuadamente.
Tenemos una claridad media mas que alta o baja en los diamantes.

ANALISIS ESTADISTICO CON LA BASE DE DATOS DIAMANTE (PARCIAL 1)

Bresly Melo Rodríguez, Diego Fernandez Narvaez, Camilo Trujillo Garzón, Diego Leiva Jiménez

19 de marzo del 2023

Introducción

Material para realizar el analisis estadistico

Semilla

Tabla muestra1

Tablas de frecuencias cuantitativas

Variable Estadistica

Variable cualitativa

Frecuencia

Tabla de frecuencia - color de diamante.

Histograma color de diamante.

Histograma porcentual color de diamante.

Tabla de frecuencia - corte del diamante.

Histograma corte de diamante.

Histograma porcentual corte de diamante.

Tabla de frecuencia - claridad del diamante.

Histograma claridad de diamante.

Histograma porcentual claridad de diamante.

Variable cuantitativa

Análisis para la variable precio

Tabla de frecuencias y tendencia central

Quilate vs. Precio

Corte vs. Precio promedio

Color vs. Precio promedio

Claridad vs. Precio promedio

Profundidad vs. Precio

Gráficas para comparar precio contra las variables Tabla,X,Y,X

Medidas de posición para la variable precio

Cuartiles y percentiles

Diagrama de caja para la variable precio

Análisis para la variable quilate

Histograma, polígono de frecuencia y medidas de tendencia central para la variable quilate

Medidas de posición para la variable Quilate

Cuartiles y percentiles

Diagrama de caja para la variable quilate

Gráfica de frecuencia de Profundidad

Gráfica de Poligono de Frecuencia de Profundidad

Gráfica de caja para la variable Profundidad

Gráfica de Cuartiles y Percentiles para la variable Profundidad

Gráfica de frecuencia de Tabla

Gráfica de Poligono de Frecuencia de Tabla

Gráfica de caja para la variable Tabla

Gráfica de Cuartiles y Percentiles para la variable Tabla

Análisis para la variable X

Histograma, polígono de frecuencia y medidas de tendencia central para la variable X

Medidas de posición para la variable X

Cuartiles y percentiles

Diagrama de caja para la variable X

Análisis para la variable Y

Histograma, polígono de frecuencia y medidas de tendencia central para la variable Y

Medidas de posición para la variable Y

Cuartiles y percentiles

Diagrama de caja para la variable Y

Análisis para la variable Z

Histograma, polígono de frecuencia y medidas de tendencia central para la variable Z

Medidas de posición para la variable Z

Cuartiles y percentiles

Diagrama de caja para la variable Z

Medidas de variabilidad

Varianza

Desviación estandar

Conclusiones