ANALISIS ESTADISTICO PARA VARIABLES CUANTITATIVAS

En el presente anĂ¡lisis se contarĂ¡ con las siguientes variables de la base de datos denominada diamantes:

PRECIO: Precio de los diamantes en dĂ³lares americanos.

QUILATE: Peso del diamante

PROFUNDIDAD: Porcentaje de la profundidad total.

TABLA: Ancho de la parte superior del diamante.

X: Largo en milĂ­metros.

Y: Ancho en milĂ­metros.

Z: Profundidad en milĂ­metros.

INTRODUCCION

El presente documento presenta un anĂ¡lisis estadĂ­stico de una muestra de mil datos extraĂ­dos de mĂ¡s de 50,000 registros de diamantes con informaciĂ³n detallada sobre su precio, color, quilate, corte, claridad, profundidad, tabla, x, y, y z. Estas diez variables fueron clasificadas como cuantitativas y cualitativas, y se les aplicaron diversas medidas estadĂ­sticas para obtener una comprensiĂ³n mĂ¡s profunda de los datos.

Entre las medidas aplicadas se encuentran las medidas de tendencia central, como la media, la mediana y la moda, las cuales proporcionan informaciĂ³n valiosa sobre el comportamiento general de los datos y nos permiten identificar los valores mĂ¡s representativos en cada una de las variables.

AdemĂ¡s, se emplearon medidas de variabilidad, tales como la desviaciĂ³n estĂ¡ndar y el rango intercuartil, para conocer la dispersiĂ³n de los datos en torno a las medidas de tendencia central. Estas medidas nos permiten comprender la variabilidad de los datos y detectar posibles valores atĂ­picos o anomalĂ­as en la muestra.

Asimismo, se aplicaron medidas de dispersiĂ³n, como la correlaciĂ³n y la covarianza, para examinar la relaciĂ³n entre las diferentes variables en la muestra. Estas medidas nos permiten comprender si existe una relaciĂ³n entre dos o mĂ¡s variables, y si esta relaciĂ³n es positiva o negativa.

En resumen, este anĂ¡lisis estadĂ­stico nos permite obtener una comprensiĂ³n mĂ¡s profunda de la muestra de datos de diamantes y proporciona informaciĂ³n valiosa para la toma de decisiones.

TABLA DE FRECUENCIAS,DENSIDAD Y POLIGONOS

Las tablas de frecuencia nos ayudan a organizar los conjuntos de datos.Existen diferentes tipos de frecuencia entre ellas se encuentran la frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa y frecuencia relativa acumulada. Por otra parte, las tablas de frecuencia junto con los histogramas y la densidad nos dan una idea de como se encuentran distribuidos los datos. Para ello a continuaciĂ³n se presentan diferentes graficos como la densidad y poligono de frecuencia de cada una de las variables, posteriormente se mostraran las simetrias.

Tabla de frecuencia precio

tablaFrecuenciaPrecio <- fdt(precio,breaks = "Sturges"); tablaFrecuenciaPrecio
##           Class limits   f   rf rf(%)   cf cf(%)
##     [379.17,2062.2509) 470 0.47  47.0  470  47.0
##  [2062.2509,3745.3318) 156 0.16  15.6  626  62.6
##  [3745.3318,5428.4127) 124 0.12  12.4  750  75.0
##  [5428.4127,7111.4936)  69 0.07   6.9  819  81.9
##  [7111.4936,8794.5745)  49 0.05   4.9  868  86.8
##  [8794.5745,10477.655)  42 0.04   4.2  910  91.0
##  [10477.655,12160.736)  24 0.02   2.4  934  93.4
##  [12160.736,13843.817)  25 0.03   2.5  959  95.9
##  [13843.817,15526.898)  11 0.01   1.1  970  97.0
##  [15526.898,17209.979)  13 0.01   1.3  983  98.3
##   [17209.979,18893.06)  17 0.02   1.7 1000 100.0

Histograma Precio

plot(tablaFrecuenciaPrecio,main="Histograma Precio",xlab="precio",
     ylab="Frecuencia absoluta",col="#CD3333")

Densidadd y poligono de frecuencia Precio

La linea azul representa la media para la variable precio

tablaPrecio <- data.frame(valores=precio)

histogramaPrecio <- ggplot(tablaPrecio, aes(x=valores))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#FF6666")+ggtitle("Densidad y Poligono de frecuencia")
histogramaPrecio

histMediaPrecio <- histogramaPrecio + geom_vline(aes(xintercept=mean(valores)),
                   color="aquamarine3",linetype="dashed",linewidth=1)+
                  geom_freqpoly(bin=tablaPrecio, color="#8B7B8B")

histMediaPrecio

Tabla de frecuencia Quilate

tablaFrecuenciaQuilate <- fdt(quilate,breaks = "Sturges"); tablaFrecuenciaQuilate
##     Class limits   f   rf rf(%)   cf cf(%)
##  [0.2277,0.4567) 324 0.32  32.4  324  32.4
##  [0.4567,0.6858) 151 0.15  15.1  475  47.5
##  [0.6858,0.9148) 166 0.17  16.6  641  64.1
##   [0.9148,1.144) 160 0.16  16.0  801  80.1
##    [1.144,1.373)  73 0.07   7.3  874  87.4
##    [1.373,1.602)  59 0.06   5.9  933  93.3
##    [1.602,1.831)  20 0.02   2.0  953  95.3
##     [1.831,2.06)  22 0.02   2.2  975  97.5
##     [2.06,2.289)  17 0.02   1.7  992  99.2
##    [2.289,2.518)   7 0.01   0.7  999  99.9
##    [2.518,2.747)   1 0.00   0.1 1000 100.0

Histograma Quilate

plot(tablaFrecuenciaQuilate,main="Histograma Quilate",xlab="Quilate",
     ylab="Frecuencia absoluta",col="#EED8AE")

Densidad y poligono de Frecuencia Quilate

tablaQuilate <- data.frame(values=quilate)

histogramaQuilate <- ggplot(tablaQuilate, aes(x=values))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y poligono de frecuencia")
histogramaQuilate

histMediaQuilate <- histogramaQuilate + geom_vline(aes(xintercept=mean(values)),
                   color="aquamarine3",linetype="dashed",linewidth=1)+
                  geom_freqpoly(bin=tablaQuilate, color="#8B7B8B")

histMediaQuilate

Tabla de frecuencia Profundidad

tablaFrecuenciaProfundidad <- fdt(profundidad,breaks = "Sturges"); tablaFrecuenciaProfundidad
##     Class limits   f   rf rf(%)   cf cf(%)
##   [53.658,55.07)   1 0.00   0.1    1   0.1
##   [55.07,56.481)   0 0.00   0.0    1   0.1
##  [56.481,57.893)   6 0.01   0.6    7   0.7
##  [57.893,59.304)  39 0.04   3.9   46   4.6
##  [59.304,60.716) 141 0.14  14.1  187  18.7
##  [60.716,62.127) 408 0.41  40.8  595  59.5
##  [62.127,63.539) 326 0.33  32.6  921  92.1
##   [63.539,64.95)  59 0.06   5.9  980  98.0
##   [64.95,66.362)  14 0.01   1.4  994  99.4
##  [66.362,67.773)   4 0.00   0.4  998  99.8
##  [67.773,69.185)   2 0.00   0.2 1000 100.0

Histogrma Profundidad

plot(tablaFrecuenciaProfundidad,main="Histograma profundidad",xlab="profundidad",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligo y densidad Profundidad

tablaProfundidad <- data.frame(value=profundidad)

histogramaProfundidad <- ggplot(tablaProfundidad, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y poligono Profundidad")
histogramaProfundidad

histMediaProfundidad <- histogramaProfundidad + geom_vline(aes(xintercept=mean(value)),
                       color="aquamarine3",linetype="dashed",linewidth=1)+
                      geom_freqpoly(bin=tablaProfundidad, color="#8B7B8B")

histMediaProfundidad

Tabla de frecuencia Tabla

tablaFrecuenciaTabla <- fdt(muestra1$tabla,breaks = "Sturges"); tablaFrecuenciaTabla
##     Class limits   f   rf rf(%)   cf cf(%)
##   [51.48,53.503)  18 0.02   1.8   18   1.8
##  [53.503,55.525) 172 0.17  17.2  190  19.0
##  [55.525,57.548) 353 0.35  35.3  543  54.3
##  [57.548,59.571) 288 0.29  28.8  831  83.1
##  [59.571,61.594) 124 0.12  12.4  955  95.5
##  [61.594,63.616)  36 0.04   3.6  991  99.1
##  [63.616,65.639)   6 0.01   0.6  997  99.7
##  [65.639,67.662)   2 0.00   0.2  999  99.9
##  [67.662,69.685)   0 0.00   0.0  999  99.9
##  [69.685,71.707)   0 0.00   0.0  999  99.9
##   [71.707,73.73)   1 0.00   0.1 1000 100.0

Histograma Tabla

plot(tablaFrecuenciaTabla,main="Histograma Tabla",xlab="Tabla",
     ylab="Frecuencia absoluta",col="#EED8AE")

Densidad y poligono Tabla

tablaTable <- data.frame(value=muestra1$tabla)

histogramaTabla <- ggplot(tablaTable, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y poligono Tabla")
histogramaTabla

histMediaTabla <- histogramaTabla + geom_vline(aes(xintercept=mean(value)),
                 color="aquamarine3",linetype="dashed",linewidth=1)+
                 geom_freqpoly(bin=tablaTable, color="#8B7B8B")
  

histMediaTabla

Tabla de frecuencia X

tablaFrecuenciaX <- fdt(muestra1$x,breaks = "Sturges"); tablaFrecuenciaX
##    Class limits   f   rf rf(%)   cf cf(%)
##      [0,0.8043)   1 0.00   0.1    1   0.1
##  [0.8043,1.609)   0 0.00   0.0    1   0.1
##   [1.609,2.413)   0 0.00   0.0    1   0.1
##   [2.413,3.217)   0 0.00   0.0    1   0.1
##   [3.217,4.022)   4 0.00   0.4    5   0.5
##   [4.022,4.826) 298 0.30  29.8  303  30.3
##    [4.826,5.63) 184 0.18  18.4  487  48.7
##    [5.63,6.435) 228 0.23  22.8  715  71.5
##   [6.435,7.239) 168 0.17  16.8  883  88.3
##   [7.239,8.043)  77 0.08   7.7  960  96.0
##   [8.043,8.848)  40 0.04   4.0 1000 100.0

Histograma para X

plot(tablaFrecuenciaX,main="Histograma X",xlab="X",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligono y densidad para X

tablaX <- data.frame(value=muestra1$x)

histogramaX <- ggplot(tablaX, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y Poligono X")
histogramaX

histMediaX <- histogramaX + geom_vline(aes(xintercept=mean(value)),
             color="aquamarine3",linetype="dashed",linewidth=1)+
            geom_freqpoly(bin=tablaX, color="#8B7B8B")

histMediaX

Tabla de frecuencia Y

tablaFrecuenciaY <- fdt(muestra1$y,breaks = "Sturges"); tablaFrecuenciaY
##     Class limits   f   rf rf(%)   cf cf(%)
##    [3.96,6.5198) 743 0.74  74.3  743  74.3
##  [6.5198,9.0796) 256 0.26  25.6  999  99.9
##  [9.0796,11.639)   0 0.00   0.0  999  99.9
##  [11.639,14.199)   0 0.00   0.0  999  99.9
##  [14.199,16.759)   0 0.00   0.0  999  99.9
##  [16.759,19.319)   0 0.00   0.0  999  99.9
##  [19.319,21.879)   0 0.00   0.0  999  99.9
##  [21.879,24.439)   0 0.00   0.0  999  99.9
##  [24.439,26.998)   0 0.00   0.0  999  99.9
##  [26.998,29.558)   0 0.00   0.0  999  99.9
##  [29.558,32.118)   1 0.00   0.1 1000 100.0

Histogrma para Y

plot(tablaFrecuenciaY,main="Histograma Y",xlab="Y",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligono y densidad para Y

tablaY <- data.frame(value=muestra1$y)

histogramaY <- ggplot(tablaY, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y Poligono Y")
histogramaY

histMediaY <- histogramaY + geom_vline(aes(xintercept=mean(value)),
               color="aquamarine3",linetype="dashed",linewidth=1)+
              geom_freqpoly(bin=tablaY, color="#27408B")

histMediaY

Tabla de frecuencia para Z

tablaFrecuenciaZ <- fdt(muestra1$z,breaks = "Sturges"); tablaFrecuenciaZ
##    Class limits   f   rf rf(%)   cf cf(%)
##      [0,0.5289)   1 0.00   0.1    1   0.1
##  [0.5289,1.058)   0 0.00   0.0    1   0.1
##   [1.058,1.587)   0 0.00   0.0    1   0.1
##   [1.587,2.115)   0 0.00   0.0    1   0.1
##   [2.115,2.644)  37 0.04   3.7   38   3.8
##   [2.644,3.173) 330 0.33  33.0  368  36.8
##   [3.173,3.702) 220 0.22  22.0  588  58.8
##   [3.702,4.231) 245 0.24  24.5  833  83.3
##    [4.231,4.76) 115 0.12  11.5  948  94.8
##    [4.76,5.289)  47 0.05   4.7  995  99.5
##   [5.289,5.818)   5 0.00   0.5 1000 100.0

Histograma para Z

plot(tablaFrecuenciaZ,main="Histograma Z",xlab="Z",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligo y densidad para Z

tablaZ <- data.frame(value=muestra1$z)

histogramaZ <- ggplot(tablaZ, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y Poligono Z")
histogramaZ

histMediaZ <- histogramaZ + geom_vline(aes(xintercept=mean(value)),
              color="aquamarine3",linetype="dashed",linewidth=1)+
              geom_freqpoly(bin=tablaZ, color="#EE6363")
              

histMediaZ

Medidas de Tendencia central

Las medidas de tendencia central son medidas que resumen en un solo valor un conjunto de valores o datos. Entre las medidas de tendencia central encontramos el promedio o media aritmetica, mediana y moda

PROMEDIO: El promedio nos permiten observar el comportamiento de un conjunto de datos

MEDIANA: Es el valor que ocupa el centro de nuestro conjunto de datos de una variables

MODA: Es el valor que mĂ¡s se repite en el conjunto de datos de una variable

Medidas de tendencia central precio

promedioPrecio <- mean(precio)
variabilidadPrecio <- data.frame(promedioPrecio,medianaPrecio,modaPrecio);variabilidadPrecio
##   promedioPrecio medianaPrecio modaPrecio
## 1       3942.385          2302        945

Grafica de relaciĂ³n de simetria precio

Medidas de tendencia central Quilate

variabilidadQuilate <- data.frame(promedioQuilate,medianaQuilate
                                  ,modaQuilate);variabilidadQuilate
##   promedioQuilate medianaQuilate modaQuilate
## 1         0.80162            0.7         0.3

Grafica de relaciĂ³n de simetria Quilate

Medidas de tendencia central Profundidad

variabilidadProfundidad <- data.frame(promedioProfundidad,medianaProfundidad
                                  ,modaProfundidad);variabilidadProfundidad
##   promedioProfundidad medianaProfundidad modaProfundidad
## 1             61.8089               61.9            62.2

Grafica de relaciĂ³n de simetria Profundidad

Medidas de tendencia central Tablas

variabilidadTabla <- data.frame(promedioTabla,medianaTabla
                                      ,modaTabla);variabilidadTabla
##   promedioTabla medianaTabla modaTabla
## 1       57.4563           57        56

Grafica de relaciones de simetria Tabla

Medidas de tendencia central X

variabilidadX <- data.frame(promedioX,medianaX
                                ,modaX);variabilidadX
##   promedioX medianaX modaX
## 1   5.72209     5.67  4.34

Grafica de relaciones de simetria X

Medidas de tendencia central Y

variabilidadY <- data.frame(promedioY,medianaY
                            ,modaY);variabilidadY
##   promedioY medianaY modaY
## 1   5.76078      5.7  4.39

Grafica de relacion de simetria Y

Medidas de tendencia central Z

variabilidadZ <- data.frame(promedioZ,medianaZ
                            ,modaZ);variabilidadZ
##   promedioZ medianaZ modaZ
## 1   3.53992    3.495  2.69

Grafica de relaciĂ³n de simetria Z

Medidas de variabilidad

Las medidas de variabilidad proveen informaciĂ³n sobre la variaciĂ³n de una variable es decir resumen en un valor la dispersiĂ³n de una variable en un conjunto de datos. Entre las medidas de variabilidad encontramos el rango, varianza, desviacion estandar y el coeficiente de variaciĂ³n

En la siguiente grĂ¡fica se presenta la varianza de los variables que conforman a diamantes, la presente grĂ¡fica no tiene en cuenta el precio debido a que su varianza es demasiado grande debidoa ello no se logra apreciar las demĂ¡s varianzas de las otras variables.

Varianza

##   propiedades varianzasDatos
## 1     Quilate      0.2374538
## 2 Profundidad      2.0545053
## 3       Tabla      5.1654057
## 4           X      1.3267479
## 5           Y      1.9633141
## 6           Z      0.5110995
ggplot(dataFrameDatos,aes(x=propiedades,y=varianzasDatos,fill=propiedades))+
  geom_bar(stat="identity",width = 0.5)+
  geom_text(aes(label=round(varianzasDatos,4)),vjust=-1)+
  labs(title = "Varianza de variables")

DesviaciĂ³n estandar

En la siguiente grĂ¡fica se presenta la desviaciĂ³n estandar de las variables que conforman diamantes

##   propiedades Desviacion_Estandar
## 1     Quilate           0.4872923
## 2 Profundidad           1.4333546
## 3       Tabla           2.2727529
## 4           X           1.1518454
## 5           Y           1.4011831
## 6           Z           0.7149122
ggplot(dataFrameDesviacion,aes(x=propiedades,y=Desviacion_Estandar,fill=propiedades))+
  geom_bar(stat="identity",width = 0.5)+
  scale_fill_manual("Propiedades",values =colores)+
  geom_text(aes(label=round(Desviacion_Estandar,4)),vjust=-1)+
  labs(title = "DesviaciĂ³n estandar variables")

Coeficiente de variaciĂ³n

Se presentan los coeficientes de variaciĂ³n para las diferentes variables de diamantes

coeficientesDeVariacion <- data.frame(coeficientePrecio,coeficienteQuilate,coeficienteProfundidad,
  coeficienteTabla,coeficienteX,coeficienteY,coeficienteZ); coeficientesDeVariacion
##   coeficientePrecio coeficienteQuilate coeficienteProfundidad coeficienteTabla
## 1          103.4925           60.78845                2.31901          3.95562
##   coeficienteX coeficienteY coeficienteZ
## 1      20.1298      24.3228     20.19572

Rango

RangosDiaman <- data.frame(rangoPrecio,rangoProfundidad,rangoQuilate,rangoTabla,
                           rangoX,rangoY,rangoZ); RangosDiaman
##   rangoPrecio rangoProfundidad rangoQuilate rangoTabla rangoX rangoY rangoZ
## 1       18323             14.3         2.49         21   8.76   27.8   5.76

Graficas de dispersiĂ³n

Los graficos de dispersiĂ³n nos ayudan a entender las posibles relaciones entre variables. En este caso se mostrara la dispersiĂ³n de los datos a lo largo de la muestra.

Grafica de dispersiĂ³n precio

ggplot(muestra1,aes(x=sample_Diamond,y=precio,fill=medianaPrecio))+
  geom_point(color="steelblue4")+
  geom_hline(yintercept = medianaPrecio,color="#8B3626",size=2)+
  labs(title="                        Dispersion Precio")

Grafica de dispersiĂ³n quilate

Grafica de dispersiĂ³n Profundidad

Grafica de dispersiĂ³n tabla

Grafica de dispersiĂ³n X

Grafica de dispersiĂ³n Y

Grafica de dispersiĂ³n Z

De las anteriores graficas podemos inferir que existe como una relacion entre precio y quilate como de igual manera entre X y Z

Dispersion precio-quilate

pairs(~precio + quilate,col=(mako(20,direction = -1)),
      main="Dispersion Precio-Quilate")

DispersiĂ³n entre variables

En la presente grĂ¡fica se presenta las posible relaciones que pueden tener todas las variables

pairs(~precio+profundidad+quilate+muestra1$tabla+muestra1$x+
        muestra1$y+muestra1$z,main="Dispersion de varias variables",
      col=turbo(30,direction = -1))

Medidas de posiciĂ³n

Las medidas de posiciĂ³n permiten dividir el conjunto de datos en partes iguales. Para realizar el analisis estadistico solo se tendra en cuanta las medidas de posicion que creemos que son importantes. Entre las medidas de posiciĂ³n se encuentran los:

Cuantiles: Dividen el conjunto de datos en 4 partes iguales

Deciles: Dividen el conjunto de datos en 10 partes iguales

Percentiles: Dividen el conjunto de datos en 100 partes iguales

Para los percentiles se indicaran los percentiles 20, 30, 60 y 75 y para los cuartiles se indicaran los cuartiles 25, 50 y 75

Convenciones percentiles

Percentil 20 linea azul Percentil 30 linea morada Percentil 60 linea marron Percentil 75 linea Verde

Convenciones cuartiles

Cuartil 25 linea morada Cuartil 50 linea Azul Cuartil 75 linea Verde

Percentiles y cuartiles Precio

Percentil

perPresio20 <- quantile(precio,0.20,type = 6)
perPresio30 <- quantile(precio,0.40,type = 6)
perPresio60 <- quantile(precio,0.60,type = 6)
perPresio75 <- quantile(precio,0.75,type = 6)
ggplot(PercentilesPresio,aes(x=precio)) + geom_histogram()+
  labs(x="Presio",y="Frecuencia")+
  geom_vline(xintercept = c(perPresio20,perPresio30,perPresio60,perPresio75),
             colour=c("#FF7256","deeppink4","#8B2500","palegreen4"),
             size=1,
             linetype = "longdash"
             )+
  labs(title = "Percentiles para Precio")

Cuartil

QuantilPrecio25 <- quantile(precio,0.25,type = 6)
QuantilPrecio50 <- quantile(precio,0.50,type = 6)
QuantilPrecio75 <- quantile(precio,0.75,type = 6)


ggplot(muestra1,aes(x=precio,fill="#7CCD7C")) + geom_histogram()+
  labs(x="Presio",y="Frecuencia")+
  geom_vline(xintercept = c(QuantilPrecio25,QuantilPrecio50,QuantilPrecio75),
             colour=c("deeppink4","#8B2500","palegreen4"),
             size=1,
             linetype = "longdash"
  )+ theme(legend.position = "none")+
  labs(title = "Cuantiles para Precio")

Percentil y cuartiles Quilate

Percentil

Cuartil

Percentil y cuartil Profundidad

Percentil

Cuartil

Percentil y cuartil Tabla

Percentil

Cuartil

Percentil y cuartil X

Percentil

Cuartil

Percentil y cuartil Y

Percentil

Cuartil

Percentil y cuartil Z

Percentil

Cuartil

Box plot

Los box plot o diagramas de caja nos permiten representar grĂ¡ficamente sus datos mediante sus cuartiles. Las partes fundamentales de este diagrama la conforman sus cuartiles de igual sus valores extremos como lo son el minimo y el mĂ¡ximo. De acuerdo a ello se puede visualizar valores atĂ­picos es decir valores que estan por encima del mĂ¡ximo y por debajo del minimo. La linea central de cada boxplot representa la mediana. Por otra se presenta la grĂ¡fica de densidad junto con el boxplot para observar el comportamiento de los datos de las diferentes variables

Box plot precio

boxplot(precio,id=list(method="y"),col= "lightblue",horizontal = TRUE, main="Diagrama de caja para Precio")

hist(precio, probability = TRUE, ylab = "", col = "grey",
     axes = FALSE, main = "RelaciĂ³n densidad y Boxplot Precio")
axis(1)

lines(density(precio), col = "red", lwd = 2)

par(new = TRUE)
boxplot(precio, horizontal = TRUE, axes = FALSE,
        lwd = 2, col = rgb(0, 1, 1, alpha = 0.15))

Box plot quilate

Box plot Profundidad

Box plot Tabla

Box plot X

Box plot Y

Box plot z

Medias de sesgo y apuntamiento

La curtosis determina la cercania de los datos, es decir indica la altura de la curva. A lo largo del presente documento se a presentado las curvas que conforman a las variables. Dentro de ellos se pueden observar que hay curvas con apuntamiento. Las medidas de sesgo representan que tan a leadeadas estan las curvas.

En el siguiente data frame se muestran la curtosis para las variables de la base de datos

curtosisPrecio <- kurtosis(precio)
curtosisQuilate <- kurtosis((quilate))
curtosisProfundidad <- kurtosis(profundidad)
curtosisTabla <- kurtosis(muestra1$tabla)
curtosisX <- kurtosis(muestra1$x)
curtosisY <- kurtosis(muestra1$y)
curtosisZ <- kurtosis(muestra1$z)


curtosisDatos <- data.frame(curtosisPrecio,curtosisProfundidad,curtosisQuilate,
                            curtosisTabla,curtosisX,curtosisY,curtosisZ); curtosisDatos
##   curtosisPrecio curtosisProfundidad curtosisQuilate curtosisTabla curtosisX
## 1        5.16939            5.521043        3.870395      5.324585  2.782561
##   curtosisY curtosisZ
## 1  120.4599  2.838128

ANALISIS ESTADISTICO PARA VARIABLES CUALITATIVAS

Color

La escala de color en diamantes se refiere a la forma en que la luz se refleja en el, y varia entre color D hasta color Z, en este caso se tiene colores desde D hasta J.

color=muestra1$color
color_tabla=table(color)
print(color_tabla)
## color
##   D   E   F   G   H   I   J 
## 106 172 188 215 165  89  65
colores=c("#260800","#2c4000","#ff5e59","#209fd8","#ffd043","#f5ffa1","#d0ff72")
barplot(color_tabla, xlab = "Color",ylab = "Frecuencia absoluta",main = "Color Diamantes",col =colores)

nc=length(color)
porcentajecolor=(color_tabla/nc)*100
print(porcentajecolor)
## color
##    D    E    F    G    H    I    J 
## 10.6 17.2 18.8 21.5 16.5  8.9  6.5
etiqueta=paste(porcentajecolor,"%",sep = " ")
colores=c("#260800","#2c4000","#ff5e59","#209fd8","#ffd043","#f5ffa1","#d0ff72")
pie3D(porcentajecolor,labels = etiqueta,col = colores,main ="Diagrama de sectores color")
legend("topright",c("D","E","F","G","H","I","J"),cex = 0.5,fill = colores)

Claridad

La claridad de un diamate se refiere a la existencia de alguna imperfeccion en su superficie o en su estructura interna y se clasifican en 6 categorias FL: sin inclusiones o marcas visibles bajo una lupa de 10x

IF: inclusiones y marcas muy difĂ­ciles de ver bajo una lupa de 10x

VVS1/VVS2: inclusiones y marcas muy pequeñas y difíciles de ver bajo una lupa de 10x

VS1/VS2: inclusiones y marcas pequeñas pero visibles bajo una lupa de 10x

SI1/SI2: inclusiones y marcas visibles a simple vista pero que no afectansignificativamente la belleza del diamante

I1/I2/I3: inclusiones y marcas grandes y visibles a simple vista que pueden afectar significativamente la belleza del diamante

claridad=muestra1$claridad
claridad_tabla=table(claridad)
print(claridad_tabla)
## claridad
##   I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF 
##   12  164  260  227  134   83   83   37
colores2=c("#90a4aE","#e0e0e0","#a1887f","#ff7043","#ffa726","#ffee58","#dce775","#aed581")
barplot(claridad_tabla, xlab = "Claridad",ylab = "Frecuencia absoluta",main = "Claridad Diamantes",col = colores2)

nclar=length(claridad)
porcentajclaridad=(claridad_tabla/nclar)*100
print(porcentajclaridad)
## claridad
##   I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF 
##  1.2 16.4 26.0 22.7 13.4  8.3  8.3  3.7
etiqueta2=paste(porcentajclaridad,"%",sep = " ")
pie3D(porcentajclaridad,labels = etiqueta2,col = colores2,main ="Diagrama de sectores Claridad")

legend("topright",c("I1","SI2","SI1","VS1","VVS2","VVS1","IF"),cex = 0.5,fill = colores2)

Corte

El corte en los diamantes se refiere a la manera en que la piedra preciosa ha sido tallada y pulida para maximizar su brillo, destello y belleza.

corte_1=table(corte)
colores4=c("#9A7D0A","#943126","#117864","#5B2C6F","#1A5276")
barplot(corte_1, xlab = "Corte",ylab = "Frecuencia absoluta",main = "Corte Diamantes",col = colores4)

ncor=length(corte)
porcentajcorte=(corte_1/ncor)*100
etiqueta3=paste(porcentajcorte,"%",sep = " ")
pie3D(porcentajcorte,labels = etiqueta3,col = colores4,main ="Diagrama de sectores Corte")

legend("topright",c("Regular","Bueno","Muy bueno","Premium","Ideal"),cex = 0.5,fill = colores2)

p=table(claridad,corte)

colores3=c("#90a4aE","#e0e0e0","#a1887f","#ff7043","#ffa726","#ffee58","#dce775","#aed581")
barplot(p, xlab = "Claridad-Corte",ylab = "Frecuencia absoluta",main = "Claridad-Corte Diamantes",col = colores3)
legend("topleft",c("I1","SI2","SI1","VS1","VVS2","VVS1","IF"),cex = 0.5,fill = colores3)

g=table(corte,color)
colores5=c("#9A7D0A","#943126","#117864","#5B2C6F","#1A5276")
barplot(g, xlab = "Color-Corte",ylab = "Frecuencia absoluta",main = "Color-Corte Diamantes",col = colores5)
legend("topleft",c("Regular","Bueno","Muy bueno","Premium","Ideal"),cex = 0.5,fill = colores5)

```