ANALISIS ESTADISTICO PARA VARIABLES CUANTITATIVAS

En el presente análisis se contará con las siguientes variables de la base de datos denominada diamantes:

PRECIO: Precio de los diamantes en dólares americanos.

QUILATE: Peso del diamante

PROFUNDIDAD: Porcentaje de la profundidad total.

TABLA: Ancho de la parte superior del diamante.

X: Largo en milímetros.

Y: Ancho en milímetros.

Z: Profundidad en milímetros.

INTRODUCCION

El presente documento presenta un análisis estadístico de una muestra de mil datos extraídos de más de 50,000 registros de diamantes con información detallada sobre su precio, color, quilate, corte, claridad, profundidad, tabla, x, y, y z. Estas diez variables fueron clasificadas como cuantitativas y cualitativas, y se les aplicaron diversas medidas estadísticas para obtener una comprensión más profunda de los datos.

Entre las medidas aplicadas se encuentran las medidas de tendencia central, como la media, la mediana y la moda, las cuales proporcionan información valiosa sobre el comportamiento general de los datos y nos permiten identificar los valores más representativos en cada una de las variables.

Además, se emplearon medidas de variabilidad, tales como la desviación estándar y el rango intercuartil, para conocer la dispersión de los datos en torno a las medidas de tendencia central. Estas medidas nos permiten comprender la variabilidad de los datos y detectar posibles valores atípicos o anomalías en la muestra.

Asimismo, se aplicaron medidas de dispersión, como la correlación y la covarianza, para examinar la relación entre las diferentes variables en la muestra. Estas medidas nos permiten comprender si existe una relación entre dos o más variables, y si esta relación es positiva o negativa.

En resumen, este análisis estadístico nos permite obtener una comprensión más profunda de la muestra de datos de diamantes y proporciona información valiosa para la toma de decisiones.

TABLA DE FRECUENCIAS,DENSIDAD Y POLIGONOS

Las tablas de frecuencia nos ayudan a organizar los conjuntos de datos.Existen diferentes tipos de frecuencia entre ellas se encuentran la frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa y frecuencia relativa acumulada. Por otra parte, las tablas de frecuencia junto con los histogramas y la densidad nos dan una idea de como se encuentran distribuidos los datos. Para ello a continuación se presentan diferentes graficos como la densidad y poligono de frecuencia de cada una de las variables, posteriormente se mostraran las simetrias.

Tabla de frecuencia precio

tablaFrecuenciaPrecio <- fdt(precio,breaks = "Sturges"); tablaFrecuenciaPrecio

##           Class limits   f   rf rf(%)   cf cf(%)
##     [379.17,2062.2509) 470 0.47  47.0  470  47.0
##  [2062.2509,3745.3318) 156 0.16  15.6  626  62.6
##  [3745.3318,5428.4127) 124 0.12  12.4  750  75.0
##  [5428.4127,7111.4936)  69 0.07   6.9  819  81.9
##  [7111.4936,8794.5745)  49 0.05   4.9  868  86.8
##  [8794.5745,10477.655)  42 0.04   4.2  910  91.0
##  [10477.655,12160.736)  24 0.02   2.4  934  93.4
##  [12160.736,13843.817)  25 0.03   2.5  959  95.9
##  [13843.817,15526.898)  11 0.01   1.1  970  97.0
##  [15526.898,17209.979)  13 0.01   1.3  983  98.3
##   [17209.979,18893.06)  17 0.02   1.7 1000 100.0

Histograma Precio

plot(tablaFrecuenciaPrecio,main="Histograma Precio",xlab="precio",
     ylab="Frecuencia absoluta",col="#CD3333")

Densidadd y poligono de frecuencia Precio

La linea azul representa la media para la variable precio

tablaPrecio <- data.frame(valores=precio)

histogramaPrecio <- ggplot(tablaPrecio, aes(x=valores))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#FF6666")+ggtitle("Densidad y Poligono de frecuencia")
histogramaPrecio

histMediaPrecio <- histogramaPrecio + geom_vline(aes(xintercept=mean(valores)),
                   color="aquamarine3",linetype="dashed",linewidth=1)+
                  geom_freqpoly(bin=tablaPrecio, color="#8B7B8B")

histMediaPrecio

Tabla de frecuencia Quilate

tablaFrecuenciaQuilate <- fdt(quilate,breaks = "Sturges"); tablaFrecuenciaQuilate

##     Class limits   f   rf rf(%)   cf cf(%)
##  [0.2277,0.4567) 324 0.32  32.4  324  32.4
##  [0.4567,0.6858) 151 0.15  15.1  475  47.5
##  [0.6858,0.9148) 166 0.17  16.6  641  64.1
##   [0.9148,1.144) 160 0.16  16.0  801  80.1
##    [1.144,1.373)  73 0.07   7.3  874  87.4
##    [1.373,1.602)  59 0.06   5.9  933  93.3
##    [1.602,1.831)  20 0.02   2.0  953  95.3
##     [1.831,2.06)  22 0.02   2.2  975  97.5
##     [2.06,2.289)  17 0.02   1.7  992  99.2
##    [2.289,2.518)   7 0.01   0.7  999  99.9
##    [2.518,2.747)   1 0.00   0.1 1000 100.0

Histograma Quilate

plot(tablaFrecuenciaQuilate,main="Histograma Quilate",xlab="Quilate",
     ylab="Frecuencia absoluta",col="#EED8AE")

Densidad y poligono de Frecuencia Quilate

tablaQuilate <- data.frame(values=quilate)

histogramaQuilate <- ggplot(tablaQuilate, aes(x=values))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y poligono de frecuencia")
histogramaQuilate

histMediaQuilate <- histogramaQuilate + geom_vline(aes(xintercept=mean(values)),
                   color="aquamarine3",linetype="dashed",linewidth=1)+
                  geom_freqpoly(bin=tablaQuilate, color="#8B7B8B")

histMediaQuilate

Tabla de frecuencia Profundidad

tablaFrecuenciaProfundidad <- fdt(profundidad,breaks = "Sturges"); tablaFrecuenciaProfundidad

##     Class limits   f   rf rf(%)   cf cf(%)
##   [53.658,55.07)   1 0.00   0.1    1   0.1
##   [55.07,56.481)   0 0.00   0.0    1   0.1
##  [56.481,57.893)   6 0.01   0.6    7   0.7
##  [57.893,59.304)  39 0.04   3.9   46   4.6
##  [59.304,60.716) 141 0.14  14.1  187  18.7
##  [60.716,62.127) 408 0.41  40.8  595  59.5
##  [62.127,63.539) 326 0.33  32.6  921  92.1
##   [63.539,64.95)  59 0.06   5.9  980  98.0
##   [64.95,66.362)  14 0.01   1.4  994  99.4
##  [66.362,67.773)   4 0.00   0.4  998  99.8
##  [67.773,69.185)   2 0.00   0.2 1000 100.0

Histogrma Profundidad

plot(tablaFrecuenciaProfundidad,main="Histograma profundidad",xlab="profundidad",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligo y densidad Profundidad

tablaProfundidad <- data.frame(value=profundidad)

histogramaProfundidad <- ggplot(tablaProfundidad, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y poligono Profundidad")
histogramaProfundidad

histMediaProfundidad <- histogramaProfundidad + geom_vline(aes(xintercept=mean(value)),
                       color="aquamarine3",linetype="dashed",linewidth=1)+
                      geom_freqpoly(bin=tablaProfundidad, color="#8B7B8B")

histMediaProfundidad

Tabla de frecuencia Tabla

tablaFrecuenciaTabla <- fdt(muestra1$tabla,breaks = "Sturges"); tablaFrecuenciaTabla

##     Class limits   f   rf rf(%)   cf cf(%)
##   [51.48,53.503)  18 0.02   1.8   18   1.8
##  [53.503,55.525) 172 0.17  17.2  190  19.0
##  [55.525,57.548) 353 0.35  35.3  543  54.3
##  [57.548,59.571) 288 0.29  28.8  831  83.1
##  [59.571,61.594) 124 0.12  12.4  955  95.5
##  [61.594,63.616)  36 0.04   3.6  991  99.1
##  [63.616,65.639)   6 0.01   0.6  997  99.7
##  [65.639,67.662)   2 0.00   0.2  999  99.9
##  [67.662,69.685)   0 0.00   0.0  999  99.9
##  [69.685,71.707)   0 0.00   0.0  999  99.9
##   [71.707,73.73)   1 0.00   0.1 1000 100.0

Histograma Tabla

plot(tablaFrecuenciaTabla,main="Histograma Tabla",xlab="Tabla",
     ylab="Frecuencia absoluta",col="#EED8AE")

Densidad y poligono Tabla

tablaTable <- data.frame(value=muestra1$tabla)

histogramaTabla <- ggplot(tablaTable, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y poligono Tabla")
histogramaTabla

histMediaTabla <- histogramaTabla + geom_vline(aes(xintercept=mean(value)),
                 color="aquamarine3",linetype="dashed",linewidth=1)+
                 geom_freqpoly(bin=tablaTable, color="#8B7B8B")
  

histMediaTabla

Tabla de frecuencia X

tablaFrecuenciaX <- fdt(muestra1$x,breaks = "Sturges"); tablaFrecuenciaX

##    Class limits   f   rf rf(%)   cf cf(%)
##      [0,0.8043)   1 0.00   0.1    1   0.1
##  [0.8043,1.609)   0 0.00   0.0    1   0.1
##   [1.609,2.413)   0 0.00   0.0    1   0.1
##   [2.413,3.217)   0 0.00   0.0    1   0.1
##   [3.217,4.022)   4 0.00   0.4    5   0.5
##   [4.022,4.826) 298 0.30  29.8  303  30.3
##    [4.826,5.63) 184 0.18  18.4  487  48.7
##    [5.63,6.435) 228 0.23  22.8  715  71.5
##   [6.435,7.239) 168 0.17  16.8  883  88.3
##   [7.239,8.043)  77 0.08   7.7  960  96.0
##   [8.043,8.848)  40 0.04   4.0 1000 100.0

Histograma para X

plot(tablaFrecuenciaX,main="Histograma X",xlab="X",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligono y densidad para X

tablaX <- data.frame(value=muestra1$x)

histogramaX <- ggplot(tablaX, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y Poligono X")
histogramaX

histMediaX <- histogramaX + geom_vline(aes(xintercept=mean(value)),
             color="aquamarine3",linetype="dashed",linewidth=1)+
            geom_freqpoly(bin=tablaX, color="#8B7B8B")

histMediaX

Tabla de frecuencia Y

tablaFrecuenciaY <- fdt(muestra1$y,breaks = "Sturges"); tablaFrecuenciaY

##     Class limits   f   rf rf(%)   cf cf(%)
##    [3.96,6.5198) 743 0.74  74.3  743  74.3
##  [6.5198,9.0796) 256 0.26  25.6  999  99.9
##  [9.0796,11.639)   0 0.00   0.0  999  99.9
##  [11.639,14.199)   0 0.00   0.0  999  99.9
##  [14.199,16.759)   0 0.00   0.0  999  99.9
##  [16.759,19.319)   0 0.00   0.0  999  99.9
##  [19.319,21.879)   0 0.00   0.0  999  99.9
##  [21.879,24.439)   0 0.00   0.0  999  99.9
##  [24.439,26.998)   0 0.00   0.0  999  99.9
##  [26.998,29.558)   0 0.00   0.0  999  99.9
##  [29.558,32.118)   1 0.00   0.1 1000 100.0

Histogrma para Y

plot(tablaFrecuenciaY,main="Histograma Y",xlab="Y",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligono y densidad para Y

tablaY <- data.frame(value=muestra1$y)

histogramaY <- ggplot(tablaY, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y Poligono Y")
histogramaY

histMediaY <- histogramaY + geom_vline(aes(xintercept=mean(value)),
               color="aquamarine3",linetype="dashed",linewidth=1)+
              geom_freqpoly(bin=tablaY, color="#27408B")

histMediaY

Tabla de frecuencia para Z

tablaFrecuenciaZ <- fdt(muestra1$z,breaks = "Sturges"); tablaFrecuenciaZ

##    Class limits   f   rf rf(%)   cf cf(%)
##      [0,0.5289)   1 0.00   0.1    1   0.1
##  [0.5289,1.058)   0 0.00   0.0    1   0.1
##   [1.058,1.587)   0 0.00   0.0    1   0.1
##   [1.587,2.115)   0 0.00   0.0    1   0.1
##   [2.115,2.644)  37 0.04   3.7   38   3.8
##   [2.644,3.173) 330 0.33  33.0  368  36.8
##   [3.173,3.702) 220 0.22  22.0  588  58.8
##   [3.702,4.231) 245 0.24  24.5  833  83.3
##    [4.231,4.76) 115 0.12  11.5  948  94.8
##    [4.76,5.289)  47 0.05   4.7  995  99.5
##   [5.289,5.818)   5 0.00   0.5 1000 100.0

Histograma para Z

plot(tablaFrecuenciaZ,main="Histograma Z",xlab="Z",
     ylab="Frecuencia absoluta",col="#EED8AE")

Poligo y densidad para Z

tablaZ <- data.frame(value=muestra1$z)

histogramaZ <- ggplot(tablaZ, aes(x=value))+
  geom_histogram(aes(y=..density..), colour="#EE9572",fill="white")+
  geom_density(alpha=.2, fill="#00868B")+ggtitle("Densidad y Poligono Z")
histogramaZ

histMediaZ <- histogramaZ + geom_vline(aes(xintercept=mean(value)),
              color="aquamarine3",linetype="dashed",linewidth=1)+
              geom_freqpoly(bin=tablaZ, color="#EE6363")
              

histMediaZ

Medidas de Tendencia central

Las medidas de tendencia central son medidas que resumen en un solo valor un conjunto de valores o datos. Entre las medidas de tendencia central encontramos el promedio o media aritmetica, mediana y moda

PROMEDIO: El promedio nos permiten observar el comportamiento de un conjunto de datos

MEDIANA: Es el valor que ocupa el centro de nuestro conjunto de datos de una variables

MODA: Es el valor que más se repite en el conjunto de datos de una variable

Medidas de tendencia central precio

promedioPrecio <- mean(precio)
variabilidadPrecio <- data.frame(promedioPrecio,medianaPrecio,modaPrecio);variabilidadPrecio

##   promedioPrecio medianaPrecio modaPrecio
## 1       3942.385          2302        945

Grafica de relación de simetria precio

Medidas de tendencia central Quilate

variabilidadQuilate <- data.frame(promedioQuilate,medianaQuilate
                                  ,modaQuilate);variabilidadQuilate

##   promedioQuilate medianaQuilate modaQuilate
## 1         0.80162            0.7         0.3

Grafica de relación de simetria Quilate

Medidas de tendencia central Profundidad

variabilidadProfundidad <- data.frame(promedioProfundidad,medianaProfundidad
                                  ,modaProfundidad);variabilidadProfundidad

##   promedioProfundidad medianaProfundidad modaProfundidad
## 1             61.8089               61.9            62.2

Grafica de relación de simetria Profundidad

Medidas de tendencia central Tablas

variabilidadTabla <- data.frame(promedioTabla,medianaTabla
                                      ,modaTabla);variabilidadTabla

##   promedioTabla medianaTabla modaTabla
## 1       57.4563           57        56

Grafica de relaciones de simetria Tabla

Medidas de tendencia central X

variabilidadX <- data.frame(promedioX,medianaX
                                ,modaX);variabilidadX

##   promedioX medianaX modaX
## 1   5.72209     5.67  4.34

Grafica de relaciones de simetria X

Medidas de tendencia central Y

variabilidadY <- data.frame(promedioY,medianaY
                            ,modaY);variabilidadY

##   promedioY medianaY modaY
## 1   5.76078      5.7  4.39

Grafica de relacion de simetria Y

Medidas de tendencia central Z

variabilidadZ <- data.frame(promedioZ,medianaZ
                            ,modaZ);variabilidadZ

##   promedioZ medianaZ modaZ
## 1   3.53992    3.495  2.69

Grafica de relación de simetria Z

Medidas de variabilidad

Las medidas de variabilidad proveen información sobre la variación de una variable es decir resumen en un valor la dispersión de una variable en un conjunto de datos. Entre las medidas de variabilidad encontramos el rango, varianza, desviacion estandar y el coeficiente de variación

En la siguiente gráfica se presenta la varianza de los variables que conforman a diamantes, la presente gráfica no tiene en cuenta el precio debido a que su varianza es demasiado grande debidoa ello no se logra apreciar las demás varianzas de las otras variables.

Varianza

##   propiedades varianzasDatos
## 1     Quilate      0.2374538
## 2 Profundidad      2.0545053
## 3       Tabla      5.1654057
## 4           X      1.3267479
## 5           Y      1.9633141
## 6           Z      0.5110995

ggplot(dataFrameDatos,aes(x=propiedades,y=varianzasDatos,fill=propiedades))+
  geom_bar(stat="identity",width = 0.5)+
  geom_text(aes(label=round(varianzasDatos,4)),vjust=-1)+
  labs(title = "Varianza de variables")

Desviación estandar

En la siguiente gráfica se presenta la desviación estandar de las variables que conforman diamantes

##   propiedades Desviacion_Estandar
## 1     Quilate           0.4872923
## 2 Profundidad           1.4333546
## 3       Tabla           2.2727529
## 4           X           1.1518454
## 5           Y           1.4011831
## 6           Z           0.7149122

ggplot(dataFrameDesviacion,aes(x=propiedades,y=Desviacion_Estandar,fill=propiedades))+
  geom_bar(stat="identity",width = 0.5)+
  scale_fill_manual("Propiedades",values =colores)+
  geom_text(aes(label=round(Desviacion_Estandar,4)),vjust=-1)+
  labs(title = "Desviación estandar variables")

Coeficiente de variación

Se presentan los coeficientes de variación para las diferentes variables de diamantes

coeficientesDeVariacion <- data.frame(coeficientePrecio,coeficienteQuilate,coeficienteProfundidad,
  coeficienteTabla,coeficienteX,coeficienteY,coeficienteZ); coeficientesDeVariacion

##   coeficientePrecio coeficienteQuilate coeficienteProfundidad coeficienteTabla
## 1          103.4925           60.78845                2.31901          3.95562
##   coeficienteX coeficienteY coeficienteZ
## 1      20.1298      24.3228     20.19572

Rango

RangosDiaman <- data.frame(rangoPrecio,rangoProfundidad,rangoQuilate,rangoTabla,
                           rangoX,rangoY,rangoZ); RangosDiaman

##   rangoPrecio rangoProfundidad rangoQuilate rangoTabla rangoX rangoY rangoZ
## 1       18323             14.3         2.49         21   8.76   27.8   5.76

Graficas de dispersión

Los graficos de dispersión nos ayudan a entender las posibles relaciones entre variables. En este caso se mostrara la dispersión de los datos a lo largo de la muestra.

Grafica de dispersión precio

ggplot(muestra1,aes(x=sample_Diamond,y=precio,fill=medianaPrecio))+
  geom_point(color="steelblue4")+
  geom_hline(yintercept = medianaPrecio,color="#8B3626",size=2)+
  labs(title="                        Dispersion Precio")

Grafica de dispersión quilate

Grafica de dispersión Profundidad

Grafica de dispersión tabla

Grafica de dispersión X

Grafica de dispersión Y

Grafica de dispersión Z

De las anteriores graficas podemos inferir que existe como una relacion entre precio y quilate como de igual manera entre X y Z

Dispersion precio-quilate

pairs(~precio + quilate,col=(mako(20,direction = -1)),
      main="Dispersion Precio-Quilate")

Dispersión entre variables

En la presente gráfica se presenta las posible relaciones que pueden tener todas las variables

pairs(~precio+profundidad+quilate+muestra1$tabla+muestra1$x+
        muestra1$y+muestra1$z,main="Dispersion de varias variables",
      col=turbo(30,direction = -1))

Medidas de posición

Las medidas de posición permiten dividir el conjunto de datos en partes iguales. Para realizar el analisis estadistico solo se tendra en cuanta las medidas de posicion que creemos que son importantes. Entre las medidas de posición se encuentran los:

Cuantiles: Dividen el conjunto de datos en 4 partes iguales

Deciles: Dividen el conjunto de datos en 10 partes iguales

Percentiles: Dividen el conjunto de datos en 100 partes iguales

Para los percentiles se indicaran los percentiles 20, 30, 60 y 75 y para los cuartiles se indicaran los cuartiles 25, 50 y 75

Convenciones percentiles

Percentil 20 linea azul Percentil 30 linea morada Percentil 60 linea marron Percentil 75 linea Verde

Convenciones cuartiles

Cuartil 25 linea morada Cuartil 50 linea Azul Cuartil 75 linea Verde

Percentiles y cuartiles Precio

Percentil

perPresio20 <- quantile(precio,0.20,type = 6)
perPresio30 <- quantile(precio,0.40,type = 6)
perPresio60 <- quantile(precio,0.60,type = 6)
perPresio75 <- quantile(precio,0.75,type = 6)

ggplot(PercentilesPresio,aes(x=precio)) + geom_histogram()+
  labs(x="Presio",y="Frecuencia")+
  geom_vline(xintercept = c(perPresio20,perPresio30,perPresio60,perPresio75),
             colour=c("#FF7256","deeppink4","#8B2500","palegreen4"),
             size=1,
             linetype = "longdash"
             )+
  labs(title = "Percentiles para Precio")

Cuartil

QuantilPrecio25 <- quantile(precio,0.25,type = 6)
QuantilPrecio50 <- quantile(precio,0.50,type = 6)
QuantilPrecio75 <- quantile(precio,0.75,type = 6)


ggplot(muestra1,aes(x=precio,fill="#7CCD7C")) + geom_histogram()+
  labs(x="Presio",y="Frecuencia")+
  geom_vline(xintercept = c(QuantilPrecio25,QuantilPrecio50,QuantilPrecio75),
             colour=c("deeppink4","#8B2500","palegreen4"),
             size=1,
             linetype = "longdash"
  )+ theme(legend.position = "none")+
  labs(title = "Cuantiles para Precio")

Percentil y cuartiles Quilate

Percentil

Cuartil

Percentil y cuartil Profundidad

Percentil

Cuartil

Percentil y cuartil Tabla

Percentil

Cuartil

Percentil y cuartil X

Percentil

Cuartil

Percentil y cuartil Y

Percentil

Cuartil

Percentil y cuartil Z

Percentil

Cuartil

Box plot

Los box plot o diagramas de caja nos permiten representar gráficamente sus datos mediante sus cuartiles. Las partes fundamentales de este diagrama la conforman sus cuartiles de igual sus valores extremos como lo son el minimo y el máximo. De acuerdo a ello se puede visualizar valores atípicos es decir valores que estan por encima del máximo y por debajo del minimo. La linea central de cada boxplot representa la mediana. Por otra se presenta la gráfica de densidad junto con el boxplot para observar el comportamiento de los datos de las diferentes variables

Box plot precio

boxplot(precio,id=list(method="y"),col= "lightblue",horizontal = TRUE, main="Diagrama de caja para Precio")

hist(precio, probability = TRUE, ylab = "", col = "grey",
     axes = FALSE, main = "Relación densidad y Boxplot Precio")
axis(1)

lines(density(precio), col = "red", lwd = 2)

par(new = TRUE)
boxplot(precio, horizontal = TRUE, axes = FALSE,
        lwd = 2, col = rgb(0, 1, 1, alpha = 0.15))

Box plot quilate

Box plot Profundidad

Box plot Tabla

Box plot X

Box plot Y

Box plot z

Medias de sesgo y apuntamiento

La curtosis determina la cercania de los datos, es decir indica la altura de la curva. A lo largo del presente documento se a presentado las curvas que conforman a las variables. Dentro de ellos se pueden observar que hay curvas con apuntamiento. Las medidas de sesgo representan que tan a leadeadas estan las curvas.

En el siguiente data frame se muestran la curtosis para las variables de la base de datos

curtosisPrecio <- kurtosis(precio)
curtosisQuilate <- kurtosis((quilate))
curtosisProfundidad <- kurtosis(profundidad)
curtosisTabla <- kurtosis(muestra1$tabla)
curtosisX <- kurtosis(muestra1$x)
curtosisY <- kurtosis(muestra1$y)
curtosisZ <- kurtosis(muestra1$z)


curtosisDatos <- data.frame(curtosisPrecio,curtosisProfundidad,curtosisQuilate,
                            curtosisTabla,curtosisX,curtosisY,curtosisZ); curtosisDatos

##   curtosisPrecio curtosisProfundidad curtosisQuilate curtosisTabla curtosisX
## 1        5.16939            5.521043        3.870395      5.324585  2.782561
##   curtosisY curtosisZ
## 1  120.4599  2.838128

ANALISIS ESTADISTICO PARA VARIABLES CUALITATIVAS

Color

La escala de color en diamantes se refiere a la forma en que la luz se refleja en el, y varia entre color D hasta color Z, en este caso se tiene colores desde D hasta J.

color=muestra1$color
color_tabla=table(color)
print(color_tabla)

## color
##   D   E   F   G   H   I   J 
## 106 172 188 215 165  89  65

colores=c("#260800","#2c4000","#ff5e59","#209fd8","#ffd043","#f5ffa1","#d0ff72")
barplot(color_tabla, xlab = "Color",ylab = "Frecuencia absoluta",main = "Color Diamantes",col =colores)

nc=length(color)
porcentajecolor=(color_tabla/nc)*100
print(porcentajecolor)

## color
##    D    E    F    G    H    I    J 
## 10.6 17.2 18.8 21.5 16.5  8.9  6.5

etiqueta=paste(porcentajecolor,"%",sep = " ")
colores=c("#260800","#2c4000","#ff5e59","#209fd8","#ffd043","#f5ffa1","#d0ff72")
pie3D(porcentajecolor,labels = etiqueta,col = colores,main ="Diagrama de sectores color")
legend("topright",c("D","E","F","G","H","I","J"),cex = 0.5,fill = colores)

Claridad

La claridad de un diamate se refiere a la existencia de alguna imperfeccion en su superficie o en su estructura interna y se clasifican en 6 categorias FL: sin inclusiones o marcas visibles bajo una lupa de 10x

IF: inclusiones y marcas muy difíciles de ver bajo una lupa de 10x

VVS1/VVS2: inclusiones y marcas muy pequeñas y difíciles de ver bajo una lupa de 10x

VS1/VS2: inclusiones y marcas pequeñas pero visibles bajo una lupa de 10x

SI1/SI2: inclusiones y marcas visibles a simple vista pero que no afectansignificativamente la belleza del diamante

I1/I2/I3: inclusiones y marcas grandes y visibles a simple vista que pueden afectar significativamente la belleza del diamante

claridad=muestra1$claridad
claridad_tabla=table(claridad)
print(claridad_tabla)

## claridad
##   I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF 
##   12  164  260  227  134   83   83   37

colores2=c("#90a4aE","#e0e0e0","#a1887f","#ff7043","#ffa726","#ffee58","#dce775","#aed581")
barplot(claridad_tabla, xlab = "Claridad",ylab = "Frecuencia absoluta",main = "Claridad Diamantes",col = colores2)

nclar=length(claridad)
porcentajclaridad=(claridad_tabla/nclar)*100
print(porcentajclaridad)

## claridad
##   I1  SI2  SI1  VS2  VS1 VVS2 VVS1   IF 
##  1.2 16.4 26.0 22.7 13.4  8.3  8.3  3.7

etiqueta2=paste(porcentajclaridad,"%",sep = " ")
pie3D(porcentajclaridad,labels = etiqueta2,col = colores2,main ="Diagrama de sectores Claridad")

legend("topright",c("I1","SI2","SI1","VS1","VVS2","VVS1","IF"),cex = 0.5,fill = colores2)

Corte

El corte en los diamantes se refiere a la manera en que la piedra preciosa ha sido tallada y pulida para maximizar su brillo, destello y belleza.

corte_1=table(corte)
colores4=c("#9A7D0A","#943126","#117864","#5B2C6F","#1A5276")
barplot(corte_1, xlab = "Corte",ylab = "Frecuencia absoluta",main = "Corte Diamantes",col = colores4)

ncor=length(corte)
porcentajcorte=(corte_1/ncor)*100
etiqueta3=paste(porcentajcorte,"%",sep = " ")
pie3D(porcentajcorte,labels = etiqueta3,col = colores4,main ="Diagrama de sectores Corte")

legend("topright",c("Regular","Bueno","Muy bueno","Premium","Ideal"),cex = 0.5,fill = colores2)

p=table(claridad,corte)

colores3=c("#90a4aE","#e0e0e0","#a1887f","#ff7043","#ffa726","#ffee58","#dce775","#aed581")
barplot(p, xlab = "Claridad-Corte",ylab = "Frecuencia absoluta",main = "Claridad-Corte Diamantes",col = colores3)
legend("topleft",c("I1","SI2","SI1","VS1","VVS2","VVS1","IF"),cex = 0.5,fill = colores3)

g=table(corte,color)
colores5=c("#9A7D0A","#943126","#117864","#5B2C6F","#1A5276")
barplot(g, xlab = "Color-Corte",ylab = "Frecuencia absoluta",main = "Color-Corte Diamantes",col = colores5)
legend("topleft",c("Regular","Bueno","Muy bueno","Premium","Ideal"),cex = 0.5,fill = colores5)

```

Análisis estadistico Diamentes

Ronald Daniel Jacanamejoy, Miguel Andres Garcia

2023-03-13

INTRODUCCION

TABLA DE FRECUENCIAS,DENSIDAD Y POLIGONOS

Tabla de frecuencia precio

Histograma Precio

Densidadd y poligono de frecuencia Precio

Tabla de frecuencia Quilate

Histograma Quilate

Densidad y poligono de Frecuencia Quilate

Tabla de frecuencia Profundidad

Histogrma Profundidad

Poligo y densidad Profundidad

Tabla de frecuencia Tabla

Histograma Tabla

Densidad y poligono Tabla

Tabla de frecuencia X

Histograma para X

Poligono y densidad para X

Tabla de frecuencia Y

Histogrma para Y

Poligono y densidad para Y

Tabla de frecuencia para Z

Histograma para Z

Poligo y densidad para Z

Medidas de Tendencia central

Medidas de tendencia central precio

Grafica de relación de simetria precio

Medidas de tendencia central Quilate

Grafica de relación de simetria Quilate

Medidas de tendencia central Profundidad

Grafica de relación de simetria Profundidad

Medidas de tendencia central Tablas

Grafica de relaciones de simetria Tabla

Medidas de tendencia central X

Grafica de relaciones de simetria X

Medidas de tendencia central Y

Grafica de relacion de simetria Y

Medidas de tendencia central Z

Grafica de relación de simetria Z

Medidas de variabilidad

Varianza

Desviación estandar

Coeficiente de variación

Rango

Graficas de dispersión

Grafica de dispersión precio

Grafica de dispersión quilate

Grafica de dispersión Profundidad

Grafica de dispersión tabla

Grafica de dispersión X

Grafica de dispersión Y

Grafica de dispersión Z

Dispersion precio-quilate

Dispersión entre variables

Medidas de posición

Percentiles y cuartiles Precio

Percentil

Cuartil

Percentil y cuartiles Quilate

Percentil

Cuartil

Percentil y cuartil Profundidad

Percentil

Cuartil

Percentil y cuartil Tabla

Percentil

Cuartil

Percentil y cuartil X

Percentil

Cuartil

Percentil y cuartil Y

Percentil

Cuartil

Percentil y cuartil Z

Percentil

Cuartil

Box plot

Box plot precio