Introducción

En la presente práctica se busca examinar y describir los datos presentados en la tabla predeterminada de R: “diamantes”. Este analisis de hara mediante herramientas y técnicas estadísticas, tales como tablas de frecuencias, histogramas y poligonos de frecuencia, gráficos para variables cuantitativas y cualitativas, medidas de tendencia central, medidas de variabilidad, medidas de posicion y apuntamiento, entre otras cosas; todo esto mediante el uso de comandos de R.
La base de datos se extrae de la tabla “diamantes”, esta contiene variables con información de 53940 diamantes, se tomó una muestra de 1000 datos con la intención de descubrir y reconocer patrones y tendencias implicitos mediante el analisís de variables e implementación de graficas. Las variables que se analizarón fueron: precio($), quilate, corte, color, claridad, profundidad, tabla(ancho de la parte superior del diamante), x(longitud), y(ancho), z(profundidad).

Tablas de Frecuencia - Variables Cuantitativas

## precio 
##           Class limits   f   rf rf(%)   cf cf(%)
##     [353.43,2037.6573) 472 0.47  47.2  472  47.2
##  [2037.6573,3721.8845) 169 0.17  16.9  641  64.1
##  [3721.8845,5406.1118) 127 0.13  12.7  768  76.8
##  [5406.1118,7090.3391)  80 0.08   8.0  848  84.8
##  [7090.3391,8774.5664)  42 0.04   4.2  890  89.0
##  [8774.5664,10458.794)  35 0.04   3.5  925  92.5
##  [10458.794,12143.021)  18 0.02   1.8  943  94.3
##  [12143.021,13827.248)  19 0.02   1.9  962  96.2
##  [13827.248,15511.475)  12 0.01   1.2  974  97.4
##  [15511.475,17195.703)  10 0.01   1.0  984  98.4
##   [17195.703,18879.93)  16 0.02   1.6 1000 100.0
## 
## quilate 
##     Class limits   f   rf rf(%)   cf cf(%)
##  [0.2277,0.4402) 325 0.32  32.5  325  32.5
##  [0.4402,0.6527) 168 0.17  16.8  493  49.3
##  [0.6527,0.8653) 134 0.13  13.4  627  62.7
##   [0.8653,1.078) 161 0.16  16.1  788  78.8
##     [1.078,1.29)  87 0.09   8.7  875  87.5
##     [1.29,1.503)  27 0.03   2.7  902  90.2
##    [1.503,1.715)  57 0.06   5.7  959  95.9
##    [1.715,1.928)   4 0.00   0.4  963  96.3
##     [1.928,2.14)  26 0.03   2.6  989  98.9
##     [2.14,2.353)  10 0.01   1.0  999  99.9
##    [2.353,2.565)   1 0.00   0.1 1000 100.0
## 
## profundidad 
##     Class limits   f   rf rf(%)   cf cf(%)
##   [54.648,55.96)   2 0.00   0.2    2   0.2
##   [55.96,57.273)   1 0.00   0.1    3   0.3
##  [57.273,58.585)  22 0.02   2.2   25   2.5
##  [58.585,59.897)  67 0.07   6.7   92   9.2
##   [59.897,61.21) 235 0.23  23.5  327  32.7
##   [61.21,62.522) 458 0.46  45.8  785  78.5
##  [62.522,63.835) 170 0.17  17.0  955  95.5
##  [63.835,65.147)  37 0.04   3.7  992  99.2
##  [65.147,66.459)   4 0.00   0.4  996  99.6
##  [66.459,67.772)   1 0.00   0.1  997  99.7
##  [67.772,69.084)   3 0.00   0.3 1000 100.0
## 
## tabla 
##     Class limits   f   rf rf(%)   cf cf(%)
##   [52.47,53.944)  17 0.02   1.7   17   1.7
##  [53.944,55.417) 164 0.16  16.4  181  18.1
##  [55.417,56.891) 176 0.18  17.6  357  35.7
##  [56.891,58.365) 341 0.34  34.1  698  69.8
##  [58.365,59.838) 114 0.11  11.4  812  81.2
##  [59.838,61.312) 132 0.13  13.2  944  94.4
##  [61.312,62.785)  25 0.03   2.5  969  96.9
##  [62.785,64.259)  18 0.02   1.8  987  98.7
##  [64.259,65.733)   4 0.00   0.4  991  99.1
##  [65.733,67.206)   8 0.01   0.8  999  99.9
##   [67.206,68.68)   1 0.00   0.1 1000 100.0
## 
## x 
##   Class limits   f   rf rf(%)   cf cf(%)
##  [3.812,4.262)  33 0.03   3.3   33   3.3
##  [4.262,4.712) 217 0.22  21.7  250  25.0
##  [4.712,5.163) 130 0.13  13.0  380  38.0
##  [5.163,5.613) 121 0.12  12.1  501  50.1
##  [5.613,6.064) 128 0.13  12.8  629  62.9
##  [6.064,6.514) 144 0.14  14.4  773  77.3
##  [6.514,6.965)  95 0.10   9.5  868  86.8
##  [6.965,7.415)  55 0.06   5.5  923  92.3
##  [7.415,7.866)  40 0.04   4.0  963  96.3
##  [7.866,8.316)  30 0.03   3.0  993  99.3
##  [8.316,8.767)   7 0.01   0.7 1000 100.0
## 
## y 
##   Class limits   f   rf rf(%)   cf cf(%)
##  [3.851,4.294)  44 0.04   4.4   44   4.4
##  [4.294,4.738) 211 0.21  21.1  255  25.5
##  [4.738,5.181) 139 0.14  13.9  394  39.4
##  [5.181,5.624) 108 0.11  10.8  502  50.2
##  [5.624,6.067) 125 0.12  12.5  627  62.7
##   [6.067,6.51) 146 0.15  14.6  773  77.3
##   [6.51,6.954)  96 0.10   9.6  869  86.9
##  [6.954,7.397)  55 0.06   5.5  924  92.4
##   [7.397,7.84)  39 0.04   3.9  963  96.3
##   [7.84,8.283)  26 0.03   2.6  989  98.9
##  [8.283,8.726)  11 0.01   1.1 1000 100.0
## 
## z 
##    Class limits   f   rf rf(%)   cf cf(%)
##      [0,0.5041)   1 0.00   0.1    1   0.1
##  [0.5041,1.008)   0 0.00   0.0    1   0.1
##   [1.008,1.512)   0 0.00   0.0    1   0.1
##   [1.512,2.016)   0 0.00   0.0    1   0.1
##    [2.016,2.52)  12 0.01   1.2   13   1.3
##    [2.52,3.024) 311 0.31  31.1  324  32.4
##   [3.024,3.529) 209 0.21  20.9  533  53.3
##   [3.529,4.033) 239 0.24  23.9  772  77.2
##   [4.033,4.537) 140 0.14  14.0  912  91.2
##   [4.537,5.041)  70 0.07   7.0  982  98.2
##   [5.041,5.545)  18 0.02   1.8 1000 100.0

Histogramas

A continuación se muestran dos gráficos usados para visualizar la distribución de las variables numéricas: el histograma, el cuál es más utilizado cuando se tienen datos discretos o agrupados en intervalos; y el polígono, este es más adecuado para datos continuos o cuando se desea visualizar suavemente la distribución de una variable.
En este apartado nos ayudamos con la libreria fdth, la cuál nos permite realizar tablas de distribución de frecuencia, histogramas y polígonos asociados a partir de objetos vector y data.frame para variables numéricas y categóricas

Histograma y Polígono de Frecuencia de Precio

Precio: esta variable se refiere el precio de la gema.
En este apartado nos ayudamos con la libreria fdth y el codigo plot.

Histograma y Polígono de Frecuencia de Quilates

Quilate: .
En este apartado nos ayudamos con la libreria fdth y el codigo plot.

Histograma y Polígono de Frecuencia de Profundidad

Profundidad: .
En este apartado nos ayudamos con la libreria fdth y el codigo plot.

Histograma y Polígono de Frecuencia de Tabla

Tabla: esta variable se refiere a la superficie plana y pulida que se encuentra en la parte superior de la gema.
En este apartado nos ayudamos con la libreria fdth y el codigo plot.

Histograma y Polígono de Frecuencia de ‘Y’

Y: ancho de la gema.
En este apartado nos ayudamos con la libreria fdth y el codigo plot.

##   Class limits   f   rf rf(%)   cf cf(%)
##  [3.851,4.294)  44 0.04   4.4   44   4.4
##  [4.294,4.738) 211 0.21  21.1  255  25.5
##  [4.738,5.181) 139 0.14  13.9  394  39.4
##  [5.181,5.624) 108 0.11  10.8  502  50.2
##  [5.624,6.067) 125 0.12  12.5  627  62.7
##   [6.067,6.51) 146 0.15  14.6  773  77.3
##   [6.51,6.954)  96 0.10   9.6  869  86.9
##  [6.954,7.397)  55 0.06   5.5  924  92.4
##   [7.397,7.84)  39 0.04   3.9  963  96.3
##   [7.84,8.283)  26 0.03   2.6  989  98.9
##  [8.283,8.726)  11 0.01   1.1 1000 100.0

Histograma y Polígono de Frecuencia de “Z”

Z: profundidad de la gema.
En este apartado nos ayudamos con la libreria fdth y el codigo plot.

Gráficos de Pastel

En este apartado buscamos una forma de representar datos numéricos en una gráfica circular dividida en secciones proporcionales a la magnitud de las categorías representadas. Cada sección se etiqueta con la cualidad correspondiente y se utiliza para mostrar la proporción de cada una de ellas en el conjunto de datos total.
A continuación se muestran los gráficos usados para visualizar la distribución de las variable cualitativas Claridad, Color y Corte.

Gráfico de Pastel de Color

Gráfico de Pastel de Claridad

Gráficos de Barras

Aquí representamos los datos numéricos en una gráfica donde cada barra vertical es proporcional a la magnitud de las categorías representadas. Cada sección se etiqueta con la categoría correspondiente y se utiliza para mostrar la proporción de cada categoría.
A continuación se muestra el gráfico usado para visualizar la distribución de la variable cualitativa Claridad (esta variable se refiere a las diminutas imperfecciones naturalesde la gema), el grafico de barras.

Gráfico de Barras de Claridad

Medidas de Tendencia Central

Son un conjunto de estadísticas que se utilizan para describir un conjunto de datos. Estas medidas resumen el centro de una distribución de datos y dan una idea de dónde se agrupan la mayoría de los valores. Las tres medidas de tendencia central más comunes son la media, la mediana y la moda.
Media: Es la suma de todos los valores en un conjunto de datos dividida por el número de valores. Es una medida muy sensible a los valores extremos en los datos y puede verse afectada por ellos.
Mediana: Es el valor medio en un conjunto de datos ordenados. Es menos sensible a los valores extremos que la media.
Moda: Es el valor más común en un conjunto de datos. Puede haber más de una moda o ninguna en un conjunto de datos. Es útil para identificar valores que se repiten con frecuencia en un conjunto de datos.

Medidas de Variabilidad

Son un conjunto de estadísticas que describen la dispersión o variabilidad de los datos en una muestra o población. Al igual que las medidas de tendencia central, las medidas de variabilidad son una parte fundamental del análisis estadístico descriptivo.

Rango

Es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.

Varianza

Es una medida de la dispersión de los datos respecto a la media. La varianza se calcula como la suma de los cuadrados de las desviaciones de los valores individuales con respecto a la media, dividido por el número de observaciones.

En este caso se omite la variable precio, ya que en la gráfica anterior se evidenció que posee un numero muy alto, y por tanto no nos permite visualizar las demas variables

Desviación estándar

Es la raíz cuadrada de la varianza y mide la dispersión de los datos en términos de su desviación de la media.

Para el caso particular de las dimensiones del diamante (x, y, z) decidimos hacer una gráfica en la cual pudiéramos evidenciar qué tanta variación o dispersión tienen los datos analizados, esto con el objetivo de comparar con claridad la diferencia que existe entre las tres variables que tienen que ver con la dimensión, para hacernos una idea de la diferencia que puede haber en el tamaño y contextura de los diamantes; con esta medida es mucho más sencillo visualizar a qué nivel difieren los puntos de datos individuales de la media asociada a su variable.

Coeficientes de variación

Para mayor entendimiento del lector sobre la información presentada, presentamos el coeficiente de variación de cada variable, esto con el fin de que se entienda un poco mejor la dispersión que presentan los datos de nuestra muestra en específico, respecto a cada variable de estudio.

Coeficiente de variación de “Precio”

## [1] "Se ha calculado el coeficiente de variación de la variable 'Precio' en la muestra, el cual es:  103.913 %"

Coeficiente de variación de “Profundidad”

## [1] "Se ha calculado el coeficiente de variación de la variable 'profundidad' en la muestra, el cual es:  2.25 %"

Coeficiente de variación de “Quilate”

## [1] "Se ha calculado el coeficiente de variación de la variable 'quilate' en la muestra, el cual es:  59.034 %"

Coeficiente de variación de “Y”

## [1] "El coeficiente de variación de la variable 'Y', para la muestra es 19.086 %"

Coeficiente de variación de “z”

## [1] "Se ha calculado el coeficiente de variación de la variable 'Precio' en la muestra, el cual es:  103.913 %"

Medidas de posición y apuntamiento

Se utilizan para caracterizar la forma y la distribución de un conjunto de datos.

Medidas de posición

Las medidas de posición indican la posición relativa de los valores en el conjunto de datos. Las medidas de posición más comunes son la media, la mediana y la moda.
Cuartiles: Divide los datos en cuatro partes iguales.

Deciles: Dividen un conjunto de datos ordenados en 10 partes iguales.

Medidas de apuntamiento

Las medidas de apuntamiento se utilizan para describir la concentración de los datos alrededor de la media. Una distribución con un alto grado de apuntamiento tiene valores que se concentran estrechamente alrededor de la media, mientras que una distribución con un bajo grado de apuntamiento tiene valores que están más dispersos.

Curtosis: Describe la forma de la distribución de datos en términos de su concentración y extensión en la cola. Una distribución con curtosis alta tiene una concentración de datos en el centro y una extensión más pronunciada en las colas, mientras que una distribución con curtosis baja tiene una extensión más uniforme y menos concentración en el centro.

Diagrama de caja

Es una herramienta gráfica utilizada en estadística descriptiva para representar un conjunto de datos numéricos a través de sus cuartiles. Consiste en un rectángulo que se extiende desde el primer cuartil (Q1) hasta el tercer cuartil (Q3) del conjunto de datos, con una línea en el medio que indica la mediana.

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.

Parcial 1 -Análisis estadístico

Fabio Murcia, Brandon Serrato, Kelly Quevedo, Laura Velásquez, Luna Díaz

2023-03-19

Introducción

Tablas de Frecuencia - Variables Cuantitativas

Histogramas

Histograma y Polígono de Frecuencia de Precio

Histograma y Polígono de Frecuencia de Quilates

Histograma y Polígono de Frecuencia de Profundidad

Histograma y Polígono de Frecuencia de Tabla

Histograma y Polígono de Frecuencia de ‘Y’

Histograma y Polígono de Frecuencia de “Z”

Gráficos de Pastel

Gráfico de Pastel de Color

Gráfico de Pastel de Claridad

Gráficos de Barras

Gráfico de Barras de Claridad

Gráfico de Barras de Claridad

Medidas de Tendencia Central

Medidas de Variabilidad

Rango

Varianza

Desviación estándar

Coeficientes de variación

Coeficiente de variación de “Precio”

Coeficiente de variación de “Profundidad”

Coeficiente de variación de “Quilate”

Coeficiente de variación de “Y”

Coeficiente de variación de “z”

Medidas de posición y apuntamiento

Medidas de posición

Medidas de apuntamiento

Diagrama de caja