## Loading required package: ggplot2
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.0     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ lubridate 1.9.2     ✔ tibble    3.1.8
## ✔ purrr     1.0.1     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks plotly::filter(), stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
## Loading required package: viridisLite
## 
## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr
## 
## 
## Attaching package: 'modeest'
## 
## 
## The following object is masked from 'package:fdth':
## 
##     mfv

Introducción

En este ejercicio práctico se ponen en práctica los conceptos de Tablas de Frecuencias y gráficos para variables cuantitativas y cualitativas utilizando R. Para realizar la práctica, utilizamos una base de datos llamada “diamonds”, que viene incluida en R y contiene información sobre más de 54,000 diamantes, incluyendo sus precios y características.

Tomamos una muestra de 1000 datos de esta base de datos con el objetivo de identificar patrones y tendencias ocultas al analizar varias variables y al crear diferentes tipos de gráficos. Estas variables incluyen el precio, el tamaño en quilates, el tipo de corte, el color, la claridad, la profundidad, la tabla (ancho de la parte superior del diamante), la longitud, el ancho y la profundidad del diamante.

Variables cualitativas

Claridad Frecuencia
1 I1 16
2 IF 33
3 SI1 232
4 SI2 182
5 VS1 157
6 VS2 211
7 VVS1 72
8 VVS2 97
Color Frecuencia
1 D 131
2 E 195
3 F 160
4 G 223
5 H 142
6 I 102
7 J 47
Corte Frecuencia
1 Bueno 100
2 Ideal 391
3 Muy Bueno 226
4 Premium 248

Diagramas de barras

Diagramas de Torta

{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE)

Introducción

En este ejercicio práctico se ponen en práctica los conceptos de Tablas de Frecuencias y gráficos para variables cuantitativas y cualitativas utilizando R. Para realizar la práctica, utilizamos una base de datos llamada “diamonds”, que viene incluida en R y contiene información sobre más de 54,000 diamantes, incluyendo sus precios y características.

Tomamos una muestra de 1000 datos de esta base de datos con el objetivo de identificar patrones y tendencias ocultas al analizar varias variables y al crear diferentes tipos de gráficos. Estas variables incluyen el precio, el tamaño en quilates, el tipo de corte, el color, la claridad, la profundidad, la tabla (ancho de la parte superior del diamante), la longitud, el ancho y la profundidad del diamante.

Tabla de frecuencias - variables cuantitativas

Precio

##           Class limits   f   rf rf(%)   cf cf(%)
##     [360.36,2046.2527) 482 0.48  48.2  482  48.2
##  [2046.2527,3732.1455) 144 0.14  14.4  626  62.6
##  [3732.1455,5418.0382) 128 0.13  12.8  754  75.4
##  [5418.0382,7103.9309)  81 0.08   8.1  835  83.5
##  [7103.9309,8789.8236)  46 0.05   4.6  881  88.1
##  [8789.8236,10475.716)  25 0.03   2.5  906  90.6
##  [10475.716,12161.609)  23 0.02   2.3  929  92.9
##  [12161.609,13847.502)  23 0.02   2.3  952  95.2
##  [13847.502,15533.395)  19 0.02   1.9  971  97.1
##  [15533.395,17219.287)  18 0.02   1.8  989  98.9
##   [17219.287,18905.18)  11 0.01   1.1 1000 100.0

Quilates

##     Class limits   f   rf rf(%)   cf cf(%)
##  [0.2277,0.4834) 340 0.34  34.0  340  34.0
##   [0.4834,0.739) 211 0.21  21.1  551  55.1
##   [0.739,0.9947)  93 0.09   9.3  644  64.4
##    [0.9947,1.25) 210 0.21  21.0  854  85.4
##     [1.25,1.506)  39 0.04   3.9  893  89.3
##    [1.506,1.762)  60 0.06   6.0  953  95.3
##    [1.762,2.017)  18 0.02   1.8  971  97.1
##    [2.017,2.273)  23 0.02   2.3  994  99.4
##    [2.273,2.529)   4 0.00   0.4  998  99.8
##    [2.529,2.784)   1 0.00   0.1  999  99.9
##     [2.784,3.04)   1 0.00   0.1 1000 100.0

Profundidad

##     Class limits   f   rf rf(%)   cf cf(%)
##  [54.648,56.162)   1 0.00   0.1    1   0.1
##  [56.162,57.677)   7 0.01   0.7    8   0.8
##  [57.677,59.191)  43 0.04   4.3   51   5.1
##  [59.191,60.705) 167 0.17  16.7  218  21.8
##   [60.705,62.22) 449 0.45  44.9  667  66.7
##   [62.22,63.734) 280 0.28  28.0  947  94.7
##  [63.734,65.249)  36 0.04   3.6  983  98.3
##  [65.249,66.763)  13 0.01   1.3  996  99.6
##  [66.763,68.277)   1 0.00   0.1  997  99.7
##  [68.277,69.792)   2 0.00   0.2  999  99.9
##  [69.792,71.306)   1 0.00   0.1 1000 100.0

Tabla

##     Class limits   f   rf rf(%)   cf cf(%)
##   [52.47,53.852)  21 0.02   2.1   21   2.1
##  [53.852,55.234) 164 0.16  16.4  185  18.5
##  [55.234,56.615) 193 0.19  19.3  378  37.8
##  [56.615,57.997) 154 0.15  15.4  532  53.2
##  [57.997,59.379) 283 0.28  28.3  815  81.5
##  [59.379,60.761)  77 0.08   7.7  892  89.2
##  [60.761,62.143)  83 0.08   8.3  975  97.5
##  [62.143,63.525)  13 0.01   1.3  988  98.8
##  [63.525,64.906)   5 0.00   0.5  993  99.3
##  [64.906,66.288)   6 0.01   0.6  999  99.9
##   [66.288,67.67)   1 0.00   0.1 1000 100.0

X

##   Class limits   f   rf rf(%)   cf cf(%)
##  [3.802,4.305)  60 0.06   6.0   60   6.0
##  [4.305,4.809) 234 0.23  23.4  294  29.4
##  [4.809,5.313) 144 0.14  14.4  438  43.8
##  [5.313,5.816) 113 0.11  11.3  551  55.1
##   [5.816,6.32) 104 0.10  10.4  655  65.5
##   [6.32,6.824) 176 0.18  17.6  831  83.1
##  [6.824,7.328)  72 0.07   7.2  903  90.3
##  [7.328,7.831)  51 0.05   5.1  954  95.4
##  [7.831,8.335)  33 0.03   3.3  987  98.7
##  [8.335,8.839)  12 0.01   1.2  999  99.9
##  [8.839,9.342)   1 0.00   0.1 1000 100.0

Y

##   Class limits   f   rf rf(%)   cf cf(%)
##   [3.812,4.31)  62 0.06   6.2   62   6.2
##   [4.31,4.808) 228 0.23  22.8  290  29.0
##  [4.808,5.306) 145 0.14  14.5  435  43.5
##  [5.306,5.804) 110 0.11  11.0  545  54.5
##  [5.804,6.303) 111 0.11  11.1  656  65.6
##  [6.303,6.801) 170 0.17  17.0  826  82.6
##  [6.801,7.299)  70 0.07   7.0  896  89.6
##  [7.299,7.797)  57 0.06   5.7  953  95.3
##  [7.797,8.296)  33 0.03   3.3  986  98.6
##  [8.296,8.794)  13 0.01   1.3  999  99.9
##  [8.794,9.292)   1 0.00   0.1 1000 100.0

Z

##    Class limits   f   rf rf(%)   cf cf(%)
##      [0,0.5224)   3 0.00   0.3    3   0.3
##  [0.5224,1.045)   0 0.00   0.0    3   0.3
##   [1.045,1.567)   0 0.00   0.0    3   0.3
##    [1.567,2.09)   0 0.00   0.0    3   0.3
##    [2.09,2.612)  31 0.03   3.1   34   3.4
##   [2.612,3.135) 325 0.32  32.5  359  35.9
##   [3.135,3.657) 215 0.22  21.5  574  57.4
##    [3.657,4.18) 240 0.24  24.0  814  81.4
##    [4.18,4.702) 128 0.13  12.8  942  94.2
##   [4.702,5.224)  53 0.05   5.3  995  99.5
##   [5.224,5.747)   5 0.00   0.5 1000 100.0

Histograma y polígono de frecuencia de tabla

plot(tabla,type= "fh",main = "Histograma de tabla", xlab="Tabla" ,ylab = "Frecuencia", col = coloreshisto)

plot(tabla, type="fp", xlab="Tabla" ,ylab = "Frecuencia",col = colorespoli)

plot(profundidad,type= "fh",main = "Histograma de profundidad", xlab="Profundidad" ,ylab = "Frecuencia", col = coloreshisto)

plot(profundidad, type="fp", xlab="Profundidad" ,ylab = "Frecuencia",col = colorespoli)

plot(quilate,type= "fh",main = "Histograma de quilate", xlab="Quilate" ,ylab = "Frecuencia", col = coloreshisto)

plot(quilate, type="fp", xlab="Quilate" ,ylab = "Frecuencia",col = colorespoli)

Medidas de Tendencia Central

## [1] 3936.988
## [1] 2223
## [1] 605

Tendencia Central Quilates

## Tendencia central de quilates en el conjunto de datos:
## Media: 0.79674
## Mediana: 0.7
## Moda: 0.3

Posicion Quilates

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.

Quartiles

Percentiles

Tendencia central de Profundidad

## Tendencia central de profundidad en el conjunto de datos:
## Media: 61.6982
## Mediana: 61.8
## Moda: 62.2

Cuartiles

## Warning: Removed 1 rows containing missing values (`geom_text()`).
## Removed 1 rows containing missing values (`geom_text()`).
## Removed 1 rows containing missing values (`geom_text()`).

Percentiles

Precio vs. Quilates de diamantes por color

Precio vs quilate de a cuerdo al corte

## Warning: The following aesthetics were dropped during statistical transformation: fill
## ℹ This can happen when ggplot fails to infer the correct grouping structure in
##   the data.
## ℹ Did you forget to specify a `group` aesthetic or to convert a numerical
##   variable into a factor?

Densidad para x

Profundidad de cuartiles

## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?

Percentil profundidad

## A marker object has been specified, but markers is not in the mode
## Adding markers to the mode...
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 55.20 59.80 60.70 61.17 61.50 61.80 62.10 62.30 62.70 63.30 70.60

Varianza de la columna precio

Varianza sin incluirr la variable precio

Desviación

Dispersión entre precio y quilate

Dispersión entre precio y profundidad

Diagrama de Diamantes

Diagramas de Caja

La caja representa el rango intercuartílico (IQR), que es la distancia entre el primer y tercer cuartil de los datos. La línea en el medio de la caja representa la mediana de los datos. Los brazos que se extienden desde la caja representan los valores mínimo y máximo de los datos, o un rango específico de valores, a menudo definidos como 1.5 veces el IQR.