En la presente práctica se busca examinar y describir los datos presentados en la tabla mediante herramientas y técnicas estadísticas, tales como tablas de frecuencias, histogramas, medidas de tendencia central, gráficos para variables cuantitativas y cualitativas mediante el uso de comandos de R. Además de incluir el cálculo de medidas de tendencia central, como la media, mediana y moda, por último hallar medidas de dispersión, como la desviación estándar.
La base de datos se extrae de la tabla diamantes, esta contiene variables con información de 53940 diamantes, se tomó una muestra de 1000 datos con la intención de descubrir y reconocer patrones y tendencias implicitos mediante el analisís de variables e implementación de graficas. Las variables que se analizarón fueron: Precio($), quilate, corte, color, claridad, profundidad, Tabla(ancho de la parte superior del diamante), X(longitud), Y(ancho), Z(profundidad).
## precio
## Class limits f rf rf(%) cf cf(%)
## [353.43,2037.6573) 472 0.47 47.2 472 47.2
## [2037.6573,3721.8845) 169 0.17 16.9 641 64.1
## [3721.8845,5406.1118) 127 0.13 12.7 768 76.8
## [5406.1118,7090.3391) 80 0.08 8.0 848 84.8
## [7090.3391,8774.5664) 42 0.04 4.2 890 89.0
## [8774.5664,10458.794) 35 0.04 3.5 925 92.5
## [10458.794,12143.021) 18 0.02 1.8 943 94.3
## [12143.021,13827.248) 19 0.02 1.9 962 96.2
## [13827.248,15511.475) 12 0.01 1.2 974 97.4
## [15511.475,17195.703) 10 0.01 1.0 984 98.4
## [17195.703,18879.93) 16 0.02 1.6 1000 100.0
##
## quilate
## Class limits f rf rf(%) cf cf(%)
## [0.2277,0.4402) 325 0.32 32.5 325 32.5
## [0.4402,0.6527) 168 0.17 16.8 493 49.3
## [0.6527,0.8653) 134 0.13 13.4 627 62.7
## [0.8653,1.078) 161 0.16 16.1 788 78.8
## [1.078,1.29) 87 0.09 8.7 875 87.5
## [1.29,1.503) 27 0.03 2.7 902 90.2
## [1.503,1.715) 57 0.06 5.7 959 95.9
## [1.715,1.928) 4 0.00 0.4 963 96.3
## [1.928,2.14) 26 0.03 2.6 989 98.9
## [2.14,2.353) 10 0.01 1.0 999 99.9
## [2.353,2.565) 1 0.00 0.1 1000 100.0
##
## profundidad
## Class limits f rf rf(%) cf cf(%)
## [54.648,55.96) 2 0.00 0.2 2 0.2
## [55.96,57.273) 1 0.00 0.1 3 0.3
## [57.273,58.585) 22 0.02 2.2 25 2.5
## [58.585,59.897) 67 0.07 6.7 92 9.2
## [59.897,61.21) 235 0.23 23.5 327 32.7
## [61.21,62.522) 458 0.46 45.8 785 78.5
## [62.522,63.835) 170 0.17 17.0 955 95.5
## [63.835,65.147) 37 0.04 3.7 992 99.2
## [65.147,66.459) 4 0.00 0.4 996 99.6
## [66.459,67.772) 1 0.00 0.1 997 99.7
## [67.772,69.084) 3 0.00 0.3 1000 100.0
##
## tabla
## Class limits f rf rf(%) cf cf(%)
## [52.47,53.944) 17 0.02 1.7 17 1.7
## [53.944,55.417) 164 0.16 16.4 181 18.1
## [55.417,56.891) 176 0.18 17.6 357 35.7
## [56.891,58.365) 341 0.34 34.1 698 69.8
## [58.365,59.838) 114 0.11 11.4 812 81.2
## [59.838,61.312) 132 0.13 13.2 944 94.4
## [61.312,62.785) 25 0.03 2.5 969 96.9
## [62.785,64.259) 18 0.02 1.8 987 98.7
## [64.259,65.733) 4 0.00 0.4 991 99.1
## [65.733,67.206) 8 0.01 0.8 999 99.9
## [67.206,68.68) 1 0.00 0.1 1000 100.0
##
## x
## Class limits f rf rf(%) cf cf(%)
## [3.812,4.262) 33 0.03 3.3 33 3.3
## [4.262,4.712) 217 0.22 21.7 250 25.0
## [4.712,5.163) 130 0.13 13.0 380 38.0
## [5.163,5.613) 121 0.12 12.1 501 50.1
## [5.613,6.064) 128 0.13 12.8 629 62.9
## [6.064,6.514) 144 0.14 14.4 773 77.3
## [6.514,6.965) 95 0.10 9.5 868 86.8
## [6.965,7.415) 55 0.06 5.5 923 92.3
## [7.415,7.866) 40 0.04 4.0 963 96.3
## [7.866,8.316) 30 0.03 3.0 993 99.3
## [8.316,8.767) 7 0.01 0.7 1000 100.0
##
## y
## Class limits f rf rf(%) cf cf(%)
## [3.851,4.294) 44 0.04 4.4 44 4.4
## [4.294,4.738) 211 0.21 21.1 255 25.5
## [4.738,5.181) 139 0.14 13.9 394 39.4
## [5.181,5.624) 108 0.11 10.8 502 50.2
## [5.624,6.067) 125 0.12 12.5 627 62.7
## [6.067,6.51) 146 0.15 14.6 773 77.3
## [6.51,6.954) 96 0.10 9.6 869 86.9
## [6.954,7.397) 55 0.06 5.5 924 92.4
## [7.397,7.84) 39 0.04 3.9 963 96.3
## [7.84,8.283) 26 0.03 2.6 989 98.9
## [8.283,8.726) 11 0.01 1.1 1000 100.0
##
## z
## Class limits f rf rf(%) cf cf(%)
## [0,0.5041) 1 0.00 0.1 1 0.1
## [0.5041,1.008) 0 0.00 0.0 1 0.1
## [1.008,1.512) 0 0.00 0.0 1 0.1
## [1.512,2.016) 0 0.00 0.0 1 0.1
## [2.016,2.52) 12 0.01 1.2 13 1.3
## [2.52,3.024) 311 0.31 31.1 324 32.4
## [3.024,3.529) 209 0.21 20.9 533 53.3
## [3.529,4.033) 239 0.24 23.9 772 77.2
## [4.033,4.537) 140 0.14 14.0 912 91.2
## [4.537,5.041) 70 0.07 7.0 982 98.2
## [5.041,5.545) 18 0.02 1.8 1000 100.0
A continuación se muestran dos gráficos usados para visualizar la
distribución de una variable numérica, el histograma, el cuál es más
utilizado cuando se tienen datos discretos o agrupados en intervalos, y
el polígono, este es más adecuado para datos continuos o cuando se desea
visualizar suavemente la distribución de una variable.
En este
apartado nos ayudamos con la libreria fdth, la cuál nos permite realizar
tablas de distribución de frecuencia, histogramas y polígonos asociados
a partir de objetos vector, data.frame y matrix para variables numéricas
y categóricas
A continuación se muestran dos gráficos usados para visualizar la
distribución de la variable numérica Precio(esta variable se refiere el
precio de la gema), el histograma y el polígono.
En este apartado
nos ayudamos con la libreria fdth.
A continuación se muestran dos gráficos usados para visualizar la
distribución de la variable numérica Tabla(esta variable se refiere a la
superficie plana y pulida que se encuentra en la parte superior de la
gema), el histograma y el polígono.
En este apartado nos ayudamos
con la libreria fdth.
A continuación se muestran dos gráficos usados para visualizar la
distribución de la variable numérica z (esta variable se refiere a la
profundidad de la gema), el histograma y el polígono.
En este
apartado nos ayudamos con la libreria fdth.
Aquí buscamos una forma de representar datos numéricos en una gráfica circular dividida en secciones proporcionales a la magnitud de las categorías representadas. Cada sección se etiqueta con la categoría correspondiente y se utiliza para mostrar la proporción de cada categoría en el conjunto de datos total.
A continuación se muestra el gráfico usado para visualizar la
distribución de la variable cualitativa Claridad (esta variable se
refiere a las diminutas imperfecciones naturalesde la gema), el grafico
de pastel.
En este apartado nos ayudamos con la libreria fdth.
Aquí representamos los datos numéricos en una gráfica donde cada barra vertical es proporcional a la magnitud de las categorías representadas. Cada sección se etiqueta con la categoría correspondiente y se utiliza para mostrar la proporción de cada categoría.
A continuación se muestra el gráfico usado para visualizar la distribución de la variable cualitativa Claridad (esta variable se refiere a las diminutas imperfecciones naturalesde la gema), el grafico de barras.
Son un conjunto de estadísticas que se utilizan para describir un
conjunto de datos. Estas medidas resumen el centro de una distribución
de datos y dan una idea de dónde se agrupan la mayoría de los valores.
Las tres medidas de tendencia central más comunes son la media, la
mediana y la moda.
Media: Es la suma de todos los
valores en un conjunto de datos dividida por el número de valores. Es
una medida muy sensible a los valores extremos en los datos y puede
verse afectada por ellos.
Mediana: Es el valor
medio en un conjunto de datos ordenados. Es menos sensible a los valores
extremos que la media.
Moda: Es el valor más común
en un conjunto de datos. Puede haber más de una moda o ninguna en un
conjunto de datos. Es útil para identificar valores que se repiten con
frecuencia en un conjunto de datos.
Son un conjunto de estadísticas que describen la dispersión o variabilidad de los datos en una muestra o población. Al igual que las medidas de tendencia central, las medidas de variabilidad son una parte fundamental del análisis estadístico descriptivo.
Es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
Es una medida de la dispersión de los datos respecto a la media. La varianza se calcula como la suma de los cuadrados de las desviaciones de los valores individuales con respecto a la media, dividido por el número de observaciones.
Es la raíz cuadrada de la varianza y mide la dispersión de los datos en términos de su desviación de la media.
En este caso se omite la variable precio, ya que en la gráfica anterior se evidenció que posee un numero muy alto, y por tanto no nos permite visualizar las demas variables
Se utilizan para caracterizar la forma y la distribución de un conjunto de datos.
Las medidas de posición indican la posición relativa de los valores
en el conjunto de datos. Las medidas de posición más comunes son la
media, la mediana y la moda.
Cuartiles: Divide los
datos en cuatro partes iguales.
Deciles: Dividen un conjunto de datos ordenados en
10 partes iguales.
Las medidas de apuntamiento se utilizan para describir la concentración de los datos alrededor de la media. Una distribución con un alto grado de apuntamiento tiene valores que se concentran estrechamente alrededor de la media, mientras que una distribución con un bajo grado de apuntamiento tiene valores que están más dispersos.
Curtosis: Describe la forma de la distribución
de datos en términos de su concentración y extensión en la cola. Una
distribución con curtosis alta tiene una concentración de datos en el
centro y una extensión más pronunciada en las colas, mientras que una
distribución con curtosis baja tiene una extensión más uniforme y menos
concentración en el centro.
Es una herramienta gráfica utilizada en estadística descriptiva para representar un conjunto de datos numéricos a través de sus cuartiles. Consiste en un rectángulo que se extiende desde el primer cuartil (Q1) hasta el tercer cuartil (Q3) del conjunto de datos, con una línea en el medio que indica la mediana.