Los datos a utilizar provienen del conjunto de datos “Abalone.csv”, donde se presentan datos obtenidos de mediciones de abalones para la prediccion de su edad.

Tablas de Frecuencia

Frecuencia del sexo

sex f_absoluta f_acumulada f_relativa f_relativa_acum
M 1528 1528 36.58 36.58
F 1342 2870 32.13 68.71
I 1307 4177 31.29 100.00

Frecuencia del Largo

Cabeza de la Lista
largo f_absoluta f_acumulada f_relativa f_relativa_acum
0.075 1 1 0.02 0.02
0.110 1 2 0.02 0.05
0.130 2 4 0.05 0.10
0.135 1 5 0.02 0.12
0.140 2 7 0.05 0.17
Cola de la Lista
largo f_absoluta f_acumulada f_relativa f_relativa_acum
130 0.770 3 4171 0.07 99.86
131 0.775 2 4173 0.05 99.90
132 0.780 2 4175 0.05 99.95
133 0.800 1 4176 0.02 99.98
134 0.815 1 4177 0.02 100.00

Pregunta

¿Qué ocurre al construir directamente una tabla de frecuencia? ¿Qué conclusiones se pueden extraer?

Al construir una tabla de frecuencia de los datos, ya sea de una variable cuantitativa como una cualitativa, se puede obtener un conteo util de los datos, de donde se puede sacar la probabilidad de que un elemento sacado de la muestra corresponda a cierto grupo. Igualmente, se puede observar la cantidad total de repeticiones de la segmentacion del atributo medido. Por ejemplo, en la tabla que corresponde a la frecuencia del sexo de los abolones, se puede observar que la cantidad de abolones con sexo femenino en la muestra es de 1528, su frecuencia absoluta, y su porcentaje de probabilidad de que, al sacar un abolone aleatoreo de la muestra sea femenino, corresponde a 32.13, su frecuencia relativa. La misma situacion ocurre al obtener la tabla de frecuencia de las variables cuantitativas, que en este caso posee un rango de datos mas elevado (la cantidad de elementos presentes en el largo medido de los abolones varia entre 0.075 y 0.815, obtiendose una cantidad de 134 posibles casos).

En conclusión, al obtener la tabla de frecuencia de los datos respecto a un atributo de la muestra, se obtiene una representación trabajable de la informacion, de donde se puede realizar estudios de la muestra. Para el caso de las variables cuantitativas, puede resultar se mas conveniente realizar una separacion por rangos, donde se obtenga una cantidad mas manejable de datos.

Frecuencia de rangos del Largo del abalon

largo f_absoluta f_acumulada f_relativa f_relativa_acum
[0.075-0.1] 1 1 0.02 0.02
(0.1-0.15] 7 8 0.17 0.19
(0.15-0.2] 41 49 0.98 1.17
(0.2-0.25] 57 106 1.36 2.54
(0.25-0.3] 122 228 2.92 5.46
(0.3-0.35] 180 408 4.31 9.77
(0.35-0.4] 287 695 6.87 16.64
(0.4-0.45] 372 1067 8.91 25.54
(0.45-0.5] 524 1591 12.54 38.09
(0.5-0.55] 637 2228 15.25 53.34
(0.55-0.6] 733 2961 17.55 70.89
(0.6-0.65] 728 3689 17.43 88.32
(0.65-0.7] 336 4025 8.04 96.36
(0.7-0.75] 136 4161 3.26 99.62
(0.75-0.8] 15 4176 0.36 99.98
(0.8-0.85] 1 4177 0.02 100.00

Graficos de Frecuencia

Frecuencia del sexo

Grafico de Barras

Grafico de Pie

Grafico de Pareto

Frecuencia del Largo

Diagrama de Punto

Histograma

Pregunta

¿Qué diferencia aprecia entre ambos tipos de representaciones?

Las dos representaciones, ya sean tablas o graficos, entregan los mismos datos, la diferencia es que los datos, cuando son entregados de manera grafica, son mas comprensibles visualmente, ya que podemos ver claramente como se estan distribuyendo. Es importante agregar que los datos, al ser presentados como tabla, son mas faciles de trabajar al realizar calculos matematicos.