Julieta G. Rodríguez Ruiz
28 de Enero de 2018
Este dataset en formato csv se obtuvo de la siguiente dirección: https://www.kaggle.com/crawford/80-cereals.
Se continuará con el análisis de la aportación nutricional de los cereales de las marcas mostradas en la gráfica de barra.
La correlación entre variables del conjunto de datos puede ser explicada fácilmente con esta gráfica de correlación en la que las correalciones más significativas son los círculos con más grandes y coloridos.
De la gráfica anterior una de las correlaciones más significativas en la que hay entre la cantidad de calorías y el azúcar en los cereales.
Con esta gráfica es más fácil resepresentarlo y entender que sí existe una correlación positiva entre estas variables.
De la misma manera las caracteríticas grasa y calorias están correlacionadas de manera positiva de tal manera que si una de ellas aumenta la otra también, como se muestra en la gráfica.
protein fat sodium fiber
2.545455 1.012987 159.675325 2.151948
carbo sugars potass vitamins
14.597403 6.922078 96.077922 28.246753
Con las medias podemos darnos una idea de los valores que tienen los cereales de cada uno de sus atributos. Podemos decir que en promedio todos los cereales tienen aproximadamente 7 gramos de azúcar o 2.54 gramos de proteína.
protein fat sodium fiber
3 1 180 2
carbo sugars potass vitamins
14 7 90 25
El valor que aparece con más frecuencia de cada una de las características de los cereales son los que se presentan en estas tablas.
protein fat sodium fiber
1.198565 1.012987 7027.853725 5.680424
carbo sugars potass vitamins
18.30947 19.75701 5081.80964 499.18831
La varianza explica que tan dispersos están los datos de la media, es un valor elevado al cuadrado, y a través de él se pretende llegar a la desviación estándar.
protein fat sodium fiber
1.094790 1.006473 83.832295 2.383364
carbo sugars potass vitamins
4.278956 4.444885 71.286813 22.342523
La desviación estándar nos habla del comportamiento de los datos respecto a su media, es decir, el error que existe entre el total de datos y su promedio.
protein fat sodium fiber
[1,] 1 0 0 0
[2,] 6 5 320 14
carbo sugars potass vitamins
[1,] -1 -1 -1 0
[2,] 23 15 330 100
Los rangos de valores que toma cada característica son demostrados a través de esta tabla, seguramente existen valores extraños o erroneos pues debería de ser sólo valores positivos hablando de cantidades que poseen los cereales.
protein fat sodium fiber
[1,] 1 0 0 0
[2,] 2 0 130 1
[3,] 3 1 180 2
[4,] 3 2 210 3
[5,] 6 5 320 14
Los cinco números de Turkey describen el punto mínimo, el primer cuartil, punto medio, tercer cuartil y punto máximo de cada uno de los datos.
carbo sugars potass vitamins
[1,] -1 -1 -1 0
[2,] 12 3 40 25
[3,] 14 7 90 25
[4,] 17 11 120 25
[5,] 23 15 330 100
Con estos valores se puede notar principalmente hacia que valores se inclinan más los datos por cada una de sus características. Si del mínimo al primer cuartil da un salto grande en un rango pequeño de valores, los cereales tener mayor cantidad de ese atributo.
Otra forma de observar la correlación entre las variables es una gráfica de pares, que puede analizarse con los valores de la gráfica anterior de correlación
http://sugarscience.ucsf.edu/the-growing-concern-of-overconsumption.html https://www.bbc.com/mundo/noticias/2015/07/150731_salud_cuanto_azucar_consumimos_sin_darnos_cuenta_ig https://elpoderdelconsumidor.org/2012/07/radiografia-de-special-k-original-30-g/ https://medlineplus.gov/spanish/ency/article/002415.htm