Análisis de caractetrísticas Nutricionales de Cereales

Julieta G. Rodríguez Ruiz
28 de Enero de 2018

Los datos

plot of chunk unnamed-chunk-1

Este dataset en formato csv se obtuvo de la siguiente dirección: https://www.kaggle.com/crawford/80-cereals.

Se continuará con el análisis de la aportación nutricional de los cereales de las marcas mostradas en la gráfica de barra.

Correlación

La correlación entre variables del conjunto de datos puede ser explicada fácilmente con esta gráfica de correlación en la que las correalciones más significativas son los círculos con más grandes y coloridos.

plot of chunk unnamed-chunk-2

Azúcar vs. Calorías

plot of chunk unnamed-chunk-3

De la gráfica anterior una de las correlaciones más significativas en la que hay entre la cantidad de calorías y el azúcar en los cereales.

Con esta gráfica es más fácil resepresentarlo y entender que sí existe una correlación positiva entre estas variables.

Grasa vs. Calorías

plot of chunk unnamed-chunk-4

De la misma manera las caracteríticas grasa y calorias están correlacionadas de manera positiva de tal manera que si una de ellas aumenta la otra también, como se muestra en la gráfica.

Medias

   protein        fat     sodium      fiber 
  2.545455   1.012987 159.675325   2.151948 
    carbo    sugars    potass  vitamins 
14.597403  6.922078 96.077922 28.246753 

Con las medias podemos darnos una idea de los valores que tienen los cereales de cada uno de sus atributos. Podemos decir que en promedio todos los cereales tienen aproximadamente 7 gramos de azúcar o 2.54 gramos de proteína.

Medianas

protein     fat  sodium   fiber 
      3       1     180       2 
   carbo   sugars   potass vitamins 
      14        7       90       25 

El valor que aparece con más frecuencia de cada una de las características de los cereales son los que se presentan en estas tablas.

Varianza

    protein         fat      sodium       fiber 
   1.198565    1.012987 7027.853725    5.680424 
     carbo     sugars     potass   vitamins 
  18.30947   19.75701 5081.80964  499.18831 

La varianza explica que tan dispersos están los datos de la media, es un valor elevado al cuadrado, y a través de él se pretende llegar a la desviación estándar.

Desviación estándar

  protein       fat    sodium     fiber 
 1.094790  1.006473 83.832295  2.383364 
    carbo    sugars    potass  vitamins 
 4.278956  4.444885 71.286813 22.342523 

La desviación estándar nos habla del comportamiento de los datos respecto a su media, es decir, el error que existe entre el total de datos y su promedio.

Rango

     protein fat sodium fiber
[1,]       1   0      0     0
[2,]       6   5    320    14
     carbo sugars potass vitamins
[1,]    -1     -1     -1        0
[2,]    23     15    330      100

Los rangos de valores que toma cada característica son demostrados a través de esta tabla, seguramente existen valores extraños o erroneos pues debería de ser sólo valores positivos hablando de cantidades que poseen los cereales.

Cinco numeros de Turkey

     protein fat sodium fiber
[1,]       1   0      0     0
[2,]       2   0    130     1
[3,]       3   1    180     2
[4,]       3   2    210     3
[5,]       6   5    320    14

Los cinco números de Turkey describen el punto mínimo, el primer cuartil, punto medio, tercer cuartil y punto máximo de cada uno de los datos.

Cinco numeros de Turkey

     carbo sugars potass vitamins
[1,]    -1     -1     -1        0
[2,]    12      3     40       25
[3,]    14      7     90       25
[4,]    17     11    120       25
[5,]    23     15    330      100

Con estos valores se puede notar principalmente hacia que valores se inclinan más los datos por cada una de sus características. Si del mínimo al primer cuartil da un salto grande en un rango pequeño de valores, los cereales tener mayor cantidad de ese atributo.

Correlaciones

plot of chunk unnamed-chunk-12

Otra forma de observar la correlación entre las variables es una gráfica de pares, que puede analizarse con los valores de la gráfica anterior de correlación

Fuentes