Ejemplo. Los siguientes datos almacenados en https://raw.githubusercontent.com/anngelc/datos/master/indice-felicidad-completo.csv corresponden al Índice de Felicidad del Planeta o Índice del Planeta Feliz http://happyplanetindex.org/ que es un indicador del bienestar humano y del impacto ambiental de los países. y esta publicado por New Economics Foundation (NEF) en el 2016 por Karen Jeffrey, Hanna Wheatley y Saamah Abdallah.
Vamos a importar los datos desde https://raw.githubusercontent.com/anngelc/datos/master/indice-felicidad-completo.csv y almacenarlos en la variable data, utilizando la función read.csv(), de la siguiente manera
data=read.csv("https://raw.githubusercontent.com/anngelc/datos/master/indice-felicidad-completo.csv")
a continuación escogemos la variable de nuestro interes, para lo cual vamos a pedir al programa R que nos muestra la estuctura de la variabla data usando la función str()
str(data)
## 'data.frame': 140 obs. of 13 variables:
## $ country : chr "Afghanistan" "Albania" "Algeria" "Argentina" ...
## $ region : chr "Middle East and North Africa" "Post-communist" "Middle East and North Africa" "Americas" ...
## $ average_life_expectancy : num 59.7 77.3 74.3 75.9 74.4 ...
## $ average_wellbeing_0_10 : num 3.8 5.5 5.6 6.5 4.3 7.2 7.4 4.7 5.7 6.9 ...
## $ happy_life_years : num 12.4 34.4 30.5 40.2 24 ...
## $ footprint_gha_capita : num 0.79 2.21 2.12 3.14 2.23 9.31 6.06 0.72 5.09 7.44 ...
## $ inequality_of_outcomes : num 0.427 0.165 0.245 0.164 0.217 ...
## $ inequality_adjusted_life_expectancy: num 38.3 69.7 60.5 68.3 66.9 ...
## $ inequality_adjusted_wellbeing : num 3.39 5.1 5.2 6.03 3.75 ...
## $ happy_planet_index : num 20.2 36.8 33.3 35.2 25.7 ...
## $ GDP_capita_PPP : num 691 4247 5584 14357 3566 ...
## $ population : int 29726803 2900489 37439427 42095224 2978339 22728254 8429991 155257387 9464000 11128246 ...
## $ GINI_index : chr "Data unavailable" "28.96" "Data unavailable" "42.49" ...
En el resultado observamos que la variable data es un data.frame, que tiene 140 observaciones y 13 variables, también podemos observar el tipo variable. Para desarrollar las medias de dispersión utilizaremos la variable espectativa media de vida (average_life_expectancy) lo cual extraemos a la variable vida, indicando primero el nombre del data.frame (data) y la variable average_life_expectancy con el signo $ en medio de los dos.
expect=data$average_life_expectancy
\[R = LS - LI\] Para calcular el rango o recorrido de los datos utilizamos la función range() para encontrar los valores del límite inferior y superior
range(expect)
## [1] 48.910 83.572
tambien podemos usar la función max() y min() para determinar el rango
max(expect)
## [1] 83.572
min(expect)
## [1] 48.91
max(expect) - min(expect)
## [1] 34.662
\[RI = Q_{3} - Q_{1}\]
Para encontrar el rango intercuartilico usamos la función quantile() para determinar los cuartiles 3 \(Q_{3}\) y cuartil 1 \(Q_{1}\)
quantile(expect,0.75)-quantile(expect,0.25)
## 75%
## 11.98875
\[Q_{D} = \frac{Q_{3} - Q_{1}}{2}\] Procedemos de la misma manera que se realizo para el cálculo de rango intercualtílico
(quantile(expect,0.75)-quantile(expect,0.25))/2
## 75%
## 5.994375
\[DM= \frac{\sum_{i=1}^n | x_{i}- \overline{x} |}{n} \] Primero determinamos la media artimética utilizando la función mean() y el valos de n, que es el número total de observaciones, utilizando la función length()
media=mean(expect)
n=length(expect)
luego aplicamos la formula
sum(abs(expect-media))/n
## [1] 7.165883
\[s^{2}= \frac{\sum_{i=1}^n( x_{i}- \overline{x} ) ^{2} }{n-1}\]
Para conocer la varianza podemos desarrollar la fórmula de la siguiente manera
sum((expect - media)^2)/(n-1)
## [1] 76.60729
o también podemos usar directamente la función var()
var(expect)
## [1] 76.60729
\[s= \sqrt{ s^{2} } \]
Para el calculo de la desviación estandar o desviación típica calculamos la raiz cuadrada de la varianza usando las funciónes sqrt() (raiza cuadrada) y var()
sqrt(var(expect))
## [1] 8.752559
o simplemente la función sd()
sd(expect)
## [1] 8.752559
\[CV= \frac{ s_{x} }{ | \overline{ x } | } \]
y finalmente para determinar el coeficiente de variación desarrollamos la formula
sd(expect)/mean(expect)
## [1] 0.1234051