Medidas de Dispersión en R

Ejemplo. Los siguientes datos almacenados en https://raw.githubusercontent.com/anngelc/datos/master/indice-felicidad-completo.csv corresponden al Índice de Felicidad del Planeta o Índice del Planeta Feliz http://happyplanetindex.org/ que es un indicador del bienestar humano y del impacto ambiental de los países. y esta publicado por New Economics Foundation (NEF) en el 2016 por Karen Jeffrey, Hanna Wheatley y Saamah Abdallah.

Vamos a importar los datos desde https://raw.githubusercontent.com/anngelc/datos/master/indice-felicidad-completo.csv y almacenarlos en la variable data, utilizando la función read.csv(), de la siguiente manera

data=read.csv("https://raw.githubusercontent.com/anngelc/datos/master/indice-felicidad-completo.csv")

a continuación escogemos la variable de nuestro interes, para lo cual vamos a pedir al programa R que nos muestra la estuctura de la variabla data usando la función str()

str(data)

## 'data.frame':    140 obs. of  13 variables:
##  $ country                            : chr  "Afghanistan" "Albania" "Algeria" "Argentina" ...
##  $ region                             : chr  "Middle East and North Africa" "Post-communist" "Middle East and North Africa" "Americas" ...
##  $ average_life_expectancy            : num  59.7 77.3 74.3 75.9 74.4 ...
##  $ average_wellbeing_0_10             : num  3.8 5.5 5.6 6.5 4.3 7.2 7.4 4.7 5.7 6.9 ...
##  $ happy_life_years                   : num  12.4 34.4 30.5 40.2 24 ...
##  $ footprint_gha_capita               : num  0.79 2.21 2.12 3.14 2.23 9.31 6.06 0.72 5.09 7.44 ...
##  $ inequality_of_outcomes             : num  0.427 0.165 0.245 0.164 0.217 ...
##  $ inequality_adjusted_life_expectancy: num  38.3 69.7 60.5 68.3 66.9 ...
##  $ inequality_adjusted_wellbeing      : num  3.39 5.1 5.2 6.03 3.75 ...
##  $ happy_planet_index                 : num  20.2 36.8 33.3 35.2 25.7 ...
##  $ GDP_capita_PPP                     : num  691 4247 5584 14357 3566 ...
##  $ population                         : int  29726803 2900489 37439427 42095224 2978339 22728254 8429991 155257387 9464000 11128246 ...
##  $ GINI_index                         : chr  "Data unavailable" "28.96" "Data unavailable" "42.49" ...

En el resultado observamos que la variable data es un data.frame, que tiene 140 observaciones y 13 variables, también podemos observar el tipo variable. Para desarrollar las medias de dispersión utilizaremos la variable espectativa media de vida (average_life_expectancy) lo cual extraemos a la variable vida, indicando primero el nombre del data.frame (data) y la variable average_life_expectancy con el signo $ en medio de los dos.

expect=data$average_life_expectancy

Rango $(R)$

\[R = LS - LI\] Para calcular el rango o recorrido de los datos utilizamos la función range() para encontrar los valores del límite inferior y superior

range(expect)

## [1] 48.910 83.572

tambien podemos usar la función max() y min() para determinar el rango

max(expect)

## [1] 83.572

min(expect)

## [1] 48.91

max(expect) - min(expect)

## [1] 34.662

Rango Intercuartilico $(RI)$

\[RI = Q_{3} - Q_{1}\]

Para encontrar el rango intercuartilico usamos la función quantile() para determinar los cuartiles 3 $Q_{3}$ y cuartil 1 $Q_{1}$

quantile(expect,0.75)-quantile(expect,0.25)

##      75% 
## 11.98875

Rango Semi-intercuartil $(RSI)$

\[Q_{D} = \frac{Q_{3} - Q_{1}}{2}\] Procedemos de la misma manera que se realizo para el cálculo de rango intercualtílico

(quantile(expect,0.75)-quantile(expect,0.25))/2

##      75% 
## 5.994375

Desviación Media $(DM)$

\[DM= \frac{\sum_{i=1}^n | x_{i}- \overline{x} |}{n} \] Primero determinamos la media artimética utilizando la función mean() y el valos de n, que es el número total de observaciones, utilizando la función length()

media=mean(expect)
n=length(expect)

luego aplicamos la formula

sum(abs(expect-media))/n

## [1] 7.165883

Varianza $(s^{2})$

\[s^{2}= \frac{\sum_{i=1}^n( x_{i}- \overline{x} ) ^{2} }{n-1}\]

Para conocer la varianza podemos desarrollar la fórmula de la siguiente manera

sum((expect - media)^2)/(n-1)

## [1] 76.60729

o también podemos usar directamente la función var()

var(expect)

## [1] 76.60729

Desviación Estandar $(s)$

\[s= \sqrt{ s^{2} } \]

Para el calculo de la desviación estandar o desviación típica calculamos la raiz cuadrada de la varianza usando las funciónes sqrt() (raiza cuadrada) y var()

sqrt(var(expect))

## [1] 8.752559

o simplemente la función sd()

sd(expect)

## [1] 8.752559

Coeficiente de Variación $(CV)$

\[CV= \frac{ s_{x} }{ | \overline{ x } | } \]

y finalmente para determinar el coeficiente de variación desarrollamos la formula

sd(expect)/mean(expect)

## [1] 0.1234051

Medidas de Dispersión en R

Angel J. Quispe Carita

Rango \((R)\)

Rango Intercuartilico \((RI)\)

Rango Semi-intercuartil \((RSI)\)

Desviación Media \((DM)\)

Varianza \((s^{2})\)

Desviación Estandar \((s)\)

Coeficiente de Variación \((CV)\)