1 Medidas de Variabilidad

Diagrama 1

Diagrama 1

Dentro de las medidas de variabilidad, vamos a estudiar tres:

  • Rango
  • Rango intercuartil
  • Desviación estándar (varianza)

1.1 Rango

El rango , es sencillamente la diferencia entre el valor máximo en el conjunto de datos analizado y el valor mínimo:

Diagrama 2

Diagrama 2

Vamos a ejemplificar el cálculo en R:

## [1] 95
## [1]  1 96
## [1] 95

La función range tiene como resultado el valor maximo y el valor minimo de los datos.Por este motivo se debe restar los índices para obtener el rango de la variable.

En este caso, el rango es de 95, que se interpreta como la diferencia de casos entre el cantón que más casos cuenta y el que menos casos cuenta.

1.2 Rango intercuartil

Diagrama 3

Diagrama 3

El rango intercuartil, conceptualmente se asemeja al rango, pero con la diferencia que sustituye los valores máximos y mínimos por el cuartil 3(percentil 75) y el cuartil 1 (percentil 25), lo que previene la afectación por valores extremos.Utilizaremos la función IQR para calcular esta estadística:

## [1] 11.5

Lo que significa que existe una diferencia de 11.5 casos de COVID-19 entre el percentil 75 y el percentil 25.

1.3 Desviación estándar

Diagrama 4

Diagrama 4

La desviación es la medida de variabilidad por excelencia y utilizada en la mayoría de aplicaciones, debido a que toma en cuenta todos los datos para su cálculo.

Para efectos del cálculo, en realidad, primero se calcula la varianza.Sin embargo, la varianza da como resultados valores elevados al cuadrado.Debido a lo anterior, para efectos de interpretación, nace la desviación estándar como la raiz cuadrada de la varianza.

La desviación estándar es un promedio de las dispersiones de las observaciones individuales con respecto a la media.

Diagrama 5

Diagrama 5

## [1] 17.15755

En nuestro ejemplo, la dispersión media de casos de COVID19 por cantón es de 17.16

1.4 Coeficiente de variación

En muchas ocasiones, cuando queremos comparar la variabilidad de dos variables diferentes o dos grupos diferentes, la desviaicón estándar no es la medida más adecuada debido a las diferencias en las distribuciones de las variables o las dimensiones.Por ejemplo, si queremos estudiar la variabilidad de pesos y alturas de estudiantes y comparar o comparar el peso de animales de gran diferencia en escala ( escarabajos vrs hipopotamos).En estos casos, es prudente utilizar el coeficiente de variación, que es sencillamente la desviación estándar dividido entre su media.Usualmente se expresa en porcentaje y a mayor porcentaje indica mayor variabilidad relativa.

## [1] 145.6541
## [1] 161.9225

En este caso existe una mayor dispersión relativa en los casos recuperados, comparado con el total de casos.

2 Introduccion al paquete dplyr

Como ya lo comentamos en la clase anterior, la mayoría de procesamientos estadísticos básicos los realizaremos con el paquete dplyr.

dplyr conocido en el ambiente de R como la gramática de la manipulación de datos, contiene diversas funciones o verbos, que realizan alguna operación en particular sobre el conjunto de datos en cuestión y que cuenta con la característica de ser flexible y crear operaciones complejas debido a la diversidad de verbos, preservando la legibilidad del código mediante el operador de encadenamiento %>%.La siguiente imagen ilustra la gramática de dplyr y su comparación con enfoques clásicos en cuanto a legibilidad:

Diagrama 7

Diagrama 7

A continuación, podemos visualizar gráficamente algunos de los verbos mas utilizados de dplyr en función de la operación que realizan a los datos:

Diagrama 8

Diagrama 8

3 Tipos de variables

Diagrama 9

Diagrama 9

La forma de abordar un análisis en estadística, debe inicialmente considerar el tipo de variable y su naturaleza.Como analicemos cada variable y su correcta interpretación, depende de si es cuantitativa o cualitativa.

Las variables cualitativas tienen como característica que los valores observados son categorías o grupos, como por ejemplo el género( femenino, masculino u otro) o la presencia o ausencia del COVID19 en una persona, mientras que las variables cuantitativas los resultados de las mediciones son valores numéricos, como la cantidad de casos de COVID19 en los cantones del país.

Vamos a analizar en más detalle las diferencias:

3.1 Variables cualitativas

Existen dos formas de separar las variables cualitativas, básicamente si podemos naturalmente ordenarlas por sus valores o no:

Diagrama 10

Diagrama 10

Como podemos ver en la anterior imagen, una variable cualitativa se analiza inicialmente contando la cantidad de registros o casos por cada categoría.Adicionalmente se pueden obtener los porcentajes por categoría para una mejor interpretación.Lo veremos a continuación con un ejemplo en R y el paquete dplyr:

## # A tibble: 7 x 3
##   Province   CasesT PCases
##   <fct>       <int>  <dbl>
## 1 San Jose      352  50.6 
## 2 Alajuela      172  24.7 
## 3 Heredia        63   9.06
## 4 Cartago        49   7.05
## 5 Puntarenas     38   5.47
## 6 Guanacaste     13   1.87
## 7 Limon           8   1.15

En el caso anterior, estamos agrupando por una variable nominal, ya que no podemos ordenar las provincias naturalmente.

Cuando una variable es ordinal, además de la frecuencia absoluta y la frecuencia relativa obtenidas anteriormente, se puede de la misma manera calcular la frecuencia acumulada absoluta y la frecuencia acumulada relativa.

El siguiente ejemplo contiene datos ficticios de una muestra de personas que quedaron desempleadas producto del COVID19, según el nivel académico:

Diagrama 11

Diagrama 11

3.2 Variable Cuantitativas

Diagrama 12

Diagrama 12

A su vez las variables cuantitativas se separan conceptualmente en dos categorías:

  • intervalo cuando el cero no es absoluto, es decir el cero representa aún un valor.
  • razón cuando el cero representa realmente la ausencia de la variable observada, en el ejemplo 0 cm de estatura significa que no tiene estatura el objeto medido.

En la siguiente clase estaremos analizando las variables cuntitativas desde un punto de vista descriptivo, en el siguiente orden:

  • Distribución de frecuencia
  • histograma
  • boxplot
  • Métricas para caracterizar la forma de la distribución estadística.

4 Poniendo todo lo visto en práctica (variabilidad, dplyr, tipos de variables)

Vamos a empezar a realizar análisis estadístico, pero dentro de los grupos que se encuentran en los datos, para poder realizar comparaciones, utilizando el paquete dplyr. En este caso, queremos comparar las medidas de variabilidad por provincia.

## # A tibble: 7 x 7
##   Province   CasesT RecoveriesT sdCases sdRecoveries DeathsT PCases
##   <fct>       <int>       <int>   <dbl>        <dbl>   <int>  <dbl>
## 1 San Jose      352         111   23.2         6.60        4  50.6 
## 2 Alajuela      172          83   22.3        14.2         2  24.7 
## 3 Heredia        63          30    5.52        2.87        0   9.06
## 4 Cartago        49          14    7.24        1.83        0   7.05
## 5 Puntarenas     38          12    7.81        2.10        0   5.47
## 6 Guanacaste     13          13    1.17        1.17        0   1.87
## 7 Limon           8           1    2.08        0.577       0   1.15