Generalidades de la estadística y breve introducción a R

Introducción

La estadística es la rama de las Matemáticas que comprende un conjunto de técnicas que se encargan de la recolección, organización, análisis e interpretación de datos que presentan variabilidad o incertidumbre. Esto nos sirve para realizar juicios inteligentes y tomar decisiones informadas. La estadística no es una ciencia, se desprende de las Matemáticas, que sí son una ciencia.

Los datos, la materia prima del investigador, son mediciones u observaciones documentadas de un experimento o fenómeno.

Al investigar un fenómeno, nos enfocamos en un conjunto de objetos que tienen ciertas características constantes que llamaremos población de interés. Si tuviésemos todos los objetos de la población disponibles para nuestro estudio, tendríamos un censo, pero esta situación es rara debido a varias limitaciones, como tiempo y dinero. Por esto, seleccionamos un subconjunto de la población de interés -mediante métodos que tocaremos después- llamada muestra.

Normalmente, no nos interesa estudiar todas las características de una población, sino solo algunas de ellas. Una variable es cualquier característica cuyo valor pueda cambiar de objeto a otro en un conjunto de objetos. Las variables son representadas por letras del abecedario (en R, por cualquier serie de caracteres alfanuméricos al que le asignamos un conjunto de datos)…

c("a", "b", "c", "d", ..., "x", "y", "z")

En R podríamos hacer algo como…

alphanumeric <- paste(LETTERS, seq(1,length(LETTERS)))    
print(alphanumeric)

##  [1] "A 1"  "B 2"  "C 3"  "D 4"  "E 5"  "F 6"  "G 7"  "H 8"  "I 9"  "J 10"
## [11] "K 11" "L 12" "M 13" "N 14" "O 15" "P 16" "Q 17" "R 18" "S 19" "T 20"
## [21] "U 21" "V 22" "W 23" "X 24" "Y 25" "Z 26"

Para crear 26 elementos de caracteres alfanuméricos en el objeto alphanumeric para asignar a nuevas variables.

Antes de iniciar una investigación, debemos definir la utilidad de cada variable que vamos a medir y como se relaciona con otras variables, para empezar a considerar el método de análisis estadístico más adecuado (se toman en cuenta otros parámetros que veremos más adelante).

Tipos de variables

Las variables se pueden clasificar según cómo las medimos en…

Variables cualitativas
Denotan cualidades o atributos de las unidades experimentales. Pueden clasificarse en un número finito de categorías mutuamente excluyentes y exhaustivas. Es decir, que cada dato debe pertenecer a alguna categoría y solo una categoría. De acuerdo al número de valores que pueden tomar, se clasifican como:
Cualitativa dicotómica. Puede tomar solo dos valores… (“mujer”, “varón”)
Cualitativa politómica. Puede tomar tres o más valores… (verde, blanco, rojo…)

De acuerdo al órden que pueden ser: + Cualitativa ordinal. Tienen un orden… (leve, moderado, severo)
+ Cualitativa nominal. No tienen un orden… (verde, blanco, rojo)

Variables cuantitativas
Son variables que representan respuestas con significado numérico, es decir, toman como argumento un valor matemático. Estas pueden ser:
Variables cuantitativas discretas Son resultado de un conteo, y toman valores numéricos enteros (no tienen decimales) (1, 2, 3, 4…)
Variables continuas Son resultado de una medición, y pueden tomar cualquier valor numérico. (1.8 m, 3.4 m, 2.0 m, 1.54 m, …)

De acuerdo a la influencia que tienen unas variables sobre otras, se clasifican en:

Variable independiente Una variable independiente es aquella cuyo valor no depende de otra variable. La variable independiente se representa en el eje de abscisas \(x\). Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
Es aquella característica o propiedad que se supone ser la causa del fenómeno estudiado. En investigación experimental se llama así a la variable que el investigador manipula.

En el ejemplo al final del post, la variable independiente es el Índice de Masa Corporal.

Variable dependiente Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente en una función se suele representar por \(y\). La variable dependiente se representa en el eje ordenadas. Son las variables de respuesta que se observan en el estudio y que podrían estar influidas por los valores de las variables independientes. Es la propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente. Puesto en otras palabras, la variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente. En el ejemplo al final del post, la variable dependiente es la Presión Arterial.

Introducción a R y aplicaciones

R es un sistema para computación estadística y de gráficas. Incluye un lenguaje de programación, gráficas de alto nivel, interfaces para otros lenguajes, y facilidad para hacer debugging.

R es gratuito, open source, versátil y poderoso.

Para descargar R y RStudio
Para aprender R
Documentación de R
Coursera: R programming
DataCamp: Introduction to R y Data analysis and Statistical Inference
Stack Overflow
Ejemplo

Imaginemos que queremos estudiar la influencia del Índice de Masa Corporal (variable independiente) sobre la Presión arterial (variable dependiente). Para esto tomamos la presión arterial de 15 individuos (muestra MUY pequeña y sin método de muestreo, pero es solo un ejemplo) y recolectamos las siguientes variables:

Edad (age)
Sexo (sex)
Índice de masa corporal (BMI)
Presión arterial (blood_pressure)

¿De qué tipo es cada una de las variables?

Para crear nuestras variables cuantitativas:

## VARIABLE CUANTITATIVA DISCRETA
age <- sample(18:30, 15, replace =TRUE) # Crear variable age con las edades de 15 individuos de 18-30 años
age # mostrar variable, es lo mismo que escribir print(age)

##  [1] 24 29 20 23 26 21 28 19 20 27 25 23 24 19 18

## VARIABLE CUANTITATIVA CONTINUA 
BMI <- seq(17, 32, by = 0.5) # Generar una secuencia de valores desde 17 hasta 32 con incrementos de 0.2
BMI <- sample(BMI, 15, replace = TRUE) # Tomar una muestra n = 15 de la secuencia anterior
BMI

##  [1] 30.5 18.5 30.0 26.0 18.0 21.0 21.0 26.5 25.5 29.5 29.5 29.0 23.5 20.5
## [15] 17.5

Para crear variables cualitativas:

## VARIABLE CUALITATIVA NOMINAL DICOTÓMICA
sex <- sample(0:1, 15, replace = TRUE) # Crear variable de 15 valores que pueden ser 0 o 1
sex <- factor(sex, labels = c("male", "female")) # Sustituir valor 0 por "male" y 1 por "female"
sex

##  [1] male   female female male   female female female female female male  
## [11] male   female male   female female
## Levels: male female

## VARIABLE CUALITATIVA ORDINAL POLITÓMICA 
blood.pressure <- c("low", "middle", "low", "middle", "middle", "middle", "middle", "middle", "high", "high", "low", "middle", "middle", "low", "high")  # Crear variable de caracteres
blood.pressure <- ordered(blood.pressure, labels = c("low", "middle", "high")) # Crear variable ordinal a partir de lmh con los niveles ordenados en sentido low < middle < high. De no especificarlo, se ordenarían alfabéticamente.
print(blood.pressure)  # Mostrar la variable

##  [1] middle high   middle high   high   high   high   high   low    low   
## [11] middle high   high   middle low   
## Levels: low < middle < high

# o más facil 
blood.pressure2 <- factor(sample(rep(1:3, 1000), 15), labels = c("low", "middle", "high")) # de 1000 repeticiones 1:3, seleccionamos 15 valores aleatoriamente y los etiquetamos como low = 1, middle = 2, high = 3.  
blood.pressure2

##  [1] high   high   middle low    high   high   low    low    low    high  
## [11] middle middle high   middle high  
## Levels: low middle high

Ahora combinamos todo en la el mismo conjunto de datos (data frame):

data <- cbind.data.frame(sex, age, BMI, blood.pressure)  # Juntar las variables anteriores en una tabla
names(data) <- c("Sexo", "Edad", "IMC", "Presión arterial")  # Asignar nombres en español a cada columna
data  # Mostrar la tabla

##      Sexo Edad  IMC Presión arterial
## 1    male   24 30.5           middle
## 2  female   29 18.5             high
## 3  female   20 30.0           middle
## 4    male   23 26.0             high
## 5  female   26 18.0             high
## 6  female   21 21.0             high
## 7  female   28 21.0             high
## 8  female   19 26.5             high
## 9  female   20 25.5              low
## 10   male   27 29.5              low
## 11   male   25 29.5           middle
## 12 female   23 29.0             high
## 13   male   24 23.5             high
## 14 female   19 20.5           middle
## 15 female   18 17.5              low

Código en Rmarkdown de esta publicación Es necesario instalar los paquetes knitr y rmarkdown con la función

install.packages("knitr")  # Instalamos el paquete del espejo CRAN más cercano o el que esté por default
install.packages("rmarkdown")  # Lo mismo
library(knitr)   # Cargamos el paquete al espacio de trabajo
library(rmarkdown)  #Lo mismo

Nos leemos en la próxima entrega…

Referencias

Variable Estadística en mi querida Wikipedia, accedido en Wed Nov 12 15:42:48 2014 URL: https://es.wikipedia.org/wiki/Variable_estad%C3%ADstica
Jay, L. D. (2008). Probabilidad y estadística para ingeniería y ciencias. California. Editorial Cengage Learning.
Documentación de R
Mi querido Google

Generalidades de la estadística y breve introducción a R

Juan C. López Tavera

Thursday, December 11, 2014

Introducción

Tipos de variables

Introducción a R y aplicaciones

Referencias