La estadística es la rama de las Matemáticas que comprende un conjunto de técnicas que se encargan de la recolección, organización, análisis e interpretación de datos que presentan variabilidad o incertidumbre. Esto nos sirve para realizar juicios inteligentes y tomar decisiones informadas. La estadística no es una ciencia, se desprende de las Matemáticas, que sí son una ciencia.
Los datos, la materia prima del investigador, son mediciones u observaciones documentadas de un experimento o fenómeno.
Al investigar un fenómeno, nos enfocamos en un conjunto de objetos que tienen ciertas características constantes que llamaremos población de interés. Si tuviésemos todos los objetos de la población disponibles para nuestro estudio, tendríamos un censo, pero esta situación es rara debido a varias limitaciones, como tiempo y dinero. Por esto, seleccionamos un subconjunto de la población de interés -mediante métodos que tocaremos después- llamada muestra.
Normalmente, no nos interesa estudiar todas las características de una población, sino solo algunas de ellas. Una variable es cualquier característica cuyo valor pueda cambiar de objeto a otro en un conjunto de objetos. Las variables son representadas por letras del abecedario (en R, por cualquier serie de caracteres alfanuméricos al que le asignamos un conjunto de datos)…
c("a", "b", "c", "d", ..., "x", "y", "z")
En R podríamos hacer algo como…
alphanumeric <- paste(LETTERS, seq(1,length(LETTERS)))
print(alphanumeric)
## [1] "A 1" "B 2" "C 3" "D 4" "E 5" "F 6" "G 7" "H 8" "I 9" "J 10"
## [11] "K 11" "L 12" "M 13" "N 14" "O 15" "P 16" "Q 17" "R 18" "S 19" "T 20"
## [21] "U 21" "V 22" "W 23" "X 24" "Y 25" "Z 26"
Para crear 26 elementos de caracteres alfanuméricos en el objeto alphanumeric
para asignar a nuevas variables.
Antes de iniciar una investigación, debemos definir la utilidad de cada variable que vamos a medir y como se relaciona con otras variables, para empezar a considerar el método de análisis estadístico más adecuado (se toman en cuenta otros parámetros que veremos más adelante).
Las variables se pueden clasificar según cómo las medimos en…
De acuerdo al órden que pueden ser: + Cualitativa ordinal. Tienen un orden… (leve, moderado, severo)
+ Cualitativa nominal. No tienen un orden… (verde, blanco, rojo)
De acuerdo a la influencia que tienen unas variables sobre otras, se clasifican en:
En el ejemplo al final del post, la variable independiente es el Índice de Masa Corporal.
R es un sistema para computación estadística y de gráficas. Incluye un lenguaje de programación, gráficas de alto nivel, interfaces para otros lenguajes, y facilidad para hacer debugging.
R es gratuito, open source, versátil y poderoso.
Ejemplo
Imaginemos que queremos estudiar la influencia del Índice de Masa Corporal (variable independiente) sobre la Presión arterial (variable dependiente). Para esto tomamos la presión arterial de 15 individuos (muestra MUY pequeña y sin método de muestreo, pero es solo un ejemplo) y recolectamos las siguientes variables:
¿De qué tipo es cada una de las variables?
Para crear nuestras variables cuantitativas:
## VARIABLE CUANTITATIVA DISCRETA
age <- sample(18:30, 15, replace =TRUE) # Crear variable age con las edades de 15 individuos de 18-30 años
age # mostrar variable, es lo mismo que escribir print(age)
## [1] 24 29 20 23 26 21 28 19 20 27 25 23 24 19 18
## VARIABLE CUANTITATIVA CONTINUA
BMI <- seq(17, 32, by = 0.5) # Generar una secuencia de valores desde 17 hasta 32 con incrementos de 0.2
BMI <- sample(BMI, 15, replace = TRUE) # Tomar una muestra n = 15 de la secuencia anterior
BMI
## [1] 30.5 18.5 30.0 26.0 18.0 21.0 21.0 26.5 25.5 29.5 29.5 29.0 23.5 20.5
## [15] 17.5
Para crear variables cualitativas:
## VARIABLE CUALITATIVA NOMINAL DICOTÓMICA
sex <- sample(0:1, 15, replace = TRUE) # Crear variable de 15 valores que pueden ser 0 o 1
sex <- factor(sex, labels = c("male", "female")) # Sustituir valor 0 por "male" y 1 por "female"
sex
## [1] male female female male female female female female female male
## [11] male female male female female
## Levels: male female
## VARIABLE CUALITATIVA ORDINAL POLITÓMICA
blood.pressure <- c("low", "middle", "low", "middle", "middle", "middle", "middle", "middle", "high", "high", "low", "middle", "middle", "low", "high") # Crear variable de caracteres
blood.pressure <- ordered(blood.pressure, labels = c("low", "middle", "high")) # Crear variable ordinal a partir de lmh con los niveles ordenados en sentido low < middle < high. De no especificarlo, se ordenarían alfabéticamente.
print(blood.pressure) # Mostrar la variable
## [1] middle high middle high high high high high low low
## [11] middle high high middle low
## Levels: low < middle < high
# o más facil
blood.pressure2 <- factor(sample(rep(1:3, 1000), 15), labels = c("low", "middle", "high")) # de 1000 repeticiones 1:3, seleccionamos 15 valores aleatoriamente y los etiquetamos como low = 1, middle = 2, high = 3.
blood.pressure2
## [1] high high middle low high high low low low high
## [11] middle middle high middle high
## Levels: low middle high
Ahora combinamos todo en la el mismo conjunto de datos (data frame):
data <- cbind.data.frame(sex, age, BMI, blood.pressure) # Juntar las variables anteriores en una tabla
names(data) <- c("Sexo", "Edad", "IMC", "Presión arterial") # Asignar nombres en español a cada columna
data # Mostrar la tabla
## Sexo Edad IMC Presión arterial
## 1 male 24 30.5 middle
## 2 female 29 18.5 high
## 3 female 20 30.0 middle
## 4 male 23 26.0 high
## 5 female 26 18.0 high
## 6 female 21 21.0 high
## 7 female 28 21.0 high
## 8 female 19 26.5 high
## 9 female 20 25.5 low
## 10 male 27 29.5 low
## 11 male 25 29.5 middle
## 12 female 23 29.0 high
## 13 male 24 23.5 high
## 14 female 19 20.5 middle
## 15 female 18 17.5 low
Código en Rmarkdown de esta publicación Es necesario instalar los paquetes knitr y rmarkdown con la función
install.packages("knitr") # Instalamos el paquete del espejo CRAN más cercano o el que esté por default
install.packages("rmarkdown") # Lo mismo
library(knitr) # Cargamos el paquete al espacio de trabajo
library(rmarkdown) #Lo mismo
Nos leemos en la próxima entrega…