El término estadística tiene dos significados fundamentales. Por un lado la estadística como ciencia y por otro lado la estadística o estadísticas encontradas a un conjunto de datos. Este segundo concepto es muy usado hoy en día para referirnos a resultados ya elaborados en un estudio en el que se empleó la estadística como método.
Dado que la estadística es una disciplina muy amplia, existen diferentes definiciones de la misma según el enfoque en el que se plantee. Podemos dar como ejemplo, las dos siguientes definiciones.
Por otra parte, la estadística constituye una poderosa herramienta para generar conocimiento y ha experimentado un vigoroso desarrollo en la vida actual. La podemos clasificar en dos principales ramas: estadística descriptiva y estadística inferencial.
Estadística descriptiva: se encarga de describir, analizar y representar un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.
Estadística inferencial: apoyándose en el cálculo de probabilidades y a partir de muestras, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre la población.
Recordemos algunos conceptos importantes:
Población: es el conjunto de todos los elementos cuyas propiedades se van a estudiar. La población puede ser finita o infinita.
Muestra: está conformada por una parte o un subconjunto de la población. La muestra se utiliza por razones prácticas, económicas o de tiempo, cuando no se permite considerar a toda la población. En la práctica, para estudiar una población aunque sea finita, pero grande, se requiere tomar una muestra.
Unidad estadística: es cada uno de los elementos que componen la población. También se le conoce como individuo, elemento u observación.
Variable de estudio: es la o las características que se desean estudiar de la población.
Parámetro: es la o las características medibles de una población, los cuales serán los valores exactos que la describen.
Estadístico: es la o las características medibles de una muestra. En general se usan para estimar los parámetros si no se tiene un valor exacto.
Se desea conocer si los profesores universitarios de Cancún, prefieren dictar clases con ropa formal o con ropa informal. Para ello, se realiza una encuesta a 200 profesores universitarios de Cancún elegidos de forma aleatoria, a los cuales se les pregunta por su preferencia.
Se desea comprobar si cierta maquina de producción cumple con las especificaciones dadas de fabrica (media y desviación estándar de cantidad de productos diarios). Para ellos se tomó una muestra aleatoria de 40 días, y se midió la media y desviación estandar muestral.
Un dato estadístico es la representación de la variable de estudio, o más concretamente, se trata del resultado de la observación del fenómeno que se pretende analizar.
Es importante resaltar que en la literatura, suelen no diferenciar entre tipo de dato y variable estadística. Es decir, definen con la misma palabras ambas cosas.
A continuación presentaremos la clasificación de los diferentes tipos de datos.
Los datos se pueden clasificar en cualitativos o cuantitativos.
Los datos cualitativos son aquellos cuyos valores representan atributos no numéricos. Es decir, son datos que se expresan en forma de palabras o textos que ayudan a comprender ciertas acciones y actitudes que no son cuantificables.
De acuerdo a sus características, un dato cualitativo puede ser nominal u ordinal.
Un dato cualitativo nominal es aquel dato donde el orden de las cualidades no importa y un dato cualitativo ordinal es aquel dato donde el orden de las cualidades si es importante.
A continuación se dan ejemplos de variables que son medidas con datos cualitativos nominales u ordinales.
Los datos cuantitativos son aquellos cuyos resultados son valores numéricos. Es decir, todo lo que se puede medir y contar, decimos que se puede cuantificar.
De acuerdo a sus posibles valores, un dato cuantitativo puede ser discreto o continuo.
Un dato cuantitativo discreto es aquel dato que por su naturaleza de la variable se expresa con valores enteros, mientras que un dato cuantitativo continuo es aquel dato que por su naturaleza de la variable se expresa con valores reales.
A continuación se pueden observar ejemplos de variables que son medidas con datos cuantitativos discretos y continuos según corresponda.
Otra forma de clasificar los datos, es según su escala de medición.
De acuerdo al tipo de dato, existen diferentes escalas de medición. Los datos cualitativos pueden ser clasificadas de acuerdo a dos escalas: escala nominal o escala ordinal, mientras que los datos cuantitativas pueden clasificarse por: escala de intervalo o escala de razón.
Un dato cualitativo se denomina de escala nominal o simplemente cualitativo nominal cuando sus posibles valores no tienen alguna relación de orden o magnitud entre ellos. Es decir, simplemente sirven como etiquetas, y su orden no tiene ningún interés.
Las siguientes variables se miden con datos cualitativos nominales:
Un dato cualitativo se denomina de escala ordinal o simplemente cualitativo ordinal cuando el orden de las etiquetas es relevante, pero no se pueden hacer operaciones aritméticas entre ellos, pues no hay ninguna noción de distancia.
Las siguientes variables se miden con datos cualitativos ordinales:
Un dato cuantitativo se denomina de escala métrica o simplemente cuantitativo métrico cuando permite realizar cualquier tipo de operación matemática. Además, se puede cuantificar las distancias entre ellos.
Las siguientes variables se miden con datos cuantitativos métricos:
Los datos métricos a su vez se puede clasificar en dos categorías: métricos de intervalo y métricos de razón.
La escala de medición de intervalo son números donde existe una noción de distancia aunque no se pueden realizar operaciones entre ellos, pues no preservan su proporcionalidad. Además, no existe el valor natural cero para esta tipo de escala, es decir, una medición de cero no significa ausencia de la variable, simplemente es un valor más dela escala de medición.
Retomando los ejemplos planteados de datos métricos, podemos observar que los dos primeros: la temperatura en grados centígrados y los resultados obtenidos en un examen son de escala de medición métricos de intervalo.
La escala de medición de razón o proporción son números donde la magnitud tiene un sentido físico y existe el cero absoluto. En este tipo de medición, el cero es fijo y significa ausencia de la variable medida. Además, la medición entre dos valores preserva la proporción. Es decir, la magnitud de la distancia entre dos valores no depende de dichos valores.
Retomando los ejemplos planteados de datos métricos, podemos ver que los dos últimos: distancia en kilómetros entre dos ciudades y peso de un bebé recién nacido son de escala de medición métricos de razón.
Nota importante: conocer los diferentes tipos de datos, ayudan para tomar mejores decisiones en el proceso de tu investigación. Conocer los diferentes tipos de datos es necesario para realizar un análisis exploratorio de datos, ya que se pueden usar ciertos estadísticos solo para algunos tipos de datos específicos. También necesitas saber qué tipo de datos existen para elegir el método de visualización correcto. Piensa en los tipos de datos como una forma de categorizar diferentes variables.
Existen diferentes métodos mediante los cuales se pueden obtener datos estadísticos. A continuación, mencionamos los principales:
Información publicada: los datos estadísticos pueden obtenerse a través de la recolección de datos originales. La persona u organización que se encarga de obtenerlos es la fuente primaria, mientras que la persona que recompila la información para usarlo en otra investigación es la fuente secundaria.
Diseño de un experimento: la experimentación se realiza con un control estricto del tratamiento que se le ofrece a los participantes del estudio.
Realizar de una encuesta: se diseña la encuesta, se recolectan los datos, se editan, se codifican y se tabulan para su análisis.
Realizar un estudio experimental: el investigador observa el comportamiento de los individuos que participan en el estudio, mientras se encuentran en su entorno natural.
La representación de datos estadísticos por medio de gráficos es considerada una tarea importante en el proceso de comunicación. Usualmente cuando alguien recibe en sus manos un documento con gráficos, la primer mirada se dirige a éstos. A pesar de la reconocida importancia, este proceso no siempre se realiza de la mejor manera.
Este tipo de representación se realiza a diario y en forma casi natural por personas de diferentes profesiones. En comparación con otras representaciones, los gráficos nos permiten, de una mirada, comprender el comportamiento de los datos, aún cuando estos sean bastante complejos. Además, nos permiten usar nuestra habilidad para visualmente procesar información, logrando hacer juicios respecto a la variabilidad, escala, patrones o tendencias.
A continuación presentaremos ejemplos de gráficos de uso cotidiano en la estadística y que han probado ser efectivos en la representación de datos. Muchos ejemplos aquí presentados están basados en aportes de diferentes usuarios que han publicado sus rutinas en R.
También conocido como gráfico de dispersión o gráfico de puntos.
Los diagramas de dispersión son una colección de puntos colocados en el plano cartesiano, donde se puede observar el comportamiento entre dos variables.
Estos diagramas son ideales cuando se tienen datos numéricos de dos variables y se desea ver si una afecta a la otra. Sin embargo, es importante recordar que la correlación no es causal y otra variable inadvertida puede estar influyendo en los resultados. En la siguiente figura podemos ver un ejemplo hecho e R.
set.seed(1981)
x <- rnorm(100)
y <- x+runif(100,-20,20)
plot(x,y,col="blue")
Se pueden interpretar varios tipos de correlación a través de los patrones mostrados en los diagramas de dispersión. Estos son:
En la siguiente figura podemos apreciar un ejemplo de cada una de las posibles correlaciones.
set.seed(1981)
x <- rnorm(100)
y1 <- 2*x+runif(100,-2,2)
y2 <- -5*x+runif(100,-5,5)
y3 <- rnorm(100)
par(mfrow=c(1,3))
plot(x,y1,col="blue")
plot(x,y2,col="green")
plot(x,y3,col="purple")
La correlación puede determinarse por la proximidad de los puntos entre sí en el gráfico. Además, en este tipo de gráfico se pueden observar fácilmente valores atípicos (outlier).
Para construir el diagrama de dispersión de forma manual, debemos seguir los siguientes pasos:
Genere una secuencia de números de \(1\) a \(30\) para el eje \(x\), los cuales representan los días de un mes. Luego, para el eje \(y\), sume el valor de \(x\) con un número aleatorio con distribución normal con media \(5\) y desviación estándar \(5\). Estos datos simularán el precio diario de las acciones deportivas de una empresa. Realiza un diagrama de dispersión de los datos simulados.
set.seed(1981)
x <- 1:30
y <- x+rnorm(30,5,5)
plot(x,y,col="blue")
Notemos que por la naturaleza de los datos, quizás sea adecuado colocar una línea que une cada punto con el siguiente, de tal forma, que se pueda apreciar el comportamiento del precio de las acciones durante el mes con más claridad. Esto se puede hacer simplemente agregando en los parámetros de la función plot el tipo línea. Así:
set.seed(1981)
x <- 1:30
y <- x+rnorm(30,5,5)
plot(x,y,col="blue",type="l", xlab="días",ylab="Precio de las acciones")
Claramente es mucho más informativa. Notemos que para hacer un diagrama de dispersión en R usamos la función plot
. Esta función tiene diversos parámetros para ajustar y modificar. Se deja como ejercicio la exploración de dichos parámetros.
También conocido como gráfico de barras o diagrama de columnas, es una forma de representar gráficamente frecuencias de “datos cualitativos” o “cuantitativos discretos”, y está conformado por barras rectangulares cuya altura es la frecuencia de cada uno de los valores de la variable. Las barras pueden orientarse horizontal o verticalmente. En la siguiente figura podemos observar un ejemplo.
x <- c(rep("clase 1",5),rep("clase 2",3),rep("clase 3",7),rep("clase 4",5))
barplot(table(x),col="lightblue")
Las principales características del diagrama de barras son:
En la siguiente figura podemos observar un ejemplo de barras verticales a la izquierda y un ejemplo de barras horizontales a la derecha.
x1 <- c(rep("clase 1",5),rep("clase 2",3),rep("clase 3",7),rep("clase 4",5))
par(mfrow=c(1,2))
barplot(table(x),col="lightblue")
barplot(table(x),col="pink",horiz = T)
Existen tres tipos de gráficos de barras.
Representa los datos de un único conjunto de datos.
edades <- c(rep("0-15",2),rep("16-30",4),rep("31-45",10),rep("46-60",11),rep("61>",4))
barplot(table(edades),col="green3",xlab="Rango de edades")
Representa los datos de dos o más conjuntos de datos. Se acostumbra representar con colores distintos cada conjunto. Las barras se colocan una al lado y ayuda a comparar los conjuntos de datos.
edades <- c(rep("0-5",2),rep("16-30",4),rep("31-45",10),rep("46-60",11),rep("61>",4),
rep("0-5",5),rep("16-30",7),rep("31-45",12),rep("46-60",8),rep("61>",2))
genero <- c(rep("Hombre",31),rep("Mujer",34))
data <- table(genero,edades)
barplot(data,col=c("blue","green"),xlab="Rango de edades",
legend.text=rownames(data),beside=T)
Representa los datos de dos o más conjuntos de datos. Cada barra representa una categoría de los datos, y se divide en segmentos que representa cada conjunto de datos.
edades <- c(rep("0-5",2),rep("16-30",4),rep("31-45",10),rep("46-60",11),rep("61>",4),
rep("0-5",5),rep("16-30",7),rep("31-45",12),rep("46-60",8),rep("61>",2))
genero <- c(rep("Hombre",31),rep("Mujer",34))
data <- table(genero,edades)
barplot(data,col=c("blue","green"),xlab="Rango de edades",
legend.text=rownames(data),beside=F,ylim=c(0,30))
Es un gráfico recomendado para datos “cuantitativos continuos”. Es bastante sencillo, ya que se realiza básicamente con cinco números, pero éste tiene una utilidad muy alta, pues se observa de una forma clara la distribución de los datos y sus principales características. Además, permite comparar diversos conjuntos de datos simultáneamente.
Como herramienta visual sirve para estudiar la distribución de los datos, la simetría, y valores atípicos. También es bastante utilizado para comparar diferentes poblaciones.
El Boxplot es también conocido como diagrama de caja y bigotes. La caja está compuesto por tres valores, el primer cuartil \((Q_1)\), la mediana y el tercer cuartil \((Q_3)\); y los bigotes que se denominan longitud superior \((L_s)\) y longitud inferior \((L_i)\). \(L_s\) se extiende desde \(Q_3\) hasta \(Q_3+1.5RIQ\) y \(L_i\) se extiende desde \(Q_1\) hasta \(Q_1-1.5RIQ\). Recordemos que \(RIQ\) es el rango intercuartil, el cual se calcula como: \[ RIQ = Q_3-Q_1\]Las observaciones que se ubiquen más allá de estas líneas son dibujadas individualmente por puntos y son consideradas como observaciones atípicas. En la siguiente figura podemos ver un ejemplo con sus elementos.
Existen dos tipos de Boxplot.
Representa los datos de un único gráfico.
data <- c(iris$Sepal.Length,iris$Sepal.Width,iris$Petal.Length,iris$Petal.Width)
boxplot(data,col="purple",xlab="Distribuciones de los datos iris")
Representa en un solo gráfico varios Boxplot.
data <-iris[,-5]
boxplot(data,col=2:5,xlab="Distribuciones de los datos iris por variable")
Tambien se pueden visulizar de forma horizontal.
data <-iris[,-5]
boxplot(data,col=2:5,horizontal = T, cex=0.02,
xlab="Distribuciones de los datos iris por variable")
Un histograma es una representación gráfica de una variable con datos “cuantitativos continuos”, donde la superficie de cada barra es la frecuencia de los valores representados. Puede verse como una representación gráfica de datos agrupados mediante intervalos. Gracias a él puedes hacerte rápidamente una idea de la distribución de los datos.
Se puede emplear con “datos cualitativos”, siempre y cuando la cantidad de datos sea muy grande y el diagrama de barras deje de ser conveniente.
Para construir un histograma se deben realizar los siguientes pasos:
Determinar el rango de los datos.
Obtener la cantidad de intervalos: existen varios criterios para determinar el número de clases o intervalos. Nosotros trabajaremos con la regla de Sturges, la cual utiliza R internamente. Esta es: \[ C = 1 + \log_2 (N)\]
Establecer el ancho de cada intervalo: si queremos intervalos iguales, debes tomar el rango dividido por el número de clases.
Construir los intervalos.
Graficar el histograma.
Es importante resaltar que estos serían los pasos si se desea construir a mano y podría ser un buen ejercicio para comprender el tema. Nosotros nos apoyaremos de R para utilizar las tecnologías y realizarlos de manera automática.
data <-faithful$eruptions
hist(data,main="Histograma de frecuencias",col="brown",xaxs="i",yaxs="i",
xlim=c(1.5,5.5),ylab="Frecuencias",xlab="Números de erupciones")
Puedes manipular manuelmante el número de intervalos.
data <-faithful$eruptions
cortes <-c(1.5,2.5,3.5,4.5,5.5)
hist(data,main="Histograma de frecuencias",col="pink",xaxs="i",yaxs="i",
border="red",
xlim=c(1.5,5.5),breaks=cortes,ylab="Frecuencias",xlab="Números de erupciones")