La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es la Ciencia de los Datos (Data Science) y que su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible.
Definición técnica
La estadística es una disciplina científica que se ocupa de la obtención, orden y análisis de un conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos observados.
La estadística se puede dividir en dos grandes ramas: descriptiva e inferencial.
La estadística inferencial se subdivide a su vez en dos grandes tipos: estadística paramétrica (asume que los datos siguen una determinada distribución de probabilidades) y no paramétrica (no es posible asumir ningún tipo de distribución subyacente en los datos).
Cuando un investigador busca información a través de muestreos en la naturaleza, o de experimentos bajo condiciones controladas en laboratorios, está obteniendo DATOS. Al “ente” u objeto sobre el que se obtiene el dato lo llamaremos UNIDAD de MUESTREO o UNIDAD EXPERIMENTAL, respectivamente.
La característica fundamental de los datos estadísticos es su variabilidad. Si ésta no existe, el análisis estadístico no tiene sentido (el diámetro máximo del opistosoma de las arañas varía de ejemplar en ejemplar y es diferente a lo largo del ciclo de vida de un mismo individuo; pero el número de patas es constante para todas las especies de este grupo taxonómico). La propiedad medida u observada para obtener los datos se denomina VARIABLE. Una propiedad que tienen las variables en la investigación científica, es que su valor no se conoce antes de la medición de la unidad en cuestión. Sólo cuando se realiza el muestreo o el experimento se obtiene el dato. A este tipo de variables se las llama ALEATORIAS.
Las variables se dividen en tres grandes grupos:
Cualitativas (= categóricas). Son variables que se refieren a cualidades no numéricas. Sus posibles valores son determinadas características mutuamente excluyentes: si la unidad de muestreo o experimental presenta una de estas cualidades, no puede presentar ninguna de las otras. Los posibles valores del Grupo Sanguíneo son: 0, A, B y AB, cada una de estas 4 características son mutuamente excluyentes, pues una persona del grupo A, no puede ser, a la vez, del grupo AB. Un caso partícular son las características de Presencia y la Ausencia (1 y 0), por ejemplo de una gramínea en un determinado cuadrado (quadrat). Cuando las opciones son 2, también se las denomina Dicotómicas o Binarias.
Semicuantitativas (= ordinales). Son variables que tienen propiedades similares a las CUALITATIVAS, pero existe un orden inherente entre sus posibles valores. Las cualidades “pequeño”, “mediano” y “grande”, pueden ser ordenadas de menor a mayor tamaño; los resultados de un examen médico se pueden clasificar en 4 estados de menor a mayor riesgo. El orden de importancia que tiene para los niños el Deporte dentro de otras 4 actividades recreativas propuestas, puede tomar valores desde “1” hasta “5”; sin que esto signifique que la diferencia entre “1” y “2” sea la misma que entre “2” y “3” (un niño pudo haber elegido como “1” a los Videojuegos, como “2” al Deporte y como “3” a los Juegos de Mesa, sin dudar de la posición de este último, pero teniendo que hacer un gran esfuerzo para decidir cuál prefería de los otros dos).
Cuantitativas (= numéricas). Son variables que se refieren a características numéricas; con la propiedad de que la misma diferencia entre 2 valores, tiene igual importancia en cualquier sector del rango de medidas utilizado (la pérdida de peso entre 45 y 40 Kg es la misma que entre 58 y 53 Kg).
Por ciertas características que presentan sus posibles valores y el tratamiento estadístico que se les aplica, se pueden dividir en 2 clases:
Discretas. Sólo pueden tomar valores numéricos fijos, sin posibles valores intermedios. Suelen estar asociadas a variables de “conteo”. En el ej. 3), el nº de abejas que se posan sobre la flor puede ser “0”, “1”, “2”, “3”, …, etc., pero nunca un valor intermedio como \(\frac{1}{4}\) ó \(\sqrt{3}\).
Continuas. Pueden tomar cualquier valor en un determinado intervalo. Habitualmente, el instumento con el que se realiza la medición (termómetro, balanza), sólo permite obtenerlos con determinada precisión pero, en teoría, cualquier número en el intervalo definido para la variable, es un resultado posible. La temperatura real (ºC) en la ventana de la sierra, una determinada mañana podría ser: 12.437954550328…, pero si el termómetro utilizado midiera hasta décimas de grado, el dato resultante sería 12.4.
| Nominales | Ordinales | Discretas | Continuas |
|---|---|---|---|
| Sexo | Clasificación de un película | Edad | Temperatura |
| Grupo sanguíneo | Grado de contaminación | Número de huevos | Peso |
| Estadio de desarrollo | Gravedad de una enfermedad | Número de parásitos | Altura |
El conjunto de todos los resultados o mediciones que pueden obtenerse en un experimento o en un muestreo constituye la POBLACION. En general, no se posee la información de “toda” la población. Se suele conocer sólo una parte de ella. El conjunto de datos que se selecciona de la población es lo que llamamos MUESTRA. Podríamos plantearnos hacer un censo y obtener el grupo sanguíneo de todos los habitantes de la ciudad de Córdoba, sin embargo, se podría tener una idea de la frecuencia de c/grupo sanguíneo tomando, por ejemplo, 100 habitantes. Estos 100 datos constituyen una muestra de la población.
El objetivo de una investigación suele ser el conocimiento de algún aspecto de la población en estudio, teniendo como materia prima al conjunto de datos que se obtienen al extraer de ella una muestra, y como herramienta a las técnicas estadísticas.
Con la estadística extraemos conclusiones sobre la población en base a la información obtenida en la muestra.
Volviendo al ejemplonde los grupos sanguineos, podemos querer saber en qué proporción se presentan cada uno de los grupos sanguíneos en Vicuña Mackenna. No tenemos un censo, pero sí los resultados de una muestra de tamaño 100. Si en ella hay muchas personas del grupo 0 y pocas AB, es de esperar que en la población ocurra algo parecido. Pero para que esto sea cierto, la muestra debe ser “representativa” de la población. Podríamos haber tenido la brillante idea de recurrir a los registros de un sanatorio, donde obtendríamos sin mucho costo los grupos sanguíneos de 100 donantes; o seleccionar sólo unas 25 o 30 familias de la población, y obtener el grupo sanguíneo de todos sus integrantes … NNNOOOOOOOOOOOOOOOO!!!! Esto violaría las condiciones necesarias para obtener una muestra representativa:
Cada unidad de la población debe tener la misma posibilidad de pertenecer a la muestra.
Cada unidad ingresa a la muestra de manera independiente.
Si se cumplen ambas condiciones, se dice que el muestreo es ALEATORIO SIMPLE (existen otros tipos de muestreo que garantizan representatividad). La muestra extraída del sanatorio, no cumple con la condición I. Sólo las personas que donan sangre pueden pertenecer a la muestra y, muy probablemente, habrá en ella mayor proporción de donantes universales (grupo 0) que los que hay en la población en estudio. La muestra obtenida a partir de las familias, no cumple la condición II. Como este carácter es hereditario, los descendientes tendrán un grupo sanguíneo relacionado con sus padres (a través de la herencia mendeliana), y están ingresando a la muestra de una manera no independiente (todos pertenecen a la misma familia y, si esta es numerosa, los hijos pueden exagerar la importancia del grupo sanguíneo al que pertenecen sus padres).
No es un asunto trivial el obtener muestras aleatorias de una población y, en muchos casos, es el problema más difícil de resolver. Es obvio, entonces, que lo primero que debemos tener en claro es con qué población queremos trabajar. Si en en un experimento sólo nos interesan los registros de temperatura del período estival, no nos servirá de mucho tomar muestras en invierno. En este caso, nosotros mismos restringimos la población en estudio para adaptarla a los objetivos de la investigación. Por otro lado, si no imponemos ninguna restricción “a priori”, y la malignidad de la naturaleza hace que registremos la temperatura siempre bajo una lluvia torrencial, no podemos extender las conclusiones a toda la población (que incluye los días de sol). Aquí aparece uno de los problemas que suelen perseguir (y casi siempre alcanzar) a los investigadores: por más que se tenga claro con qué población se desea trabajar, el modo en que se haya tomado la muestra determina con qué población se está realmente trabajando. Cuando ocurre un fenómeno de este tipo, aparece un paso más en el proceso para extraer conclusiones: las restricciones que impone el tipo de muestreo hacen que, a partir de la población que deseamos investigar o POBLACION OBJETIVO, se defina una población efectiva o POBLACION MUESTREADA. Sólo de esta última es representativa la MUESTRA ALEATORIA.
Existen ciertas características numéricas fijas que presentan las poblaciones y que pueden ser el objetivo de estudio (sobre todo si están perfectamente definidas, y no sólo desde el punto de vista matemático). A estos valores invariantes se los denomina PARÁMETROS POBLACIONALES. Sólo a través de un censo se puede acceder a ellos. Por lo tanto, es bastante frecuente que no se conozcan con exactitud sus valores. Sin embargo, en una muestra se pueden obtener números similares, aplicando algoritmos análogos a los que se definen en la población. A estas funciones de los elementos de la muestra se las denomina ESTIMADORES MUESTRALES. Se supone que si la muestra es aleatoria y tiene suficiente información, estos estimadores no estarán “muy lejos” de los parámetros poblacionales.
Tomemos como ejemplo, investigar el largo de una especie de pez en una determinada laguna. Podría interesarnos saber cuál es la talla máxima de los individuos. Este sería un parámetro de esa población. Si no capturamos “todos” los peces de la laguna, nunca conoceremos su valor. Pero si tomamos una muestra de 10 ejemplares al azar, y la máxima talla que encontramos resulta ser de 39 cm, hemos obtenido un número que es estimador del parámetro buscado. Ahora bien, si se toma otra muestra aleatoria de 10 ejemplares, y la máxima talla encontrada es de 41 cm, tenemos otro estimador del mismo parámetro (los individuos que ingresan a las muestras no tienen que ser los mismos, por más que ambas sean representativas de la población), y así con cualquier otra muestra aleatoria del mismo tamaño. Esto implica que los estimadores varían de muestra a muestra.
Resumiendo: Los parámetros poblacionales son números fijos que suelen ser ignotos para el investigador. Los estimadores muestrales son variables aleatorias que obtiene el científico para tener una idea de por dónde anda el parámetro estudiado.
Los parámetros poblacionales (que se pretendrán estimar a partir de una muestra) son las proporciones (p) de cada una de las característica que puede tomar la variable de interés. Si volvemos al ejemplo de los grupos sanguineos, habrá en la población una p(0), una p(A), una p(B) y una p(AB). Por ejemplo, el parámetro p(A) se define como: \[ p(A) = \frac{número\;de\;personas\;con\;grupo\;sanguíneo\;A}{número\;total\;de\;individuos\;en\;la\;población}\].
Para estimar estos parámetros a partir de una muestra de tamaño “N”, se comienza registrando la frecuencia (F) con que aparece cada grupo sanguíneo. Por ejemplo, F(A) sería el número de individuos con grupo A en la muestra. Un estimador lógico de p(A) sería la frecuencia relativa (f), que es el mismo algoritmo de p(A) pero aplicado a la muestra: \[f(A) = \frac{número\;de\;personas\;con\;grupo\;sanguíneo\;A\;en\;la\;muestra}{número\;total\;de\;individuos\;muestreados}=\frac{F(A)}{N}\].
Esta información se puede resumir en una tabla que contenga los resultados de todas las categorías. Ejemplo para una muestra de tamaño 80:
| Grupo | Frecuencia | Frecuencia relativa | Porcentaje |
|---|---|---|---|
| 0 | 38 | 0.475 | 47.5 |
| A | 28 | 0.350 | 35.0 |
| B | 8 | 0.100 | 10.0 |
| AB | 6 | 0.075 | 7.5 |
| Total | 80 | 1.000 | 100.0 |
El contenido de la tabla de frecuencias se puede representar gráficamente mediante un DIAGRAMA de SECTORES. Consiste en un círculo (que corresponde al 100%) dividido en tantos sectores como valores tenga la variable. El área de cada sector es proporcional a la frecuencia relativa de cada carácter. Para construirlo se calcula el ángulo central θ correspondiente, a partir de la última línea divisoria adyacente (en grados sexagesimales sería para A: \(θ(A) = f(A) \times 360° \rightarrow 0.35 \times 360° = 126°\)).
Como esta representación es una estimación de la que existe en la población y, seguramente, variará si se toma otra muestra; es importante tener una idea de cuán “estable” es. Fundamentalmente, esta estabilidad depende del tamaño de la muestra. Si se toman pocos datos, cada una pesará mucho en las estimaciones, y cambios por azar de unos pocos, se reflejarían fuertemente en los valores obtenidos (con N = 10, cada individuo pesa un 10%; y si la única persona del grupo B que iba a ingresar a la muestra, es reemplazada casualmente por otra del otro grupo A, no hallaríamos al grupo B en la muestra, y el A estaría incrementado en un 10%).
Observemos los resultados obtenidos en una muestra aleatoria de tamaño 20 extraída de la misma población. Aunque los 2 gráficos no son iguales, ambos tienen información correcta !!! Lo que ocurre es que en uno de ellos, el mayor esfuerzo realizado, se traduce en una mayor confiabilidad para extraer conclusiones sobre la población. Es evidente, entoces, que un Diagrama de Sectores debe estar acompañado del tamaño (N) de muestra utilizado, para poder valorar la información que pretende representar.
Cuando se desean comparar los resultados de varias poblaciones, estos diagramas pueden llegar a ocupar demasiado espacio, y dificultar su comparación. Otra manera de representar las tablas de frecuencias de variables cualitativas es con el DIAGRAMA en COLUMNA. Consiste en una serie de rectángulos de igual ancho, y altura proporcional a la frecuencia relativa de cada carácter. Están apilados de modo tal que construyen una columna (la que representa el 100%). Aquí se muestran en un mismo gráfico los 2 Diagramas en Columna, para los muestreos de grupos sanguíneos basados en 80 y 20 datos:
Por cuestiones de diagramación, también se los puede representar apaisados (las columnas se ubican horizontalmente y la escala pasa al eje de las absisas).