Un vistazo a la Estadística

La estadística es una Ciencia que tiene como finalidad facilitar la solución de problemas en los cuales necesitamos conocer algunas caracteristicas sobre el comportamiento de algun suceso o evento. Características que nos permiten conocer o mejorar el conocimiento de ese suceso. Además nos permiten inferir el comportamiento de suscesos iguales o similares sin que estos ocurran.

Esto nos da la posibilidad de tomar decisiones acertadas y a tiempo, asi como realizar proyecciones del comportamiento de algún suceso. Esto es debido a que solo realizamos los cálculos y el análisis con los datos obtenidos de una muestra de la población y no con toda la población. Pues hacerlo con todos los datos o población en algunos casos seria muy dificil y en otros casos casi imposible o imposible.

Dificil porque podría tratarse de una situación donde el número de datos es muy grande, como por ejemplo si quisieramos saber el promedio de carreras limpias permitidas por juego de un equipo de beisbol, a pesar de que se tienen los registros de todos los resultados de sus juegos, son muchísimos los juegos y llevaría tiempo revisar todos los archivos para obtener esos datos.

A continuación desarrollamos una sucesión de datos, los cuales se someterán a un análisis de algunas variables básicas, muy utilizadas en Estadística.

Datos obtenidos

 Datos <- c(4.775591, 4.129769, 10.820459, 2.926689, 8.806668, 4.783637, 8.418380, 7.833450, 4.537405, 6.730402, 3.698800, 6.86492, 3.22558, 5.634067, 5.504755, 6.331493, 3.726112, 6.496017, 3.682233, 6.843869, 4.193416, 6.293272, 7.568595, 5.758989, 8.720617, 3.732230, 4.492452, 3.948485, 7.427152, 4.360651, 5.411284, 1.328836, 6.282210, 7.916329, 6.750422, 5.529266, 3.653097, 7.401630, 3.742837, 8.358330)

Promedio

El concepto de promedio se vincula a la media aritmética, que consiste en el resultado que se obtiene al generar una división con la sumatoria de diversas cantidades por el dígito que las represente en total. Claro que esta noción también se utiliza para nombrar al punto en que algo puede ser dividido por la mitad o casi por el medio y para referirse al término medio de una cosa o situación. El promedio, por lo tanto, es un número finito que puede obtenerse a partir de la sumatoria de diferentes valores dividida entre el número de sumandos.

mean(Datos)
## [1] 5.71601

La Desviación Estándar

La desviación estándar (en inglés “standard deviation”; SD) es una medida de la dispersión de los datos, cuanto mayor sea la dispersión mayor es la desviación estándar, si no hubiera ninguna variación en los datos, es decir, si fueran todos iguales, la desviación estándar sería cero. La desviación estándar cuantifica la dispersión alrededor de la media aritmética. Informa de la media de distancias que tienen los datos respecto de su media aritmética.

sd(Datos)
## [1] 1.999193

La Varianza

La varianza de una muestra o de un conjunto de valores, es la sumatoria de las desviaciones al cuadrado con respecto al promedio o a la media, todo esto dividido entre el número total de observaciones menos 1.

De manera muy general se puede decir que la varianza es la desviación estándar elevada al cuadrado.

Ronald Fisher, un matemático, físico, biólogo y estadístico inglés, en 1918 fue el primero en introducir el termino varianza, en uno de sus estudios publicado sobre biometría. A su vez introdujo los estudios sobre el análisis de varianza.

var(Datos)
## [1] 3.996772

La Mediana

La mediana es un valor numérico que separa la mitad superior de un conjunto de la mitad inferior.

Es utilizada generalmente para devolver la tendencia central en el caso de distribuciones numéricas sesgadas.

Se puede calcular poniendo los números en orden ascendente y luego localizando el número del centro de esa distribución.

median(Datos)
## [1] 5.581666

Discusión

En el ejemplo/problema desarrollado anteriormente, nos hemos introducido a la estadística descriptiva, la cual es una parte de la estadística que arregla los datos de forma que puedan ser analizados e interpretados. Los métodos de estadística descriptiva nos permiten:

1°Determinar la tendencia central de una variable: promedio o media aritmética, mediana o moda. 2°Determinar la variabilidad de una variable: desviación estándar, varianza, rangos. 3°Determinar cómo es la distribución de una variable: histograma de frecuencias, distribución normal.

En forma general hemos realizado esta introducción a la “estadística descriptiva en R”, realizando cálculos de tendencia central como el promedio y la mediana y, para medidas de dispersión, desviación estándar y varianza.