1.1. Introducción a la Estadística

1.1.1. Conceptos básicos

Anderson & Sweeney (n.d.), señala que la mayor parte de la información estadística en periódicos, revistas, informes de empresas y otras publicaciones consta de datos que se resumen y presentan en una forma fácil de leer y de entender. A estos resúmenes de datos, que pueden ser tabulares, gráficos o numéricos se les conoce como estadística descriptiva.

1.1.2. Clasisficación de la Estadística

Levin & Rubin (2004), contempla tres subdivisiones:

  1. Estadística descriptiva: consiste en gráficas, tablas y diagrmas que muestran los datos de manera más clara y elocuente.

  2. Estadística inferencial: implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez.

  3. Teoría de decisiones: es la rama de la estadística en donde se pueden utilizar los métodos y las técnicas de la inferencia estadística.

En esta primera parte nos enfocaremos en estadística descriptiva y luego se abordarán las otras dos subdivisiones.

1.1.3. Tipos de variables

Una variable es una característica de un elemento en una población en estudio, según Rincón (2007).

Dependiendo del número de características que se analizan de la población, las variables se pueden clasificar en:

  • Variables unidimensionales: sólo recogen información sobre una característica. Por ejemplo, edad de los alumnos de una clase.

  • Varaibles bidimensionales: recoge información sobre dos características de la población. Por ejemplo, edad y altura de los alumnos de una clase.

  • Varialbles pluridimensionales o multidimencionales: regoen información sobre tres o más características. Por ejemplo, eada, altura y peso de los alumnos de una classe.

Dependiendo del tipo de datos las variables pueden clasificarses en:

  • Variables cualitativas: son aquellas que pueden expresarse sólo en forma de atributo.

  • Variables cuantitativas: son aquellas variables que pueden expresarse en forma numérica. Pueden ser discretas y continuas.

    • Variables cuantitativas discretas: son respuestas numéricas que surgen de un proceso de conteo, siendo siempre un número entero.

    • Variables cuantitativas continuas: son respuestas numéricas que surgen de un proceso de medición, las cuales pueden tomar valores entre dos números enteros.

En R para identificar el tipo de variable es cuestión de concepto, dado que podemos identificar el tipo de dato pero no nos indica el tipo de variable. Por ejemplo, tomando el conjunto de datos iris de R. Con el comando str() podemos conoceer su estructura. El resultado muestra el nombre de las variables, el tipo y algunos datos. Es cuestión de interpretación para definir el tipo de variable a la que pertenecen.

str(iris)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

1.1.4. Niveles de medición

Los niveles de medición son las formas de clasificar los datos, pueden ser:

  • Escala nominal: se llama nominal cuando sus posibles valores no tienen alguna relaciónn de orden o magnitud entre ellos. Por ejemplo, a la variable sexo podemos asignarle dos posibles valores: F para femenino, y M para masculino. Los símbolos F y M son etiquetas arbitrarias, y no existe un orden en ellas ni podemos realizar operaciones aritméticas.

  • Escalel ordinal: en esta escala los valores de la variable tienen un orden pero no se pueden hacer operaciones aritméticas entre estos valores pues no hay noción de distancia entre ellos. Por ejemplo, para calificar las características de un objeto podemos suponer los siguientes valores: 0=Pésimo, 1=malo, 2=Regular, 3=Bueno, 4=Excelente. En este caso la escala de medición es ordinal pues existe un orden entre sus valores, pero no se puede decir, por ejemplo, que dos valores regulares hacen un valor excelente.

  • Escala por intervalos: en este tipo de escala existe un orden entre los valores de la variable y existe además una noción de distancia aunque no se pueden realizar operaciones. Por ejemplo, suponga que los valores de una cierta variable están dados por los días del mes. Entre el día 10 y el día 20 hay una distancia de diez días, pero no se puede decir que el día 20 es dos veces el día 10.

  • Variables cuantitativas discretas o de razón: en una escala de razón la magnitud tiene un sentido físico y existe el cero absoluto. Por ejemplo, la variable edad en años estudiada en una población humana.

1.1.5. Recopilación de datos

La recopilación de datos toma en consideración la fuente y la técnica.

Los datos pueden obtenerse de dos tipos de fuentes:

  • Internas.

  • Externas.

Las téncicas para obtener datos pueden ser:

  • Encuestas.

  • Entrevistas.

  • Cuestionarios.

  • Observaciones.

1.2. Presentación de datos de una sola variable

1.2.1. Distribución de frecuencias

1.2.2. Presentación gráfica de datos

1.2.2.1. Gráfica de barras

1.2.2.2. Gráfica de pastel

1.2.2.3. Histograma

1.2.2.4. Polígono de frecuencias

1.2.2.5. Ojiva

1.2.2.6. Gráficas lineales

1.2.2.7. Gráficas de puntos

1.3. Análisis descriptivo de datos de una sola variable

1.3.1. Medidas de tendencia central

1.3.1.1. Media aritmética

1.3.1.2. Media ponderada

1.3.1.3. Media geométrica

1.3.1.4. Mediana

1.3.1.5. Moda

1.3.2. Medidas de tendencia no central

1.3.2.1. Deciles

1.3.2.2. Cuartiles

1.3.2.3. Percentiles.

1.3.3. Medidas de dispersión

1.3.3.1. Medidas de distancia

1.3.3.2. Medidas de desviación promedio

1.3.3.3. Medida de dispersión

1.3.4. Medidas de forma

1.3.4.1. Sesgo

1.3.4.2. Curtosis

1.4. Presentación y análisis de datos de dos variables

1.4.1. Tablas de contingencia

1.5. Bibliografía

Anderson, D. R., & Sweeney, D. J. (n.d.). Estadı́stica para administración y economı́a.

Levin, R. I., & Rubin, D. S. (2004). Estadı́stica para administración y economı́a. Pearson Educación.

Rincón, L. (2007). Curso elemental de probabilidad y estadı́stica. México, Editora Del Departamento de Matemáticas Facultad de Ciencias UNAM.