5. Estadística descriptiva de variables cuantitativas

DCBMM

Dr. Edsaúl Emilio Pérez-Guerrero

2020A

Introducción

EDAD DE PACIENTES

ID EDAD ID EDAD ID EDAD ID EDAD
CLT-01 61 CLT-11 44 CLT-21 53 CLT-31 71
CLT-02 46 CLT-12 48 CLT-22 50 CLT-32 50
CLT-03 66 CLT-13 65 CLT-23 54 CLT-33 57
CLT-04 42 CLT-14 49 CLT-24 64 CLT-34 55
CLT-05 89 CLT-15 57 CLT-25 73 CLT-35 63
CLT-06 63 CLT-16 66 CLT-26 61 CLT-36 60
CLT-07 49 CLT-17 63 CLT-27 53 CLT-37 50
CLT-08 64 CLT-18 64 CLT-28 73 CLT-38 64
CLT-09 64 CLT-19 50 CLT-29 68 CLT-39 63
CLT-10 72 CLT-20 58 CLT-30 55 CLT-40 65

¿Cuál es la mejor manera de describir estos resultados?

Introducción

  • En la descripción de variable cuantitativas se debe hacer:
    • Tabulación de los datos
    • Representación gráfica
    • Cálculo de parámetros de centralización (medidas de tendencia central)
    • Cálculo de parámetros de dispersión (coeficiente de variación, rango etc.)
    • Cálculo de paráemtros de posición (percentiles, cuantiles, etc.)

Exploración y descripción de variables cuantitivas

  • El principal interés en la exploración y descripción de variables cuantitativas se enfoca en dos puntos:

  • La ubicación de una distribución se refiere a la tendencia central de los valores.
    • Media
    • Mediana
  • La propagación de una distribución se refiere a la dispersión de posibles valores.
    • Varianza
    • Coeficiente de variación

Tabulación de variables

Paso 1: Tabulación de las variables

Su objetivo es tener una visión adecuada de los datos.

Tabla 1. Edades de pacientes

18 22 24 26 27 29 30 32 37 40 43 47
19 23 24 26 27 29 31 33 37 40 43 48
20 23 25 26 28 29 31 34 37 40 44 48
21 23 25 27 28 30 31 34 38 41 45 48
22 24 26 27 28 30 31 34 38 41 45 49
22 24 26 27 29 30 32 36 39 42 46 50
30 33 37 40 43 47 51 31 33 37 40 44

¿Es una representación adecuada?

Paso 1: Tabulación de las variables

  • Su objetivo es tener una visión adecuada de los datos. Para ello:
    • Se crean datos agrupados en intervalos de clase
  • Se gana rapidez pero se pierde exactitud conforme aumentan las clases

  • El número de clases es una desición del responsable del estudio, aunque pueden emplearse formulas y guías

  • Se puede estimar frecuencia absoluta, frecuencia relativa, frecuencia acumulada etc.

Paso 1: Tabulación de las variables. Ejemplo

Clases Intervalos de clase \(fa\) \(fr\) \(Fa\) \(Fr\)
C1 10.5-16-5 5 0.17 5 0.17
C2 16.6-22.5 3 0.10 8 0.27
C3 22.4-28.5 7 0.23 15 0.50
C4 28.4-34.5 7 0.23 22 0.73
C5 34.4-40.5 5 0.90 27 0.90
C6 40.5-46.5 3 0.10 30 1.00

¿Cuáles son las principales caracteristicas de esta tabla? ¿Qué le hace falta?

Paso 1: Tabulación de las variables. Ejemplo

Intervalos de clase Frecuencia Frecuencia acumulada Frecuencia relativa Frecuenci relativa acumulada
10-19 4 4 0.0237 0.0237
20-29 66 70 0.3905 0.4142
30-39 47 117 0.2781 0.6923
40-49 36 153 0.2130 0.9054
50-59 12 165 0.0710 0.9764
60-69 4 169 0.0237 1.0000
Total 169 1.0000

Representacion gráfica

Paso 2: Representación gráfica

La representación gráfica de variables cuantitativas puede ser muy variada. Los gráficos que más se utilizan son:

  • Histograma de frecuencias
  • Histograma de frecuencias acumulado
  • Poligono de frecuencias
  • Poligono de frecuencias acumuladas

Histograma de frecuencias

Dado el siguiente conjunto de datos realice un histograma en la consola de \(R\)

18 22 24 26 27 29 30 32 37 40 43 47
19 23 24 26 27 29 31 33 37 40 43 48
20 23 25 26 28 29 24 26 27 29 30 40

Pasos 1. Cree un objeto

  1. Utilice la función:

Histograma de frecuencias en \(R\)

Histograma de frecuencias en \(R\)

Histograma de frecuencias en Rcmdr

¿Qué es un histograma?

  • Se usan comúnmente para visualizar variables numéricas.
  • Un histograma es similar a un gráfico de barras después de que los valores de la variable se agrupan en un número finito de intervalos (bins).
  • Para cada intervalo, la altura de la barra corresponde a la frecuencia (recuento) de observación en ese intervalo.

Histograma

Histograma con densidad

Densidad

  • La densidad es la frecuencia relativa para un intervalo unitario. Se obtiene dividiendo la frecuencia relativa por el ancho del intervalo:

\(f _{c} = p_{c} /w_{c}\)

  • En donde:

    • \(p_{c}=n_{c}/n\) Es decir, la frecuencia relativa con \(n_{c}\) como la frecuencia de intervalo \(c\).
    • \(n\): es el tamaño de la muestra
    • El ancho del intervalo \(c\) se denota como \(w_{c}\)

Formas de un histograma

Histograma. Métodos de agrupación

Histograma de frecuencias acumuladas

Histograma de frecuencias acumuladas en \(R\)

Poligono de frecuencias

  • El poligono de frecuencias se construye uninendo mediante una linea recta el punto medio de las bases superiores de los rectangulos del histograma
  • El poligono se “Abre” y “Cierra”

Poligono de frecuencias. Ejemplo

Poligono de frecuencias

Poligono de frecuencias acumulado

  • Comienza en el punto medio de una calse anterior a la primera y unirá mediante lineas rectas los puntos medios de las bases superiores del histogram de frecuencias acumuladas

Medidas de tendencia central

Paso 3: cálculo de medidas de tendencia central

  • La tabulación de los datos no es suficiente.
  • Es necesario conocer otros parámetros que informen de la tendencia central de los datos
    • Media arimetica
    • Media goemétrica
    • Media armónica
    • Media cuadratica
    • Mediana
    • Moda
  • Las unidades de medidad de todos los parámetros de tendecnia central son las mismas que la de los datos sobre los que se calculan

Media aritmetica

Se refiere al valor que tendría cada elemento de la serie de datos si todos tuvieran el mismo valor

  • Es el parámetro de centralización más utilizado, su valor es el centro aritmético de los datos
  • Se suele emplear el simbolo \(\mu\) para la media poblacional
  • Se emplea \(\bar{x}\) muestral
  • Su formula es:
    • \(\bar{x}=\displaystyle\sum_{i=1}^n \frac{x_i}{n}\)

Media aritmetica

  • Su formula es:
    • \(\bar{x}=\displaystyle\sum_{i=1}^n \frac{x_i}{n}\)
  • Donde: \({x_i}\) es el i-ésimo dato; si la suma es desde \(i\) es igual a 1 hasta \(n\)

La media aritmetica de los datos: 2,4,6,8 y 9 es:

\(\bar{x}=\displaystyle\sum_{i=1}^n \frac{x_i}{n}=\frac{(2+4+6+8+9)}{5}=5.8\)

Media aritmetica en \(R\)

En \(R\) para calcular la media se utiliza la función:

Dado el conjunto de datos estime la media en la consola de R:

18 22 24 26 27 29 30 32 37 40 43 47
19 23 24 26 27 29 31 33 37 40 43 48
20 23 25 26 28 29 24 26 27 29 30 40

Media aritmética en \(R\)

En \(R\) para calcular la media se utiliza la función: 1. Crear un objeto con los datos

  1. Estimar la media del objeto
## [1] 30.2

Media en \(Rcmdr\)

Media aritmética ponderada

  • En algunas ocasiones no todos los datos de una serie tienen la misma importancia por lo que se hace una Ponderacion
  • Si se tiene un conjunto de datos \({x_1}, {x_2},{x_3},...,{x_n}\) y cada uno de ellos tiene los pesos: \({k_1}, {k_2},{k_3},...,{k_n}\) la media aritmética ponderada se puede calcular:

\(\bar{x_p}= \frac {\displaystyle\sum_{i=1}^n {k_i}{x_i}}{\displaystyle\sum_{i=1}^n {k_i}} = \frac{{{k_1}{k_1}}+{{k_2}{k_2}}...{{k_n}{k_in}}}{{k_1}+{k_2}...{k_n}}\)

Media aritmética ponderada. Ejemplo

En la evaluación de un servicio sanitario, han sido calculados tres índices. La evaluación total del servicio se obtiene calculando la media ponderada de los índices yq que no tienen el mismo valor. Los pesos asignados son 3 al primer índice, 5 al segundo y 9 al tercero

Los datos que se obtuvieron son los siguientes:

Primer índice 7
Segundo índice 8
Tercer índice 7

\(\bar{x_p}= \frac{(3x7+5x8+9x7)}{3+5+9}=7.29\)

Media geométrica

  • La media geométrica de un conjunto de datos de \(n\) datos se calcula obteniendo la ríaz enésima del producto de todos los datos:
    • \({\bar{x_G}}=\sqrt[n]{x_1}{x_2}...{x_n}\)
  • En la expresión anterior \(n\) debe ser igual a la suma de todas la frecuencias

Media geométrica. Ejemplo

Calcular la media geométrica de los datos siguientes: 4, 5, 6, 8, 9, 12

  • \({\bar{x_G}}=\sqrt[6] (4 \cdot\ 5\cdot\ 6\cdot\ 8\cdot\ 9\cdot\ 12) =6.85\)

La media geométrica sólo es preferible a la aritmética en los casos que se presentan progresion geométricas. por ejemplo (cromatografía líquidos, citometría)

Otras medias

  • Media armónica
    • Es al inversa de la media aritmetica de los inversos de una sere de datos. Se calcula mediante la siguiente expresión:
    • \({\bar{X_a}}=\frac{n}{\sum_{i=1}^n \frac{1}{x_i}}\)
    • útil para el caso de parámetros com velocidades
  • Media cuadratica
    • Es la raíz cuadrada de media aritmética
    • útil para promediar series de números al cuadrado

Mediana

  • Es el valor central de un conjunto de datos de \(n\) datos ordenados de menora a mayor
  • Divde al conjunto de datos ordenados en dos partes iguales
  • Cuando se trabja con una \(n\) impar la formula es la siguiente:
    • \(M= \frac{X(n+1)}{2}\)
  • Si \(n\) es par, al mediana es la media aritmética de los dos valores centrales:
    • \(M=\frac{{X_{\frac{n}{2}}}+{X_{\frac{n}{2}+1}}}{2}\)

Mediana. Ejemplo

  • Calcular la mediana de los conjuntos de datos siguientes: 2, 4, 6, 8, 9, 11, 12, 13, 14, 20
    • Es un número impar por lo tanto la mediana es: 10
  • Caculara la mediana de: 3, 6, 8, 12, 17, 38, 32, 34
    • Número par de datos, se toma el promedio. \(M=14.5\)

Mediana. Cálculo en \(R\)

  • En \(R\) se utiliza la función
## [1] 10
## [1] 14.5

Mediana en \(Rcmdr\)

Moda

  • La moda de un conjunto de datos es el valor que más veces se repite.
  • La moda absoluta es el valor que más veces se repite
  • La moda realtiva es le vaor que sin ser el que más ceces se repite, se repite más veces que el resto de los datos.

Moda. Ejemplo

  • En el siguiente conjunto de datos: 2, 2, 2, 3, 7, 8, 9, 11, 11, 11, 11, 34, 56, 78.
  • Identifique:
    • Moda absoluta
    • Moda relativa

Moda. Ejemplo

  • En el siguiente conjunto de datos: 2, 2, 2, 3, 7, 8, 9, 11, 11, 11, 11, 34, 56, 78.
  • Identifique:
    • Moda absoluta= 11
    • Moda relativa= 2

Medidas de dispersión

Medidas de dispersión

  • Para terne un conocimeinto más exacto de lso datos es necesario conocer otros parámetros que indiquen si los datos:
    • Están agrupados
    • Están dispersos
  • Las medidas de dispersión miden la distancia que existe entre los datos en su conjunto
  • Valores grandes = Dispersión grande

Medidas de dispersión

Las medidas más utilizadas de dispersión más utilizadas son: - Rango o recorrido - Desviación media - Varianza - Desviación típica o desviación estándar - Coeficiente de variación

Ejercicios

Ejercicios para resolver en clase

  • Resolver ejercicios del documento de word llamado “Ejercicios 4”

Tarea

Tarea para mañana

  • Presentación corta con las propiedades de:
    • Media
    • Mediana
    • Varianza
    • Desviación estándar
  • No más de 10 min