Estadística y Probabilidad

Clase 1.10
Medidas de dispersión o variablidad

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Medidas de dispersión absolutas
    • Rango (\(R\))
    • Rango Intercuartílico (\(IQR\))
    • Desviación respecto a la media aritmética (\(D_{\bar{x}}\))
    • Desviación respecto a la mediana (\(D_{Me}\))
    • La varianza (\(S^2\))
    • La Desviación típica (\(S\))
  • Medidas de dispersión relativas
    • Coeficiente de apertura (\(A\))
    • Rango relativo (\(R_r\))
    • Rango semi-intercuartílico (\(R_Q\))
    • Coeficiente de Variación de Pearson (\(CV\))
    • Índice de dispersión respecto a la mediana (\(V_{Me}\))

Medidas de dispersión o variablidad

Las medidas de tendencia central (media, mediana y moda) muchas veces no son suficientes para describir la distribución de los datos.

Ejemplo 1

La institución educativa Mi primera letra, tiene las secciones A y B de grado transición (5 años); cada sección tiene 30 estudiantes. Se seleccionan 5 estudiantes de cada sección para realizar un partido de micro-futbol.

  • El promedio para A es: \(\bar{x}_A=20\) kg
  • El promedio para B es: \(\bar{x}_B=20\) kg

Podemos observar que ambos grupos tienen el mismo promedio, por tanto, se plantean las siguientes preguntas:

  • ¿Cómo podemos comparar los grupos A y B?
  • ¿En cuál de ellos hay más variabilidad? ¿por qué?
  • ¿Qué seria más conveniente, menos variabilidad o más variablidad? ¿por qué?

Necesitamos otros tipos de medidas que nos ayuden a comparar las características de dos o más poblaciones, teniendo en cuenta cuál abarca más espacio (dispersión) en la recta real y cuál menos.

Ejemplo 1

Se realiza un histograma del peso de los 30 estudiantes de cada sección.

Code
set.seed(123)
n = 30
peso <- c(rnorm(n, mean = 20, sd = 1),  
         rnorm(n, mean = 20, sd = 2))
peso = round(peso,1)
seccion <- c(rep("A", n), rep("B", n))
df <- data.frame(peso, seccion)

df
   peso seccion
1  19.4       A
2  19.8       A
3  21.6       A
4  20.1       A
5  20.1       A
6  21.7       A
7  20.5       A
8  18.7       A
9  19.3       A
10 19.6       A
11 21.2       A
12 20.4       A
13 20.4       A
14 20.1       A
15 19.4       A
16 21.8       A
17 20.5       A
18 18.0       A
19 20.7       A
20 19.5       A
21 18.9       A
22 19.8       A
23 19.0       A
24 19.3       A
25 19.4       A
26 18.3       A
27 20.8       A
28 20.2       A
29 18.9       A
30 21.3       A
31 20.9       B
32 19.4       B
33 21.8       B
34 21.8       B
35 21.6       B
36 21.4       B
37 21.1       B
38 19.9       B
39 19.4       B
40 19.2       B
41 18.6       B
42 19.6       B
43 17.5       B
44 24.3       B
45 22.4       B
46 17.8       B
47 19.2       B
48 19.1       B
49 21.6       B
50 19.8       B
51 20.5       B
52 19.9       B
53 19.9       B
54 22.7       B
55 19.5       B
56 23.0       B
57 16.9       B
58 21.2       B
59 20.2       B
60 20.4       B

Tenemos que:

\(\text{Promedio(A)} = \text{Promedio(B)} = 20\) kg  \(\text{Dispersión(A)} < \text{Dispersión(B)}\)

Code
library(ggplot2)

# Histograma por groupo
p = ggplot(df, aes(x = peso, fill=seccion)) + 
      geom_histogram(binwidth=1,
                     color="black",
                     size = .2,
                     alpha = 0.5, 
                     position = "identity") +
      geom_vline(xintercept=20, linetype='dashed', color='red', size=1.5) +
      labs(title="Histograma de pesos\nEstudiantes por sección",
               x= "Peso (Kg)",
               y ="Frecuencia",
               fill = "Sección") +
      theme(plot.title = element_text(hjust = 0.5), text = element_text(size=22))
p

Medidas de dispersión

Las medidas de dispersión nos sirven para cuantificar la separación de los valores de una distribución.

  • Llamaremos disperción o variabilidad, a la mayor o menor separación de los valores de la muestra, respecto de las medidas de centralización que hayamos calculado.

  • Al calcular una medida de centralización como es la media aritmética (mediana,…, etc). resulta necesario acompañarla de otra medida que indique el grado de dispersión, del resto de valores de la distribución, respecto de esta media.

  • A estas cantidades o coeficientes, les llamamos: medidas de dispersión, pudiendo ser:

    • absolutas
    • relativas

Importancia de las medidas de dispersión - ejemplo 2

Se quiere averiguar el peso promedio de una barra de chocolate de la marca ABC. Se toma una muestra de 10 barras, cuyos pesos aproximando a la centésima de gramo son:

\[24.80,\ 24.77,\ 24.80,\ 24.76,\ 24.82,\ 24.78,\ 24.83,\ 24.81,\ 24.80\]

Vemos, que existe variabilidad en los datos porque no todos tienen el mismo peso.

Observación 1

Es importante la precisión de la herramienta de medición y el medio o individio que toma las mediciones.

Observación 2

La variabilidad es importante ya que si yo fuera el productor me interesarı́a por ejemplo, controlar el peso y quisiera que los pesos sean lo más parecido posibles (lo ideal serı́a que todas pesen exactamente igual), por lo que deberı́a reducir la variabilidad.

Rango (\(R\))

Una medida razonable de la variabilidad podría ser Rango (\(R\)), a veces llamado la amplitud o recorrido. Se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto.

Datos no agrupados

\[R=x_{\text{máx}}-x_{\text{mín}}\]

  • \(x_{\text{máx}}\): mayor de los datos.
  • \(x_{\text{mín}}\): menor de los datos.

Datos agrupados

\[R=x_{C_{\text{máx}}}-x_{C_{\text{mín}}}\]

  • \(x_{C_{\text{máx}}}\): marca de clase máxima
  • \(x_{C_{\text{mín}}}\): marca de clase mínima

Ejemplo: con los datos del ejemplo 2 calcule el rango.

Propiedades del rango (\(R\))

El rango tiene las siguentes propiedades:

  • Es fácil de calcular y sus unidades son las mismas que las de la variable.
  • No utiliza todas las observaciones (sólo dos de ellas).
  • Se puede ver muy afectada por alguna observación extrema.
  • El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso, nunca disminuye.

Observación: esta medida nos da una idea de la dispersión de la muestra pero no utiliza ninguna medida de posición central, por lo que no pueden utilizarse para analizar la representatividad de ninguna medida en concreto.

Rango Intercuartílico (\(Ri\))

Definimos el Rango intercuartílico (\(Ri\)) como la distancia entre el primer y el tercer cuartil.

\[Ri=Q_3-Q_1\]

Observación 1: el rango intercuartílico nos indica la longitud del intervalo en el que están incluidos el 50% de los valores centrales de la muestra.

Observación 2: si \(Ri\) es pequeño podemos intuir que la muestra presentará poca dispersión. Observación 3: esta medida, al igual que el Rango, no pueden utilizarse para analizar la representatividad de ninguna medida en concreto.

Datos no agrupados

\[Ri=Q_3-Q_1\]

  • \(Q_3\): Tercer cuartil
  • \(Q_1\): Primer cuartil

Datos agrupados

\[Ri=x_{Q_3}-x_{Q_1}\]

  • \(x_{Q_3}\): marca de clase donde está el tercer cuartil
  • \(x_{Q_1}\): marca de clase donde está el primer cuartil

Ejemplo: con los datos del ejemplo 2 calcule el rango intercuartil.

Desviación media absoluta respecto al promedio (\(D_{\bar{x}}\))

Definimos la Desviación media absoluta respecto al promedio (\(D_{\bar{x}}\)) como la media de las diferencias en valor absoluto de los valores de la variable a la media muestral \(\bar{x}\), entonces

Datos no agrupados

\[ D_{\bar{x}}= \frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}| \]

  • \(n\): es el tamaño de la muestra
  • \(\bar{x}\): es la media muestral
  • \(x_{i}\): representa al \(i-\acute{e}simo\) dato

Datos agrupados

\[ D_{\bar{x}}= \frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|f_i \]

  • \(n\): tamaño de la muestra
  • \(\bar{x}\): media muestral agrupada
  • \(x_{i}\): marca de clase \(i\)
  • \(f_{i}\): frecuencia absoluta de la clase \(i\)

Ejemplo: con los datos del ejemplo 2, calcule la media aritmética.

Desviación media absoluta respecto a la mediana (\(D_{Me}\))

La desviación media absoluta respecto a la mediana (\(D_{Me}\)) se obtiene como la media entre el valor absoluto de las distancias a la mediana.

\[ D_{Me}= \frac{1}{n} \sum_{i=1}^n |x_i-Me| \]

Observación 1: un valor grande para esta medida, indicará al igual que en el caso anterior, gran dispersión en la muestra, y en este caso podremos afirmar que la median no es representativa.

Observación 2: las medidas de desviación medias presentan el inconveniente de utilizar el valor absoluto, función que no es derivable y no resulta muy adecuada para determinados cálculos.

Observación 3: como comentamos en las propiedades de la mediana, la desviación media se hace mínima al calcularla con la mediana, por lo que:

\[D_{Me} \leqslant D_{\bar{x}}\]

Desviación media absoluta respecto a la mediana (\(D_{Me}\))

A continuación vemos las respectivas fórmulas para la desviación respecto a la mediana, para datos no agrupados y agrupados

Datos no agrupados

\[ D_{Me}= \frac{1}{n} \sum_{i=1}^n |x_i-Me| \]

  • \(n\): es el tamaño de la muestra
  • \(Me\): es la mediana muestral
  • \(x_{i}\): representa al \(i-\acute{e}simo\) dato

Datos agrupados

\[ D_{Me}= \frac{1}{n} \sum_{i=1}^n |x_i-Me|f_i \]

  • \(n\): tamaño de la muestra
  • \(Me\): mediana muestral agrupada
  • \(x_{i}\): marca de clase \(i\)
  • \(f_{i}\): frecuencia absoluta de la clase \(i\)

Ejemplo: con los datos del ejemplo 2, calcule la desviación respecto a la mediana.

Varianza (\(S^2\))

La Varianza muestral (\(S^2\)), se define como la media de las diferencias cuadráticas de \(n-1\) números con respecto a su media muestral \(\bar{x}\).

\[S^{2}=\frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}\]

Observación 1: podemos decir que la varianza, y su raíz cuadrada son las medidas de dispersión con respecto a la media aritmética más importantes y más utilizadas.

Observación 2: la varianza nunca puede es negativa, \(S^2\) para cualquier distribución.

Observación 3: la varianza toma valores más elevados cuanto mayores son las desviaciones respecto a la media que presenta la muestra, por lo que un valor más elevado indica mayor dispersión y menos representatividad de la media.

Varianza (\(S^2\))

A continuación vemos las respectivas fórmulas para la varianza de datos no agrupados y agrupados

Datos no agrupados

\[S^{2}=\frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}\]

  • \(n\): tamaño de la muestra
  • \(\bar{x}\): media muestra
  • \(x_{i}\): \(i-\acute{e}simo\) dato

Datos agrupados

\[S^{2}=\frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}f_i}{n-1}\]

  • \(n\): tamaño de la muestra
  • \(\bar{x}\): media muestral agrupada
  • \(x_{i}\): marca de clase \(i\)
  • \(f_{i}\): frecuencia absoluta de la clase \(i\)

Ejemplo: con los datos del ejemplo 2, calcule la varianza.

Desviación estándar \(S\)

Las desviaciones medias, al calcularse en términos de valor absoluto vienen expresadas en las mismas unidades que la variable en cuestión. Sin embargo, la varianza está expresada en las unidades correspondientes al cuadrado y esto dificulta su interpretación. Para resolver este inconveniente se define la Desviación típica o Desviación estándar \(S\)

  • Ejemplo: si las observaciones se miden en metros, la varianza lo hace en metros cuadrados. Esto presenta una dificultad en la interpretación.

  • Como queremos que la medida de dispersión sea de la misma dimensionalidad, definimos la desviación estándar como la raíz cuadrada a la varianza. Veamos como se define la varianza muestral no agrupada y agrupada.

\[S=\sqrt{S^{2}}\]

Ejemplo: Con los datos del ejemplo 2, calcule la desviación estandar.

Coeficiente de apertura (\(A\))

El Coeficiente de apertura (\(A\)) se obtiene como el cociente entre el mayor valor de la distribución y el menor, es decir,

\[A=\frac{x_{\text{máx}}}{x_{\text{mín}}}\]

Aunque es fácil de calcular, el coeficiente de apertura presenta algunas desventajas:

  1. La primera es que mide la dispersión de la distribución sin hacer referencia a ninguna medida de posición central, por lo que no nos permite comparar la representatividad de ninguna de estas medidas.
  2. Como únicamente tiene en consideración los dos valores más extremos de la distribución nos dará una gran dispersión si estos valores están muy separados, incluso si el resto de valores están muy concentrados; es similar al rango.

Coeficiente de apertura (\(A\))

Veamos las respectivas fórmulas para el coeficiente de apertura para datos no agrupados y agrupados.

Datos no agrupados

\[A=\frac{x_{\text{máx}}}{x_{\text{mín}}}\]

  • \(x_{\text{máx}}\): mayor de los datos.
  • \(x_{\text{mín}}\): menor de los datos.

Datos agrupados

\[A=\frac{x_{C_{\text{máx}}}}{x_{C_{\text{mín}}}}\]

  • \(x_{C_{\text{máx}}}\): marca de clase máxima
  • \(x_{C_{\text{mín}}}\): marca de clase mínima

Ejemplo: con los datos del ejemplo 2, calcule el coeficiente de apertura.

Rango relativo (\(Rr\))

El Rango relativo (\(Rr\)) es el cociente entre el rango y la media aritmética.

\[Rr=\frac{R}{\overline x}\] donde

  • \(R\): rango de los datos no agrupados y agrupados.
  • \(\bar{x}\): la media de los datos no agrupados y agrupados.

Observación: el rango relativo, nos indica, por tanto, el número de veces que el recorrido contiene a la media aritmética.

Rango semi-intercuartílico (\(Rs\))

El Rango semi-intercuartílico (\(Rs\)) es el cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil:

\[Rs=\frac{Q_3-Q_1}{Q_3+Q_1}\]

Datos no agrupados

\[Rs=\frac{Q_3-Q_1}{Q_3+Q_1}\]

  • \(Q_3\): tercer cuartil de los datos no agrupados
  • \(Q_1\): primer cuartil de los datos no agrupados

Datos agrupados

\[Rs=\frac{Q_3-Q_1}{Q_3+Q_1}\]

  • \(Q_3\): tercer cuartil de los datos agrupados
  • \(Q_1\): primer cuartil de los datos agrupados

Ejemplo: con los datos del ejemplo 2 calcule el rango semi-intercuartílico.

Coeficiente de variación de Pearson (\(Cv\))

El coeficiente de variación de Pearson es probablemente la medida de dispersión relativa más importante ya que es el cociente entre la desviación típica y la media aritmética:

\[Cv=\frac{S}{\overline x}\]

Observación 1: representa el representa el número de veces que la desviación típica contiene a la media aritmética.

Observación 2: cuanto mayor sea el coeficiente de variación mayor será el número de veces que \(S\) contiene a \(\overline x\), por lo que \(\overline x\) será menos representativa.

Observación 3: utiliza todos los datos de la distribución y relaciona las medidas de posición y dispersión más relevantes.

Observación 4: presenta el problema de que no se puede calcular para aquella distribuciones cuya media es cero y se verá afectado por valores pequeños de la media, perdiendo representatividad.

Observación 5: el \(Cv\) se interpreta de mejor forma si se hace con porcentaje (%).

Observación 6: a diferencia de la desviación típica, este coeficiente es variable ante cambios de origen. Es importante que todos los valores sean positivos y su media sea positiva.

Observación 7: a mayor \(Cv\) mayor heterogeneidad de los valores de la variable; y a menor \(Cv\), mayor homogeneidad en los valores de la variable.

Coeficiente de variación de Pearson (\(Cv\))

Veamos las respectivas fórmulas para el Coeficiente de variación de Pearson para datos no agrupados y agrupados.

Datos no agrupados

\[Cv=\frac{S}{\overline x}\]

  • \(S\): desviación estandar de los datos no agrupados.
  • \(\bar{x}\): media de los datos no agrupados.

Datos agrupados

\[Cv=\frac{S}{\overline x}\]

  • \(S\): desviación estandar de los datos agrupados.
  • \(\bar{x}\): media de los datos agrupados.

Ejemplo: con los datos del ejemplo 2 calcule el coeficiente de variación de Pearson.

Índice de dispersión respecto a la mediana (\(V_{Me}\))

Podemos definir el Índice de dispersión respecto a la mediana (\(V_{Me}\)) como una medida similar al coeficiente de variación pero referida a la mediana, el índice de dispersión con respecto a la mediana. Este índice se obtiene como el cociente entre la desviación con respecto a la mediana y la mediana, es decir,

\[V_{Me}=\frac{D_{Me}}{Me}\]

Observación 1: este índice mide el número de veces que la mediana está contenida en la desviación con respecto a la mediana de la distribución, por lo que valores más grandes nos indican una mayor dispersión y por tanto una menor representatividad de la mediana.

Observación 2: de forma análoga al coeficiente de variación no se puede calcular si la mediana es cero y se verá muy afectado por valores pequeños para esta medida.

Índice de dispersión respecto a la mediana (\(V_{Me}\))

Veamos las respectivas fórmulas para el Índice de dispersión respecto a la mediana de datos no agrupados y agrupados.

Datos no agrupados

\[V_{Me}=\frac{D_{Me}}{Me}\]

  • \(D_{Me}\): desviación mediana absolta de los datos no agrupados
  • \(Me\): la mediana de los datos no agrupados

Datos agrupados

\[V_{Me}=\frac{D_{Me}}{Me}\]

  • \(D_{Me}\): desviación mediana absolta de los datos agrupados
  • \(Me\): la mediana de los datos agrupados

Ejemplo: con los datos del ejemplo 2 calcule el índice de dispersión respecto a la mediana.

Ejemplo general

Recordemos el primer ejemplo de los pesos de los estuadiantes de 5 años.

La institución educativa Mi primera letra, tiene las secciones A y B de grado transición (5 años); cada sección tiene 20 estudiantes. Se seleccionan 5 estudiantes de cada sección para realizar un partido de micro-futbol.

Code
df
   peso seccion
1  19.4       A
2  19.8       A
3  21.6       A
4  20.1       A
5  20.1       A
6  21.7       A
7  20.5       A
8  18.7       A
9  19.3       A
10 19.6       A
11 21.2       A
12 20.4       A
13 20.4       A
14 20.1       A
15 19.4       A
16 21.8       A
17 20.5       A
18 18.0       A
19 20.7       A
20 19.5       A
21 18.9       A
22 19.8       A
23 19.0       A
24 19.3       A
25 19.4       A
26 18.3       A
27 20.8       A
28 20.2       A
29 18.9       A
30 21.3       A
31 20.9       B
32 19.4       B
33 21.8       B
34 21.8       B
35 21.6       B
36 21.4       B
37 21.1       B
38 19.9       B
39 19.4       B
40 19.2       B
41 18.6       B
42 19.6       B
43 17.5       B
44 24.3       B
45 22.4       B
46 17.8       B
47 19.2       B
48 19.1       B
49 21.6       B
50 19.8       B
51 20.5       B
52 19.9       B
53 19.9       B
54 22.7       B
55 19.5       B
56 23.0       B
57 16.9       B
58 21.2       B
59 20.2       B
60 20.4       B
Code
#histograma de los datos de los pesos de los estudiantes (ver codigo al inicio de las diapositivas)
p

Ejemplo general, preguntas

  1. Calcule las medidas de dispersión absolutas y relativas de los datos no agrupados.
  2. Construya una tabla de frecuencia para cada sección de estudiantes.
  3. Calcule las medidas de dispersión absolutas y relativas de los datos agrupados.
  4. Compare las medidas calculadas en cada caso y concluya.

Solución para datos no agrupados

  1. Veamos las medidas de dispersión absolutas y relativas para datos no agrupados.
Code
seccA = df$peso[1:(n/2)]
seccB = df$peso[(n/2+1):n]

# Rango
RA = max(seccA)- min(seccA)
RB = max(seccB)- min(seccB)
cat("El rango de A es: ", RA, 
    "\nEl rango de B es: ", RB)
El rango de A es:  3 
El rango de B es:  3.8
Code
# Rango intercuartil
QA=quantile(seccA)
QB=quantile(seccB)

cat("El rango intercuartil de A es: ", QA[3] - QA[1],
    "\nEl rango intercuartil de B es: ", QB[3] - QB[1])
El rango intercuartil de A es:  1.4 
El rango intercuartil de B es:  1.5
Code
# Desviacion media absoluta respecto a la media
cat("La desviacion media absoluta respecto a la media de A es: ", sum(abs(seccA - mean(seccA)))/length(seccA), 
    "\nLa desviacion media absoluta respecto a la media de B es: ", sum(abs(seccB - mean(seccB)))/length(seccB))
La desviacion media absoluta respecto a la media de A es:  0.6506667 
La desviacion media absoluta respecto a la media de B es:  0.904
Code
# Desviacion media absoluta respecto a la mediana
DmeA = sum(abs(seccA - median(seccA)))/length(seccA)
DmeB = sum(abs(seccB - median(seccB)))/length(seccB)
cat("La desviacion media absoluta respecto a la mediana de A es: ", DmeA,
    "\nLa desviacion media absoluta respecto a la mediana de B es: ", DmeB)
La desviacion media absoluta respecto a la mediana de A es:  0.64 
La desviacion media absoluta respecto a la mediana de B es:  0.8866667
Code
# Varianza
cat("La varianza de A es: ", var(seccA),
    "\nLa varianza de B es: ", var(seccB))
La varianza de A es:  0.7312381 
La varianza de B es:  1.209714
Code
# Desviación estandar
cat("La desviación estandar de A es: ", sd(seccA),
    "\nLa desviación estandar de B es: ", sd(seccB))
La desviación estandar de A es:  0.8551246 
La desviación estandar de B es:  1.09987
Code
# Coeficiente de apertura
cat("El coeficiente de apertura de A es: ", max(seccA)/min(seccA),
    "\nEl coeficiente de apertura de B es: ", max(seccB)/min(seccB))
El coeficiente de apertura de A es:  1.160428 
El coeficiente de apertura de B es:  1.211111
Code
# Rango relativo
cat("El rango relativo de A es: ", RA/mean(seccA),
    "\nEl rango relativo de B es: ", RB/min(seccB))
El rango relativo de A es:  0.1488587 
El rango relativo de B es:  0.2111111

Solución para datos no agrupados

Code
# Rango semi-intercuartilico
cat("El rango semi-intercuartilico de A es: ", (QA[3]-QA[1])/(QA[3]+QA[1]),
    "\nEl rango semi-intercuartilico de B es: ", (QB[3]-QB[1])/(QB[3]+QB[1]))
El rango semi-intercuartilico de A es:  0.03608247 
El rango semi-intercuartilico de B es:  0.04
Code
# Coeficiente de variacion
cat("El coeficiente de variación de A es: ", sd(seccA)/mean(seccA),
    "\nEl coeficiente de variación de B es: ", sd(seccB)/mean(seccB))
El coeficiente de variación de A es:  0.04243093 
El coeficiente de variación de B es:  0.05566144
Code
# Indice de dispersión respecto a la mediana
cat("El indice de dispersión respecto a la mediana de A es: ", DmeA/median(seccA),
    "\nEl indice de dispersión respecto a la mediana de B es: ", DmeB/median(seccB))
El indice de dispersión respecto a la mediana de A es:  0.0318408 
El indice de dispersión respecto a la mediana de B es:  0.04547009

Solución para datos agrupados

  1. Construyamos las tablas de frecuencia de ancho 1.2, para cada sección (grupo).

Tabla de frecuencia para la sección A

Code
ancho = 1
cortes = seq(from = 18, to = 22, by = ancho)
#encontramos el intervalo al cual pertenece cada dato
interv = cut(seccA, include.lowest = TRUE, right = FALSE, breaks = cortes)
n = length(interv)
# frecuencia de cada intervalo
frec_basica = table(interv)
# tabla de frecuencia basica
tabla = data.frame(frec_basica)
# agregamos otras columnas
tabla$F = cumsum(tabla$Freq)
tabla$marca = cortes[1:(length(cortes)-1)] + ancho/2
tabla$linf = cortes[1:(length(cortes)-1)]
tabla$lsup = cortes[2:length(cortes)]

tabla1 = tabla

#Cambiamos los nombres de la tabla 
names(tabla)[1] <- "Clase"
names(tabla)[2] <- "f"
names(tabla)[4] <- "x"
names(tabla)[5] <- "l"
names(tabla)[6] <- "L"

knitr::kable(tabla, align = "c")
Clase f F x l L
[18,19) 1 1 18.5 18 19
[19,20) 5 6 19.5 19 20
[20,21) 6 12 20.5 20 21
[21,22] 3 15 21.5 21 22

Tabla de frecuencia para la sección B

Code
ancho = 1
cortes = seq(from = 18, to = 22, by = ancho)
#encontramos el intervalo al cual pertenece cada dato
interv = cut(seccB, include.lowest = TRUE, right = FALSE, breaks = cortes)
n = length(interv)
# frecuencia de cada intervalo
frec_basica = table(interv)
# tabla de frecuencia basica
tabla = data.frame(frec_basica)
# agregamos otras columnas
tabla$F = cumsum(tabla$Freq)
tabla$marca = cortes[1:(length(cortes)-1)] + ancho/2
tabla$linf = cortes[1:(length(cortes)-1)]
tabla$lsup = cortes[2:length(cortes)]

tabla1 = tabla

#Cambiamos los nombres de la tabla 
names(tabla)[1] <- "Clase"
names(tabla)[2] <- "f"
names(tabla)[4] <- "x"
names(tabla)[5] <- "l"
names(tabla)[6] <- "L"

knitr::kable(tabla, align = "c")
Clase f F x l L
[18,19) 4 4 18.5 18 19
[19,20) 5 9 19.5 19 20
[20,21) 4 13 20.5 20 21
[21,22] 2 15 21.5 21 22

Solución para datos agrupados

Crear el código y responder las preguntas faltantes 3 y 4

Code
# crear el codigo y responder las preguntas faltantes 3 y 4

Ejercicio 1

  1. Los siguientes datos corresponden al tiempo de hospitalización, en días, de 21 pacientes después de una cirugía de cráneo:

8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78

  1. Ordene los datos.
  2. Calcule todas las medidas de dispersión (absolutas y relativas). Interprete cuando sea posible.

Ejercicio 2

En el Spacelab life sciences 2 dirigido por Paul Callahan, 14 ratas machos fueron enviados al espacio. La cantidad de glóbulos rojos(millones/mililitro) fue determinado cuando las ratas retornaron. Otro grupo de 14 ratas machos fueron mantenidos bajo las mismas condiciones (excepto por el vuelo al espacio) que las ratas en el espacio y la cantidad de glóbulos rojos también fue medida cuando las ratas retornaron del espacio. La siguiente tabla muestra los datos.

Flight 7.43 7.21 8.59 8.64 9.79 6.85 6.87 7.89 9.30 8.03 7.00 8.80 6.39 7.54
Control 8.65 6.99 8.40 9.66 7.62 7.44 8.55 8.70 7.33 8.58 9.88 9.94 7.14 9.14
  1. Ordene los datos de Flight y Control.
  2. Calcule todas las medidas de dispersión (absolutas y relativas).
  3. Para Flight y Control, compare las medidas encontradas en el inciso b. e interprete cuando sea posible.