Integrantes (2023-02)

Goñe Romero Renzo Harol

Romero Huaringa Benjamin Enrique

Atachao Vela Alonso Jorge

Coaquira Coaquira Jose Luis

Salvador Ataucusi Nilson

Samaniego Granados Caleb Eliseo

Introducción

Las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir, indican qué tan “parecidos” o que tan “diferentes” son entre si los valores observados. Estas medidas son indispensables, dado que una medida de tendencia central por si sola podría ser engañosa cuando los datos son muy variables.

Las medidas de variabilidad más utilizadas son:

*Rango

*Rango Intercuartílico

*Varianza

*Desviación estandar

*Coeficiente de variación

Rango

El rango es una medida de dispersión que se utiliza para evaluar la amplitud de un conjunto de datos.El rango se calcula como la diferencia entre el valor máximo y el valor mínimo en el conjunto de datos. Matemáticamente, la fórmula es la siguiente:

\[ R = x_{\text{max}} - x_{\text{min}} \]

Donde \(x_{\text{min}}\) es el valor mínimo y \(x_{\text{max}}\) es el valor máximo de las observaciones en el conjunto de datos.

Cálculo del Rango en R

A continuación, mostraremos cómo calcular el rango de un conjunto de datos utilizando R. Supongamos que tenemos un conjunto de datos llamado notas:

# Datos de ejemplo notas 
notas <- c(12, 5, 8, 15, 20, 7, 10)


# Cálculo del rango

rango <- max(notas) - min(notas)
print(rango)
## [1] 15

Características del Rango

Características Principales

El cálculo del rango en un conjunto de datos presenta las siguientes características clave:

  1. Medida de Dispersión de la Amplitud: El rango es una medida de dispersión que está relacionada con la amplitud del conjunto de datos. Indica cuán extenso es el intervalo que abarcan los valores en el conjunto.

  2. Unidades Coherentes: El rango se expresa en las mismas unidades que la variable de estudio. Esto facilita la interpretación y comparación directa del rango con otros datos en la misma escala.

  3. Sensibilidad a Valores Extremos: El rango es sensible a valores extremos o atípicos en el conjunto de datos. Un solo valor extremo puede tener un impacto significativo en el valor del rango, lo que lo convierte en una métrica que refleja la presencia de valores inusuales.

  4. Ausencia de Relación con la Tendencia Central: A diferencia de otras medidas estadísticas, como la media o la mediana, el rango no proporciona información sobre la ubicación de la distribución de datos en torno a una medida de tendencia central específica. Se enfoca exclusivamente en la extensión del conjunto de datos.

Rango Intercuartílico (RI)

El rango intercuartílico (RI) es una medida de dispersión que se utiliza para evaluar la extensión de los datos en el 50% central de un conjunto de datos.

Fórmula del Rango Intercuartílico

El rango intercuartílico se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1) en el conjunto de datos. Matemáticamente, la fórmula es la siguiente:

\[ RI = Q3 - Q1 \]

Donde \(Q1\) es el primer cuartil y \(Q3\) es el tercer cuartil de las observaciones en el conjunto de datos.

Características del Rango Intercuartílico

El rango intercuartílico presenta las siguientes características clave:

  1. Concentración en el 50% Central: El rango intercuartílico se centra en el 50% central de las observaciones. Esto significa que RI mide la extensión de los datos en la mitad central de la distribución, lo que lo hace especialmente útil para evaluar la dispersión en esa parte de los datos.

  2. Unidades Coherentes: Al igual que el rango, el rango intercuartílico se expresa en las mismas unidades que la variable de estudio, lo que facilita la interpretación y comparación directa.

  3. Medida Robusta: El rango intercuartílico es una medida robusta de dispersión, lo que significa que es poco influenciable por valores extremos o atípicos en el conjunto de datos. Esto lo hace adecuado para datos con valores atípicos.

  4. No Relacionado con la Tendencia Central: Al igual que el rango, el rango intercuartílico no proporciona información sobre la medida de tendencia central de los datos. Se enfoca exclusivamente en la dispersión dentro de la mitad central de la distribución.

Ejemplo de Cálculo

A continuación, mostraremos cómo calcular el rango intercuartílico de un conjunto de datos en R. Supongamos que tenemos un conjunto de datos llamado notas:

# Datos de ejemplo notas 
notas <- c(12, 5, 8, 15, 20, 7, 10)

# Cálculo del rango intercuartilico

riq<-IQR(notas)
print(riq)
## [1] 6

Varianza

La varianza es una medida cuadrática de la variabilidad de un conjunto de datos en relación con su promedio. Se calcula como la media de los cuadrados de las desviaciones individuales y se expresa mediante la fórmula:

\[V(x) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\]

Donde \(n\) es el número de observaciones, \(\bar{x}\) es el promedio de los datos, y \(x_i\) son las observaciones individuales.

Ejemplo de Cálculo

A continuación, mostraremos cómo calcular las desviaciones y la varianza de un conjunto de datos en R. Supongamos que tenemos un conjunto de datos llamado datos:

# Datos de ejemplo notas 
notas <- c(12, 5, 8, 15, 20, 7, 10)

#Calculamos la varianza
varianza<-var(notas)
print(varianza)
## [1] 26.66667

Características de la Varianza

La varianza es una medida fundamental de la dispersión de un conjunto de datos en relación con su promedio. Presenta las siguientes características principales:

  1. Unidades Cuadráticas: La varianza está dada en las unidades cuadradas de la variable de estudio. Esto se debe a que las desviaciones se elevan al cuadrado en su cálculo.

  2. Relación Directa con la Dispersión: La varianza mide la dispersión de los datos de forma directa. Si la varianza es pequeña, significa que los datos están poco dispersos y son más homogéneos en relación con el promedio. Si la varianza es grande, los datos están más dispersos y menos homogéneos respecto al promedio.

  3. Sensibilidad a Datos Atípicos: La varianza es sensible a valores atípicos o extremos en el conjunto de datos. La presencia de valores atípicos puede aumentar significativamente la varianza.

Propiedades de la Varianza

La varianza presenta las siguientes propiedades:

  1. No Negatividad: La varianza es siempre un valor no negativo, es decir, \(V(x) \geq 0\).

  2. Constante Multiplicativa: Si \(k\) es una constante, la varianza de \(k\) es igual a cero, es decir, \(V(k) = 0\).

  3. Escala de Constante: Si \(k\) es una constante, la varianza de \(kx\) es igual a \(k^2\) veces la varianza de \(x\), es decir, \(V(kx) = k^2V(x)\).

  4. Combinación Lineal de Constantes: Si \(k_1\) y \(k_2\) son constantes, la varianza de \(k_1x + k_2\) es igual a \((k_1^2) V(x)\).

Una forma alternativa de calcular la varianza muestral es:

\[s^2 = \frac{1}{n-1} \left( \sum_{i=1}^{n} x_i^2 - n \bar{x}^2 \right)\]

Donde \(s^2\) es la varianza muestral, \(n\) es el número de observaciones, \(\bar{x}\) es el promedio de los datos, y \(x_i\) son las observaciones individuales.

Desviacion Estandar

Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se hace necesaria la definición de la desviación estándar que simplemente se calcula como la raiz cuadrada de la varianza.

Coeficiente de Variación de Pearson

El Coeficiente de Variación de Pearson (CV) es una medida que se utiliza para expresar la variabilidad de una variable en términos de su desviación estándar en relación con su valor promedio. El CV es útil cuando deseas comparar la variabilidad relativa entre variables con diferentes unidades de medida o magnitudes.

El CV se calcula utilizando la siguiente fórmula:

\[CV = \left( \frac{s}{\bar{x}} \right) \times 100\%\]

Donde:

  • \(CV\) es el Coeficiente de Variación en porcentaje.
  • \(s\) es la desviación estándar de la variable.
  • \(\bar{x}\) es el valor promedio de la variable.

Interpretación del Coeficiente de Variación

El CV se expresa en porcentaje y proporciona una medida de cuánto varían los datos en relación con su promedio. Un CV más alto indica una mayor variabilidad relativa en comparación con el promedio, mientras que un CV más bajo sugiere una menor variabilidad relativa.

Ejemplo de Cálculo del CV en R

En R, puedes calcular el Coeficiente de Variación de Pearson utilizando la siguiente fórmula:

# Datos de notas
notas <- c(12, 5, 8, 15, 20, 7, 10)

# Cálculo del CV
cv <- (sd(notas) / mean(notas)) * 100
print(cv)
## [1] 46.94525