Integrantes

Goñe Romero Renzo Harol

Romero Huaringa Benjamin

Atachao Vela Jorge Alonso

Coaquira Coaquira Jose Luis

Salvador Ataucusi Nilson

Samaniego Granados Caleb Eliseo

1 Introduccion

Las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir indican que tan “parecidos” o que tan “diferentes” son entre si los valores observados. Estas medidas son indispensables, dado que una medida de tendencia central por si sola podria ser engañosa cuando los datos son variables

Las medidas más utilizadas son

*Rango

*Rango intercuartil

*Varianza

*Desviación estándar

*Coeficiente de variación

2 Rango

El rango o recorrido del conjunto de datos x1,x2,…,xn, denotado con R, se calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Es decir:

                                          R= Xmax - Xmin

donde Xmin y Xmax son respectivamente el valor mínimo y máximo de las n observaciones

Ejemplo

Los datos que se presentan a continuación corresponden a los tiempos (en minutos) de ejecución de una tarea determinada de una muestra de empleados de dos empresas.

Empresa 1: 34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3

Empresa 2: 34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7

Calcular e interpretar el rango en cada caso.

El rango de la empresa 1 es: (36.0)-(30.7)= 5.3

El rango de la empresa 2 es: (39.7)-(27.5)= 12.2

#Datos empresa 1
e1<-c(34.5,30.7,32.9,36.0,34.1,34.0,32.3)
#Datos empresa 2
e2<-c(34.0,27.5,31.6,39.7,35.3,34.7,31.7)
#Rango 1
max(e1)-min(e1)
## [1] 5.3
#Rango 2
max(e2)-min(e2)
## [1] 12.2
alumnos<-c("Ricardo","Angel","Benjamin","Renzo","Lucero","Angelina","Elena","Pedro","Adrian","Angela")
notas<-c(11,15,14,12,7,9,16,18,6,19)
aprobado<-c(TRUE,TRUE,TRUE,TRUE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE)
registro<-data.frame(alumnos,notas,aprobado)
registro
##     alumnos notas aprobado
## 1   Ricardo    11     TRUE
## 2     Angel    15     TRUE
## 3  Benjamin    14     TRUE
## 4     Renzo    12     TRUE
## 5    Lucero     7    FALSE
## 6  Angelina     9    FALSE
## 7     Elena    16     TRUE
## 8     Pedro    18     TRUE
## 9    Adrian     6    FALSE
## 10   Angela    19     TRUE
rango<-max(notas)-min(notas)
cat("El rango es",rango)
## El rango es 13

Caracteristicas

*El rango es una medida de dispersión asociada con la amplitud del conjunto de datos.

*Está dado en las mismas unidades de la variable de estudio.

*Es sensible a valores extremos.

*No da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central.

3 Rango Intercuartil

El rango intercuartil es una medida de variabilidad que consiste en la diferencia del tercer cuartil Q(3) y el primer cuartil Q(1)

Ejemplo

Sea Y la VA que representa el número de inasistencias de los alumnos a clase

Y: 0,0,0,0,1,1,1,1,2,3,3,3,3,4,11

Halle el rango intercuartil

Solución

El rango intercuartil se calcula como Q(3)-Q(1), pero el Q(3)=P(75) y el Q(1)=P(25)

X(P(25))=(25/100)*15=3.75 se redondea a 4

X(P(75))=(75/100)*15=11.25 se redondea a 12

Ahora debemos ordenar los datos de menor a mayor, pero como vemos ya estan ordenados

P(25)=Q(1)=0 P(75)=Q(3)=3

RIQ=3-0=3

# Creamos  un vector con los datos
Y <- c(0, 0, 0, 0, 1, 1, 1, 1, 2, 3, 3, 3, 3, 4, 11)

# Calcular el rango intercuartil (IQR)
rango_intercuartil <- IQR(Y)

# Imprimir el resultado
print(rango_intercuartil)
## [1] 2.5
alumnos<-c("Ricardo","Angel","Benjamin","Renzo","Lucero","Angelina","Elena","Pedro","Adrian","Angela")
notas<-c(11,15,14,12,7,9,16,18,6,19)
aprobado<-c(TRUE,TRUE,TRUE,TRUE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE)
registro<-data.frame(alumnos,notas,aprobado)
registro
##     alumnos notas aprobado
## 1   Ricardo    11     TRUE
## 2     Angel    15     TRUE
## 3  Benjamin    14     TRUE
## 4     Renzo    12     TRUE
## 5    Lucero     7    FALSE
## 6  Angelina     9    FALSE
## 7     Elena    16     TRUE
## 8     Pedro    18     TRUE
## 9    Adrian     6    FALSE
## 10   Angela    19     TRUE
iqr<-IQR(registro$notas)
cat("El rango intercuartil es ",iqr)
## El rango intercuartil es  6.25

Caracteristicas

*En el rango intercuartílico se concentran el 50% central de las observaciones.

*Está dado en las mismas unidades de la variable de estudio.

*Es una medida robusta (poco influenciable) a valores extremos.

*No da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central.

4 Varianza

La varianza es la medida de dispersión más utilizada, junto con la desviación estándar. Es una medida fiable a la hora de analizar los datos de una distribución. Al compararlo con la media, se puede reconocer la presencia de valores atípicos o datos distantes.

La varianza muestral del conjunto de datos \(x_{1}\),\(x_{2}\),\(x_{3}\),…,\(x_{n}\) denotada por

La varianza poblacional del conjunto de datos \(x_{1}\),\(x_{2}\),\(x_{3}\),…,\(x_{n}\) denotada por

# Datos de ejemplo
datos <- c(15, 20, 25, 30, 35)

# Función para calcular la varianza poblacional
varianza_poblacional <- function(x) {
  n <- length(x)  # Número de observaciones
  media <- mean(x)  # Media de los datos
  suma_cuadrados <- sum((x - media)^2)  # Suma de los cuadrados de las diferencias
  varianza <- suma_cuadrados / n  # Varianza poblacional
  return(varianza)
}

# Calcular la varianza poblacional de los datos de ejemplo
resultado <- varianza_poblacional(datos)

# Mostrar el resultado
cat("La varianza poblacional es:", resultado, "\n")
## La varianza poblacional es: 50
alumnos<-c("Ricardo","Angel","Benjamin","Renzo","Lucero","Angelina","Elena","Pedro","Adrian","Angela")
notas<-c(11,15,14,12,7,9,16,18,6,19)
aprobado<-c(TRUE,TRUE,TRUE,TRUE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE)
registro<-data.frame(alumnos,notas,aprobado)
registro
##     alumnos notas aprobado
## 1   Ricardo    11     TRUE
## 2     Angel    15     TRUE
## 3  Benjamin    14     TRUE
## 4     Renzo    12     TRUE
## 5    Lucero     7    FALSE
## 6  Angelina     9    FALSE
## 7     Elena    16     TRUE
## 8     Pedro    18     TRUE
## 9    Adrian     6    FALSE
## 10   Angela    19     TRUE
# Calcular la varianza poblacional de las notas
varianza_poblacional <- var(registro$notas)
cat("La varianza poblacional de las notas es:", varianza_poblacional)
## La varianza poblacional de las notas es: 20.01111

5 Desviacion Estandar

La desviación estándar es una medida de extensión o variabilidad en la estadística descriptiva. Se utiliza para calcular la variación o dispersión en la que los puntos de datos individuales difieren de la media. , se calcula como la raiz cuadrada de la varianza

# Datos de ejemplo
datos <- c(15, 20, 25, 30, 35)

# Calcular la desviación estándar poblacional
desviacion_estandar_poblacional <- sd(datos, na.rm = FALSE)

# Imprimir el resultado
cat("La desviación estándar poblacional de los datos es:", desviacion_estandar_poblacional)
## La desviación estándar poblacional de los datos es: 7.905694
alumnos<-c("Ricardo","Angel","Benjamin","Renzo","Lucero","Angelina","Elena","Pedro","Adrian","Angela")
notas<-c(11,15,14,12,7,9,16,18,6,19)
aprobado<-c(TRUE,TRUE,TRUE,TRUE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE)
registro<-data.frame(alumnos,notas,aprobado)
registro
##     alumnos notas aprobado
## 1   Ricardo    11     TRUE
## 2     Angel    15     TRUE
## 3  Benjamin    14     TRUE
## 4     Renzo    12     TRUE
## 5    Lucero     7    FALSE
## 6  Angelina     9    FALSE
## 7     Elena    16     TRUE
## 8     Pedro    18     TRUE
## 9    Adrian     6    FALSE
## 10   Angela    19     TRUE
# Calcular la desviacion estandar poblacional de las notas
desviacion_estandar_poblacional <- sd(registro$notas,na.rm=FALSE)
cat("La desviacion estandar poblacional es:", desviacion_estandar_poblacional)
## La desviacion estandar poblacional es: 4.473378

6 Coeficiente de variacion

El coeficiente de variación (CV) es una medida estadística que se utiliza para evaluar la variabilidad relativa de un conjunto de datos en comparación con su media. Se expresa como un porcentaje y se calcula como la desviación estándar dividida por la media, multiplicada por 100. La fórmula del coeficiente de variación es la siguiente:

ingresos <- c(30000, 40000, 35000, 50000, 45000)
# Calcular la media de los ingresos
media <- mean(ingresos)

# Calcular la desviación estándar de los ingresos
desviacion_estandar <- sd(ingresos)

# Calcular el coeficiente de variación (CV)
cv <- (desviacion_estandar / media) * 100

# Imprimir el resultado
cat("El coeficiente de variación es:", cv, "%\n")
## El coeficiente de variación es: 19.76424 %
alumnos<-c("Ricardo","Angel","Benjamin","Renzo","Lucero","Angelina","Elena","Pedro","Adrian","Angela")
notas<-c(11,15,14,12,7,9,16,18,6,19)
aprobado<-c(TRUE,TRUE,TRUE,TRUE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE)
registro<-data.frame(alumnos,notas,aprobado)
registro
##     alumnos notas aprobado
## 1   Ricardo    11     TRUE
## 2     Angel    15     TRUE
## 3  Benjamin    14     TRUE
## 4     Renzo    12     TRUE
## 5    Lucero     7    FALSE
## 6  Angelina     9    FALSE
## 7     Elena    16     TRUE
## 8     Pedro    18     TRUE
## 9    Adrian     6    FALSE
## 10   Angela    19     TRUE
# Filtra las notas de los estudiantes
notas <- registro$notas

# Calcular la media de las notas
media <- mean(notas)

# Calcular la desviación estándar de las notas
desviacion_estandar <- sd(notas)

# Calcular el coeficiente de variación (CV)
cv <- (desviacion_estandar / media) * 100

# Imprimir el resultado
cat("El coeficiente de variación de las notas es:", cv, "%\n")
## El coeficiente de variación de las notas es: 35.22345 %