title: “Caso 6. Varianza desviación estándar y coeficiente de variación”
author: “Luis Edgar Felix”
date: “17/3/2021”
output:
pdf_document: default
html_document: default
# 1 Objetivo
Identificar, describir e interpretar medidas de variabilidad en un conjunto de datos.
# 2 Descripción
El caso se relaciona con identificar medidas de variabilidad como la varianza, la desviación estándar y el coeficiente de variación.
Primero se utilizan datos del libro del autor (Anderson, Sweeney, and Williams 2008a) como ejemplo para calcular la varianza, y a partir de ahí, se determina la desviación y finalmente el coeficiente de variación.
Segundo con datos de alumnos se calculan las mismas medias de dispersión, luego, se selecciona tres carreras y se determina cuál de los tres conjuntos de datos tiene mayor o menor dispersión conforme al valor % del coeficiente de variación.
# 3 Marco de referencia
¿Para que sirven las medidas de dispersión?
El reporte de una medida de centralización como la media, mediana y moda sólo da información parcial sobre un conjunto o distribución de datos. Diferentes muestras o poblaciones pueden tener medidas idénticas de centro y aun así diferir una de otra en otras importantes maneras. (Devore 2016a)
La imagen siguiente muestra tres conjuntos de datos y los tres tienen media y mediana igual, sin embargo la dispersión es diferentes, es decir cual conjunto de datos se aleja mas de la media.
La primera tiene la cantidad más grande de variabilidad, la tercera tiene la cantidad más pequeña y la segunda es intermedia respecto a las otras dos en este aspecto. (Devore 2016a).
## 3.1 Varianza
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación (xi
) y la media x¯
.(Anderson, Sweeney, and Williams 2008a).
### 3.1.1 Fórmulas
Se identifican las fórmulas para varianza poblacional y muestral, dependiendo de los datos a analizar, si es todas las observaciones de la población y solo una muestra de la misma.
Para efectos de este ejercicio se utiliza mas específicamente la varianza y desviación muestral.
#### 3.1.1.1 Fórmula de varianza poblacional
$$
σ2=∑Ni=1(xi−μ)2N
$$ siendo μ la media poblacional y N
el total de los datos de la población.
#### 3.1.1.2 Fórmula de varianza muestral
### \$\$
S2=∑ni=1(xi−x¯)2n−1
\$\$
## 3.2 Desviación estándar
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Continuando con la notación adoptada para la varianza muestral y para la varianza poblacional, se emplea ς
para denotar la desviación estándar muestral y σ
para denotar la desviación estándar poblacional.
¿Qué se gana con convertir la varianza en la correspondiente desviación estándar?.
Como la desviación estándar es la raíz cuadrada de la varianza, las unidades de la varianza, son al cuadrado, posiblemente dificulta su interpretación, por tanto, la desviación estándar de se interpreta de mejor manera la variabilidad de los datos porque el valor resultante se mide en las mismas unidades que los datos originales. (Anderson, Sweeney, and Williams 2008a).
Una interpretación preliminar de la desviación estándar muestral es que es el tamaño de una desviación típica o representativa de la media muestral dentro de la muestra dada.(Devore 2016b)
### 3.2.1 Fórmula de desviación estándar poblacional
\$\$ σ=σ2−−√
\$\$
### 3.2.2 Fórmula de desviación estándar muestral
\$\$ S=S2−−√
\$\$
## 3.3 Coeficiente de variación (CV)
En algunas ocasiones se requiere un estadístico descriptivo que indique cuán grande es la desviación estándar en relación con la media. Existe el coeficiente de variación y resuelve ese propósito.
La fórmula del coeficiente de variación indica el grado de dispersión de un conjunto de datos con respecto a la media.
\$\$ CV=(σx¯×100)%
\$\$
# 4 Desarrollo
## 4.1 Cargar librerías
Cargas las librerías necesarias para los ejercisio de todo el caso.
```{r}
library(readr)
library(ggplot2)
```
### 4.2 Los datos de sueldos
Son datos de sueldos en dólares de trabajadores de una empresa.
```{r}
datos <- c(3450,3550, 3650, 3480, 3355, 3310, 3490, 3730, 3540, 3925, 3520, 3480 )
datos <- data.frame(xi=datos)
```
### 4.2.1 Varianza matemáticamente
Primero se creó un vector llamado datos, luego ese mismo vector se transformó en data.frame con el mismo nombre de datos.
En las siguientes lineas de código R, se utiliza una función llamada cbind() para agregar columnas al data.frame existente llamado datos. La función nrow() sirve para identificar cuántas observaciones tiene la muestra de los datos, es decir, el valor de n
=12.
Al final debe haber un conjunto de datos con cinco columnas, “xi, media, diferencia, alcuadrado.”
Se determina la sumatoria de las diferencias al cuadrado conforme a la fórmula y con ello el valor de la varianza. Se genra tambien la variable media para utilizarse a lo largo del caso.
```{r}
n <- nrow(datos)
summary(datos)
```
```{r}
datos <- cbind(datos, media = mean(datos$xi))
datos <- cbind(datos, diferencia=datos$xi - datos$media)
datos <- cbind(datos, alcuadrado = datos$diferencia^2)
media <- mean(datos$xi)
datos
```
```{r}
sumatoria <- sum(datos$alcuadrado)
sumatoria
```
```{r}
varianza <- sumatoria / (n-1)
varianza
```
### 4.2.2 Desviación matemáticamente
```{r}
desviacion <- sqrt(varianza)
desviacion
```
### 4.2.3 Coeficiente de variación matemáticamente
```{r}
CV <- desviacion / media * 100
CV
```
El Coeficiente de Variación indica que la desviación estándar muestral es sólo 4.6794627 % del valor de la media muestral. Entre más bajo sea el valor porcentual del CV menor dispersión se encuentran en los datos. En general, el coeficiente de variación es un estadístico útil para comparar la variabilidad de variables que tienen desviaciones estándar distintas y medias distintas. (Anderson, Sweeney, and Williams 2008b).
### 4.2.4 Funciones en R para medidas de dispersión
Existen funciones en R que sirven para determinar varianza, desviación de manera directa, con ellas se podrá determinar de igual forma el coeficiente de variación. Las funciones son var() y sd() respectivamente para varianza y desviación estándar.
```{r}
var(datos$xi)
```
```{r}
#[1] 27440.91
sd(datos$xi)
```
```{r}
#[1] 165.653
CV <- sd(datos$xi) / mean(datos$xi) * 100
CV
```
### 4.2.5 Dispersión de sueldos
Se muestra la dispersión del sueldo de cada trabajador y la linea horizontal indicando la media.
```{r}
titulo <- “Sueldos”
subtitulo <- paste(“Media =”, round(media,2)," Varianza=“,round(varianza,2),” Desv. Std.=“,round(desviacion,2),” CV =“, round(CV, 2),”%")
ggplot(data = datos, mapping = aes(x = 1:n, y = xi)) +
geom_point(colour = “yellow”) +
geom_hline(yintercept = media, colour = “Pink”) +
ggtitle(titulo, subtitle = subtitulo) +
xlab(‘Observaciones’) + ylab(‘Sueldos’)
```
## 4.3 Datos de alumnos
Se presenta un ejercicio de medidas de dispersión con datos de alumnos
### 4.3.1 Cargar los datos
Se descargan datos de la dirección url “Datos de alumno con promedio superior a cero” de github,; los datos ya vienen con la variable Promedio de todas las observaciones superior a cero. En los casos 5 y 4 se tuvo la necesidad de limpiar observaciones, en este caso 6 ya no es necesario hacer dicha tarea de limpieza de registros.
Nuevamente se utiliza la función readr() para descargar un archivo texto (CSV) separado por comas; en esta misma función se utiliza el argumento stringsAsFactors = TRUE que significa que desde la carga de los datos y desde un inicio se considere como categóricas o tipo factor a las variable que vienen como tipo string o character del conjunto de datos que se carga.
Se utiliza la función str() para conocer el tipo de estructura de los datos, además, despliega los tipos de datos de cada variable, las que son numéricas, factor, entre otros, y la cantidad de registros del conjunto de datos cargado a R.
Nuevamente la función summary() muestra sólo las columnas 2,4,8 y 9 únicamente, summary(datos[c(2,4,8,9)]).
```{r}
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos.alumnosEJ2021.csv%22, stringsAsFactors = TRUE)
#datos$Carrera <- factor(datos$Carrera)
summary(datos[c(2,4,8,9)])
```
```{r}
str(datos)
```
### 4.3.2 Primeros y últimos cincuenta registros
Los primeros cincuenta registros
```{r}
head(datos[,c(2,8,9)], 50)
```
```{r}
tail(datos[,c(2,8,9)], 50)
```
### 4.3.3 La media
```{r}
media <- mean(datos$Promedio)
media
```
### 4.3.4 La varianza
Se determina la varianza de la variable Promedio del conjunto de datos.
La variable Promedio es una variable cuantitativa que se que significa el promedio de alumnos inscritos en una Institución Educativa. Siendo variable cuantitativa se puede aplicar medidas de dispersión.
```{r}
varianza <- var(datos$Promedio)
varianza
```
### 4.3.5 La desviación
Se determina la desviación estándar de la variable Promedio del conjunto de datos.
```{r}
desviacion <- sd(datos$Promedio)
desviacion
```
### 4.3.6 El coeficiente de variación
```{r}
CV <- desviacion / media * 100
CV
```
### 4.3.7 Dispersión de Promedio
Se visualiza el diagrama de dispersión de todos los alumnos de todas las carreras en su variable Promedio.
```{r}
titulo <- “Todos los alumnos”
subtitulo <- paste(“Media=”, round(media,2), " Varianza=“,round(varianza,2),” Desv. Std.=“,round(desviacion,2),” CV =“, round(CV, 2),”%")
ggplot(data = datos, mapping = aes(x = X, y = Promedio)) +
geom_point(colour = “black”) +
geom_hline(yintercept = media, colour = “blue”) +
ggtitle(titulo, subtitle = subtitulo) +
xlab(‘Observaciones’) + ylab(‘Promedios’)
```
## 4.4 Tres carreras diferentes
Se eligen tres carreras diferentes, ARQUITECTURA, CIVIL, INDUSTRIAL
### 4.4.1 Datos Arquitectura
```{r}
datos.arquitectura <- subset(datos, Carrera == ‘ARQUITECTURA’)
head(datos.arquitectura)
```
```{r}
media.arquitectura <- mean(datos.arquitectura$Promedio)
varianza.arquitectura <- var(datos.arquitectura$Promedio)
desviacion.arquitectura <- sd(datos.arquitectura$Promedio)
CV.arquitectura <- desviacion.arquitectura / media.arquitectura * 100
```
### 4.4.2 Dispersión
En a instrucción ggplot(data = datos.civil, mapping = aes(x = Alumno, y = Promedio)) se toma en el eje de las X el consecutivo de la variable Alumnos, que es desde 1 hasta el último alumno de cada carrera; y en el eje de las Y’s el Promedio.
```{r}
titulo <- “Alumnos Arquitectura”
subtitulo <- paste(“Media=”, round(media.arquitectura,2), " Varianza=“,round(varianza.arquitectura,2),” Desv. Std.=“,round(desviacion.arquitectura,2),” CV =“, round(CV.arquitectura, 2),”%")
ggplot(data = datos.arquitectura, mapping = aes(x = Alumno, y = Promedio)) +
geom_point(colour = “red”) +
geom_hline(yintercept = media, colour = “orange”) +
ggtitle(titulo, subtitle = subtitulo) +
xlab(‘Observaciones’) + ylab(‘Promedios’)
```
### 4.4.3 Datos Civil
```{r}
datos.civil <- subset(datos, Carrera == ‘CIVIL’)
head(datos.civil)
```
```{r}
media.civil <- mean(datos.civil$Promedio)
varianza.civil <- var(datos.civil$Promedio)
desviacion.civil <- sd(datos.civil$Promedio)
CV.civil <- desviacion.civil / media.civil * 100
```
### 4.4.4 Dispersión
```{r}
titulo <- “Alumnos Civil”
subtitulo <- paste(“Media=”, round(media.civil,2), " Varianza=“,round(varianza.civil,2),” Desv. Std.=“,round(desviacion.civil,2),” CV =“, round(CV.civil, 2),”%")
ggplot(data = datos.civil, mapping = aes(x = Alumno, y = Promedio)) +
geom_point(colour = “brown”) +
geom_hline(yintercept = media, colour = “red”) +
ggtitle(titulo, subtitle = subtitulo) +
xlab(‘Observaciones’) + ylab(‘Promedios’)
```
### 4.4.5 Datos Industrial
```{r}
datos.industrial <- subset(datos, Carrera == ‘INDUSTRIAL’)
head(datos.industrial)
```
```{r}
media.industrial <- mean(datos.industrial$Promedio)
varianza.industrial <- var(datos.industrial$Promedio)
desviacion.industrial <- sd(datos.industrial$Promedio)
CV.industrial <- desviacion.industrial / media.industrial * 100
```
### 4.4.6 Dispersión
```{r}
titulo <- “Alumnos Industrial”
subtitulo <- paste(“Media=”, round(media.industrial,2), " Varianza=“,round(varianza.industrial,2),” Desv. Std.=“,round(desviacion.industrial,2),” CV =“, round(CV.industrial, 2),”%")
ggplot(data = datos.industrial, mapping = aes(x = Alumno, y = Promedio)) +
geom_point(colour = “red”) +
geom_hline(yintercept = media, colour = “black”) +
ggtitle(titulo, subtitle = subtitulo) +
xlab(‘Observaciones’) + ylab(‘Promedios’)
```
### 4.4.7 Dispersión de todas las carreras
```{r}
ggplot(data = datos, mapping = aes(x = Alumno, y = Promedio, color = Carrera)) +
geom_point() +
facet_wrap(~ Carrera, nrow = 5)
```
# 5 Interpretación del caso:
¿A que se refieren las medidas de dispersión?
Las medidas de dispersión más conocidas el rango, la varianza, la desviación típica y el coeficiente de variación
¿Qué significa la varianza en un conjunto de datos? y ¿cómo se determina en lenguaje R?
la varianza es lo que representa a la serie de datos respecto a su media que es su valor central, y se puede calcular con la suma de los residuos al cuadrado divididos entre un total de las obervaciones y como se mide es en unidades cuadradas
¿Qué significa la desviación estándar en un conjunto de datos? y ¿cómo se determina en lenguaje R?
la desviacion estandar es una media de que tanto se alejan los datos de la media en relaciones al promedio y se tiene que medir en las mismas unidades de las diferentes variables del interes
¿A qué se refiere el coeficiente de variación en un conjunto de datos? y ¿cómo se determina en R?
es la relaciondel tamaño de la muestra y la media , como el coeficientede variacion tiene definido como CV
De los datos alumnos de aquellos que tienen promedio superior a cero, ¿cuál es el valor de la media, de la varianza, de la desviación estándar y del coeficiente de variación de todos ellos conforme a la variable o columna Promedio?
valor de media es : 86.6
valor de la varianza: 20.72146
desviacion estantar: 4.5
coeficiente de variacion: 5.2
Seleccione tres carreras al azar e indique cuáles seleccionaron, determine los coeficiente de variación para cada carrera o para cada conjunto de datos de cada carrra conforme a la variable Promedio. ¿Cuál de los tres conjuntos tiene mayor y menor coeficiene de variación y qué significa?.
arquitectura:
CV: 4.66
industrial:
CV: 5.08
mecatronica:
CV: 4.23
mayor: industrial = 5.08
menor: mecatronica = 4.23
¿Qué les deja el caso?
lo que deja este caso es que puedes hacer la varianzas a travez de fomula de division y nos ayuda mucho para saber cual es mas usada la carrera que representa el tecno lo que me aguito fue que tic’s es la mas baja con la seleccion de alumnos pero aun haci ayuda mucho y la verdad son unos de los casos que se ven cosas nuevas en cuestion de tipos de formulas para hacer graficas o diagramas y en la funcion r es muy compleja aun le entiendo pero poco a poco se le halla
# Referencias bibliográficas:
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008a. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,. ———. 2008b. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,. Devore, Jay L. 2016b. Fundamentos de Probabilidad y Estadística. Primera Edición. CENGAGE. ———. 2016a. Fundamentos de Probabilidad y Estadística. Primera Edición. CENGAGE.