Caso 3

Objetivo

Realizar cálculos para determinar medidas de localización y tendencia central como la media, mediana, moda con un conjunto de datos de personas

Descripción

Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.

Fundamento teórico

En esta práctica se presentan ejemplos para determinar medidas de tendencia central, si estas medidas las calcula con los datos de una muestra, se llaman estadísticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales Anderson, D., Sweeney, D., & Williams, T. (2008).

Media

La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota como x¯¯¯; si los datos son datos de una población, la media se denota con la letra griega μ. Anderson, D., Sweeney, D., & Williams, T. (2008).

La media es el valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores.

La media o también llamada media aritmética o promedio representa el reparto por igual, el equilibrio, la equidad. Es el valor que tendrían los datos, si todos ellos fueran los mismos. O, también, el valor que correspondería a cada uno de los datos de la distribución si su suma total se repartiera por igual.

La media aritmética es la medida de ubicación que más se utiliza y que se publica con mayor frecuencia, por lo cual se le considerará como parámetro para una población y como estadístico para una muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Algunos símbolos:

º μ es la letra minúscula griega mu, y representa la media poblacional;

º x¯ es la ‘x barra’ y representa la media muestral

º N es el número de valores de una población;

º n es el número de valores de una muestra

º x representa cualquier valor particular;

º ∑ es la letra griega sigma, e indica la operación suma;

º es la suma de C valores de la población o la muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Fórmula de la media: \(x¯=∑Xi/n\)

o la media poblacional \(μ=∑Xi/N\)

donde: \(∑Xi=X1+X2+X3+....Xn\)

La mediana es otra medida de localización central. Es el valor de enmedio en los datos ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de observaciones, la mediana es el valor de enmedio. Cuando la cantidad de observaciones es par, no hay un número enmedio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones de enmedio. Anderson, D., Sweeney, D., & Williams, T. (2008).

Para determinar la mediana, se deben ordenar los datos de menor a mayor (en forma ascendente). * a. Si el número de observaciones es impar, la mediana es el valor de enmedio de la posición entera. posición.entera=round(n/2) * b. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones. posición.entera=round(n/2+1) de enmedio.Anderson, D., Sweeney, D., & Williams, T. (2008).

La mediana es el punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a menor.Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Moda

La moda es el valor de la observación que aparece con mayor frecuencia. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha ayuda para describir la localización de los datos.

La moda es un valor que se ve directamente al observar el diagrama de barras si la variable es discreta, o el histograma si es continua. https://bookdown.org/aquintela/EBE/

Proceso

ºCargar librerías

ºCargar o construir los datos

ºLa media

ºLa mediana

ºLa moda

ºVisualizar datos

ºInterpretar y comunicar datos

1. Cargar librerías o paquetes

ºlibrería readr para cargar datos de formato csv en caso de que se necesite

ºLibrería ggplot2 para gráficos más amigables

library(readr)
library(ggplot2)     # Para visualizar

2. Cargar o construir los datos

ºDeteminar o sembrar una semilla de inicio para generar los mismos números de la muestra sample()

set.seed(2020)

ºSimular los datos

ºn Total de observaciones de la muestra

ºedades de un rango entre 15 y 65 años

ºpesos de un rango entre 40 y 100 kgs.

ºestaturas de un rango entre 1.40 y 2.05 metros

ºConstruir un conjunto de datos llamado personas

ºModificar el nombre del conjuto de datos personas con ‘edad’, ‘peso’ y

º‘estatura’ con la función name()

ºMostrar el conjunto de datos personas

n <- 100   # Total de observaciones
edades <- sample(15:65, n, replace = TRUE)
pesos <- sample(40:100, n, replace = TRUE)
estaturas <- sample(140:205, n, replace = TRUE) /100

personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")

personas

##     edad peso estatura
## 1     42   97     1.97
## 2     58   89     1.77
## 3     37   52     1.43
## 4     36   44     1.65
## 5     38   63     1.60
## 6     15   87     1.64
## 7     31   59     1.72
## 8     50   91     1.70
## 9     56   59     1.70
## 10    20   53     1.40
## 11    63   52     1.90
## 12    59   67     1.43
## 13    22   56     1.42
## 14    56   69     1.59
## 15    64   84     1.98
## 16    30   78     1.63
## 17    43   80     1.59
## 18    48   99     1.83
## 19    62   99     1.68
## 20    17   79     1.40
## 21    16   66     1.83
## 22    43   68     1.83
## 23    54   92     1.61
## 24    18   74     1.96
## 25    64   98     1.51
## 26    28   74     1.51
## 27    28   41     2.00
## 28    26   52     1.49
## 29    62   47     1.52
## 30    61   62     1.66
## 31    28  100     1.96
## 32    21   71     1.41
## 33    34   43     1.88
## 34    32   78     1.83
## 35    35   85     1.50
## 36    62   88     1.90
## 37    58   94     1.80
## 38    32   92     1.41
## 39    24   75     1.93
## 40    45   63     1.59
## 41    20   87     1.46
## 42    61   80     2.01
## 43    57   99     1.53
## 44    27   68     1.64
## 45    46   67     1.75
## 46    38   93     1.62
## 47    27   41     1.90
## 48    59   71     2.03
## 49    16   56     1.52
## 50    45   56     1.66
## 51    30   76     1.66
## 52    27   49     1.59
## 53    15   90     1.62
## 54    52   86     1.67
## 55    17   50     1.91
## 56    43   90     1.78
## 57    39   56     1.92
## 58    59   78     1.84
## 59    57   52     1.87
## 60    39   49     1.55
## 61    19   77     1.65
## 62    57   94     1.81
## 63    52   95     1.67
## 64    16   60     1.89
## 65    39   49     2.04
## 66    49   98     1.81
## 67    38   50     1.73
## 68    64   99     1.84
## 69    47   86     1.45
## 70    21   42     1.90
## 71    22   64     1.42
## 72    35   83     1.86
## 73    27   70     1.65
## 74    48   62     1.93
## 75    19   90     1.95
## 76    18   84     1.77
## 77    33   87     1.73
## 78    62   43     1.43
## 79    37   60     1.82
## 80    18   99     1.81
## 81    32  100     1.80
## 82    56   80     1.69
## 83    15   76     1.71
## 84    61   91     1.95
## 85    36   95     1.70
## 86    45   98     1.77
## 87    55   42     1.66
## 88    30   97     1.86
## 89    20   65     1.50
## 90    38   93     1.41
## 91    40   40     1.40
## 92    24   68     1.46
## 93    40   53     1.58
## 94    47   63     1.92
## 95    42   66     1.84
## 96    15   78     1.51
## 97    31   57     1.93
## 98    54   75     1.50
## 99    29   58     1.98
## 100   58   64     1.67

3. La media

Determinar la media de la variable edades de personas

ºLa variable de interés es edad

ºSumar todos los valores de la variable edad y dividirlo entre el número de elementos

media.edad <- sum(personas$edad) / n
media.edad

## [1] 38.81

ºLa mejor forma en R de determinar la media de un conjunto de datos ya sea de una muestra o de una población es mediante al función mean()

ºSe utiliza la misma variable media.edad por lo que se actualiza el valor en la variable, al final se obtiene el mismo valor que en el anterior bloque de código.

media.edad <- mean(personas$edad)
media.edad

## [1] 38.81

4. La mediana

Determinar la mediana de edad de personas

ºLa variable de interés es edad

ºLa función median() determina la mediana de un conjunto de datos

mediana.edad <- median(personas$edad)
mediana.edad

## [1] 38

º comprobar la mediana se ordenan las edades de personas

ºSe determina el valor la posición de enmedio del total de los datos ordenados

a.Si el número de observaciones es impar, la mediana es el valor de la posición de enmedio. 50 exactamente

b.Si el número de observaciones es par, la mediana es valor promedio que está en las posiciones de las dos observaciones de enmedio. promedio.de.las.posiciones( 50 y 51 ) de la variable edad

ºSe utiliza la variable mediana.edad por lo que se actualiza el valor en la variable, al final se obtiene el mismo valor que en el anterior bloque de código.

orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(n /2)

orden.personas.edad

##   [1] 15 15 15 15 16 16 16 17 17 18 18 18 19 19 20 20 20 21 21 22 22 24 24 26 27
##  [26] 27 27 27 28 28 28 29 30 30 30 31 31 32 32 32 33 34 35 35 36 36 37 37 38 38
##  [51] 38 38 39 39 39 40 40 42 42 43 43 43 45 45 45 46 47 47 48 48 49 50 52 52 54
##  [76] 54 55 56 56 56 57 57 57 58 58 58 59 59 59 61 61 61 62 62 62 62 63 64 64 64

# La posicion 
cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])

## Valor de la posición  50  del conjunto de datos (Vector) edades es:  38

# La posición cuando son par
cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1])

## Valor de la posición  51  del conjunto de datos (Vector) edades es:  38

mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad

## [1] 38

5. La moda

Determinar la moda de edad

ºLa variable de interés es edad

ºPor medio de la función table() determinar las frecuencia de cada valor de edad

ºOrdenar las frecuencias descendente para identificar de mejor manera las frecuencias de cada valor de edad y dejar el resultado en la misma variable (Vector) frecuencia

ºEl valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente

frecuencia <- table(personas$edad)
frecuencia <- sort(frecuencia, decreasing = TRUE)
frecuencia

## 
## 15 27 38 62 16 18 20 28 30 32 39 43 45 56 57 58 59 61 64 17 19 21 22 24 31 35 
##  4  4  4  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  2  2  2  2  2  2  2 
## 36 37 40 42 47 48 52 54 26 29 33 34 46 49 50 55 63 
##  2  2  2  2  2  2  2  2  1  1  1  1  1  1  1  1  1

moda <- frecuencia[1]
moda

## 15 
##  4

cat("La moda de edad es: ", names(moda), " con ", frecuencia[1])

## La moda de edad es:  15  con  4

print("¿Es una sola moda, bimodal o multimodal ?")

## [1] "¿Es una sola moda, bimodal o multimodal ?"

ºPara utilizar esta librería es necesario haberla instalado previamente

ºinstall.packages(“remotes”)

ºremotes::install_github(“osoramirez/resumeRdesc”)

6. Visualizar datos

Utilizar las funciones de la librería ggplot2

ºGráfica de barra de edad

ggplot(data = personas, aes(x = edad)) +
  geom_bar()

ºHistograma de edad

ggplot(data = personas, aes(x = edad)) +
  geom_histogram(bins = 30)

ºHistograma de edad con medidas de localización

ggplot(personas, aes(x=edad)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(edad)), color="red") +
  geom_vline(aes(xintercept=median(edad)), color= "darkgreen")

ºGráfico más completo

ggplot(aes(x = edad), data = personas) +
 geom_histogram(color = 'green',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de Edad") +
  geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

interpretacion(Mi descripcion)

Se verieron las primeras formulas en este caso, recoleccion de datos para las tablas y graficos mas completos y largos, el trabajo se trata de aplicar las formulas con las siguientes temas: Media y Moda, tambien este trabajo dentro el codigo modificamos los colores de dichas graficas para ser mas notorio en la presentacion y tenga una mejor estatica para todos aquellos que entren a la paguina y pudan leerlo con mas facilidad.

Caso 3

Sahid Alejandro De La Torre Galarza. 20040381

15/1/2021

Objetivo

Descripción

Fundamento teórico

Media

Moda

Proceso

1. Cargar librerías o paquetes

2. Cargar o construir los datos

3. La media

4. La mediana

5. La moda

6. Visualizar datos

interpretacion(Mi descripcion)