GUILLERMO VILLARREAL GALLEGOS

library(readr)      
library(ggplot2)     
library(resumeRdesc) 
  1. Cargar o construir los datos
set.seed(1215)
edades <- sample(15:65, 100, replace = TRUE)
pesos <- sample(40:100, 100, replace = TRUE)
estaturas <- sample(140:205, 100, replace = TRUE) /100
personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")

personas
##     edad peso estatura
## 1     65   71     1.84
## 2     57   47     1.83
## 3     47   49     1.99
## 4     59   74     1.67
## 5     42   92     1.64
## 6     36   95     1.72
## 7     49   99     1.93
## 8     52   43     1.98
## 9     35   90     1.44
## 10    20   78     1.97
## 11    37   49     1.62
## 12    22   52     1.55
## 13    21   79     1.76
## 14    59   41     1.79
## 15    65   78     2.01
## 16    39   51     1.41
## 17    63   44     1.94
## 18    50   96     1.50
## 19    33   89     2.01
## 20    20   76     1.96
## 21    44   59     2.01
## 22    51   90     2.04
## 23    59   88     1.80
## 24    34   77     1.61
## 25    45   87     1.67
## 26    22   85     1.55
## 27    22   61     1.95
## 28    15   69     1.70
## 29    55   99     1.71
## 30    32   94     1.75
## 31    63   89     1.64
## 32    28   85     1.51
## 33    15   79     1.68
## 34    21   46     1.72
## 35    52   81     1.82
## 36    51   83     1.74
## 37    26   76     1.69
## 38    58   79     1.52
## 39    29   50     2.02
## 40    62   98     1.98
## 41    61   61     1.83
## 42    29   82     1.92
## 43    62   45     1.82
## 44    39   51     1.85
## 45    32   78     1.50
## 46    49   54     1.64
## 47    24   90     2.05
## 48    63   97     1.77
## 49    38   95     1.65
## 50    19   90     1.75
## 51    19   61     1.70
## 52    61   41     1.79
## 53    39   42     1.89
## 54    19   68     1.67
## 55    42   59     1.78
## 56    64   45     2.03
## 57    36   72     1.60
## 58    47   74     1.49
## 59    16   40     1.87
## 60    17   68     1.87
## 61    42   59     1.42
## 62    23   70     1.56
## 63    50   63     2.01
## 64    36   44     2.01
## 65    41   80     1.84
## 66    52   90     1.67
## 67    27   75     2.04
## 68    51   61     1.83
## 69    42   77     1.72
## 70    56   60     1.66
## 71    37   63     1.47
## 72    55   60     1.95
## 73    60   56     1.72
## 74    63   70     1.55
## 75    15   60     1.81
## 76    18   62     1.96
## 77    27   43     2.03
## 78    24   80     1.88
## 79    64   79     1.73
## 80    19   82     1.56
## 81    60   85     2.01
## 82    43   54     1.60
## 83    62   42     1.56
## 84    20   82     1.55
## 85    61   62     1.42
## 86    62   44     1.55
## 87    56   96     1.46
## 88    20   96     1.73
## 89    21   53     2.05
## 90    63   50     1.99
## 91    18   65     1.56
## 92    22   80     1.88
## 93    19   61     1.95
## 94    62   42     1.98
## 95    34   60     1.82
## 96    36   88     1.78
## 97    17   65     1.47
## 98    32   63     1.77
## 99    29   77     1.67
## 100   49   94     1.90
  1. La media. La mejor forma en R de determinar la media de un conjunto de datos ya sea de una muestra o de una población es mediante al función mean()
media.edad <- mean(personas$edad)
media.edad
## [1] 40.19
media.peso <- mean(personas$peso)
media.peso
## [1] 69.74
media.estatura <- mean(personas$estatura)
media.estatura
## [1] 1.7626
  1. La mediana.
orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(100 /2)

orden.personas.edad
##   [1] 15 15 15 16 17 17 18 18 19 19 19 19 19 20 20 20 20 21 21 21 22 22 22 22 23
##  [26] 24 24 26 27 27 28 29 29 29 32 32 32 33 34 34 35 36 36 36 36 37 37 38 39 39
##  [51] 39 41 42 42 42 42 43 44 45 47 47 49 49 49 50 50 51 51 51 52 52 52 55 55 56
##  [76] 56 57 58 59 59 59 60 60 61 61 61 62 62 62 62 62 63 63 63 63 63 64 64 65 65

La posición.

cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])     
## Valor de la posición  50  del conjunto de datos (Vector) edades es:  39

La posición cuando son par.

cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1]) 
## Valor de la posición  51  del conjunto de datos (Vector) edades es:  39

*Operacion simplificada

mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad
## [1] 39

La función median() determina la mediana de un conjunto de datos. *edad

mediana.edad <- median(personas$edad)
mediana.edad
## [1] 39

*Peso.

mediana.peso <- median(personas$peso)
mediana.peso
## [1] 70.5

Estatura.

mediana.estatura <- median(personas$estatura)
mediana.estatura
## [1] 1.765
  1. La moda. Por medio de la función table() determinar las frecuencia de cada valor de edad.

Ordenar las frecuencias descendente para identificar de mejor manera las frecuencias de cada valor de edad y dejar el resultado en la misma variable (Vector) frecuencia.

El valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente.

Edad.

moda.edad <- Mode(personas$edad)
moda.edad
## [1] 19 62 63

Peso.

moda.peso <- Mode(personas$peso)
moda.peso
## [1] 61 90

Estatura.

moda.estatura <- Mode(personas$estatura)
moda.estatura
## [1] 2.01
  1. Visualizar datos. Utilizar la librería ggplot2. Grafica de barras (Edad)
ggplot(data = personas, aes(x = edad)) +
  geom_bar()

Histograma (Edad)

ggplot(data = personas, aes(x = edad)) +
  geom_histogram(bins = 30)

Histograma con medidas de localización (Edad).

ggplot(personas, aes(x=edad)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(edad)), color="yellow") +
  geom_vline(aes(xintercept=median(edad)), color= "orange")

Gráfico completo (Edad)

ggplot(aes(x = edad), data = personas) +
 geom_histogram(color = 'green',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de Edad") +
  geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.edad[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Gráfico completo (Peso)

ggplot(aes(x = peso), data = personas) +
 geom_histogram(color = 'orange',
                fill = 'orange',
                alpha = 0.2) +
 labs(title = "Histograma de Peso") +
  geom_vline(aes(xintercept = median(peso),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(peso),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.peso[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Gráfico completo (Estatura)

ggplot(aes(x = estatura), data = personas) +
 geom_histogram(color = 'yellow',
                fill = 'yellow',
                alpha = 0.2) +
 labs(title = "Histograma de Estatura") +
  geom_vline(aes(xintercept = median(estatura),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(estatura),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.estatura[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

7.Interpretar y comunicar datos 80 A 100 PALABRAS

Estas medidas de tendencia son muy útiles para hacer una interpretación de los datos, segun sea la función que se les quiera dar pueden ser usadas como un punto de partida o referencia para la toma de decisiones. En esta ocaccion usando R podemos determinar rápidamente estas medidas haciendo uso de la libreria “resumeRdesc”, con este nuevo enfoque es muy sencillo implementar a gran cantidad de datos, lo cual simplifica mucho el análisis de los mismos