1 Los Objetivos De La Práctica

1.1 * El Objetivo General De La Práctica

A continuación se presenta el objetivo general de la práctica:

  • Determinar Las Medidas Estadísticas De Localización Media, Moda, Los Máximos Y Los Mínimos Y Rango De Un Conjunto De Datos Usando Funciones De R.

1.2 * Los Objetivos Específicos De La Práctica

A continuación, se presenta los objetivos específicos que tiene la siguiente práctica:

  • Identificar Las Medidas De Localización De Media, Mediana, Moda, Máximos, Mínimos, Rango Y El Significado De Las Mismas Para Interpretar Si Una Distribución De Datos Es Simétrica O Asimétrica.

  • Determinar Los Datos Estadísticos Manualmente Por Medio De Programación.

  • Determinar Los Mismos Valores Estadísticos De Manera Más Sencilla Por Medio De Funciones Que Existen En Los Paquetes Base De Lenguaje R.

  • Visualizar Los Datos Por Medio De La Librería Ggplot Previamente Instalada, Gráfico Que Se Muestra Es El Histograma Con Líneas Verticales Que Representan La Media, Mediana Y Moda.

  • Realizar El Análisis Crítico Correspondiente Para Este Caso, Para Identificar La Simetría O Asimetría Del Mismo.

2 Investigaciones Pertinentes

2.1 * El Lenguaje De Programación En R

El software estadístico moderno como el lenguaje de programación R, es un entorno y lenguaje de programación con un enfoque al análisis estadístico.

El lenguje de programación R nació como una reimplementación de software libre del lenguaje S, adicionado con soporte para ámbito estático. Se trata de uno de los lenguajes de programación más utilizados en investigación científica, siendo además muy popular en los campos de aprendizaje automático (machine learning), minería de datos, investigación biomédica, bioinformática y matemáticas financieras.

A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y graficación. E lenguaje R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL.

2.2 * La Media En Estadística

La media significa el promedio o la suma de todos los elementos divididos entre el total de la muestra, o lo que es lo mismo es un promedio de todos los elementos.

La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota \(\bar{x}\); si los datos son datos de una población, la media se denota con la letra griega \(\mu\).

2.2.1 * La Fórmula Para Determinar La Media

En las fórmulas estadísticas se usa identificar el valor de la primera observación de la variable \(x\) con \(x_1\), el valor de la segunda observación de la variable \(x\) con \(x_2\) y así con lo siguiente.

En general, el valor de la i-ésima observación de la variable \(x\) se denota \(x_i\) hasta la posición final del conjunto de datos \(x_n\).

La media se representa como \(\bar{x}\). Aquí la fórmula para le media.

\[ \bar{x} = \sum_{i=1}^{n}\frac{x_i}{n} = \frac{x_1 + x_2+x_3+…x_n}{n} \]

2.2.1.1 * La Media Aritmética

Se muestra el código para determinar la media, sumando cada elemento y dividiendo entre el número de elementos que contiene la muestra.

Se construyen los valores de la muestra a partir de un vector llamado datos.

El contexto de los datos puede ser, edades, medidas de peso en kgs. de algún producto, velocidades de andar en bicicleta u otros contexto en donde existan valores similares.

Se simulan datos de edades de personas.

# Se Declara La Semilla 
set.seed(1186)
# Se Determina El tamaño De La Muestra Poblacional 
n <- 60 
# Se Genera Los Datos De Manera Aleatoria Mediante La Implementación Del Método sample() 
datos <- c(sample(x=10:100, size = n, replace = TRUE))
datos
##  [1] 63 20 78 43 98 95 44 53 17 49 92 30 94 29 61 51 12 10 78 82 22 18 99 58 26
## [26] 39 39 44 95 77 18 77 47 81 21 75 84 28 21 26 84 56 91 48 17 93 65 90 86 68
## [51] 44 89 71 95 44 29 99 79 29 22

Se identifican valores de los datos en posiciones específica \(x_1, x_2, x_3, x_n\), siendo \(n =\) 60

El símbolo de ‘;’ en R en una misma linea significa que se pueden tomar como diferentes instrucciones para ahorrar lineas o renglones en el bloque de código.

Se determina el valor de \(n\) o la cantidad de elementos en los datos con la función length().

datos[1]; datos[2]; datos[3]; datos[length(datos)];
## [1] 63
## [1] 20
## [1] 78
## [1] 22

La función paste() vista en otros casos, simplemente imprime en pantalla valores, posiblemente concatenados separados con la coma ‘,’.

n <- length(datos)
paste("La Cantidad De Elementos De La Muestra Poblacional Es De ", n, " Elementos.")
## [1] "La Cantidad De Elementos De La Muestra Poblacional Es De  60  Elementos."

Ahora realizar el cálculo de la media aritméticamente.

La función sum() suma aritméticamente todos los elementos de la muestra y round() redondea el resultado a ciertas posiciones decimales, por ejemplo round(valor, 2) redondeado a dos posiciones, siendo valor el resultado obtenido.

paste("Una Forma Tradicional De Sacar La Media Aritmetica De Una Muestra Poblacional: ", round(sum(datos) / n, 2))
## [1] "Una Forma Tradicional De Sacar La Media Aritmetica De Una Muestra Poblacional:  56.55"

Esto sería lo mismo que sumar datos[1] + datos[2] + datos[3] + datos[4] + datos[5] + … datos[60] y luego dividir entre \(n\)

2.2.1.2 * La Media En el Entorno Del Lenguaje R

En R la función mean() determina la media de un conjunto de datos, por ejemplo edades de doce personas adultos y adultos mayores, las pregunta son: ¿cuántos datos hay en la muestra?, ¿cuál es la media de los datos? y ¿que representa la media?.

La función round() redondea posiciones decimales.

media <- round(mean(datos),2)
paste("Empleando El Método mean(), Se Puede Determinar La Media De Los Datos De Una Muestra Poblacional Que Es De ", media)
## [1] "Empleando El Método mean(), Se Puede Determinar La Media De Los Datos De Una Muestra Poblacional Que Es De  56.55"

La media con valor de 56.55 es un estadístico que representa el promedio de los 60 datos de la muestra.

2.3 * La Mediana Estadística

Otra medida de localización importante es la mediana. El propósito de la mediana es reflejar la tendencia central de la muestra, de manera que no esté influida por los valores extremos. Dado que las observaciones en una muestra son \(x_1, x_2, . . . , x_n\), acomodados en orden de magnitud creciente, es decir, ordenados ascendentemente, la mediana de los datos estará dada por alguna de las maneras dependiendo si el número de elementos es par o es impar:

2.3.1 * La Fórmula Para Determinar La Mediana

La mediana será representada por \(\tilde{x}\)

\[ \tilde{x} =\begin{Bmatrix}x_{(n+1)/2}\text{ Si n es impar,} \\ \frac{1}{2}\cdot(x_{n/2}+x_{n/2+1})\text{ Si n es par,} \end{Bmatrix} \]

La fórmula significa que si el número de elementos es impar, se toma el que está exactamente a la mitad de los datos ordenados y si por el contrario el número de datos es par se toman el promedio de los dos números contiguos o seguidos, es decir que están a la mitad de todos los datos ya ordenados.

2.3.1.1 * La Mediana Matemáticamente

Primero hacer un código para determinar si \(n\) es número par o impar o non.

El siguiente código en R, determina si el valor de \(n\) es par o impar.

if (n %% 2 == 0) {
  n.par <- "par"
  print ("n es par")
} else {
  n.par <- "impar"
  print ("n es impar")
}
## [1] "n es par"

Para el caso de los datos hay que constatar y verificar si es es par o impar la variable \(n\), con valor de 60 entonces es par, se elige la opción adecuada de la fórmula.

Toda vez de haber verificado si el valor de \(n\) es par o impar se hacer el cálculo según la opción de la fórmula.

Segundo, se ordenan y se muestran los datos y luego se verifica el elemento que está exactamente a la mitad de entre todos los datos.

La ordenación para este ejemplo se hace con la función order que genera las posiciones en que se ordena el vector datos, los datos se reescriben ordenados.

datos.ordenados <- datos[order(datos)]
datos.ordenados
##  [1] 10 12 17 17 18 18 20 21 21 22 22 26 26 28 29 29 29 30 39 39 43 44 44 44 44
## [26] 47 48 49 51 53 56 58 61 63 65 68 71 75 77 77 78 78 79 81 82 84 84 86 89 90
## [51] 91 92 93 94 95 95 95 98 99 99

Tercero, finalmente se aplica la fórmula según sea el caso par o impar.

datos.ordenados <- datos[order(datos)]
if (n.par == 'impar')  {
  mediana <- (datos.ordenados[(n+1)/2])  
} else {
  mediana <- 1/2 * (datos.ordenados[n/2] + datos.ordenados[n/2+1])  
}
mediana
## [1] 54.5

Para este ejemplo de 60 datos es sencillo para el cerebro encontrar la mediana y la media, sin embargo, R puede tratar y analizar grandes volúmenes de datos.

2.3.1.2 * La Mediana En El Entorno Del Lenguaje R

La manera más sencilla en R para determinar la mediana es mediante la función median(), la cual simplemente regresa el valor central de los datos ordenados, independientemente si el valor de \(n\) es par o impar, de hecho debe intuirse que el código de la fórmula está encapsulado en la función median().

mediana <- median(datos)
print(mediana)
## [1] 54.5

La mediana refleja el valor central de los datos. Como lo dice Lind (2015) es el punto medio de los valores una vez que se han sido ordenados de menor a mayor o de mayor a menor.

Algunas veces, posiblemente cuando se detectan valores atípicos o outliers de la muestra, es necesario pensar en utilizar un concepto llamado media recortada la cual se calcula nuevamente pero habiendo quitando cierto porcentaje de los valores mayores y menores del conjunto.

La función subset() filtra bajo una expresión o condición un conjunto de datos que pueden ser vectores o data.frames. En este caso el resultado es un vector en R llamado datos.reducido.

datos.reducido <- subset(datos, datos >=40 & datos <=90)
datos
##  [1] 63 20 78 43 98 95 44 53 17 49 92 30 94 29 61 51 12 10 78 82 22 18 99 58 26
## [26] 39 39 44 95 77 18 77 47 81 21 75 84 28 21 26 84 56 91 48 17 93 65 90 86 68
## [51] 44 89 71 95 44 29 99 79 29 22
mean(datos.reducido)
## [1] 65.63333
median(datos.reducido)
## [1] 66.5

Ahora los valores de media y mediana son mas cercanos.

2.4 * La Moda Estadística

La moda es el valor que se presenta con mayor frecuencia. Indica que la moda muestral es el valor que ocurre con mayor frecuencia en los datos y es el punto sobre el eje horizontal donde la curva de una distribución de datos tiene su punto máximo.

En R existen varias alternativas para determina la moda de un conjunto de datos.

2.4.1 * La Moda Dentro Del Entorno Del Lenguaje R

2.4.1.1 * La Moda Mediante El Método table()

Se puede utilizar la función table() para encontrar las frecuencias y posteriormente ordenar tabla tal vez descendentemente y el valor del conjunto de datos de frecuencias de la primera posición será la moda. Algunas veces hay dos o tres valores que se repite en el mismo número de ocasiones o que tienen la misma frecuencia, entonces hay que verificar si el conjunto de datos es bimodal o multimodal.

frecuencias <- table(datos)
frecuencias.ordenada <- frecuencias[order(frecuencias, decreasing = TRUE)]
frecuencias.ordenada
## datos
## 44 29 95 17 18 21 22 26 39 77 78 84 99 10 12 20 28 30 43 47 48 49 51 53 56 58 
##  4  3  3  2  2  2  2  2  2  2  2  2  2  1  1  1  1  1  1  1  1  1  1  1  1  1 
## 61 63 65 68 71 75 79 81 82 86 89 90 91 92 93 94 98 
##  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
moda <- frecuencias.ordenada[1]
moda
## 44 
##  4

2.4.1.2 * La Moda Mediante El Método mfv(x)

Otra alternativa es utilizar la librería o el paquete modeest; antes que nada deberá instalar el paquete install.packages(“modeest”) , luego, se podrá cargar la librería con library(modest).

2.4.1.2.1 * Importando La Librería modeest()
# Importando La Libreria de Modeest
library(modeest)

Para determinar la moda se utiliza la función mfv(x) en donde \(x\) es el vector a utilizarse para encontrar la moda.

# Mostrando La Moda Mediante El Método mfv(x)
moda <- mfv(datos)
moda
## [1] 44

2.5 * Las Posiciones Relativas De La Media, La Mediana Y La Moda

En cualquier distribución, cuando la la moda, la mediana y la media son iguales se interpreta como una distribución simétrica; si los valores de media, moda y mediana son diferentes, por el contrario será asimétrica si si los valores de media y mediana son diferentes.

La siguiente imagen muestra como se pueden presentar las gráficas conforme y de acuerdo al histograma y a su curva de densidad.

2.5.1 * El Paquete ggplot2

El paquete ggplot2 permite crear gráficas y visualizar datos de una manera más elegante y amigable, es uno de los paquete más utilizados en R para representar y visualizar datos.

Las siguiente instrucciones utilizan el paquete ggplot() previamente instalado con install.packages(“ggplot2”) es una librería.

2.5.1.1 * Importar La Librería ggplot

library(ggplot2)

2.5.1.2 * Crear Un data.frame De Los Datos De La Muestra

Las siguiente lineas permiten crear un conjunto de datos data.frame a partir del vector de datos. Esto transformación de datos tiene la finalidad de tratar con data.frame en lugar de vector y es más práctico para efecto de visualización de datos con ggplot().

df.datos <- data.frame(datos)
df.datos
##    datos
## 1     63
## 2     20
## 3     78
## 4     43
## 5     98
## 6     95
## 7     44
## 8     53
## 9     17
## 10    49
## 11    92
## 12    30
## 13    94
## 14    29
## 15    61
## 16    51
## 17    12
## 18    10
## 19    78
## 20    82
## 21    22
## 22    18
## 23    99
## 24    58
## 25    26
## 26    39
## 27    39
## 28    44
## 29    95
## 30    77
## 31    18
## 32    77
## 33    47
## 34    81
## 35    21
## 36    75
## 37    84
## 38    28
## 39    21
## 40    26
## 41    84
## 42    56
## 43    91
## 44    48
## 45    17
## 46    93
## 47    65
## 48    90
## 49    86
## 50    68
## 51    44
## 52    89
## 53    71
## 54    95
## 55    44
## 56    29
## 57    99
## 58    79
## 59    29
## 60    22

2.5.1.3 * Un Histograma De Los Datos De La Muestra

ggplot(data = df.datos, mapping = aes(x = datos)) +
  geom_histogram(bins = 30,fill="#ADD8E6", color="#bdecb6") +
  ggtitle('Histograma de datos') +
  xlab('Valores') + ylab('Frecuencia') 

2.5.2 La Referencia De La Media , Mediana y Moda

titulo <- "Histograma de los datos"
subtitulo <- paste("Media=",media, " Mediana = ",mediana, " Moda=",moda)
ggplot(data = df.datos, mapping = aes(x=datos)) +
  geom_histogram(bins=30,fill="#ADD8E6", color="#bdecb6") +
  ggtitle(titulo, subtitle = subtitulo) +
  xlab('Valores') + ylab('Frecuencia') +
  geom_vline(aes(xintercept = media,
                  color = "media"),
              linetype = "dashed",
              size = 1)  +
   geom_vline(aes(xintercept = mediana,
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = moda,
                  color = "moda"),
              linetype = "dashed",
              size = 1) 
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.

if (media > mediana) {
  mensaje <- "De acuerdo y conforme a la gráfica la distribución es asimétrica con sesgo positivo dado que la media es mayor que la mediana."
} else if (media < mediana) {
    mensaje <- "De acuerdo y conforme a la gráfica la distribución es asimétrica con sesgo negativo dado que la media es menor que la mediana."
} else if (media == mediana & mediana == moda) {
  "De acuerdo y conforme a la gráfica la distribución es simétrica dado que la media es igual a la median y a la moda."
}

Interpretación: De acuerdo y conforme a la gráfica la distribución es asimétrica con sesgo positivo dado que la media es mayor que la mediana.

2.6 Los Mínimos Y Máximos

Los valores máximos y mínimos de un conjunto de dato son los valores de la lista de valores más pequeños y mas grande en la lista de los datos. Se puede observar los valores máximos y mínimos con los datos ordenados y verificar el primer y último elemento de la lista. Se utiliza el vector de datos ordenados.

datos.ordenados
##  [1] 10 12 17 17 18 18 20 21 21 22 22 26 26 28 29 29 29 30 39 39 43 44 44 44 44
## [26] 47 48 49 51 53 56 58 61 63 65 68 71 75 77 77 78 78 79 81 82 84 84 86 89 90
## [51] 91 92 93 94 95 95 95 98 99 99

Se puede determinar con las funciones max() y min() para encontrar los valores máximos y mínimos respectivamente.

max(datos)
## [1] 99
min(datos)
## [1] 10

2.7 El Rango

El rango de un conjunto de datos es el intervalo que existe entre los valores, es decir desde el valor mínimo hasta el valor máximo. Con los valores de máximo y mínimo la diferencia que existe entre ellos determina el rango.

datos.ordenados[n] - datos.ordenados[1]
## [1] 89
max(datos) - min(datos)
## [1] 89

Con la función range() en R, se obtiene los valores máximos y mínimos y con estos se obtiene el rango con la función diff()

range(datos)
## [1] 10 99
diff(range(datos))
## [1] 89

2.8 Los Cuartiles

Los cuartiles son una herramienta que se usa en estadística y que sirve para administrar grupos de datos previamente ordenados. Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.

cuartiles <- quantile(datos, c(0.25, 0.50, 0.75))
cuartiles
##  25%  50%  75% 
## 29.0 54.5 82.5

El Diagrama De Caja

El diagrama de caja representa los cuartiles de los datos e identifica los valores considerados outliers o valores extremos. El diagrama de caja con la función ggplot() que requiere librería ggplot2

ggplot()+
  geom_boxplot(aes(x = datos), fill='darkred', color='darkgreen')

Diagrama de caja con la función boxplot() que NO requiere

boxplot(datos, horizontal = TRUE)

2.9 La Función summary()

Existe una función en R llamada summary() muy utilizada que describe y presenta la mayoría de los estadísticos citados para caso; identifica los valores mínimo, máximo, media y mediana de un conjunto de datos.

summary(datos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.00   29.00   54.50   56.55   82.50   99.00

3 * Análisis Crítico De Los Datos Obtenidos

3.1 * Interpretación De La Práctica

Llegado al final de esta práctica se logra concluir que las medidas de localización son los valores que nos indican y facilitan determinar la posición y el valor de un dato existente dentro de una muestra poblacional. Existen diferentes medidas de localización, las cuales son:

  • La media que es la sumatoria de todos los valores que conforman una muestra, divididos en la cantidad total de datos - Dentro de la práctica, la cantidad de elementos generados aleatoriamente para la muestra poblacional fue de 60 elementos, simulando la edad de un grupo de personas encuestas, dentro de un rango de 10 hasta 100, con la opción de repetición de datos.

  • La mediana es valor medio de los dos valores que se encuentran justo en la mitad de un grupo de datos - Por otro lado, para el cálculo para la mediana, que su propósito es reflejar la tendencia central de la muestra poblacional, que no esté influida por valores externos. Para esto, se implementó el método median(), que retorna, el valor central de los datos ordenados.

  • La moda en una agrupación de datos es el valor que más se repite, el que “está de moda” – Dentro de la práctica, la moda fue de: “44 años” (Mayor Frecuencia), Mientras Que La Menor Frecuencia La Obtuvo “98 años”.

Por otro lado, los valores máximos y mínimos del conjunto de datos de la muestra poblacional es de 10, como valor mínimo y 98, como valor máxima, cabe destacar, que estos datos fueron generados aleatoriamente con la implementación del método sample(), dentro del cual se estableció un rango de 10 a 100 (Valor Mínimo Y Valor Máximo).

Finalmente, se empezó analizar cada uno de los datos, tanto de la muestra como la de la población, mediante el método summary, el cual, nos describe los datos en forma de tabla, en donde, se representa el valor más bajo obtenido de la muestra, además de indicar los 3 cuartiles (25% - 50% - 75%) y finalmente el valor más alto obtenido de la muestra.

4 * Referencias Bibliográficas

  • Anderson, D. R. (2008). Estadística para administración y economía. (10ª. ed.) México : Cengage Learning.

  • Berenson, M. (2006). Estadística para administración. (4ª. ed.) México : Pearson Educación.

  • Carot, V. (2006). Control estadístico de la calidad. España : Alfaomega.