En este informe, se realiza un análisis de las medidas de
tendencia central y medidas de dispersión de
la variable Fertility
(tasa de fertilidad) de la base de
datos swiss
, que contiene información socioeconómica de 47
cantones de Suiza en 1888.
Las medidas de tendencia central son estadísticas que indican el centro de una distribución de datos. Estas incluyen:
Media: El promedio aritmético de los datos.
Mediana: El valor central cuando los datos están ordenados.
Moda: El valor que más se repite en los datos.
Media Recortada: El promedio excluyendo un porcentaje de los valores más altos y más bajos para reducir el impacto de los valores atípicos.
Cuartiles: Dividen los datos en cuatro partes iguales.
Percentiles: Indican el valor por debajo del cual se encuentra un porcentaje específico de los datos.
Las mismas son herramientas estadísticas que nos permiten cuantificar cuán dispersos o esparcidos están los datos alrededor de un valor central. Abordaremos:
En R, las funciones permiten abstraer la lógica de un proceso. En lugar de escribir el código completo cada vez que necesitas realizar una determinada operación, puedes definir una función que encapsule esa lógica y luego llamar a esa función con diferentes datos de entrada. Esto hace que tu código sea más genérico y adaptable a diversas situaciones.
mi_funcion <- function(argumento1, argumento2) { # Código que realiza la tarea resultado <- argumento1 + argumento2 return(resultado) }
-mi_funcion: Es el nombre que le das a tu función.
-function(argumento1, argumento2): Define los argumentos que la función recibe. Los argumentos son como las entradas de una función.
-{}: Dentro de las llaves se coloca el código que la función ejecutará.
-return(): Devuelve el resultado de la función.
El análisis que se muestra a continuación, realizado sobre la variable “Fertility” de la base de datos “swiss”, muestra las características principales de distribución de los datos, incluyendo las medidas de tendencia central y dispersión.
# Media
mean(swiss$Fertility)
## [1] 70.14255
# Mediana
median(swiss$Fertility)
## [1] 70.4
# Moda (Función personalizada para calcular la moda)
moda <- function(x) {
uniq <- unique(x)
uniq[which.max(tabulate(match(x, uniq)))]
}
moda(swiss$Fertility)
## [1] 65
# Media recortada (excluyendo el 10% de los valores más extremos)
mean(swiss$Fertility, trim = 0.1)
## [1] 70.65897
# Cuartiles
quantile(swiss$Fertility)
## 0% 25% 50% 75% 100%
## 35.00 64.70 70.40 78.45 92.50
# Percentiles (percentil 90)
quantile(swiss$Fertility, probs = 0.9)
## 90%
## 84.6
# Rango
range(swiss$Fertility)
## [1] 35.0 92.5
# Rango Intercuartílico (IQR)
IQR(swiss$Fertility)
## [1] 13.75
# Desviación estándar muestral
sd(swiss$Fertility)
## [1] 12.4917