En estadística estas medidas sirven para describir el comportamiento que tienen los valores de una variable aleatoria.
Para ilustrar el cálculo de las medidas de resumen, vamos a generar 250 datos aleatorios, normalmente distribuidos con una media de \(\mu=3\) y una desviación estándar de \(\sigma=5\):
X=rnorm(250,mean=3,sd=5)
Y=mfv(1.8968326)
Para calcular la Media aritmética o promedio en Rstudio, utilizamos la función mean:
mediaX=mean(X)
Esto nos lleva a un valor de Media = 3.1181293
Para calcular la Mediana o “el valor de la mitad” en Rstudio, utilizamos la función median:
medianaX=median(X)
Esto nos lleva a un valor de Mediana = 2.8539167.
Para calcular la Moda ó “el valor que mas se repite” en Rstudio, utilizamos la función mfv:
modaX=mfv(X)
Debido a que en este ejemplo ningún valor se repite, todos ellos son un valor de Moda por lo que la Moda es = -8.3329694, -6.4889641, -6.4477791, -6.0273494, -5.92366, -5.8396852, -5.7902182, -5.7081811, -5.1547199, -4.9417267, -4.8567144, -4.6956113, -4.6094497, -4.1620583, -4.1088903, -3.6782315, -3.5279905, -3.5049095, -3.4598936, -3.4420194, -3.1802879, -3.1688641, -2.9081961, -2.8845696, -2.8528698, -2.7476183, -2.6451883, -2.5124026, -2.4200889, -2.4075115, -2.3914138, -2.3507633, -1.9726456, -1.9513917, -1.9323679, -1.9029287, -1.8590362, -1.8255352, -1.7703993, -1.6565034, -1.6020599, -1.5385341, -1.5113328, -1.4781766, -1.3427719, -1.2594582, -1.2293589, -1.1624146, -1.1597749, -1.0216731, -0.9356712, -0.902376, -0.792544, -0.5779291, -0.5389076, -0.5345562, -0.5170883, -0.4949469, -0.3668534, -0.2396504, -0.1723746, -0.1663636, -0.128087, -0.1243367, 0.0543263, 0.0710287, 0.0944149, 0.11794, 0.1542321, 0.180324, 0.1859725, 0.2077722, 0.3129291, 0.3222061, 0.3301829, 0.3752428, 0.3916594, 0.4228184, 0.4516107, 0.5446988, 0.6051008, 0.6087637, 0.7006694, 0.7220571, 0.8228895, 0.8241264, 0.8684498, 0.9905127, 1.0104118, 1.0257111, 1.1335776, 1.4039702, 1.4270577, 1.4554879, 1.5158525, 1.5640718, 1.5739637, 1.6195353, 1.634443, 1.6486214, 1.6580999, 1.6620758, 1.7623812, 1.7873799, 1.8118838, 1.8330665, 1.8562374, 1.9320757, 1.947853, 2.0774169, 2.0888837, 2.1474586, 2.1720796, 2.1728794, 2.2213541, 2.2593847, 2.3974333, 2.4138413, 2.4304071, 2.4598545, 2.5582703, 2.575082, 2.6234876, 2.6327531, 2.8307035, 2.8771299, 2.9342671, 3.0009176, 3.0247341, 3.0811554, 3.1876476, 3.2154117, 3.2319958, 3.2337848, 3.2898327, 3.4671049, 3.4784439, 3.4832592, 3.5303263, 3.5386026, 3.5616502, 3.6343328, 3.6377598, 3.6653565, 3.7441752, 3.8631594, 3.8997265, 3.9393009, 4.0803761, 4.2939873, 4.3321904, 4.3379684, 4.4243939, 4.551742, 4.6494452, 4.6633847, 4.6670864, 4.7276814, 4.7548895, 4.8256645, 4.868846, 4.8920255, 4.9141029, 4.9177966, 4.9545758, 4.9552056, 5.007108, 5.1321738, 5.2117392, 5.2145296, 5.2536782, 5.284094, 5.3041434, 5.3760004, 5.4976281, 5.5304258, 5.5559782, 5.6230372, 5.6596915, 5.7569524, 5.7825134, 5.803216, 6.222677, 6.275747, 6.4174347, 6.4274471, 6.5040509, 6.5348919, 6.5491599, 6.5494829, 6.5616096, 6.5681394, 6.5778592, 6.5814884, 6.594602, 6.6395092, 6.6437915, 6.6633207, 6.6684109, 6.7516346, 6.8584584, 7.0722661, 7.0810195, 7.0861472, 7.1719661, 7.2115136, 7.3352587, 7.4227482, 7.5553693, 7.8214595, 7.8232861, 8.2367193, 8.410799, 8.4264303, 8.7078875, 8.7508002, 9.0170246, 9.04199, 9.1511931, 9.7245179, 9.7493166, 9.8755708, 9.9727283, 10.0949638, 10.0962381, 10.1064208, 10.1408665, 10.1474917, 10.2386422, 10.3039696, 10.3330882, 10.3595222, 10.4945091, 10.5423902, 10.5612749, 10.6081753, 10.9113128, 10.9521876, 11.1133004, 11.1411322, 11.2024537, 11.3599558, 12.1093308, 12.2558611, 12.3801214, 12.5456967, 14.4217465, 14.7391815, 14.9253451, 15.0409315
modaY=mfv(Y)
Para este ejercicio se utilizara como dato de Moda = 1.8968326
Estas medidas, son complementarias a las medidas de tendencia central, ya que miden la “separación promedio” que estos valores tienen con respecto al valor esperado.
La Varianza, representa la variabilidad en una serie de datos, respecto a su media y para calcularla en Rstudio, utilizamos la función var:
varianzaX=var(X)
Esto nos lleva a un valor de Varianza = 22.0653028
La Desviación Estándar, mide la diferencia promedio entre el valor de la media y cada valor de Xi y es equivalente a la raíz cuadrada de la varianza. Para calcularla en Rstudio, utilizamos la función sd:
desvestX=sd(X)
Esto nos lleva a un valor de Desviación Estandar = 4.6973719
La desviación media absoluta (dma), es la suma de las varianzas absolutas entre el numero de datos. Para calcularla en Rstudio, utilizamos la función mad:
dmaX=mad(X)
Esto nos lleva a un valor de dma = 4.9797746
El Rango, es la diferencia entre el valor máximo y el valor mínimo. Para calcular los valores máximo y mínimo en Rstudio utilizamos la función min(X) y max(X)
mínX=min(X)
Esto nos lleva a un valor Mínimo = mínX
máxX=max(X)
Esto nos lleva a un valor Máximo = máxX
Con esto para calcular el Rango utilizamos la función :max(X)-min(X)
rangoX=max(X)- min(X)
Esto nos lleva a un valor de Rango = 23.3739009
De de acuerdo con el Teorema de Chevychev, se realiza el cálculo de los intervalos superior e inferior de los datos. La regla empírica sugiere lo siguiente:
El 68% de los datos pueden ser encontrados en valores que se encuentran entre el intervalo inferior y el superior a 1 desviación estándar distancia µ ± 1σ
Límite inferior del 68% = media(X) – desvestX(X)
Límite superior del 68% = media(X) + desvestX(X)
líminf68=mediaX-desvestX
límsup68=mediaX+desvestX
Esto nos lleva a un
Límite Inferior = -1.5792426
Límite Superiór = 7.8155012
El 95% de los datos se encuentran en un intervalo de µ ± 2σ
Límite inferior del 95% = media(X) – 2desvestX(X)
Límite superior del 95% = media(X) + 2desvestX(X)
líminf95=mediaX-2*desvestX
límsup95=mediaX+2*desvestX
Esto nos lleva a un
Límite Inferior = -6.2766146
Límite Superiór = 12.5128731
Por lo que el intervalo donde se encuentran el 95% de los datos es:
(-6.2766146 < X < 12.5128731)
El 99% de los datos se encuentran en un intervalo de µ ± 3σ
Límite inferior del 99% = media(X) – 3desvestX(X)
Límite superior del 99% = media(X) + 3desvestX(X)
líminf99=mediaX-3*desvestX
límsup99=mediaX+3*desvestX
Esto nos lleva a un
Límite Inferior = -10.9739865
Límite Superiór = 17.210245
Por lo que el intervalo donde se encuentran el 99% de los datos es:
(-10.9739865 < X < 17.210245)
library(e1071)
Este tipo de medida descriptiva le da “forma” a la gráfica de una función de probabilidad.
El término Grados de libertad, hace alusión a la cantidad (n−1) de valores que fluctúan “libremente” o aleatoriamente en la muestra. Para calcularlos en Rstudio utilizamos la función n-1.
Primero se designa la variable n con la longitud de X
n=length(X)
gradlib=n-1
Esto nos lleva a un valor de grados de libertad = 249
Los valores estándar tienen la finalidad de estandarizar u homogeneizar la escala y distribución de los datos de una variable aleatoria x. Para calcularlos en Rstudio utilizamos un valor de la tabla de distribución normal estandarizada para Z
z=qnorm(0.978)
valest=z
Esto nos lleva a un valor estandar = 2.0140908
A continuación realizaremos una gráfica de línea con los 250 valores generados.
variables <- c(1:250)
valores <- X
datos <- data.frame(variables,valores)
ggplot(datos,aes(x=variables, y=valores))+geom_line(colour="orange")+
geom_point(size=.5, shape=10,fill="red", colour="red")+ theme_minimal()
variables <- c(1:250)
valores <- X
datos <- data.frame(variables,valores)
ggplot(datos,aes(x=variables, y=valores))+geom_jitter(colour="orange")+
geom_point(size=2, shape=12,fill="red", colour="orange")+ theme_minimal()
ResumenX=summary.default(X)
ResumenX
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -8.3330 -0.1271 2.8539 3.1181 6.5272 15.0409
-8.3329694, -0.1271494, 2.8539167, 3.1181293, 6.5271817, 15.0409315
Para crear una tabla de resumen en Rstudio, primero tomamos las medidas que conforman nuestro resumen para lo cual utilizaremos la sigiente función:
ResumX<-c(mediaX, medianaX, modaY, varianzaX, desvestX, dmaX, rangoX, líminf99, límsup99, gradlib, valest)
names(ResumX) <-c("media", "mediana", "moda", "varianza", "desv. estandar", "dma", "rango", "lím. inf", "lím. sup", "grados de lib", "valor est" )
stargazer(ResumX, type = "text", align = TRUE)
##
## ==================================================================================================
## media mediana moda varianza desv. estandar dma rango lím. inf lím. sup grados de lib valor est
## --------------------------------------------------------------------------------------------------
## 3.118 2.854 1.897 22.065 4.697 4.980 23.374 -10.974 17.210 249 2.014
## --------------------------------------------------------------------------------------------------