Estadística Descriptiva

Medidas de resúmen

En estadística estas medidas sirven para describir el comportamiento que tienen los valores de una variable aleatoria.

Para ilustrar el cálculo de las medidas de resumen, vamos a generar 250 datos aleatorios, normalmente distribuidos con una media de \(\mu=3\) y una desviación estándar de \(\sigma=5\):

X=rnorm(250,mean=3,sd=5)
Y=mfv(1.8968326)

Media aritmética

Para calcular la Media aritmética o promedio en Rstudio, utilizamos la función mean:

mediaX=mean(X)

Esto nos lleva a un valor de Media = 3.1181293

Mediana

Para calcular la Mediana o “el valor de la mitad” en Rstudio, utilizamos la función median:

medianaX=median(X)

Esto nos lleva a un valor de Mediana = 2.8539167.

Moda

Para calcular la Moda ó “el valor que mas se repite” en Rstudio, utilizamos la función mfv:

modaX=mfv(X)

Debido a que en este ejemplo ningún valor se repite, todos ellos son un valor de Moda por lo que la Moda es = -8.3329694, -6.4889641, -6.4477791, -6.0273494, -5.92366, -5.8396852, -5.7902182, -5.7081811, -5.1547199, -4.9417267, -4.8567144, -4.6956113, -4.6094497, -4.1620583, -4.1088903, -3.6782315, -3.5279905, -3.5049095, -3.4598936, -3.4420194, -3.1802879, -3.1688641, -2.9081961, -2.8845696, -2.8528698, -2.7476183, -2.6451883, -2.5124026, -2.4200889, -2.4075115, -2.3914138, -2.3507633, -1.9726456, -1.9513917, -1.9323679, -1.9029287, -1.8590362, -1.8255352, -1.7703993, -1.6565034, -1.6020599, -1.5385341, -1.5113328, -1.4781766, -1.3427719, -1.2594582, -1.2293589, -1.1624146, -1.1597749, -1.0216731, -0.9356712, -0.902376, -0.792544, -0.5779291, -0.5389076, -0.5345562, -0.5170883, -0.4949469, -0.3668534, -0.2396504, -0.1723746, -0.1663636, -0.128087, -0.1243367, 0.0543263, 0.0710287, 0.0944149, 0.11794, 0.1542321, 0.180324, 0.1859725, 0.2077722, 0.3129291, 0.3222061, 0.3301829, 0.3752428, 0.3916594, 0.4228184, 0.4516107, 0.5446988, 0.6051008, 0.6087637, 0.7006694, 0.7220571, 0.8228895, 0.8241264, 0.8684498, 0.9905127, 1.0104118, 1.0257111, 1.1335776, 1.4039702, 1.4270577, 1.4554879, 1.5158525, 1.5640718, 1.5739637, 1.6195353, 1.634443, 1.6486214, 1.6580999, 1.6620758, 1.7623812, 1.7873799, 1.8118838, 1.8330665, 1.8562374, 1.9320757, 1.947853, 2.0774169, 2.0888837, 2.1474586, 2.1720796, 2.1728794, 2.2213541, 2.2593847, 2.3974333, 2.4138413, 2.4304071, 2.4598545, 2.5582703, 2.575082, 2.6234876, 2.6327531, 2.8307035, 2.8771299, 2.9342671, 3.0009176, 3.0247341, 3.0811554, 3.1876476, 3.2154117, 3.2319958, 3.2337848, 3.2898327, 3.4671049, 3.4784439, 3.4832592, 3.5303263, 3.5386026, 3.5616502, 3.6343328, 3.6377598, 3.6653565, 3.7441752, 3.8631594, 3.8997265, 3.9393009, 4.0803761, 4.2939873, 4.3321904, 4.3379684, 4.4243939, 4.551742, 4.6494452, 4.6633847, 4.6670864, 4.7276814, 4.7548895, 4.8256645, 4.868846, 4.8920255, 4.9141029, 4.9177966, 4.9545758, 4.9552056, 5.007108, 5.1321738, 5.2117392, 5.2145296, 5.2536782, 5.284094, 5.3041434, 5.3760004, 5.4976281, 5.5304258, 5.5559782, 5.6230372, 5.6596915, 5.7569524, 5.7825134, 5.803216, 6.222677, 6.275747, 6.4174347, 6.4274471, 6.5040509, 6.5348919, 6.5491599, 6.5494829, 6.5616096, 6.5681394, 6.5778592, 6.5814884, 6.594602, 6.6395092, 6.6437915, 6.6633207, 6.6684109, 6.7516346, 6.8584584, 7.0722661, 7.0810195, 7.0861472, 7.1719661, 7.2115136, 7.3352587, 7.4227482, 7.5553693, 7.8214595, 7.8232861, 8.2367193, 8.410799, 8.4264303, 8.7078875, 8.7508002, 9.0170246, 9.04199, 9.1511931, 9.7245179, 9.7493166, 9.8755708, 9.9727283, 10.0949638, 10.0962381, 10.1064208, 10.1408665, 10.1474917, 10.2386422, 10.3039696, 10.3330882, 10.3595222, 10.4945091, 10.5423902, 10.5612749, 10.6081753, 10.9113128, 10.9521876, 11.1133004, 11.1411322, 11.2024537, 11.3599558, 12.1093308, 12.2558611, 12.3801214, 12.5456967, 14.4217465, 14.7391815, 14.9253451, 15.0409315

modaY=mfv(Y)

Para este ejercicio se utilizara como dato de Moda = 1.8968326

Medidas de dispersión

Estas medidas, son complementarias a las medidas de tendencia central, ya que miden la “separación promedio” que estos valores tienen con respecto al valor esperado.

Varianza

La Varianza, representa la variabilidad en una serie de datos, respecto a su media y para calcularla en Rstudio, utilizamos la función var:

varianzaX=var(X)

Esto nos lleva a un valor de Varianza = 22.0653028

Desviación estandar

La Desviación Estándar, mide la diferencia promedio entre el valor de la media y cada valor de Xi y es equivalente a la raíz cuadrada de la varianza. Para calcularla en Rstudio, utilizamos la función sd:

desvestX=sd(X)

Esto nos lleva a un valor de Desviación Estandar = 4.6973719

Desviación media absoluta

La desviación media absoluta (dma), es la suma de las varianzas absolutas entre el numero de datos. Para calcularla en Rstudio, utilizamos la función mad:

dmaX=mad(X)

Esto nos lleva a un valor de dma = 4.9797746

Rango

El Rango, es la diferencia entre el valor máximo y el valor mínimo. Para calcular los valores máximo y mínimo en Rstudio utilizamos la función min(X) y max(X)

 mínX=min(X)

Esto nos lleva a un valor Mínimo = mínX

máxX=max(X)

Esto nos lleva a un valor Máximo = máxX

Con esto para calcular el Rango utilizamos la función :max(X)-min(X)

rangoX=max(X)- min(X)

Esto nos lleva a un valor de Rango = 23.3739009

Cálculo de límites

De de acuerdo con el Teorema de Chevychev, se realiza el cálculo de los intervalos superior e inferior de los datos. La regla empírica sugiere lo siguiente:

El 68% de los datos pueden ser encontrados en valores que se encuentran entre el intervalo inferior y el superior a 1 desviación estándar distancia µ ± 1σ

Límite inferior del 68% = media(X) – desvestX(X)

Límite superior del 68% = media(X) + desvestX(X)

líminf68=mediaX-desvestX
límsup68=mediaX+desvestX

Esto nos lleva a un

Límite Inferior = -1.5792426

Límite Superiór = 7.8155012

El 95% de los datos se encuentran en un intervalo de µ ± 2σ

Límite inferior del 95% = media(X) – 2desvestX(X)

Límite superior del 95% = media(X) + 2desvestX(X)

líminf95=mediaX-2*desvestX
límsup95=mediaX+2*desvestX

Esto nos lleva a un

Límite Inferior = -6.2766146

Límite Superiór = 12.5128731

Por lo que el intervalo donde se encuentran el 95% de los datos es: (-6.2766146 < X < 12.5128731)

El 99% de los datos se encuentran en un intervalo de µ ± 3σ

Límite inferior del 99% = media(X) – 3desvestX(X)

Límite superior del 99% = media(X) + 3desvestX(X)

líminf99=mediaX-3*desvestX
límsup99=mediaX+3*desvestX

Esto nos lleva a un

Límite Inferior = -10.9739865

Límite Superiór = 17.210245

Por lo que el intervalo donde se encuentran el 99% de los datos es: (-10.9739865 < X < 17.210245)

library(e1071)

Medidas de forma

Este tipo de medida descriptiva le da “forma” a la gráfica de una función de probabilidad.

Grados de libertad

El término Grados de libertad, hace alusión a la cantidad (n−1) de valores que fluctúan “libremente” o aleatoriamente en la muestra. Para calcularlos en Rstudio utilizamos la función n-1.

Primero se designa la variable n con la longitud de X

n=length(X)

gradlib=n-1

Esto nos lleva a un valor de grados de libertad = 249

Valores estandar

Los valores estándar tienen la finalidad de estandarizar u homogeneizar la escala y distribución de los datos de una variable aleatoria x. Para calcularlos en Rstudio utilizamos un valor de la tabla de distribución normal estandarizada para Z

z=qnorm(0.978)

valest=z

Esto nos lleva a un valor estandar = 2.0140908

Gráfica de línea

A continuación realizaremos una gráfica de línea con los 250 valores generados.

Gráfica 1

variables <- c(1:250)
valores <- X
datos <- data.frame(variables,valores)
ggplot(datos,aes(x=variables, y=valores))+geom_line(colour="orange")+
  geom_point(size=.5, shape=10,fill="red", colour="red")+ theme_minimal()

Grafica 2

variables <- c(1:250)
valores <- X
datos <- data.frame(variables,valores)
ggplot(datos,aes(x=variables, y=valores))+geom_jitter(colour="orange")+
  geom_point(size=2, shape=12,fill="red", colour="orange")+ theme_minimal()

Resumen estadistico

ResumenX=summary.default(X)
ResumenX

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -8.3330 -0.1271  2.8539  3.1181  6.5272 15.0409

-8.3329694, -0.1271494, 2.8539167, 3.1181293, 6.5271817, 15.0409315

Tabla de resumen

Para crear una tabla de resumen en Rstudio, primero tomamos las medidas que conforman nuestro resumen para lo cual utilizaremos la sigiente función:

ResumX<-c(mediaX, medianaX, modaY, varianzaX, desvestX, dmaX, rangoX, líminf99, límsup99, gradlib, valest)

names(ResumX) <-c("media", "mediana", "moda", "varianza", "desv. estandar", "dma", "rango", "lím. inf", "lím. sup", "grados de lib", "valor est" )

stargazer(ResumX, type = "text", align = TRUE)

## 
## ==================================================================================================
## media mediana moda  varianza desv. estandar  dma  rango  lím. inf lím. sup grados de lib valor est
## --------------------------------------------------------------------------------------------------
## 3.118  2.854  1.897  22.065      4.697      4.980 23.374 -10.974   17.210       249        2.014  
## --------------------------------------------------------------------------------------------------

Estadística Descriptiva

Mtra. Esmeralda Dafne Velazquez Herrera

2023-04-17

Medidas de resúmen

Media aritmética

Mediana

Moda

Medidas de dispersión

Varianza

Desviación estandar

Desviación media absoluta

Rango

Cálculo de límites

Medidas de forma

Grados de libertad

Valores estandar

Gráfica de línea

Gráfica 1

Grafica 2

Resumen estadistico

Tabla de resumen