Tarea 4

1. Calcula el vector de medias y de medianas para las tres variables de la base de datos acciones. Compara sus ventajas como medidas de centralizacion de estas variables.

#Cargar datos
acciones <- read.csv("C:/Users/Nieves M/Documents/ESTA55503/acciones.csv")
#Vectores
Medianas <- apply(acciones[,-1],2,median)
Medias <- apply(acciones[,-1],2,mean)
Tendencia <- rbind(Medias, Medianas)
round(Tendencia, 2)
##            X1    X2   X3
## Medias   9.42 69.53 9.10
## Medianas 7.05 61.45 7.35

Los resultados obtenidos muestran que no existe una diferencia significativa entre las medias y las medianas de las variables en la base de datos acciones. Esto indica que no hay valores extremos en los datos, lo que sugiere una distribución equilibrada. La media se presenta como una medida adecuada de centralización, ya que toma en cuenta todos los valores del conjunto de datos y proporciona una representación precisa del promedio general. Por otro lado, la mediana, al ser resistente a outliers, también es una buena opción. En este caso la media es preferible para describir el centro de los datos, ya que no se presentan sesgos o valores extremos que puedan distorsionar la interpretación.

2. Se dispone de 3 indicadores economicos \(x_1, x_2, x_3\), que se miden en cuatro paises con los resultados siguientes:

\(x_1\) \(x_2\) \(x_3\)
2 3 -1
1 5 -2
2 2 1
3 3 1

Calcula todas las medidas descriptivas vistas y comenta sobre ellas.

library(e1071)
## Warning: package 'e1071' was built under R version 4.3.3
#Datos
indicadores <- data.frame(
  x1 = c(2, 1, 2, 3),
  x2 = c(3, 5, 2, 3),
  x3 = c(-1, -2, 1, 1)
)

#Medidas descriptivas
medias <- colMeans(indicadores)
medianas <- apply(indicadores, 2, median)
sd_in <- apply(indicadores, 2, sd)
asimetria <- apply(indicadores, 2, skewness)
curtosis <- apply(indicadores, 2, kurtosis)
coef_var <- (sd_in / medias) * 100

#Data frame de medidas descriptivas
medidas_descriptivas <- data.frame(
  Media = round(medias, 2),
  Mediana = round(medianas, 2),
  Desviacion_Estandar = round(sd_in, 2),
  Asimetria = round(asimetria, 2),
  Curtosis = round(curtosis, 2),
  Coeficiente_de_Variacion = round(coef_var, 2)
)

medidas_descriptivas
##    Media Mediana Desviacion_Estandar Asimetria Curtosis
## x1  2.00       2                0.82      0.00    -1.88
## x2  3.25       3                1.26      0.42    -1.82
## x3 -0.25       0                1.50     -0.14    -2.28
##    Coeficiente_de_Variacion
## x1                    40.82
## x2                    38.72
## x3                  -600.00

Media y Mediana: Para los indicadores \(x_1\), \(x_2\), las medias y medianas son muy cercanas, lo cual sugiere que la distribución de los datos es bastante simétrica y no presenta valores extremos. En el caso de \(x_3\), la media y la mediana son diferentes, indicando cierta asimetría en la distribución de los datos.

Desviación Estándar y Coeficiente de Variación: \(x_1\) tiene una desviación estándar de 0.82 y un coeficiente de variación de 40.82%, lo que indica una dispersión moderada alrededor de la media. \(x_2\) presenta una mayor variabilidad con una desviación estándar de 1.26 y un coeficiente de variación de 38.72%. Para \(x_3\), la desviación estándar es la más alta con un 1.50, y el coeficiente de variación es negativo y alto -600%, debido a que la media es muy pequeña y cercana a cero. Este valor extremo indica una alta dispersión en relación con la media.

Asimetría: La asimetría de \(x_1\) es 0, lo que confirma que su distribución es simétrica, \(x_2\) tiene una asimetría positiva de 0.42, sugiriendo un sesgo hacia la derecha. Mientras que, \(x_3\) muestra una asimetría negativa de -0.14, indicando que los datos tienen un sesgo negativo.

Curtosis: Todos los indicadores presentan curtosis negativa, lo cual indica alta heterogeneidad. \(x_1\) y \(x_2\) tienen curtosis similares, -1.88 y -1.82, respectivamente, mientras que \(x_3\) muestra la curtosis más baja de -2.28, lo que sugiere que sus datos están más concentrados alrededor de la media.

3. A partir de los tres indicadores economicos anteriores \(x_1\),\(x_2\),\(x_3\), se construyen dos nuevos indicadores:

\[ y_1= \frac{\ x_1 + x_2 + x_3}{3} \] \[ y_2= x_1 - \frac{\ x_2 + x_3}{2} \] Calcula todas las medidas descriptivas vistas para el vector \[\begin{equation} \begin{array}{c} \mathbf{y} = \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} \end{array} \end{equation}\] y comenta sobre ellas.

#Calcular y_1 y y_2
y1 <- rowMeans(indicadores) 
y2 <- indicadores$x1 - rowMeans(indicadores[, c("x2", "x3")]) 

#Vector y
y <- cbind(y1, y2)

#Medidas descriptivas
media_y <- colMeans(y)
mediana_y <- apply(y, 2, median)
desviacion_y <- apply(y, 2, sd)
coef_var_y <- (desviacion_y / media_y) * 100  
curtosis_y <- apply(y, 2, kurtosis)
asimetria_y <- apply(y, 2, skewness)

#Resultados
medidas_descriptivas_y <- data.frame(
  Media = media_y,
  Mediana = mediana_y,
  Desviacion_Estandar = desviacion_y,
  Coeficiente_Variacion = coef_var_y,
  Curtosis = curtosis_y,
  Asimetria = asimetria_y
)

medidas_descriptivas_y
##       Media Mediana Desviacion_Estandar Coeficiente_Variacion Curtosis
## y1 1.666667    1.50           0.4714045              28.28427   -1.875
## y2 0.500000    0.75           0.7071068             141.42136   -1.875
##     Asimetria
## y1  0.5303301
## y2 -0.5303301

Media: \(y_1\) obtuvo 1.6667, el cual es significativamente mayor que \(y_2\) con 0.5. Esto indica que, en promedio, el indicador \(y_1\) tiene un valor más alto, lo que podría sugerir que el promedio de los indicadores económicos está en un nivel relativamente positivo. La media de \(y_2\) sugiere que, en promedio, la diferencia entre \(x_1\) y el promedio de \(x_2\) y \(x_3\) es baja.

Mediana: La mediana de \(y_1\) es 1.5 y \(y_2\) de 0.75 también respalda lo que se observa con las medias. La mediana de \(y_1\) es mayor, lo que refuerza la idea de que la mayoría de los datos de \(y_1\) son relativamente altos en comparación con \(y_2\). La mediana de \(y_2\) sugiere que más de la mitad de las observaciones son mayores que 0.75, indicando que en ciertos casos \(x_1\) es superior al promedio de \(x_2\) y \(x_3\).

Desviación Estándar: \(y_1\) tiene una desviación estándar más baja de 0.4714, que \(y_2\) con 0.7071, lo que sugiere que los valores de \(y_1\) están más concentrados alrededor de su media, mientras que \(y_2\) tiene una mayor variabilidad. Esto implica que la diferencia entre \(x_1\) y el promedio de \(x_2\) y \(x_3\) es menos predecible.

Coeficiente de Variación: El coeficiente de variación para \(y_2\) es 141.42% el cual es muy alto en comparación con \(y_1\) de 28.28%. Esto indica que la variabilidad relativa de \(y_2\)es muy alta en relación con su media, sugiriendo que \(y_2\) tiene una gran dispersión en comparación con su promedio, lo que puede ser un signo de inestabilidad o falta de consistencia en los datos.

Curtosis: Ambas medidas tienen una curtosis negativa de -1.875, lo que indica que la distribución de los datos es más plana que una distribución normal. Esto sugiere que hay menos valores extremos en comparación con una distribución normal, y que la mayoría de los datos están más concentrados en el centro.

Asimetría: \(y_1\) tiene una asimetría positiva de 0.5303, lo que significa que la cola derecha de la distribución es más larga o está más estirada que la izquierda. Esto indica que hay algunos valores altos que están elevando la media. \(y_2\) tiene una asimetría negativa de -0.5303, lo que indica que la cola izquierda es más larga. Esto sugiere que algunos valores bajos están afectando la media, lo que implica que podría haber algunos casos donde \(x_1\) es significativamente menor que el promedio de \(x_2\) y \(x_3\).