#install.packages("knitr")
library(readxl)
library(corrplot)
library(ggplot2)
library(knitr)
library(e1071)
Dengue_Med = read_excel("Casos_Vclimaticas_2008_2012.xlsx", sheet = "Dengue_Med") # leer la hoja "Dengue_Med"
a). Grafique la serie de casos, la serie de temperatura y la serie de precipitación vs el tiempo (semana)
# Gráfico de dispersión para la serie de casos
ggplot(Dengue_Med, aes(x = Semana, y = `No. Casos`)) +
geom_point() +
labs(x = "Semana", y = "No. de Casos", title = "Serie de Casos de Dengue vs. Tiempo") +
theme(plot.title = element_text(hjust = 0.5))
# Gráfico de líneas para la serie de temperatura
ggplot(Dengue_Med, aes(x = Semana, y = Temperatura)) +
geom_line() +
labs(x = "Semana", y = "Temperatura", title = "Serie de Temperatura vs. Tiempo") +
theme(plot.title = element_text(hjust = 0.5))
# Gráfico de líneas para la serie de precipitación
ggplot(Dengue_Med, aes(x = Semana, y = Precipitacion)) +
geom_line() +
labs(x = "Semana", y = "Precipitación", title = "Serie de Precipitación vs. Tiempo") +
theme(plot.title = element_text(hjust = 0.5))
¿Considera que existe una relación entre la cantidad de infecciones y las variables climáticas? # Respuesta Se establece una relación evidente entre la cantidad de infecciones y la temperatura, ya que un aumento en la temperatura se correlaciona con un incremento en el número de casos. Esto sugiere una relación directamente proporcional entre ambos factores. En contraste, la relación entre la cantidad de infecciones y la precipitación atmosférica no es tan nítida ni fuerte como la mencionada anteriormente.
b). Calcule la matriz de covarianza y la matriz de correlación de estas cuatro variables e interprete detalladamente los valores obtenidos
# Calcular la matriz de covarianza
cov_matrix = cov(Dengue_Med[, c("Semana", "No. Casos", "Temperatura", "Precipitacion")])
# Calcular la matriz de correlación
cor_matrix = cor(Dengue_Med[, c("Semana", "No. Casos", "Temperatura", "Precipitacion")])
# Imprimir la matriz de covarianza
cat("Matriz de Covarianza:\n")
## Matriz de Covarianza:
print(round(cov_matrix, 2))
## Semana No. Casos Temperatura Precipitacion
## Semana 5698.50 -12.16 15.64 -2.58
## No. Casos -12.16 209.77 4.49 3.27
## Temperatura 15.64 4.49 1.05 -2.07
## Precipitacion -2.58 3.27 -2.07 19.60
# Imprimir la matriz de correlación
cat("\nMatriz de Correlación:\n")
##
## Matriz de Correlación:
print(round(cor_matrix, 2))
## Semana No. Casos Temperatura Precipitacion
## Semana 1.00 -0.01 0.20 -0.01
## No. Casos -0.01 1.00 0.30 0.05
## Temperatura 0.20 0.30 1.00 -0.46
## Precipitacion -0.01 0.05 -0.46 1.00
¿Qué relación encuentra entre los valores de covarianza y correlación? # Respuesta Podemos notar que los signos de estos valores se mantienen consistentes en ambas matrices. Además, en relación a la correlación, se confirma lo mencionado previamente: el número de casos infectados y la temperatura están altamente correlacionados, mientras que se descarta cualquier relación significativa con los demás elementos. La covarianza y la correlación son dos medidas estadísticas utilizadas para describir la relación entre dos variables en un conjunto de datos. Sin embargo, difieren en términos de escala y significado.
En su matriz de covarianza, observamos que los valores fuera de la diagonal principal representan las covarianzas entre las variables. Por ejemplo, el valor entre “Semana” y “Temperatura” es 15.64, lo que indica una relación positiva entre estos dos atributos. Sin embargo, dado que los valores no están normalizados, es difícil comparar la fuerza de la relación entre las diferentes variables.
En su matriz de correlación, los valores representan la fuerza y dirección de la relación lineal entre las variables. Por ejemplo, la correlación entre “Temperatura” y “Precipitación” es -0.46, lo que indica una correlación negativa moderada entre estas dos variables.
En resumen, la principal diferencia entre covarianza y correlación radica en la normalización de los valores. La covarianza es una medida sin escala y depende de las unidades de las variables, mientras que la correlación está normalizada y siempre se encuentra en el rango de -1 a 1, lo que facilita la comparación de la fuerza y dirección de la relación entre diferentes pares de variables. c). Grafique la matriz de diagramas de dispersión e interprete el comportamiento de dependencia de variables con los valores de correlación calculados en el ítem anterior.
# Matriz de diagramas de dispersión
pairs(Dengue_Med[, c("Semana", "No. Casos", "Temperatura", "Precipitacion")],
pch = 19)
title("Matriz de Diagramas de Dispersión", line = 3)
data2 = read_excel("dat.xlsx", sheet = "data2") # leer la hoja "data2"
a). Realice un análisis exploratorio tanto univariante como bivariante (Medidas de centralidad, dispersión y forma con su respectiva interpretación)
# Metricas de Centralidad
media = apply(data2, 2, mean)
mediana = apply(data2, 2, median)
MC = rbind(media, mediana)
# Metricas de Dispersión
desv_est = apply(data2, 2, sd)
rang_inter = apply(data2, 2, IQR)
MAD = apply(data2, 2, mad)
MD = rbind(desv_est, rang_inter, MAD)
# Medidas de forma
asimetria = apply(data2, 2, skewness)
curtosis = apply(data2, 2, kurtosis)
MF = rbind(asimetria, curtosis)
total = rbind(MC,MD,MF)
print(total)
## Y X
## media 9.445622 0.07234805
## mediana 10.072134 0.03655172
## desv_est 3.908189 0.09753985
## rang_inter 4.671060 0.09147481
## MAD 3.482079 0.04910179
## asimetria -1.100372 2.94331405
## curtosis 2.422948 13.79555109
# Análisis bivariante
# Correlación entre las variables
correlation = cor(data2$X, data2$Y)
# Vector de medias
medias = colMeans(data2[, c("X", "Y")])
# Gráfico de dispersión para visualizar la relación entre las variables
plot(data2$X, data2$Y, main = "Gráfico de Dispersión X vs. Y", xlab = "Variable X", ylab = "Variable Y")
cat("\nCorrelación entre X y Y:", correlation, "\n")
##
## Correlación entre X y Y: 0.5203756
cat("Vector de medias:(",medias, ")\n")
## Vector de medias:( 0.07234805 9.445622 )
cat("Vector de medianas:(",mediana[2], mediana[1],")\n")
## Vector de medianas:( 0.03655172 10.07213 )
¿Qué puede decir acerca del comportamiento distribucional de cada variable? #Respuesta
Para la variable X: 1. Media y Mediana: La media y la mediana de X están relativamente cerca (0.07234805 y 0.03655172, respectivamente). Esto sugiere que X podría tener una distribución aproximadamente simétrica o poco asimétrica. Sin embargo, la asimetría (aproximadamente -1.100372) indica cierta asimetría negativa, lo que significa que podría haber una cola larga a la izquierda.
Desviación Estándar y Rango Intercuartil: La desviación estándar es relativamente baja (0.09753985), lo que sugiere que los datos de X están concentrados cerca de la media. El rango intercuartil también es relativamente pequeño (0.09147481), lo que respalda esta idea. En conjunto, estos indicadores sugieren una baja dispersión en X.
Curtosis: La curtosis (2.422948) está ligeramente por encima de 3, lo que indica una distribución un poco más puntiaguda (leptocúrtica) que una distribución normal. Esto podría significar que X tiene colas más pesadas en comparación con una distribución normal.
Para la variable Y: 1. Media y Mediana: La media (9.445622) y la mediana (10.072134) de Y están relativamente cercanas, lo que indica una posible simetría en la distribución de Y.
Desviación Estándar y Rango Intercuartil: La desviación estándar es moderadamente alta (3.908189), lo que sugiere una mayor dispersión en los datos de Y. El rango intercuartil (4.671060) también es relativamente amplio, lo que respalda la idea de una mayor variabilidad en Y en comparación con X.
Curtosis: La curtosis (13.79555109) es significativamente mayor que 3, lo que indica una distribución muy puntiaguda (leptocúrtica) con colas pesadas. Esto sugiere que Y podría tener valores extremos más pronunciados que una distribución normal.
En resumen, la variable X parece tener una distribución más concentrada y ligeramente asimétrica, con colas más pesadas en la parte izquierda, mientras que la variable Y parece tener una mayor dispersión, una posible simetría, pero colas muy pesadas, lo que indica una mayor probabilidad de valores extremos. Estas observaciones se basan en las estadísticas proporcionadas y pueden ser útiles para comprender el comportamiento de estas variables en un contexto de análisis de datos.
¿Considera que existe una relación de dependencia entre este par de variables? #Respuesta Para determinar si existe una relación de dependencia entre dos variables, es común examinar la correlación entre ellas. En este caso, la correlación entre las variables X e Y es 0.5203756.
Una correlación positiva, como la que se observa aquí, indica que a medida que los valores de una variable aumentan, es más probable que los valores de la otra variable también aumenten. Sin embargo, la magnitud de la correlación (0.5203756) no es extremadamente alta, lo que significa que la relación no es perfecta.
Dado que la correlación está por encima de cero y no es cercana a 1 (lo que implicaría una relación lineal fuerte), se puede decir que hay una relación de dependencia positiva entre las variables X e Y, pero no es extremadamente fuerte. Esto significa que los valores de X e Y tienden a moverse en la misma dirección, pero otros factores también pueden influir en sus valores.
Es importante recordar que la correlación no implica causalidad. No se puede determinar a partir de la correlación si una variable causa cambios en la otra o si ambas están influenciadas por una tercera variable no considerada. Para establecer relaciones causales, se necesitaría un análisis más detallado y, posiblemente, experimentos controlados.
¿Considera que la dispersión bivariante da indicios de linealidad entre estas variables? Justifique. #Respuesta Para determinar si hay indicios de linealidad los puntos en el gráfico de dispersión deben seguir aproximadamente una forma lineal o una tendencia lineal, esto sería un indicio de linealidad.
Si los puntos de datos están esparcidos de manera uniforme alrededor de una línea recta o si siguen una forma de nube dispersa, esto indicaría una relación no lineal o una dispersión aleatoria.
El valor de correlación (0.5203756) nos informa que tiene una correlación positiva entre X e Y, lo que indica que, en promedio, a medida que los valores de una variable aumentan, los valores de la otra variable tienden a aumentar. Sin embargo, la magnitud de la correlación no es muy alta, lo que significa que la relación no es perfectamente lineal, tal y como se puede observar en la grafica.
b).Calcule los coeficientes de correlación de Pearson, Kendall, Spearman y compárelos
# Coeficiente de correlación de Pearson
cor_pearson = cor(data2$X, data2$Y, method = "pearson")
# Coeficiente de correlación de Kendall
cor_kendall = cor(data2$X, data2$Y, method = "kendall")
# Coeficiente de correlación de Spearman
cor_spearman = cor(data2$X, data2$Y, method = "spearman")
# Imprime los coeficientes de correlación
cat("Coeficiente de correlación de Pearson:", cor_pearson, "\n")
## Coeficiente de correlación de Pearson: 0.5203756
cat("Coeficiente de correlación de Kendall:", cor_kendall, "\n")
## Coeficiente de correlación de Kendall: 0.5807768
cat("Coeficiente de correlación de Spearman:", cor_spearman, "\n")
## Coeficiente de correlación de Spearman: 0.767833
¿Qué puede concluir acerca de estos coeficientes, respecto al gráfico de dispersión? Justifique. #Respuesta 1. Coeficiente de Correlación de Pearson (r = 0.5203756): - El coeficiente de correlación de Pearson se centra en la relación lineal entre dos variables. Un valor positivo de r indica una correlación positiva, lo que significa que a medida que una variable aumenta, la otra tiende a aumentar de manera lineal. - Si el valor de r = 0.5203756 es moderado, pero no muy alto, esto sugiere una relación lineal positiva moderada entre X e Y. En el gráfico de dispersión, esto se traduciría en una tendencia general ascendente en la dispersión de puntos, aunque la relación no es perfectamente lineal.
En conjunto, estos coeficientes indican una correlación positiva entre las variables X e Y. Sin embargo, la elección entre Pearson, Kendall o Spearman depende de la naturaleza de los datos y de los objetivos. El gráfico de dispersión muestra una tendencia ascendente en cierto punto, esto respalda la conclusión de que existe una correlación positiva entre las variables, pero la fuerza y el tipo de correlación pueden variar según el coeficiente utilizado. En este caso, los tres coeficientes respaldan la existencia de una relación positiva entre las variables.
c).De acuerdo al análisis del ítem uno proponga una transformación (raiz, potencia, logarítmica, sinusoidal, etc.) para alguna de las variables con el fin de encontrar un dispersión casi lineal y justifique por qué. Grafique el diagrama de dispersión respectivo.
# Gráfico de dispersión original
plot(data2$X, data2$Y, main = "Gráfico de Dispersión Original", xlab = "Variable X", ylab = "Variable Y")
# Aplica la transformación logarítmica a Y
data2$X_log <- log(data2$X)
# Gráfico de dispersión después de la transformación logarítmica
plot(data2$X_log, data2$Y, main = "Gráfico de Dispersión Después de la Transformación Logarítmica", xlab = "Variable X", ylab = "Log(Y)")
#Respuesta Para encontrar una transformación que haga que la dispersión
entre las variables sea casi lineal, se consideró aplicar una
transformada logarítmica a una de las variables, en este caso, la
variable Y. La razón detrás de esto es que una transformación
logarítmica es útil cuando se sospecha que la relación entre las
variables es de tipo exponencial o de crecimiento/decrecimiento
proporcional.
Justificación:
Dado que el coeficiente de correlación de Pearson aumentó significativamente al aplicar una transformación anterior, es posible que una transformación logarítmica pueda ayudar a linealizar la relación entre las variables. Esto es especialmente útil cuando la relación entre las variables es de tipo multiplicativo. Al aplicar una transformación logarítmica, se puede convertir una relación de multiplicación en una relación aditiva, lo que a menudo resulta en una dispersión más lineal.
d). Calcule los coeficientes de correlación de Pearson, Kendall, Spearman a estos datos transformados y compárelos. ¿Qué puede concluir acerca de estos coeficientes, respecto al gráfico de dispersión? ¿Como cambió el coeficiente de correlación de Pearson al transformar variables?
# Coeficiente de correlación de Pearson
cor_pearson2 = cor(data2$X_log, data2$Y, method = "pearson")
# Coeficiente de correlación de Kendall
cor_kendall2 = cor(data2$X_log, data2$Y, method = "kendall")
# Coeficiente de correlación de Spearman
cor_spearman2 = cor(data2$X_log, data2$Y, method = "spearman")
# Imprime los coeficientes de correlación
cat("Coeficiente de correlación de Pearson:", cor_pearson2, "\n")
## Coeficiente de correlación de Pearson: 0.8555678
cat("Coeficiente de correlación de Kendall:", cor_kendall2, "\n")
## Coeficiente de correlación de Kendall: 0.5807768
cat("Coeficiente de correlación de Spearman:", cor_spearman2, "\n")
## Coeficiente de correlación de Spearman: 0.767833
#Respuesta Comparando estos nuevos coeficientes con los anteriores, podemos hacer varias observaciones:
Coeficiente de Correlación de Pearson (r):
El coeficiente de Pearson aumentó significativamente de 0.5203756 a 0.8555678 al transformar las variables. Un valor de r = 0.8555678 indica una correlación positiva fuerte y más lineal entre las variables X e Y en comparación con el valor anterior. En un gráfico de dispersión, esto implicaría una tendencia lineal ascendente más pronunciada en la dispersión de puntos.
Coeficiente de Correlación de Kendall (τ):
El coeficiente de Kendall se mantuvo constante en 0.5807768. Esto sugiere que la asociación de rangos entre las variables no cambió con la transformación de las variables. El valor positivo de τ indica una relación positiva moderada en términos de rangos.
Coeficiente de Correlación de Spearman (ρ):
El coeficiente de Spearman también se mantuvo constante en 0.767833. Al igual que con Kendall, la asociación de rangos entre las variables no se modificó con la transformación. En resumen, al transformar las variables, el coeficiente de correlación de Pearson aumentó significativamente, lo que sugiere una correlación positiva más fuerte y lineal entre las variables X e Y. En contraste, los coeficientes de correlación de Kendall y Spearman se mantuvieron constantes, ya que se basan en la asociación de rangos y no se ven afectados por la transformación de las variables.
Este aumento en el coeficiente de correlación de Pearson puede deberse a la transformación de las variables, que pudo haber hecho que la relación entre ellas fuera más lineal, lo que se refleja en el valor de Pearson. Sin embargo, es importante recordar que la elección de la transformación y su impacto en los coeficientes de correlación debe evaluarse cuidadosamente en función del contexto y los objetivos del análisis.
e). Denote m = cov(Y ;X) var(X) , b = Y mX y Y1 = mX1 + b (tener presente que Y y Xdenotan las variables transformadas, tal como se obtuvieron en el ítem c) y X1 es una secuencia de números, de tamaño 100, entre el min(X) y el max(X). Realice nuevamente el gráfico de dispersión y agregue a este la gráfica de Y1 vs X1. ¿Qué puede concluir acerca de la aplicabilidad de la covarianza? ¿Qué denotan o significan m y b en términos de los datos? Justifique.
# Calcular m
m <- cov(data2$Y, data2$X_log) / var(data2$X_log)
# Calcular b
b <- mean(data2$Y) - m * mean(data2$X_log)
# Crear una secuencia de valores X1
X1 <- seq(min(data2$X_log), max(data2$X_log), length.out = 100)
# Calcular los valores correspondientes Y1 usando la ecuación de regresión
Y1 <- m * X1 + b
# Gráfico de dispersión original
plot(data2$X_log, data2$Y, main = "Gráfico de Dispersión Original", xlab = "Variable X*", ylab = "Variable Y*")
# Agregar la gráfica de Y1 vs X1
lines(X1, Y1, col = "red")
# Leyendas
legend("topright", legend = c("Y* vs X*", "Y1 vs X1"), col = c("black", "red"), lty = 1)
#Respuesta Lo que podemos concluir es que:
La covarianza se utiliza para calcular la pendiente m de la regresión lineal. En este contexto, m representa cómo Y1 cambia con respecto a X1 y cuánto de ese cambio es explicado por la covarianza entre Y_transformada y X. Un valor de m positivo indica que a medida que X1 aumenta, Y1 tiende a aumentar.
La ordenada al origen b representa el valor esperado de Y1 cuando X1 es igual a cero. En este contexto, b es la diferencia entre la media de Y_transformada y m veces la media de X. b se usa para ajustar la recta de regresión.
El gráfico de dispersión muestra la relación lineal entre Y_transformada y X, con la línea de regresión en rojo. El segundo gráfico muestra la relación entre Y1 y X1, donde Y1 sigue la línea de regresión ajustada. La covarianza y la regresión lineal han sido útiles para modelar la relación entre las variables transformadas y ajustar una línea de regresión.
En resumen, la covarianza, la pendiente m y la ordenada al origen b se utilizan para modelar y ajustar la relación lineal entre las variables. Los gráficos muestran cómo esta relación lineal se aplica tanto a los datos originales transformados (Y_transformada y X) como a nuevos datos (Y1 y X1). La aplicabilidad de la covarianza se demuestra al ajustar la línea de regresión que representa la relación lineal entre las variables.
3.Usted dispone de 100 COP para una inversión de un año. Usted está considerando dos opciones: I) Colocar el dinero en el mercado de valores, lo que le garantiza una ganancia fija anual del 15% y II) Un plan de inversión, cuyo porcentaje de ganancia anual puede considerarse una variable aleatoria que depende de las condiciones económicas.
Con base en información histórica, un analista muy confiable a determinado los posibles valores de la ganancia y el cálculo de sus probabilidades, como se muestra en el Cuadro 1. ¿Cuál de las dos opciones de inversión es la mejor? ¿Qué puede decir acerca de la variabilidad del plan de inversión?
# Definir los valores y probabilidades de ganancia
ganancias <- c(30, 25, 20, 15, 10, 5)
probabilidades <- c(0.2, 0.2, 0.3, 0.15, 0.10, 0.05)
# Calcular el valor esperado de la opción II
valor_esperado_II <- sum(ganancias * probabilidades)
# Valor fijo de la opción I
valor_fijo_I <- 15
# Calcular el valor esperado de la opción II (igual que antes)
valor_esperado_II <- sum(ganancias * probabilidades)
# Calcular la desviación estándar de la opción II
desviacion_estandar_II <- sqrt(sum(probabilidades * (ganancias - valor_esperado_II)^2))
# Valor fijo de la opción I
valor_fijo_I <- 15
# Comparar los valores esperados y las desviaciones estándar
if (valor_fijo_I > valor_esperado_II) {
mensaje <- "La opción de inversión en el mercado de valores es la mejor en términos de valor esperado."
} else if (valor_fijo_I < valor_esperado_II) {
mensaje <- "La opción de inversión en el plan de inversión es la mejor en términos de valor esperado."
} else {
mensaje <- "Ambas opciones tienen el mismo valor esperado."
}
# Comparar las desviaciones estándar
if (desviacion_estandar_II > 0) {
if (valor_fijo_I < valor_esperado_II) {
mensaje_variabilidad <- "Sin embargo, la opción de inversión en el plan de inversión es más variable en términos de ganancias."
} else if (valor_fijo_I > valor_esperado_II) {
mensaje_variabilidad <- "Sin embargo, la opción de inversión en el mercado de valores es menos variable en términos de ganancias."
} else {
mensaje_variabilidad <- "Ambas opciones tienen la misma variabilidad en términos de ganancias."
}
} else {
mensaje_variabilidad <- "La opción de inversión en el plan de inversión tiene variabilidad cero (ganancia fija)."
}
cat("Valor Esperado de la Opción I (Mercado de Valores):", valor_fijo_I, "\n")
## Valor Esperado de la Opción I (Mercado de Valores): 15
cat("Valor Esperado de la Opción II (Plan de Inversión):", valor_esperado_II, "\n")
## Valor Esperado de la Opción II (Plan de Inversión): 20.5
cat(mensaje, "\n")
## La opción de inversión en el plan de inversión es la mejor en términos de valor esperado.
cat("Desviación Estándar de la Opción II (Plan de Inversión):", desviacion_estandar_II, "\n")
## Desviación Estándar de la Opción II (Plan de Inversión): 7.053368
cat(mensaje_variabilidad)
## Sin embargo, la opción de inversión en el plan de inversión es más variable en términos de ganancias.