library("readxl")
library("e1071")
library(corrplot)
## corrplot 0.92 loaded
#Primer punto 
casos.v = read_excel("C:/Users/Asus/Documents/Juliana/DATOS/Casos_Vclimaticas_2008_2012.xlsx")

#a 
plot(casos.v$Semana, casos.v$`No. Casos`, type = "h")

plot(casos.v$Semana, casos.v$Temperatura, type = "h")

plot(casos.v$Semana, casos.v$Precipitacion, type = "h")

plot(casos.v$Semana, casos.v$`H. Relativa`, type = "h")

#Al examinar los cuatro conjuntos de datos que incluyen la temperatura, los casos de infección, la precipitación y la superposición de estas variables, se puede notar que existe una correlación baja entre la cantidad de infecciones y las condiciones climáticas. Esta relación se hace evidente al observar la gráfica de casos por sí sola, donde se aprecia un aumento sustancial en los casos entre la semana 100 y la semana 150. Es importante señalar que durante este incremento, las condiciones climáticas que muestran una mayor asociación son la temperatura y los casos, incluso más que la precipitación, la cual no presenta una correlación clara. En otras palabras, hay una correlación entre los casos y las variables climáticas, siendo la temperatura la que muestra una relación más fuerte, mientras que la precipitación no parece estar tan directamente relacionada con los casos.
#b 
casos.1 = casos.v[,c(3,4,5,6)]
covarianza = cov(casos.1)
correlacion = cor(casos.1)
print(covarianza)
##                No. Casos Temperatura Precipitacion H. Relativa
## No. Casos     209.767934    4.490216      3.265368    1.965899
## Temperatura     4.490216    1.048162     -2.068994   -3.624650
## Precipitacion   3.265368   -2.068994     19.598332   13.796566
## H. Relativa     1.965899   -3.624650     13.796566   29.965151
print(correlacion)
##                No. Casos Temperatura Precipitacion H. Relativa
## No. Casos     1.00000000   0.3028193    0.05092759   0.0247961
## Temperatura   0.30281935   1.0000000   -0.45649455  -0.6467609
## Precipitacion 0.05092759  -0.4564946    1.00000000   0.5693158
## H. Relativa   0.02479610  -0.6467609    0.56931579   1.0000000
#Al cotejar los datos obtenidos de las matrices de varianza y correlación, es evidente que ambas ofrecen insights respecto a las conexiones entre las variables en estudio. No obstante, la matriz de varianza puede ser engañosa en algunas ocasiones, llevando a interpretaciones incorrectas y mostrando lo que podría denominarse una 'relación ilusoria'. En contraparte, la matriz de correlación se muestra libre de estos fallos prominentes, estableciéndose así como un instrumento más fiable para evaluar las interacciones entre las variables en cuestión. (La tabla de correlación sirve para validar la coherencia de la solución 1a).
#c
pairs(casos.1)

#Basándonos en los resultados de la matriz de evaluación para analizar los diagramas de dispersión, encontramos que la información es coherente con las correlaciones observadas. Por ejemplo, la relación entre la temperatura y la humedad relativa, que según estudios es inversamente proporcional, muestra un valor de -0.65, evidenciando una tendencia decreciente en el gráfico. Asimismo, la calificación entre la semana y los años es casi perfecta, con un valor de 0.97, indicando una fuerte relación positiva. En contraste, la valoración entre el número de casos y la precipitación es baja, aunque el gráfico respalda la conclusión inicial de que existe una conexión débil entre las variables climáticas y el aumento de casos.Al examinar cada gráfico y su respectivo valor de evaluación, confirmamos que los datos presentados en esta tabla son precisos y reflejan adecuadamente las relaciones entre las variables analizadas.
#Punto 2

# Cargar la hoja de Excel
data_set = read_excel("C:/Users/Asus/Documents/Juliana/DATOS/dat.xlsx", sheet = "data2")

# Análisis univariado
summary_data = summary(data_set)
boxplot_x = boxplot(data_set$X, main = "Diagrama de Cajas de  X")

boxplot_y = boxplot(data_set$Y, main = "Diagrama de Cajas de  Y")

# Análisis bivariado
correlation_coefficient = cor(data_set$Y, data_set$X)
# Crear un gráfico de dispersión
scatter_plot = plot(data_set$X, data_set$Y, main = "Gráfico de Dispersión", xlab = "eje X", ylab = "eje Y")

# Medidas de centralidad
# Variable Y
mean_y = mean(data_set$Y)
median_y = median(data_set$Y)
percentiles_y = quantile(data_set$Y)
# Variable X
mean_x = mean(data_set$X)
median_x = median(data_set$X)
percentiles_x = quantile(data_set$X)

# Medidas de Dispersión
# Variable Y
variance_y = var(data_set$Y)
standard_deviation_y = sd(data_set$Y)
lower_bound_y = mean_y - standard_deviation_y
upper_bound_y = mean_y + standard_deviation_y
range_y = max(data_set$Y) - min(data_set$Y)
interquartile_range_y = IQR(data_set$Y)
mad1_y = mad(data_set$Y, center = mean_y)
mad2_y = mad(data_set$Y)

# Variable X
variance_x = var(data_set$X)
standard_deviation_x = sd(data_set$X)
lower_bound_x = mean_x - standard_deviation_x
upper_bound_x = mean_x + standard_deviation_x
range_x = max(data_set$X) - min(data_set$X)
interquartile_range_x = IQR(data_set$X)
mad1_x = mad(data_set$X, center = mean_x)
mad2_x = mad(data_set$X)

# Medidas de Forma
# Variable Y
skewness_y = skewness(data_set$Y)
kurtosis_y = kurtosis(data_set$Y) # Exceso

# Variable X
skewness_x = skewness(data_set$X)
kurtosis_x = kurtosis(data_set$X)

#Se realiza análisis y se puede comprobar que se tiene una Correlacion baja positiva debido a que el valor de X va aumento ligeramente a medida que el valor de Y incrementa nítidimante. Se considera que la dispersión bivariante no da indicios de linealidad debido a que se mantiene en linea recta y posterior a eso permanece horizontal.
#B

# Coeficiente de correlación de Pearson
pearson_correlation = cor(data_set$X, data_set$Y, method = "pearson")

# Coeficiente de correlación de Kendall
kendall_correlation = cor(data_set$X, data_set$Y, method = "kendall")

# Coeficiente de correlación de Spearman
spearman_correlation = cor(data_set$X, data_set$Y, method = "spearman")

# Matrices para representar las correlaciones
pearson_matrix = cor(data_set, method = "pearson")
colnames(pearson_matrix) = NULL
rownames(pearson_matrix) = NULL

kendall_matrix = cor(data_set, method = "kendall")
colnames(kendall_matrix) = NULL
rownames(kendall_matrix) = NULL

spearman_matrix = cor(data_set, method = "spearman")
colnames(spearman_matrix) = NULL
rownames(spearman_matrix) = NULL


corrplot(pearson_matrix, main = "Pearson", col = )

corrplot(spearman_matrix, main = "Spearman", col = )

corrplot(kendall_matrix, main = "Kendall", col = )

#Se observa que todos los coeficientes de correlacion tienen una correlacion positiva ya que todos los circulos son de color azul. La relación en 1:1 y 2:2 permanecen con una alta intensidad, la cual es estable en los 3 coeficientes de correlacion. De las relaciones 1:2 y 2:1 se puede observar que la intensidad del coeficiente Spearman es mayor que todas y que la intensidad del coeficiente Pearson es la menor
#C
transformed_x = log(data_set$X)

# Crear un nuevo gráfico de dispersión
scatter_plot_transformed = plot(transformed_x, data_set$Y, main = "Dispersión Transformada", xlab = "eje X Transformada", ylab = "eje Y")

#Se utilizo la trasnformacion logaritmica ya que nuestros datos originales tenian una leve dispersión. Tomar el logaritmo de los datos puede convertirlos en una forma más lineal, lo que facilita la identificación de relaciones lineales o tendencias. Ademas reducir la dispersión permite una mejor comparación de los datos y una representación visual más clara.
#D

# Coeficiente de correlación de Pearson después de la transformación
pearson_correlation_transformed = cor(transformed_x, data_set$Y, method = "pearson")

# Coeficiente de correlación de Kendall después de la transformación
kendall_correlation_transformed = cor(transformed_x, data_set$Y, method = "kendall")

# Coeficiente de correlación de Spearman después de la transformación
spearman_correlation_transformed = cor(transformed_x, data_set$Y, method = "spearman")

# Matrices para representar las correlaciones después de la transformación
pearson_matrix_transformed = cor(data_set, method = "pearson")
colnames(pearson_matrix_transformed) = NULL
rownames(pearson_matrix_transformed) = NULL

kendall_matrix_transformed = cor(data_set, method = "kendall")
colnames(kendall_matrix_transformed) = NULL
rownames(kendall_matrix_transformed) = NULL

spearman_matrix_transformed = cor(data_set, method = "spearman")
colnames(spearman_matrix_transformed) = NULL
rownames(spearman_matrix_transformed) = NULL

# - r: El coeficiente de correlación de Pearson ha aumentado significativamente de 0.5203756 a 0.85556 después de la transformación. Esto indica que la relación lineal entre las dos variables se ha fortalecido, y se refleja en el gráfico de dispersión transformado, que muestra una relación lineal más clara.
# - τ: El coeficiente de correlación de Kendall se ha mantenido igual en 0.580776. La correlación de Kendall se centra en el orden relativo de las observaciones y no se ve afectada por la transformación logarítmica de la variable X.
# - ρ: El coeficiente de correlación de Spearman ha disminuido ligeramente de 0.7678330 a 0.7678330 después de la transformación. Esto sugiere que la correlación de Spearman, menos sensible a los valores atípicos, todavía muestra una correlación positiva, pero la relación lineal es menos fuerte después de la transformación.
#E

M = cov(data_set$Y, transformed_x) / var(transformed_x)
B = mean(data_set$Y) - M * mean(transformed_x)

# Para hallar X1
X1 = seq(min(transformed_x), max(transformed_x), length.out = 100)

# Para hallar Y1
Y1 = M * X1 + B

# Crear un gráfico de dispersión de Y* vs X*
scatter_plot_transformed_xy = plot(transformed_x, data_set$Y, main = "Dispersión de Y* con X*", ylab = "Variable Y")

# Agregar el gráfico de Y1 vs X1
points(X1, Y1, col = "red")

# Agregar etiquetas y leyenda
legend("topleft", legend = c("Y* vs X*", "Y1 vs X1"), col = c("blue", "red"), pch = 2)

capital= 100
Ganancia = c(30,25,20,15,10,5)
Probabilidad = c(0.2,0.2,0.3,0.15,0.10,0.05)

op.l = 100 * 0.15
op.ll = sum(Ganancia * Probabilidad)

var = sum((Ganancia - op.ll)^2 * Probabilidad)

var.2 = sum((Ganancia - op.l)^2 * Probabilidad)


# En el contexto de la Opción 2, que involucra un plan de inversión con rendimientos variables y una alta variabilidad de 49.75, se puede observar que los resultados tienden a fluctuar considerablemente. Una variabilidad elevada sugiere que las ganancias pueden experimentar cambios significativos, lo que genera una mayor incertidumbre en relación con los posibles rendimientos. Por otro lado, una variabilidad baja indicaría que los resultados estarían más cerca del rendimiento promedio, lo que implicaría un nivel de riesgo menor. La Opción 2, con su variabilidad relativamente alta de 49.75, señala que las ganancias podrían experimentar cambios notables, lo que conlleva un nivel de riesgo más elevado en comparación con la Opción 1, que garantiza un rendimiento fijo de 15 COP. Por lo tanto, aunque la Opción 2 brinda la oportunidad de obtener ganancias más altas, también implica un mayor nivel de riesgo debido a la mayor variabilidad en los resultados.