CARGAMOS LIBRERIAS

library(ggplot2) #paquete de gráficas
library(tidyverse) #Paquete que nos ayuda a ocnectar con más paquetes
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ lubridate 1.9.2     ✔ tibble    3.2.1
## ✔ purrr     1.0.1     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(rmarkdown) #paquete que nos ayuda a cargar un  informrte en HTTML, word, etc
library(skimr) #para variables estadisticas
library(dplyr) #para editar los datos
library(janitor) #funciones para la limpieza de datos
## 
## Attaching package: 'janitor'
## 
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
library("here")  #Este paquete facilita la consulta de los archivos
## here() starts at C:/Users/moren/OneDrive/Documents
library(readr) #para leer datos
library(data.table) #proporciona una forma eficiente y rápida de manipular y analizar grandes conjuntos de datos. 
## 
## Attaching package: 'data.table'
## 
## The following objects are masked from 'package:lubridate':
## 
##     hour, isoweek, mday, minute, month, quarter, second, wday, week,
##     yday, year
## 
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## 
## The following object is masked from 'package:purrr':
## 
##     transpose
library(nortest) #proporciona funciones para realizar pruebas de normalidad en datos univariados y multivariados.
library(energy) # realizar pruebas de bondad de ajuste y pruebas de independencia en datos multivariados. 
library(MVN)

CARGAMOS LOS DATOS A ANALIZAR

 paneles <- read_csv("C:/Users/moren/OneDrive/Escritorio/paneles.csv")
## Rows: 100 Columns: 10
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (4): Tamano(m), Ubicacion, Inclinacion, Panel Solar2
## dbl (6): Panel Solar, Precio (MXN), Potencia de Salida (W), Tamano casa (m2,...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
  View(paneles)

SELECIONAMOS LOS DATOS QUE VAMOS A UTILZIAR

  data_corre <- paneles[, c("Precio (MXN)", "Potencia de Salida (W)" )]
  data_corre
## # A tibble: 100 × 2
##    `Precio (MXN)` `Potencia de Salida (W)`
##             <dbl>                    <dbl>
##  1           1929                     2500
##  2          19747                     2300
##  3            459                     5200
##  4          41189                     5500
##  5           1844                     2400
##  6          15296                     2200
##  7           4797                     5300
##  8         127268                    10200
##  9         136822                    11600
## 10          14244                    11300
## # ℹ 90 more rows

CALCULAMOS LA MATRIZ DE CORRELACIÓN ENTRE ESTAS DOS VARIABLES

# Calcular la matriz de correlación
  correlation_matrix <- cor(data_corre)

# Mostrar la matriz de correlación
  print(correlation_matrix)
##                        Precio (MXN) Potencia de Salida (W)
## Precio (MXN)              1.0000000              0.6349476
## Potencia de Salida (W)    0.6349476              1.0000000

Mostramos el gráfico de la matriz de Correlación

# Calcular la matriz de correlación
correlation_matrix <- cor(data_corre)

# Graficar la matriz de correlación
heatmap(correlation_matrix, 
        xlab = "Variables", 
        ylab = "Variables", 
        main = "Matriz de Correlación")

El coeficiente de correlación entre “Precio (MXN)” y “Potencia de Salida (W)” es de 0.6349476. Este valor indica una correlación positiva moderada entre estas dos variables.

Una correlación positiva significa que a medida que una variable aumenta, la otra también tiende a aumentar. En este caso, la correlación de 0.6349476 indica que existe una relación moderada entre el precio del panel solar y su potencia de salida: a medida que el precio aumenta, la potencia de salida también tiende a aumentar, pero no de manera perfectamente proporcional.

GRAFICAMOS APRA VISUALIZAR LOS DATOS Y SU CORRELACIÓN

  # Graficar la relación entre Precio (MXN) y Potencia de Salida (W)
  plot(data_corre$`Precio (MXN)`, data_corre$`Potencia de Salida (W)`, 
       xlab = "Precio (MXN)", ylab = "Potencia de Salida (W)",
       main = "Relación entre Precio y Potencia")

Ponemos color a las etiquetas para visualizar de mejor manera

    # Graficamos la relación entre Precio (MXN) y Potencia de Salida (W) 
    plot(data_corre$`Precio (MXN)`, data_corre$`Potencia de Salida (W)`,
         xlab = "Precio (MXN)", ylab = "Potencia de Salida (W)",
         main = "Relación entre Precio y Potencia",
         type = "n")
  
  # Agregamos puntos coloreados
  points(data_corre$`Precio (MXN)`, data_corre$`Potencia de Salida (W)`,
         col = c("blue", "red"), pch = 16)
  
  # Agregamos etiquetas fuera del gráfico para poder diferenciar los datos que tenemos 
  text(x = max(data_corre$`Precio (MXN)`) + 100, 
       y = data_corre$`Potencia de Salida (W)`,
       labels = c("Precio (MXN)", "Potencia de Salida (W)"), 
       pos = 4)
  
  # Agregamos un titulo 
  legend("topright", legend = c("Precio (MXN)", "Potencia de Salida (W)"),
         col = c("blue", "red"), pch = 16, cex = 0.8, bty = "n")

# CALCULAMOS LA MATRIZ DE COVARIANZA

data_cov<- paneles[, c("Precio (MXN)", "Potencia de Salida (W)", "Tamano casa (m2")]
data_cov
## # A tibble: 100 × 3
##    `Precio (MXN)` `Potencia de Salida (W)` `Tamano casa (m2`
##             <dbl>                    <dbl>             <dbl>
##  1           1929                     2500              31  
##  2          19747                     2300              33.5
##  3            459                     5200              47.2
##  4          41189                     5500              49.8
##  5           1844                     2400              32.1
##  6          15296                     2200              36.7
##  7           4797                     5300              46.5
##  8         127268                    10200              72.6
##  9         136822                    11600              65.9
## 10          14244                    11300              68.7
## # ℹ 90 more rows
mat_cov <- cov(data_cov)
mat_cov
##                        Precio (MXN) Potencia de Salida (W) Tamano casa (m2
## Precio (MXN)           2188359695.6           114973728.25     478501.5388
## Potencia de Salida (W)  114973728.3            14983138.73      52917.5361
## Tamano casa (m2            478501.5               52917.54        258.9767

Gráfica de matriz de covarianza

# Graficar la matriz de covarianza
heatmap(mat_cov, 
      xlab = "Variables", 
      ylab = "Variables", 
      main = "Matriz de Covarianza")

Interpretación

Al graficar esta matriz de covarianza utilizando un mapa de calor, los colores más oscuros se asignarán a los valores más altos, y los colores más claros se asignarán a los valores más bajos. Esto te permitirá identificar visualmente las magnitudes de las covarianzas entre las variables.

Varianza del precio: El valor de varianza para el precio indica la variabilidad de los precios de los paneles solares en moneda mexicana. El valor de aproximadamente 2,188,359,696 sugiere que los precios de los paneles solares tienen una amplia variabilidad en el conjunto de datos.

Varianza de la potencia de salida: La varianza de la potencia de salida en vatios, aproximadamente 14,983,139, indica la variabilidad en los niveles de potencia que proporcionan los paneles solares. Esto sugiere que hay una diversidad en los niveles de potencia de salida entre los paneles solares.

Varianza del tamaño de la casa: La varianza del tamaño de la casa en metros cuadrados, aproximadamente 258.9767, indica la variabilidad en el tamaño de las casas en el conjunto de datos. Esto puede reflejar diferentes tamaños y configuraciones de las casas donde se instalan los paneles solares.

Covarianza entre el precio y la potencia de salida: El valor de aproximadamente 114,973,728.25 indica una relación de covariación entre el precio de los paneles solares y su potencia de salida. Esto significa que a medida que el precio tiende a aumentar o disminuir, la potencia de salida también tiende a cambiar en consecuencia. Puede haber una tendencia en la que los paneles solares más costosos tiendan a tener una mayor potencia de salida, o viceversa.

Covarianza entre el precio y el tamaño de la casa: El valor de aproximadamente 478,501.5388 indica una relación de covariación entre el precio de los paneles solares y el tamaño de la casa donde se instalan. Esto sugiere que a medida que el precio tiende a aumentar o disminuir, el tamaño de la casa también tiende a cambiar en consecuencia. Es posible que los paneles solares más costosos estén asociados con casas más grandes, o viceversa.

Covarianza entre la potencia de salida y el tamaño de la casa: El valor de aproximadamente 52,917.5361 indica una relación de covariación entre la potencia de salida de los paneles solares y el tamaño de la casa. Esto sugiere que a medida que la potencia de salida tiende a aumentar o disminuir, el tamaño de la casa también tiende a cambiar en consecuencia. Es posible que las casas más grandes tiendan a tener una mayor potencia de salida de los paneles solares, o viceversa.

MATRIZ DE CORRELACIÓN

# Calculamos la matriz de correlación
mat_corr <- cor(data_cov)
mat_corr
##                        Precio (MXN) Potencia de Salida (W) Tamano casa (m2
## Precio (MXN)              1.0000000              0.6349476       0.6356143
## Potencia de Salida (W)    0.6349476              1.0000000       0.8495088
## Tamano casa (m2           0.6356143              0.8495088       1.0000000

Graficamos

# Graficar la matriz de correlación
heatmap(mat_corr, 
        xlab = "Variables", 
        ylab = "Variables", 
        main = "Matriz de Correlación")

Al graficar esta matriz de correlación utilizando un mapa de calor, los colores más oscuros se asignarán a los valores cercanos a -1 o 1, y los colores más claros se asignarán a los valores cercanos a 0. Esto te permitirá identificar visualmente las relaciones y magnitudes de las correlaciones entre las variables.

En este caso, los valores en la matriz de correlación están cerca de 1, lo que sugiere una correlación positiva fuerte entre las variables. El color oscuro en los cuadros correspondientes a estas correlaciones indica que son significativas y pueden ser consideradas como una relación positiva fuerte.

Correlación entre “Precio (MXN)” y “Potencia de Salida (W)”: El valor de 0.6349476 indica una correlación positiva moderada entre el precio y la potencia de salida de los paneles solares. Esto sugiere que a medida que el precio tiende a aumentar, la potencia de salida también tiende a aumentar, y viceversa. Sin embargo, no es una correlación perfecta, lo que significa que otros factores también pueden influir en la relación.

Correlación entre “Precio (MXN)” y “Tamaño de la casa (m2)”: El valor de 0.6356143 indica una correlación positiva moderada entre el precio de los paneles solares y el tamaño de la casa donde se instalan. Esto sugiere que a medida que el precio tiende a aumentar, el tamaño de la casa también tiende a aumentar, y viceversa. Sin embargo, nuevamente, no es una correlación perfecta y pueden haber otros factores que influyen en la relación.

Correlación entre “Potencia de Salida (W)” y “Tamaño de la casa (m2)”: El valor de 0.8495088 indica una correlación positiva fuerte entre la potencia de salida de los paneles solares y el tamaño de la casa. Esto sugiere que a medida que la potencia de salida tiende a aumentar, el tamaño de la casa también tiende a aumentar, y viceversa. La correlación es más fuerte en este caso en comparación con las otras dos correlaciones.

INVERSA DE LA MATRIZ DE COVARIANZA

# Calculamos la inversa de la matriz de covarianza
inv_cov <- solve(mat_corr)
inv_cov
##                        Precio (MXN) Potencia de Salida (W) Tamano casa (m2
## Precio (MXN)              1.7743774             -0.6055439      -0.6134047
## Potencia de Salida (W)   -0.6055439              3.7994494      -2.8427732
## Tamano casa (m2          -0.6134047             -2.8427732       3.8048495

Graficamos la inversa como un mapa de calor

# Graficamos la matriz inversa como un mapa de calor
heatmap(inv_cov, 
        xlab = "Variables", 
        ylab = "Variables", 
        main = "Matriz Inversa de Covarianza")

Los valores más negativos representan correlaciones inversas más fuertes, mientras que los valores más cercanos a cero indican correlaciones inversas más débiles o ninguna correlación.

Relación inversa entre “Precio (MXN)” y “Precio (MXN)”: El valor de 1.7743774 indica que hay una relación inversa entre el precio de los paneles solares y sí mismo. Esto es esperado, ya que la diagonal principal de la matriz de covarianza es la varianza de cada variable, y la inversa de la varianza es su recíproco.

Relación inversa entre “Potencia de Salida (W)” y “Precio (MXN)”: El valor de -0.6055439 indica una relación inversa entre la potencia de salida de los paneles solares y su precio. Esto significa que a medida que el precio tiende a aumentar, la potencia de salida tiende a disminuir, y viceversa.

Relación inversa entre “Tamaño de la casa (m2)” y “Precio (MXN)”: El valor de -0.6134047 indica una relación inversa entre el tamaño de la casa donde se instalan los paneles solares y su precio. Esto sugiere que a medida que el precio tiende a aumentar, el tamaño de la casa tiende a disminuir, y viceversa.

Relación inversa entre “Precio (MXN)” y “Potencia de Salida (W)”: El valor de -0.6055439 indica una relación inversa entre el precio de los paneles solares y su potencia de salida. Esto significa que a medida que el precio tiende a aumentar, la potencia de salida tiende a disminuir, y viceversa.

Relación inversa entre “Potencia de Salida (W)” y “Tamaño de la casa (m2)”: El valor de 3.7994494 indica una relación inversa entre la potencia de salida de los paneles solares y el tamaño de la casa donde se instalan. Esto sugiere que a medida que la potencia de salida tiende a aumentar, el tamaño de la casa tiende a disminuir, y viceversa.

Relación inversa entre “Tamaño de la casa (m2)” y “Tamaño de la casa (m2)”: El valor de 3.8048495 indica que hay una relación inversa entre el tamaño de la casa y sí mismo. Esto es esperado, ya que la diagonal principal de la matriz de covarianza es la varianza de cada variable, y la inversa de la varianza es su recíproco.

INVERSA DE LA MATRIZ DE CORRELACIÓN

# Calculamos la inversa de la matriz de correlación
inv_corr <- solve(mat_corr)
inv_corr
##                        Precio (MXN) Potencia de Salida (W) Tamano casa (m2
## Precio (MXN)              1.7743774             -0.6055439      -0.6134047
## Potencia de Salida (W)   -0.6055439              3.7994494      -2.8427732
## Tamano casa (m2          -0.6134047             -2.8427732       3.8048495

Graficamos la inversa de correlación

# Graficamos la matriz inversa de correlación como un mapa de calor
heatmap(inv_corr,
        xlab = "Variables",
        ylab = "Variables",
        main = "Matriz Inversa de Correlación")

Los colores más oscuros representarán correlaciones inversas más fuertes, mientras que los colores más claros indicarán correlaciones inversas más débiles o cercanas a cero.

Relación inversa entre “Precio (MXN)” y “Precio (MXN)”: El valor de 1.0000000 indica una correlación inversa perfecta entre el precio de los paneles solares y sí mismo. Esto es esperado, ya que la diagonal principal de la matriz de correlación es siempre 1.

Relación inversa entre “Potencia de Salida (W)” y “Precio (MXN)”: El valor de 0.6349476 indica una correlación inversa moderada entre la potencia de salida de los paneles solares y su precio. Esto sugiere que a medida que el precio tiende a aumentar, la potencia de salida tiende a disminuir, y viceversa.

Relación inversa entre “Tamano casa (m2)” y “Precio (MXN)”: El valor de -0.6134047 indica una correlación inversa moderada entre el tamaño de la casa donde se instalan los paneles solares y su precio. Esto sugiere que a medida que el precio tiende a aumentar, el tamaño de la casa tiende a disminuir, y viceversa.

Relación inversa entre “Precio (MXN)” y “Potencia de Salida (W)”: El valor de 0.6349476 indica una correlación inversa moderada entre el precio de los paneles solares y su potencia de salida. Esto sugiere que a medida que el precio tiende a aumentar, la potencia de salida tiende a disminuir, y viceversa.

Relación inversa entre “Potencia de Salida (W)” y “Tamano casa (m2)”: El valor de -2.8427732 indica una correlación inversa fuerte entre la potencia de salida de los paneles solares y el tamaño de la casa donde se instalan. Esto sugiere que a medida que la potencia de salida tiende a aumentar, el tamaño de la casa tiende a disminuir, y viceversa.

Relación inversa entre “Tamano casa (m2)” y “Tamano casa (m2)”: El valor de 3.8048495 indica una correlación inversa perfecta entre el tamaño de la casa y sí mismo. Esto es esperado, ya que la diagonal principal de la matriz de correlación es siempre 1.

PRUEBA DE HIPÓTESIS

Planteamiento de hipótesis:

Hipótesis nula (H0): La media de los precios es igual a un valor específico. Hipótesis alternativa (H1): La media de los precios es diferente de ese valor específico. Selección del nivel de significancia (alfa): El nivel de significancia representa el umbral para rechazar la hipótesis nula. Por ejemplo, si seleccionamos alfa = 0.05, estamos dispuestos a aceptar un 5% de probabilidad de cometer un error de tipo I al rechazar incorrectamente la hipótesis nula.

Realización de la prueba:

Selecciona la función de prueba estadística adecuada según la naturaleza de los datos y la hipótesis planteada. En este caso, si los datos siguen una distribución normal y conocemos la desviación estándar poblacional, podemos utilizar la prueba t de Student. Calcula el valor del estadístico de prueba y el correspondiente valor p. Toma de decisión:

Compara el valor p obtenido con el nivel de significancia alfa. Si el valor p es menor que alfa, se rechaza la hipótesis nula. En caso contrario, no se tiene suficiente evidencia para rechazarla.

# Realizar la prueba de hipótesis
result <- t.test(mat_corr[,"Precio (MXN)"], mu = 10000)

# Imprimir los resultados
print(result)
## 
##  One Sample t-test
## 
## data:  mat_corr[, "Precio (MXN)"]
## t = -82249, df = 2, p-value = 1.478e-10
## alternative hypothesis: true mean is not equal to 10000
## 95 percent confidence interval:
##  0.2337668 1.2799411
## sample estimates:
## mean of x 
## 0.7568539

INTERPRETACIÓN

  • Valor t: -82249
  • Grados de libertad (df): 2
  • Valor p: 1.478e-10 (p-value)
  • Hipótesis alternativa: la media verdadera no es igual a 10000

El valor t es extremadamente bajo, lo que indica una diferencia significativa entre la media observada y la hipótesis nula de 10000. El valor p es muy pequeño (1.478e-10), lo cual sugiere una fuerte evidencia en contra de la hipótesis nula. Esto implica que la media verdadera de los precios no es igual a 10000. La hipótesis alternativa indica que la media verdadera es diferente de 10000, lo cual se refuerza por el valor p obtenido. El intervalo de confianza del 95% para la media está dado por 0.2337668 y 1.2799411. Esto significa que podemos estar 95% seguros de que la media verdadera de los precios se encuentra dentro de este rango. En resumen, con base en el resultado de la prueba de hipótesis, podemos concluir que hay suficiente evidencia para rechazar la hipótesis nula de que la media de los precios es igual a 10000. Esto sugiere que la media verdadera de los precios es diferente de 10000 y está probablemente en el rango de 0.2337668 a 1.2799411.