Objetivo

Aplicar el lenguaje estadístico R para analítica de datos. TEMA: Analítica de datos (utilizando RStudio + highcharter).

Descripción

Este taller calificado consiste en realizar un informe estadístico utilizando el conjunto de datos FOREST FIRES.

DESARROLLO

Se carga los datos en R leyendo una URL desde internet y se renombra las variables o columnas.

data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = FALSE)
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')

E s t a d i s t i c a . . .D e s c r i p t i v a . . U n i v a r i a n t e

1) Diagrama de Barra - Variable Month

Paso_1: Se instalo la libreria highcharter.

library(highcharter)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
## Highcharts (www.highcharts.com) is a Highsoft software product which is
## not free for commercial and Governmental use

Paso_2: Cargar la librería y configurar el gráfico con hc_chart(type = "column").

Paso_3: Añadir título al gráfico con la propiedad hc_title. En el eje X, coloco la columna “Month” usando hc_xAxis, y en el eje Y, defino la “Frecuencia”.

Paso4: Utilizar hc_series para agregar los datos y hc_plotOptions para habilitar las etiquetas de datos en las columnas. De esta forma se muestra la frecuencia directamente en el gráfico.

Análisis: Se crea un diagrama de barra usando la columna Month/meses. En esta gráfica podemos ver de manera rápida el mes donde hubo más incendios.

highchart() %>%
  hc_chart(type = "column") %>%
  hc_title(text = "Cantidad De Incendios por Meses") %>%
  hc_xAxis(categories = names(table(data$Month))) %>%
  hc_yAxis(title = list(text = "Frecuencia")) %>%
  hc_series(list(name = "Month", data = as.numeric(table(data$Month)))) %>%
  hc_plotOptions(column = list(dataLabels = list(enabled = TRUE)))

CONCLUSIONES:

1: El gráfico permite visualizar mejor los datos y se detecta que en el mes de Agosto y Septiembre hubo la mayor cantidad de incendios.

2: El gráfico indica una tendencia en el cuarto trimestre (oct-nov-dic) donde hubo la menor cantidad de incendios. En el tercer trimestre (jul-ago-sep) hubo la mayor cantidad de incendios forestales.

2) Diagrama de Barra - Variable Day

Se instalo la libreria highcharter para crear un diagrama de columnas que muestra la distribución de los Day/Días.

library(highcharter)

highchart() %>%
  hc_chart(type = "column") %>%
  hc_title(text = "Cantidad De Incendios por Días") %>%
  hc_xAxis(categories = names(table(data$Day))) %>%
  hc_yAxis(title = list(text = "Frecuencia")) %>%
  hc_series(list(name = "Day", data = as.numeric(table(data$Day)))) %>%
  hc_plotOptions(column = list(dataLabels = list(enabled = TRUE)))

CONCLUSIONES:

1: El gráfico nos indica que los viernes, sabado y domingos son los días con mayor cantidad de incendios forestales, con esta información se deben mejorar los controles los fines de semana para que no sucedan incendios.

2: El gráfico describe un solo conjunto de datos, donde se resume por día la mayor cantidad de incendios y se puede enfocar en campañas de concientización en los días con mayor probabilidad de incendios.

E s t a d i s t i c a . . .D e s c r i p t i v a . . B I V A R I A N T E

1) Diagrama de Dispersión - Variables: Eje_X, Eje_Y

Paso_1: Instalar las librerías necesarias (highcharter y htmltools). Luego, cargar las librerías en R para poder crear gráficos interactivos.

Paso_2: Cargar la base de datos de incendios forestales desde la URL proporcionada utilizando read.csv, y renombré las columnas para facilitar el análisis.

Paso_3: Asegurar que los datos estaban limpios, eliminé cualquier fila con valores faltantes en las columnas relevantes (Eje_X, Eje_Y, Dc, Isi).

Paso_4: Crear los diagramas de dispersión utilizando la librería highcharter.

Análisis: El gráfico muestra la relación entre el eje X (Eje_X) y el eje Y (Eje_Y) de los incendios forestales.

Se configuró el gráfico para que sea interactivo con zoom y se resalto los puntos al pasar el cursor sobre ellos.

# Se debe instalar las librerias: highcharter - htmltools
if (!requireNamespace("highcharter", quietly = TRUE)) {
  install.packages("highcharter")
}

if (!requireNamespace("htmltools", quietly = TRUE)) {
  install.packages("htmltools")
}

# Cargar librerías
library(highcharter)
library(htmltools)

# Comando para cargar los datos en R desde internet
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = TRUE)

# Renombramos las variables o columnas
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')

# Se crea variable para limpiar los datos de las columnas que se van usar en el grafico
data_clean <- na.omit(data[, c('Eje_X', 'Eje_Y', 'Dc', 'Isi')])

# Diagrama de dispersión para Eje_X vs Eje_Y
hc_ejex_ejey <- highchart() %>%
  hc_chart(type = "scatter", zoomType = "xy") %>%
  hc_title(text = "Relación entre el eje de las X - eje de las Y") %>%
  hc_xAxis(title = list(text = "Eje_X")) %>%
  hc_yAxis(title = list(text = "Eje_Y")) %>%
  hc_series(list(
    name = "Incendios",
    data = list_parse2(data.frame(
      x = data_clean$Eje_X,
      y = data_clean$Eje_Y
    )),
    color = "#808b96",
    marker = list(radius = 5)
  )) %>%
  hc_plotOptions(scatter = list(
    marker = list(states = list(
      hover = list(enabled = TRUE, lineColor = 'rgb(100,100,100)', lineWidth = 1)
    )),
    tooltip = list(headerFormat = '<b>{point.x}</b> vs <b>{point.y}</b>')
  ))

# Mostrar el gráfico
hc_ejex_ejey

CONCLUSIONES:

1: Permite visualizar la relación entre las variables Eje_X y Eje_Y. El análisis permite ajustar una línea recta que describe la relación matemática entre los dos ejes.

2: Podemos apreciar que el mayor eje relacionado es el número 9. El eje mínimo es (x 1, Y 2).

2) Diagrama de Dispersión - Variables: DC (Indice de Sequia), ISI (Indice de Propagación)

Análisis: El gráfico ilustra la relación entre el indice de Sequia (DC) y el indice de propagación (ISI) de los incendios forestales. El gráfico es interactivo y facilita la visualización de las relaciones entre las variables.

# Se debe instalar las librerias: highcharter - htmltools
if (!requireNamespace("highcharter", quietly = TRUE)) {
  install.packages("highcharter")
}

if (!requireNamespace("htmltools", quietly = TRUE)) {
  install.packages("htmltools")
}

# Cargar librerías
library(highcharter)
library(htmltools)

# Comando para cargar los datos en R desde internet
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = TRUE)

# Renombramos las variables o columnas
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')

# Se crea variable para limpiar los datos de las columnas que se van usar en el grafico
data_clean <- na.omit(data[, c('Eje_X', 'Eje_Y', 'Dc', 'Isi')])


# Diagrama de Dispersión - Variables:  DC(Indice de sequia), ISI(Indice de propagación)
hc_diameter_weight <- highchart() %>%
  hc_chart(type = "scatter", zoomType = "xy") %>%
  hc_title(text = "Relación entre Indice de Sequia e Indice Propagación") %>%
  hc_xAxis(title = list(text = "Indice sequedad en las capas del suelo")) %>%
  hc_yAxis(title = list(text = "Indice de velocidad de propagación inicial")) %>%
  hc_series(list(
    name = "Incendio",
    data = list_parse2(data.frame(
      x = data_clean$Dc,
      y = data_clean$Isi
    )),
    color = "#f39c12",
    marker = list(radius = 5)
  )) %>%
  hc_plotOptions(scatter = list(
    marker = list(states = list(
      hover = list(enabled = TRUE, lineColor = 'rgb(100,100,100)', lineWidth = 1)
    )),
    tooltip = list(headerFormat = '<b>{point.x}</b> vs <b>{point.y}</b>')
  ))

# Mostrar el gráfico
hc_diameter_weight

CONCLUSIONES:

1: La relación entre los índices de sequedad en las capas más profundas del suelo forestal y el índice de velocidad de propagación de incendios forestales es crucial para entender cómo las condiciones ambientales influyen en la extensión y severidad de los incendios.

2: Los resultados arrojan que la relación entre los indices de sequedad esta entre 600 a 800 DC. La concentración en el indice de velocidad propagación se encuentran entre (0,10).

Estadistica Descriptiva - M U L T I V A R I A N T E

1) Matriz4x4 Diagramas Dispersión

Paso_1: Instalar las librerías GGally y corrplot.

Paso_2: cargué las librerías y la base de datos desde la URL proporcionada, renombrando las columnas para facilitar su uso.

Paso_3: Asegurarse que los datos estuvieran limpios, las variables cuantitativas seleccionadas (‘Ffmc’, ‘Dmc’, ‘Dc’, ‘Isi’).

Paso_4: seleccionar las cuatro variables para realizar un análisis más detallado.

Análisis: Este gráfico muestra las relaciones entre cada par de variables, con puntos en la parte superior para observar la dispersión y suavizado en la parte inferior para identificar tendencias. Esta matriz ayuda a visualizar cómo se relacionan entre sí las variables seleccionadas.

# Instalar las librerías necesarias si no están ya instaladas
if (!requireNamespace("GGally", quietly = TRUE)) {
  install.packages("GGally")
}
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
if (!requireNamespace("corrplot", quietly = TRUE)) {
  install.packages("corrplot")
}

# Cargar las librerías
library(GGally)
## Cargando paquete requerido: ggplot2
library(corrplot)
## corrplot 0.92 loaded
# Comando para cargar los datos en R desde internet
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = TRUE)

# Renombramos las variables o columnas
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')


# Limpiar los datos para asegurarse de que no haya NA
data_clean <- na.omit(data[, c('Ffmc', 'Dmc', 'Dc', 'Isi')])

# Seleccionar las cuatro variables cuantitativas de interés
vars <- data_clean[, c('Ffmc', 'Dmc', 'Dc', 'Isi')]

# Crear una matriz de diagramas de dispersión (4x4)
ggpairs(vars, 
        title = "Matriz de Diagramas de Dispersión de 4 Variables",
        upper = list(continuous = "points"),
        lower = list(continuous = "smooth"))

CONCLUSIONES:

1: Estas variables ayudan a entender el comportamiento del fuego en un incendio forestal. El FFMC combinado con el ISI entre 80 y 100 indica que los combustibles finos están muy secos, lo que facilita una rápida propagación del fuego.

2: El DMC entre 0 y 200 mide la mayor humedad en la capa más profunda del suelo. Aunque esto no influye tan directamente en la propagación inicial (ISI) entre 0 y 20, puede tener algún efecto, ya que si el mantillo está seco, podría contribuir a que el fuego sea más persistente.

2) Matriz4x4 gráfica de correlación

Matriz de correlación para estas cuatro variables y utilicé corrplot para crear un gráfico de correlación. Este gráfico muestra las correlaciones entre las variables, con colores representando la fuerza de la relación y los coeficientes de correlación visibles en la gráfica. Esto me permitió evaluar rápidamente las relaciones y la fuerza de asociación entre las variables cuantitativas en mi análisis.

# Calcular la matriz de correlación
cor_matrix <- cor(vars)
# Crear una matriz de correlación (4x4)
corrplot(cor_matrix, 
         method = "color", 
         type = "upper", 
         tl.col = "brown", 
         tl.srt = 15, 
         title = "Matriz de Correlación de 4 Variables",
         addCoef.col = "brown")  # Añadir los coeficientes de correlación a la gráfica

CONCLUSIONES:

1: DMC y DC estan fuertemente correlacionados 0.68 Lo que indica que las condiciones de sequía en capas superficiales y profundas estan relacionadas. Reflejando que a medida que las capas superficiales se secan, las capas más profundas también lo hacen.

2: FFMC y ISI muestra la segunda correlación positiva más fuerte 0.53 Lo que indica que la sequedad de los combustibles finos influye directamente en la propagación inicial del fuego. A medida que aumenta la sequedad también aumenta la velocidad de propagación.