Aplicar el lenguaje estadístico R para analítica de datos. TEMA: Analítica de datos (utilizando RStudio + highcharter).
Este taller calificado consiste en realizar un informe estadístico utilizando el conjunto de datos FOREST FIRES.
Se carga los datos en R leyendo una URL desde internet y se renombra las variables o columnas.
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = FALSE)
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')
Paso_1: Se instalo la libreria highcharter.
library(highcharter)
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
## Highcharts (www.highcharts.com) is a Highsoft software product which is
## not free for commercial and Governmental use
Paso_2: Cargar la librería y configurar el gráfico con
hc_chart(type = "column").
Paso_3: Añadir título al gráfico con la propiedad
hc_title. En el eje X, coloco la columna “Month” usando
hc_xAxis, y en el eje Y, defino la “Frecuencia”.
Paso4: Utilizar hc_series para agregar los datos y
hc_plotOptions para habilitar las etiquetas de datos en las
columnas. De esta forma se muestra la frecuencia directamente en el
gráfico.
Análisis: Se crea un diagrama de barra usando la columna Month/meses. En esta gráfica podemos ver de manera rápida el mes donde hubo más incendios.
highchart() %>%
hc_chart(type = "column") %>%
hc_title(text = "Cantidad De Incendios por Meses") %>%
hc_xAxis(categories = names(table(data$Month))) %>%
hc_yAxis(title = list(text = "Frecuencia")) %>%
hc_series(list(name = "Month", data = as.numeric(table(data$Month)))) %>%
hc_plotOptions(column = list(dataLabels = list(enabled = TRUE)))
CONCLUSIONES:
1: El gráfico permite visualizar mejor los datos y se detecta que en el mes de Agosto y Septiembre hubo la mayor cantidad de incendios.
2: El gráfico indica una tendencia en el cuarto trimestre (oct-nov-dic) donde hubo la menor cantidad de incendios. En el tercer trimestre (jul-ago-sep) hubo la mayor cantidad de incendios forestales.
Se instalo la libreria highcharter para crear un
diagrama de columnas que muestra la distribución de los Day/Días.
library(highcharter)
highchart() %>%
hc_chart(type = "column") %>%
hc_title(text = "Cantidad De Incendios por Días") %>%
hc_xAxis(categories = names(table(data$Day))) %>%
hc_yAxis(title = list(text = "Frecuencia")) %>%
hc_series(list(name = "Day", data = as.numeric(table(data$Day)))) %>%
hc_plotOptions(column = list(dataLabels = list(enabled = TRUE)))
CONCLUSIONES:
1: El gráfico nos indica que los viernes, sabado y domingos son los días con mayor cantidad de incendios forestales, con esta información se deben mejorar los controles los fines de semana para que no sucedan incendios.
2: El gráfico describe un solo conjunto de datos, donde se resume por día la mayor cantidad de incendios y se puede enfocar en campañas de concientización en los días con mayor probabilidad de incendios.
Paso_1: Instalar las librerías necesarias (highcharter y
htmltools). Luego, cargar las librerías en R para poder
crear gráficos interactivos.
Paso_2: Cargar la base de datos de incendios forestales desde la URL
proporcionada utilizando read.csv, y renombré las columnas
para facilitar el análisis.
Paso_3: Asegurar que los datos estaban limpios, eliminé cualquier
fila con valores faltantes en las columnas relevantes
(Eje_X, Eje_Y, Dc,
Isi).
Paso_4: Crear los diagramas de dispersión utilizando la librería
highcharter.
Análisis: El gráfico muestra la relación entre el eje X
(Eje_X) y el eje Y (Eje_Y) de los incendios
forestales.
Se configuró el gráfico para que sea interactivo con zoom y se resalto los puntos al pasar el cursor sobre ellos.
# Se debe instalar las librerias: highcharter - htmltools
if (!requireNamespace("highcharter", quietly = TRUE)) {
install.packages("highcharter")
}
if (!requireNamespace("htmltools", quietly = TRUE)) {
install.packages("htmltools")
}
# Cargar librerías
library(highcharter)
library(htmltools)
# Comando para cargar los datos en R desde internet
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = TRUE)
# Renombramos las variables o columnas
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')
# Se crea variable para limpiar los datos de las columnas que se van usar en el grafico
data_clean <- na.omit(data[, c('Eje_X', 'Eje_Y', 'Dc', 'Isi')])
# Diagrama de dispersión para Eje_X vs Eje_Y
hc_ejex_ejey <- highchart() %>%
hc_chart(type = "scatter", zoomType = "xy") %>%
hc_title(text = "Relación entre el eje de las X - eje de las Y") %>%
hc_xAxis(title = list(text = "Eje_X")) %>%
hc_yAxis(title = list(text = "Eje_Y")) %>%
hc_series(list(
name = "Incendios",
data = list_parse2(data.frame(
x = data_clean$Eje_X,
y = data_clean$Eje_Y
)),
color = "#808b96",
marker = list(radius = 5)
)) %>%
hc_plotOptions(scatter = list(
marker = list(states = list(
hover = list(enabled = TRUE, lineColor = 'rgb(100,100,100)', lineWidth = 1)
)),
tooltip = list(headerFormat = '<b>{point.x}</b> vs <b>{point.y}</b>')
))
# Mostrar el gráfico
hc_ejex_ejey
CONCLUSIONES:
1: Permite visualizar la relación entre las variables Eje_X y Eje_Y. El análisis permite ajustar una línea recta que describe la relación matemática entre los dos ejes.
2: Podemos apreciar que el mayor eje relacionado es el número 9. El eje mínimo es (x 1, Y 2).
Análisis: El gráfico ilustra la relación entre el indice de Sequia
(DC) y el indice de propagación (ISI) de los
incendios forestales. El gráfico es interactivo y facilita la
visualización de las relaciones entre las variables.
# Se debe instalar las librerias: highcharter - htmltools
if (!requireNamespace("highcharter", quietly = TRUE)) {
install.packages("highcharter")
}
if (!requireNamespace("htmltools", quietly = TRUE)) {
install.packages("htmltools")
}
# Cargar librerías
library(highcharter)
library(htmltools)
# Comando para cargar los datos en R desde internet
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = TRUE)
# Renombramos las variables o columnas
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')
# Se crea variable para limpiar los datos de las columnas que se van usar en el grafico
data_clean <- na.omit(data[, c('Eje_X', 'Eje_Y', 'Dc', 'Isi')])
# Diagrama de Dispersión - Variables: DC(Indice de sequia), ISI(Indice de propagación)
hc_diameter_weight <- highchart() %>%
hc_chart(type = "scatter", zoomType = "xy") %>%
hc_title(text = "Relación entre Indice de Sequia e Indice Propagación") %>%
hc_xAxis(title = list(text = "Indice sequedad en las capas del suelo")) %>%
hc_yAxis(title = list(text = "Indice de velocidad de propagación inicial")) %>%
hc_series(list(
name = "Incendio",
data = list_parse2(data.frame(
x = data_clean$Dc,
y = data_clean$Isi
)),
color = "#f39c12",
marker = list(radius = 5)
)) %>%
hc_plotOptions(scatter = list(
marker = list(states = list(
hover = list(enabled = TRUE, lineColor = 'rgb(100,100,100)', lineWidth = 1)
)),
tooltip = list(headerFormat = '<b>{point.x}</b> vs <b>{point.y}</b>')
))
# Mostrar el gráfico
hc_diameter_weight
CONCLUSIONES:
1: La relación entre los índices de sequedad en las capas más profundas del suelo forestal y el índice de velocidad de propagación de incendios forestales es crucial para entender cómo las condiciones ambientales influyen en la extensión y severidad de los incendios.
2: Los resultados arrojan que la relación entre los indices de sequedad esta entre 600 a 800 DC. La concentración en el indice de velocidad propagación se encuentran entre (0,10).
Paso_1: Instalar las librerías GGally y corrplot.
Paso_2: cargué las librerías y la base de datos desde la URL proporcionada, renombrando las columnas para facilitar su uso.
Paso_3: Asegurarse que los datos estuvieran limpios, las variables cuantitativas seleccionadas (‘Ffmc’, ‘Dmc’, ‘Dc’, ‘Isi’).
Paso_4: seleccionar las cuatro variables para realizar un análisis más detallado.
Análisis: Este gráfico muestra las relaciones entre cada par de variables, con puntos en la parte superior para observar la dispersión y suavizado en la parte inferior para identificar tendencias. Esta matriz ayuda a visualizar cómo se relacionan entre sí las variables seleccionadas.
# Instalar las librerías necesarias si no están ya instaladas
if (!requireNamespace("GGally", quietly = TRUE)) {
install.packages("GGally")
}
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
if (!requireNamespace("corrplot", quietly = TRUE)) {
install.packages("corrplot")
}
# Cargar las librerías
library(GGally)
## Cargando paquete requerido: ggplot2
library(corrplot)
## corrplot 0.92 loaded
# Comando para cargar los datos en R desde internet
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/forestfires.csv", header = TRUE)
# Renombramos las variables o columnas
names(data) <- c('Eje_X','Eje_Y','Month','Day','Ffmc','Dmc','Dc','Isi','Temp','Rh','Wind','Rain','Area')
# Limpiar los datos para asegurarse de que no haya NA
data_clean <- na.omit(data[, c('Ffmc', 'Dmc', 'Dc', 'Isi')])
# Seleccionar las cuatro variables cuantitativas de interés
vars <- data_clean[, c('Ffmc', 'Dmc', 'Dc', 'Isi')]
# Crear una matriz de diagramas de dispersión (4x4)
ggpairs(vars,
title = "Matriz de Diagramas de Dispersión de 4 Variables",
upper = list(continuous = "points"),
lower = list(continuous = "smooth"))
CONCLUSIONES:
1: Estas variables ayudan a entender el comportamiento del fuego en un incendio forestal. El FFMC combinado con el ISI entre 80 y 100 indica que los combustibles finos están muy secos, lo que facilita una rápida propagación del fuego.
2: El DMC entre 0 y 200 mide la mayor humedad en la capa más profunda del suelo. Aunque esto no influye tan directamente en la propagación inicial (ISI) entre 0 y 20, puede tener algún efecto, ya que si el mantillo está seco, podría contribuir a que el fuego sea más persistente.
Matriz de correlación para estas cuatro variables y utilicé corrplot para crear un gráfico de correlación. Este gráfico muestra las correlaciones entre las variables, con colores representando la fuerza de la relación y los coeficientes de correlación visibles en la gráfica. Esto me permitió evaluar rápidamente las relaciones y la fuerza de asociación entre las variables cuantitativas en mi análisis.
# Calcular la matriz de correlación
cor_matrix <- cor(vars)
# Crear una matriz de correlación (4x4)
corrplot(cor_matrix,
method = "color",
type = "upper",
tl.col = "brown",
tl.srt = 15,
title = "Matriz de Correlación de 4 Variables",
addCoef.col = "brown") # Añadir los coeficientes de correlación a la gráfica
CONCLUSIONES:
1: DMC y DC estan fuertemente correlacionados 0.68 Lo que indica que las condiciones de sequía en capas superficiales y profundas estan relacionadas. Reflejando que a medida que las capas superficiales se secan, las capas más profundas también lo hacen.
2: FFMC y ISI muestra la segunda correlación positiva más fuerte 0.53 Lo que indica que la sequedad de los combustibles finos influye directamente en la propagación inicial del fuego. A medida que aumenta la sequedad también aumenta la velocidad de propagación.