Comenzamos con la lectura del DataFrame StudyArea. El código utilizado para leer el archivo CSV es el siguiente:
dfFires <- read.csv("/Users/juansebastianquintanacontreras/Documents/6 semestre/DATAVIZ/RDataSets/StudyArea.csv")
head(dfFires)
## FID ORGANIZATI UNIT SUBUNIT SUBUNIT2
## 1 0 FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 2 1 FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 3 2 FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 4 3 FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 5 4 FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 6 5 FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## FIRENAME CAUSE YEAR_ STARTDATED CONTRDATED OUTDATED STATE
## 1 PUMP HOUSE Human 2001 1/1/01 0:00 1/1/01 0:00 California
## 2 I5 Human 2002 5/3/02 0:00 5/3/02 0:00 California
## 3 SOUTHBAY Human 2002 6/1/02 0:00 6/1/02 0:00 California
## 4 MARINA Human 2001 7/12/01 0:00 7/12/01 0:00 California
## 5 HILL Human 1994 9/13/94 0:00 9/13/94 0:00 California
## 6 IRRIGATION Human 1994 4/22/94 0:00 4/22/94 0:00 California
## STATE_FIPS TOTALACRES
## 1 6 0.1
## 2 6 3.0
## 3 6 0.5
## 4 6 0.1
## 5 6 1.0
## 6 6 0.1
A continuación, presentamos la lista de variables incluidas en el conjunto de datos:
Este conjunto de datos incluye tanto variables numéricas como categóricas. Las variables numéricas están presentes en formas discretas y continuas, lo que permite un análisis más completo y detallado de los incendios registrados en la región.
idaho_fires <- subset(dfFires, STATE == "Idaho")
idaho_fires <- idaho_fires[, c("YEAR_", "CAUSE", "TOTALACRES")]
colnames(idaho_fires) <- c("Year", "Cause", "Total_Acres")
idaho_fires$Total_Acres <- as.numeric(idaho_fires$Total_Acres)
idaho_summary <- idaho_fires %>%
group_by(Cause, Year) %>%
summarise(Total_Acres_Burned = sum(Total_Acres))
## `summarise()` has grouped output by 'Cause'. You can override using the
## `.groups` argument.
idaho_summary$Total_Acres_Burned<- as.numeric(idaho_summary$Total_Acres_Burned)
# reagrupa los "" en indeterminados
idaho_fires <- idaho_fires %>%
mutate(Cause = ifelse(is.na(Cause) | Cause == "" | Cause == " ", "Indeterminados", Cause))
# DataFrame filtrado
print(idaho_summary)
## # A tibble: 96 × 3
## # Groups: Cause [4]
## Cause Year Total_Acres_Burned
## <chr> <int> <dbl>
## 1 " " 1980 50
## 2 " " 1981 43
## 3 " " 1982 4
## 4 " " 1983 300
## 5 " " 1984 10
## 6 " " 1985 866
## 7 " " 1986 161
## 8 " " 1988 31
## 9 " " 1989 60
## 10 " " 1991 0
## # ℹ 86 more rows
En este paso del análisis, los datos se agruparon y resumieron para
calcular la cantidad total de acres quemados por año y causa del
incendio. Los valores vacíos en la columna Cause se
reasignaron a la categoría “Indeterminados”. Esta categorización permite
entender mejor los datos. Esto proporciona una visión más completa de
los patrones de incendios forestales en Idaho.
ggplot(idaho_summary, aes(x = factor(Year), fill = factor(Cause), y = Total_Acres_Burned)) +
geom_dotplot(binaxis = "y", stackdir = "center")
## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.
Podemos observar que, dependiendo del año, puede haber una gran variabilidad en los valores. Además, se aprecia un aumento en la cantidad total de acres quemados debido a causas naturales, en contraste con las causas humanas, que parecen mantenerse controladas.
ggplot(idaho_summary, aes(x = Cause, y = Total_Acres_Burned)) +
geom_bar(stat = "identity", fill = "red")
# Elimina las filas con valores vacíos en 'Cause'
idaho_summary <- idaho_summary %>%
filter(!is.na(Cause) & Cause != " " & Cause != "")
En este análisis. Después de la agrupación, hemos filtrado los datos para eliminar cualquier entrada con un valor de causa vacío. El resultado final es un DataFrame limpio que nos permite
ggplot(idaho_summary, aes(x = factor(Year), fill = factor(Cause), y = Total_Acres_Burned)) +
geom_dotplot(binaxis = "y", stackdir = "center")
## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.
ggplot(idaho_summary, aes(x = Cause, y = Total_Acres_Burned)) +
geom_bar(stat = "identity", fill = "red")