tarea_#1

Lectura de datos

Comenzamos con la lectura del DataFrame StudyArea. El código utilizado para leer el archivo CSV es el siguiente:

dfFires <- read.csv("/Users/juansebastianquintanacontreras/Documents/6 semestre/DATAVIZ/RDataSets/StudyArea.csv")
head(dfFires)

##   FID ORGANIZATI  UNIT SUBUNIT                               SUBUNIT2
## 1   0        FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 2   1        FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 3   2        FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 4   3        FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 5   4        FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
## 6   5        FWS 81682 USCADBR San Diego Bay National Wildlife Refuge
##     FIRENAME CAUSE YEAR_   STARTDATED   CONTRDATED OUTDATED      STATE
## 1 PUMP HOUSE Human  2001  1/1/01 0:00  1/1/01 0:00          California
## 2         I5 Human  2002  5/3/02 0:00  5/3/02 0:00          California
## 3   SOUTHBAY Human  2002  6/1/02 0:00  6/1/02 0:00          California
## 4     MARINA Human  2001 7/12/01 0:00 7/12/01 0:00          California
## 5       HILL Human  1994 9/13/94 0:00 9/13/94 0:00          California
## 6 IRRIGATION Human  1994 4/22/94 0:00 4/22/94 0:00          California
##   STATE_FIPS TOTALACRES
## 1          6        0.1
## 2          6        3.0
## 3          6        0.5
## 4          6        0.1
## 5          6        1.0
## 6          6        0.1

A continuación, presentamos la lista de variables incluidas en el conjunto de datos:

Organization: Organización responsable.
Unit: Unidad específica.
Subunit: Subunidad de clasificación.
subunit2: Segunda subunidad.
Firename: Nombre del incendio.
Cause: Causa del incendio.
Human: Factor humano.
Year: Año del incidente.
StartDated: Fecha de inicio.
Outdated: Fecha de finalización.
State: Estado donde ocurrió el incendio.
State fips: Código FIPS del estado.
Totalacres: Total de acres afectados.

Este conjunto de datos incluye tanto variables numéricas como categóricas. Las variables numéricas están presentes en formas discretas y continuas, lo que permite un análisis más completo y detallado de los incendios registrados en la región.

idaho_fires <- subset(dfFires, STATE == "Idaho")

idaho_fires <- idaho_fires[, c("YEAR_", "CAUSE", "TOTALACRES")]
colnames(idaho_fires) <- c("Year", "Cause", "Total_Acres")

idaho_fires$Total_Acres <- as.numeric(idaho_fires$Total_Acres)

idaho_summary <- idaho_fires %>%
  group_by(Cause, Year) %>%
  summarise(Total_Acres_Burned = sum(Total_Acres))

## `summarise()` has grouped output by 'Cause'. You can override using the
## `.groups` argument.

idaho_summary$Total_Acres_Burned<- as.numeric(idaho_summary$Total_Acres_Burned)

# reagrupa los "" en indeterminados
idaho_fires <- idaho_fires %>%
  mutate(Cause = ifelse(is.na(Cause) | Cause == "" | Cause == " ", "Indeterminados", Cause))

# DataFrame filtrado
print(idaho_summary)

## # A tibble: 96 × 3
## # Groups:   Cause [4]
##    Cause  Year Total_Acres_Burned
##    <chr> <int>              <dbl>
##  1 " "    1980                 50
##  2 " "    1981                 43
##  3 " "    1982                  4
##  4 " "    1983                300
##  5 " "    1984                 10
##  6 " "    1985                866
##  7 " "    1986                161
##  8 " "    1988                 31
##  9 " "    1989                 60
## 10 " "    1991                  0
## # ℹ 86 more rows

En este paso del análisis, los datos se agruparon y resumieron para calcular la cantidad total de acres quemados por año y causa del incendio. Los valores vacíos en la columna Cause se reasignaron a la categoría “Indeterminados”. Esta categorización permite entender mejor los datos. Esto proporciona una visión más completa de los patrones de incendios forestales en Idaho.

ggplot(idaho_summary, aes(x = factor(Year), fill = factor(Cause), y = Total_Acres_Burned)) +
  geom_dotplot(binaxis = "y", stackdir = "center")

## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.

Analisis de general

Podemos observar que, dependiendo del año, puede haber una gran variabilidad en los valores. Además, se aprecia un aumento en la cantidad total de acres quemados debido a causas naturales, en contraste con las causas humanas, que parecen mantenerse controladas.

ggplot(idaho_summary, aes(x = Cause, y = Total_Acres_Burned)) +
  geom_bar(stat = "identity", fill = "red")

# Elimina las filas con valores vacíos en 'Cause'
idaho_summary <- idaho_summary %>%
  filter(!is.na(Cause) & Cause != " " & Cause != "")

En este análisis. Después de la agrupación, hemos filtrado los datos para eliminar cualquier entrada con un valor de causa vacío. El resultado final es un DataFrame limpio que nos permite

ggplot(idaho_summary, aes(x = factor(Year), fill = factor(Cause), y = Total_Acres_Burned)) +
  geom_dotplot(binaxis = "y", stackdir = "center")

## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.

ggplot(idaho_summary, aes(x = Cause, y = Total_Acres_Burned)) +
  geom_bar(stat = "identity", fill = "red")

tarea_#1

Juan Sebastian Quintana

2024-08-12

Lectura de datos

Analisis de general