title: “Accidentes por Estado ocurridos en EE.UU. (2010-2017)”

author: “Grupo 1”

output:

html_document:

toc: true

toc_depth: 2

toc_float: true

number_sections: false

theme: united

highlight: tango

code_folding: hide

fontsize: 12.pt

VARIABLE CategoriaCausa

# Instalar y cargar los paquetes necesarios
if (!require("knitr")) install.packages("knitr", dependencies = TRUE)
## Loading required package: knitr
## Loading required package: knitr
if (!require("modeest")) install.packages("modeest", dependencies = TRUE)
## Loading required package: modeest
## Loading required package: modeest
library(knitr)
library(modeest)
#install.packages("modeest")
#library(modeest)



# Carga de datos
setwd("/cloud/project")
datos <- read.csv("DerramesEEUU.csv", header = TRUE, sep = ";", dec = ",", fill = TRUE)


#------------------------Variable CategoriaCausa--------------


# Variable CategoriaCausa
CategoriaCausa <- datos$CategoriaCausa


# Tabla de distribución de frecuencia
TDFCategoriaCausa <- table(CategoriaCausa)
TDFCategoriaCausa <- as.data.frame(TDFCategoriaCausa)
TablaCategoriaCausa <- as.data.frame(TDFCategoriaCausa)
ni <- TDFCategoriaCausa$Freq
hi <- round(ni / sum(ni) * 100, 2)
variable <- TDFCategoriaCausa$CategoriaCausa
data.frame(variable, ni, hi)
##                      variable   ni    hi
## 1            ALL OTHER CAUSES  115  4.17
## 2                   CORROSION  580 21.01
## 3           EXCAVATION DAMAGE   96  3.48
## 4         INCORRECT OPERATION  374 13.55
## 5 MATERIAL/WELD/EQUIP FAILURE 1424 51.59
## 6        NATURAL FORCE DAMAGE  116  4.20
## 7  OTHER OUTSIDE FORCE DAMAGE   55  1.99
# Gráficos variable Cualitativa Nominal
barplot(ni, main = "Gráfica N°1: Distribución de Categoría de Causa",
        xlab = "Categoría de Causa", ylab = "Cantidad", ylim = c(0, 2000 + 10), las = 2,
        col = "pink", cex.names = 0.6, names.arg = variable, cex.main = 0.75)

# Frecuencia absoluta global 
ni <- TDFCategoriaCausa$Freq
total <- sum(ni)
ni_global <- round(ni / total * 1000)  

barplot(ni_global,
        main = "Gráfica N°1: Distribución de Categoría de Causa",
        xlab = "Categoría de Causa", 
        ylab = "Cantidad",  # ← Aquí cambiamos el texto del eje Y
        ylim = c(0, max(ni_global) + 50), 
        las = 2,
        col = "orchid", 
        cex.names = 0.6, 
        names.arg = variable, 
        cex.main = 0.75)

barplot(hi, main = "Gráfica N°2: Distribución de Categoría de Causa",
        xlab = "Posición", ylab = "Porcentaje", ylim = c(0, 100), las = 2,
        col = "orchid", cex.names = 0.6, names.arg = variable, cex.main = 0.75)

# Frecuencia relativa local (porcentaje por categoría)
hi <- round(ni / total * 100, 2)

barplot(hi,
        main = "Gráfica N°2: Frecuencia Relativa Local",
        xlab = "Categoría de Causa", 
        ylab = "Porcentaje (%)",
        ylim = c(0, max(hi) + 5), 
        las = 2,
        col = "pink",  # ← Color morado aplicado
        cex.names = 0.6, 
        names.arg = variable, 
        cex.main = 0.75)

# Gráfica sector circular
colores <- rainbow(length(hi))
etiqueta <- paste(variable, hi, "%", sep = " - ")
pie(hi, labels = etiqueta, radius = 0.95, clockwise = FALSE, col = colores,
    main = "Gráfica N°3: Distribución de Categoría de Causa", cex.main = 0.75)
legend("bottomleft", legend = variable, cex = 0.7, fill = colores, text.width = 0.6)

# Calcular la moda
moda <- mlv(CategoriaCausa, method = "mfv")
print(moda)
## [1] "MATERIAL/WELD/EQUIP FAILURE"

Conclusion

El valor mas frecuente de las causas de accidentes petroleros en EEUU es por causa de falla de equipo aun asi es relativamente beneficioso al comparar con las otras variables siendo así la menos perjudicial