title: “Accidentes por Estado ocurridos en EE.UU. (2010-2017)”
author: “Grupo 1”
output:
html_document:
toc: true
toc_depth: 2
toc_float: true
number_sections: false
theme: united
highlight: tango
code_folding: hide
fontsize: 12.pt
VARIABLE CategoriaCausa
# Instalar y cargar los paquetes necesarios
if (!require("knitr")) install.packages("knitr", dependencies = TRUE)
## Loading required package: knitr
## Loading required package: knitr
if (!require("modeest")) install.packages("modeest", dependencies = TRUE)
## Loading required package: modeest
## Loading required package: modeest
library(knitr)
library(modeest)
#install.packages("modeest")
#library(modeest)
# Carga de datos
setwd("/cloud/project")
datos <- read.csv("DerramesEEUU.csv", header = TRUE, sep = ";", dec = ",", fill = TRUE)
#------------------------Variable CategoriaCausa--------------
# Variable CategoriaCausa
CategoriaCausa <- datos$CategoriaCausa
# Tabla de distribución de frecuencia
TDFCategoriaCausa <- table(CategoriaCausa)
TDFCategoriaCausa <- as.data.frame(TDFCategoriaCausa)
TablaCategoriaCausa <- as.data.frame(TDFCategoriaCausa)
ni <- TDFCategoriaCausa$Freq
hi <- round(ni / sum(ni) * 100, 2)
variable <- TDFCategoriaCausa$CategoriaCausa
data.frame(variable, ni, hi)
## variable ni hi
## 1 ALL OTHER CAUSES 115 4.17
## 2 CORROSION 580 21.01
## 3 EXCAVATION DAMAGE 96 3.48
## 4 INCORRECT OPERATION 374 13.55
## 5 MATERIAL/WELD/EQUIP FAILURE 1424 51.59
## 6 NATURAL FORCE DAMAGE 116 4.20
## 7 OTHER OUTSIDE FORCE DAMAGE 55 1.99
# Gráficos variable Cualitativa Nominal
barplot(ni, main = "Gráfica N°1: Distribución de Categoría de Causa",
xlab = "Categoría de Causa", ylab = "Cantidad", ylim = c(0, 2000 + 10), las = 2,
col = "pink", cex.names = 0.6, names.arg = variable, cex.main = 0.75)
# Frecuencia absoluta global
ni <- TDFCategoriaCausa$Freq
total <- sum(ni)
ni_global <- round(ni / total * 1000)
barplot(ni_global,
main = "Gráfica N°1: Distribución de Categoría de Causa",
xlab = "Categoría de Causa",
ylab = "Cantidad", # ← Aquí cambiamos el texto del eje Y
ylim = c(0, max(ni_global) + 50),
las = 2,
col = "orchid",
cex.names = 0.6,
names.arg = variable,
cex.main = 0.75)
barplot(hi, main = "Gráfica N°2: Distribución de Categoría de Causa",
xlab = "Posición", ylab = "Porcentaje", ylim = c(0, 100), las = 2,
col = "orchid", cex.names = 0.6, names.arg = variable, cex.main = 0.75)
# Frecuencia relativa local (porcentaje por categoría)
hi <- round(ni / total * 100, 2)
barplot(hi,
main = "Gráfica N°2: Frecuencia Relativa Local",
xlab = "Categoría de Causa",
ylab = "Porcentaje (%)",
ylim = c(0, max(hi) + 5),
las = 2,
col = "pink", # ← Color morado aplicado
cex.names = 0.6,
names.arg = variable,
cex.main = 0.75)
# Gráfica sector circular
colores <- rainbow(length(hi))
etiqueta <- paste(variable, hi, "%", sep = " - ")
pie(hi, labels = etiqueta, radius = 0.95, clockwise = FALSE, col = colores,
main = "Gráfica N°3: Distribución de Categoría de Causa", cex.main = 0.75)
legend("bottomleft", legend = variable, cex = 0.7, fill = colores, text.width = 0.6)
# Calcular la moda
moda <- mlv(CategoriaCausa, method = "mfv")
print(moda)
## [1] "MATERIAL/WELD/EQUIP FAILURE"
El valor mas frecuente de las causas de accidentes petroleros en EEUU es por causa de falla de equipo aun asi es relativamente beneficioso al comparar con las otras variables siendo así la menos perjudicial