1 Cargar Datos

datos <- read.csv("database-_1_.csv", header = TRUE, sep = ",", dec = ".", check.names = FALSE)
zona<-datos$Cause.Category

2 Tabla de distribución de frecuencia

#Extraemos la columna Cantidad del resumen de la variable Cause Category, la guardamos en ni, calculamos su suma total, luego obtenemos el porcentaje (hi) que representa cada valor de ni respecto al total. Después creamos un nuevo resumen de datos llamado TDFCausa que incluye las categorías de causas originales más ni y hi.
resumen <- as.data.frame(table(datos$Cause.Category))
causas <- 1:nrow(resumen)
ni <- resumen$Freq
sum(ni)
## [1] 2795
## [1] 2795

hi <- ni / sum(ni) * 100
sum(hi)
## [1] 100
## [1] 100

TDFCausa <- data.frame(causas, ni, hi)
kable(TDFCausa, 
      col.names = c("Causa", "Frecuencia Absoluta (ni)", "Porcentaje (hi %)"),
      digits = 2,
      align = "c")
Causa Frecuencia Absoluta (ni) Porcentaje (hi %)
1 118 4.22
2 592 21.18
3 97 3.47
4 378 13.52
5 1435 51.34
6 118 4.22
7 57 2.04
#1: Otras causas no especificadas
#2: Incidentes por el deterioro del material
#3: Daños causados por excavaciones externas
#4: Operaciones incorrectas
#5: Fallas técnicas de equipos
#6: Daños por la naturaleza
#7: Daños por fuerzas externas

3 Gráficas

barplot(TDFCausa$ni, 
        main="Gráfica N°1: Frecuencia de la Categoría de Causas de los Accidentes", 
        xlab="Causa", 
        ylab="Cantidad", 
        names.arg = TDFCausa$causas, 
        las=1, 
        col = "skyblue")

Causa1_3 <- subset(TDFCausa, causas >= 1 & causas <= 3)
tdfcausa1_3 <- data.frame(Causa1_3)
hi1 <- tdfcausa1_3$ni / sum(tdfcausa1_3$ni)
hi1
## [1] 0.1462206 0.7335812 0.1201983
barplot(hi1, 
        main = "Gráfica N°5: Distribución de Probabilidad de Causa(1-3)", 
        xlab = "Causa", 
        ylab = "Probabilidad", 
        names.arg = tdfcausa1_3$causas, 
        col = "skyblue")

##grafico12

media_subset3 <- sum(tdfcausa1_3$causas * tdfcausa1_3$ni) / sum(tdfcausa1_3$ni)
n_subset3 <- 3
p_subset3 <- media_subset3 / n_subset3
P2_subset3 <- dbinom(tdfcausa1_3$causas, size = n_subset3, prob = p_subset3)
P2_subset3
## [1] 0.2308944 0.4442207 0.2848807
barplot(rbind(hi1, P2_subset3), 
        main = "Gráfica N°6: Modelo de probabilidad Binomial de Causa(1-3)", 
        xlab = "Causa", 
        ylab = "Cantidad-Probabilidad", 
        names.arg = tdfcausa1_3$causas, 
        beside = TRUE, 
        col = c("skyblue", "blue"))
legend("topright", 
       legend = c("Real", "Modelo"), 
       fill = c("skyblue", "blue"))

Freob<-hi1
Freob
## [1] 0.1462206 0.7335812 0.1201983
Fre_esp<-P2_subset3
Fre_esp
## [1] 0.2308944 0.4442207 0.2848807
plot(Freob, Fre_esp, 
     main = "Gráfica N°7: Correlación de Frecuencias (Causas 1-3)", 
     xlab = "Frecuencia Observada (Real)", 
     ylab = "Frecuencia Esperada (Modelo)", 
     pch = 19,      
     col = "blue")   
abline(lm(Fre_esp ~ Freob), col = "red", lwd = 2)

x2<-sum(((Freob-Fre_esp)^2)/Fre_esp)
x2
## [1] 0.3147367
vc<-qchisq(0.95,2) #k-1
vc 
## [1] 5.991465
x2<vc
## [1] TRUE