Introducción

En el presente trabajo se entregará en detalle el problema o situación en la cual se emprenderá recorrido. En primera instancia se abordará este problema mediante la explicación del mismo, para así entregar una mayor cantidad de información con respecto a lo que se vive diariamente en las calles de nuestro país, luego de tener la información ya se es capaz de poder explicar el objetivo del trabajo.

De manera introductoria es posible señalar que según la Organización Mundial de la Salud (OMS) el número de muertos a nivel mundial por accidentes de tránsito es de más de 1.2 millones de personas anualmente. En los países en vías de desarrollo la accidentabilidad constituye una epidemia que empeora año a año, por ejemplo,tienen mayores tasas de mortalidad por accidentes de tránsito, es decir, 20,1 cada 100.000 habitantes, en comparación con 8,7 en los países de ingresos elevados y 18,3 en los países de ingresos bajos. El 80% de las muertes por accidentes de tránsito tiene lugar en los países de ingresos medios, que representan el 72% de la población mundial pero sólo tienen el 52% de los vehículos registrados en todo el mundo. (www.who.int).

Los accidentes de tránsito se han presentado a lo largo de toda la historia luego de la creación de los medios de transporte, en esta instancia se analizaron los siniestros automovilísticos desde el año 2010 hasta el año 2018 con el objetivo de informar como es que han evolucionado los siniestros entre dichos años.

Cabe destacar que los datos con los que se trabajará, originalmente estaban almacenados en una base de datos de carabineros, los cuales fueron traspasados o capturados en un archivo Excel, luego los mismos se traspasaron a la plataforma del software R. Todo esto con el fin de poder obtener datos relevantes que permitan resolver e informar sobre lo que se señalaba anteriormente.

Descripción de los datos

Como se mencionó anteriormente los datos han sido almacenado en un documento de tipo Excel, a continuación se muestra como es la estructura de dichos datos:

Se puede apreciar en la imagen que los datos se organizan en columnas y filas, por una parte, en las columnas se muestra:

Año: Todos los años en los que se analizaran los datos correspondientes
Siniestros: Cantidad de accidentes en cada año correspondiente.
Fallecidos: Cantidad de personas fallecidas en los accidentes en cada año correspondiente.
Lesionados Graves: Cantidad de lesionados graves que hubieron en los incidentes en cada año.
Lesionados Menos Graves: Cantidad de lesionados menos graves que hubieron en los incidentes en cada año.
Lesionados Leves: Cantidad de lesionados leves que hubieron en los incidentes en cada año.
Total de Lesionados: Cantidad total de lesionados, esto incluye los distintos tipos existentes que se mencionaron anteriormente.
Total de Víctimas: Cantidad de víctimas totales que obtuvieron al sumar las cantidades de cada uno de las columnas mencionadas anteriormente.

Por otra parte las filas son cada uno de los años con sus respectivos datos dependiendo de cada columna.

Si se percataron, en la descripción de los datos que corresponden a las columnas se mencionaba bastante el concepto “cantidad”, por consiguiente esto significa que las variables que se analizaron eran de tipo cuantitativa, en palabras concretas al ser números enteros estas corresponden específicamente a una variable cuantitativa discreta.

Procesamiento

En primera instancia con los datos escogidos se pretende realizar un análisis exploratorio, con el fin de tener una mayor claridad y orden de los datos que se utilizaran, esto debe realizarse antes de aplicar cualquier técnica de estadística, el objetivo principal de esto es tener una mayor comprensión de la base de datos, esto implica observar la distribución de los datos para detectar alguna falla en el diseño o en la recolección de la BD(base de datos). En este caso y como fue mencionado anteriormente los datos están dentro de un documento Excel, a los cuales se les tuvo que aplicar una cierta limpieza como lo fue la eliminación de ciertas columnas que contienen información que no era relevante para la realización de este trabajo, como por ejemplo:

La cantidad de vehículos cada 100 habitantes.
Tasa de motorización.
Parque Vehicular.

Además de esto se eliminan filas que corresponden a los años con sus respectivos datos, se tomó esa decisión debido a que la base de datos era demasiado grande y en consecuencia de eso quedaría un trabajo demasiado extenso. Asumiendo que de igual manera se pueden determinar ciertos flujos y aspectos de los datos en los 10 años que se analizarán.

Esta investigación además incluye estadistica descriptiva que se aplica con el fin de conocer el comportamiento de los datos.

Procesamiento de datos

Obtención

Se realiza la lectura de los datos alojados en un archivo Excel mediante la exportación de ellos a la plataforma del software R. Esto se realiza con los siguientes comandos:

library(readxl)
Siniestros <- read_excel("EvoluciónsiniestrostransitoChile 2008-2018.xlsx")
View(Siniestros)
Siniestros

Luego de esto, los datos ya se encuentran cargados en R.

Otra manera de confirmar que todas las columnas son correctas se ejecuta el siguiente comando:

colnames(Siniestros)

## [1] "Año"                     "Siniestros"             
## [3] "Fallecidos"              "Lesionados Graves"      
## [5] "Lesionados Menos graves" "Lesionados Leves"       
## [7] "Total lesionados"        "Total víctimas"

Transformación

En esta oportunidad no fue necesario realizar ningún tipo de transformación en los datos analizados ya que todos eran del mismo tipo, además estos correspondian al tipo de datos que se buscaban para realizar lo que se esperaba; el único procedimiento que se realizó fue la eliminación de los datos N/A(nulos) presentes en el data set.

Como primer paso se debe determinar si existen datos N/A mediante el siguiente comando:

any(is.na(Siniestros))

## [1] FALSE

Si el valor retornado es “FALSE” se debe a que no existen valores N/A pero si el valor retornado es “TRUE” significa que si existen valores nulos dentro de los datos, para eliminarlos se pueden ejecutar uno de los dos siguientes comandos:

Ejemplo Numero 1: Se eliminan los datos N/A.

siniestros <- na.omit(Siniestros)

Ejemplo Numero 2: Se eliminan los datos N/A y se muestra el data set sin los datos nulos.

na.omit(Siniestros)

Procesos

Para este dataset se decidió aplicar estadística descriptiva para poder encontrar diversas características y comportamiento de los datos.

Las primeras variables a analizar en base a lo expuesto son las medidas de tendencia central.

Cálculo de la media de los siniestros entre los 10 años analizados:

mean(Siniestros$Siniestros)

## [1] 73026.36

Cálculo de la mediana de los siniestros entre los 10 años analizados:

median(Siniestros$Siniestros)

## [1] 73276

Cálculo de la desviación estándar de los siniestros entre los 10 años analizados:

sd(Siniestros$Siniestros) #Los datos analizados se encuentran dispersos en 14712.84 siniestros con respecto a la media.

## [1] 14712.84

Cálculo de la varianza de los siniestros entre los 10 años analizados:

var(Siniestros$Siniestros) #Los datos analizados varían en 216467806 siniestros con respecto a la media, al ser un número tan alto comprueba que el espacio muestral es muy variable.

## [1] 216467806

Los datos presentados anteriormente se mostrarán ordenados mediante un barplot para que puedan ser apreciada con otro enfoque su dispersión:

barplot(Siniestros$Siniestros, xlab = "Años", main = "Siniestros Automovilisticos en Chile (2008- 2018)", ylab = "Siniestros", col = "brown")

Además del gráfico generado anteriormente es necesario realizar un Boxplot(Diagrama de Caja) para mostrar a simple vista la mediana y los cuartiles de los datos, incluso la concentración de los datos y sus outliers(datos fuera de rango), el boxplot es el siguiente:

boxplot(Siniestros$Siniestros, main= "Siniestros Automovilisticos en Chile (2008- 2018)", xlab= "Siniestros", ylab="Años", col="orange", border = "brown", horizontal = TRUE)

Otro dato importante de analizar es la cantidad de fallecidos que hubieron anualmente en los siniestros automovilisticos, como se muestra a continuación:

barplot(Siniestros$Fallecidos, xlab = "Años", main = "Siniestros Automovilisticos en Chile (2008-2010)", ylab = "Fallecidos", col = "brown")

Como último proceso se genera un boxplot que muestra los distintos tipos de gravedad en las lesiones que ocurren en los accidentes automovilísticos, esto se realiza con el fin de mostrar las brechas que existen entre cada uno de ellos y cómo se comporta cada uno de ellos con respecto a sus medias.

colores<- c("orange","sienna4","yellow3")

variables<- c("Lesionados Graves","Lesionados Menos Graves", "Lesionados Leves")

boxplot(Siniestros$`Lesionados Graves`,Siniestros$`Lesionados Menos graves`,Siniestros$`Lesionados Leves`, col=colores, main="Lesionados en Siniestros Automovilisticos (2008-2010)", ylab="Siniestros",xlab="Lesionados", names=variables)

Resultados

Luego de realizar todo este análisis al dataset presentado, se cumple el objetivo principal el cual era informar sobre la cantidad de siniestros automovilísticos que ocurren en nuestro país anualmente, esto nos lleva además a demostrar lo preocupante que son las cifras a pesar de que no hay un patrón influyente que haga que anualmente aumenten o disminuyan los accidentes, eso básicamente es azar, no obstante los accidentes se pueden evitar, como por ejemplo, culturizando a las personas sobre las leyes de tránsito con el fin de que a largo plazo ese si sea un factor influyente en la reducción de los accidentes automovilísticos.

Discusión

Una de las labores más difíciles al realizar un trabajo de esta índole es encontrar el enfoque que se le va a dar al mismo, es por esto que se decide dar una visión más general pero a la vez relevante de cómo ha sido la evolución de los accidentes de tránsito dentro de los últimos 10 años ya que así se puede mostrar a las personas como es que si generar conciencia y se culturizan en este ámbito podrían dar solución a este problema social.

Conclusión

Como fue mencionado en los puntos anteriores se obtiene información relevante en este análisis, ya que a pesar de ser grande la cantidad de accidentes que ocurren, son muchas más personas que acaban con lesiones leves que fallecidos en los siniestros.

Además de todo lo destacado anteriormente si disminuyen los accidentes de tránsito el estado se ahorraría muchos millones de dólares que podrían invertirse en otros proyectos sociales.

Por último al analizar los datos se pueden percatar de que la distribución de los mismos en cierto aspectos formaba una distribución normal, por otra parte en otros aspectos se podría decir que de igual manera poseen una distribución normal pero con una leve desviación estándar de los datos.

Referencias

Las funciones utilizadas en este trabajo fueron:

R plotting: https://rpubs.com/Paraneda/rplot Estadística Descriptiva: http://www.rpubs.com/paraneda/SD1 Gráficos Estadísticos en R: https://cran.r-project.org/doc/contrib/grafi3.pdf Boxplot: https://www.youtube.com/watch?v=L59qaSEN2EM

Evolución de Siniestros de Transito en Chile

Ignacio Andrés Perez Flores

09/12/2019