Objetivos

Objetivo general

Realizar un análisis estadístico descriptivo y exploratorio del conjunto de cotizaciones vehiculares, destacando la estructura univariada y bivariada de las variables numéricas y categóricas.

Objetivos específicos

Calcular y describir medidas de tendencia central, dispersión y posición para las principales variables numéricas.
Visualizar la distribución de variables categóricas mediante diagramas circulares y de barras.
Explorar relaciones entre variables a través de diagramas de dispersión, matrices de correlación y tablas de contingencia.
Identificar posibles valores atípicos y patrones interesantes que justifiquen estudios posteriores de inferencia o modelado avanzado.

Lectura y preparacion de datos

Se observan r nrow(datos) registros. Las variables continuas principales son Edad, Modelo, ValorAsegurado y ValorPoliza; las demás son categóricas. Limpiamos los valores monetarios para poder analizarlos numéricamente y normalizamos “GENERO” a solo “F” y “M”.

Resumen univariado

Medidas de tendencia central y dispersión

El valor asegurado promedio es de r scales::comma(round(media_VA,0)) COP con una desviación estándar del r round(sd_VA/1e6,2) millones. El coeficiente de variación ~r round(cve_media_VA,1) % indica una dispersión moderada alrededor de la media. La mediana (r scales::comma(mediana_VA)) es inferior a la media, sugiriendo ligera asimetría a la derecha (algunos vehículos muy costosos).

# Columna a estudiar
VA <- datos$ValorAsegurado
media_VA     <- mean(VA, na.rm = TRUE)
var_VA       <- var(VA,  na.rm = TRUE)
sd_VA        <- sd(VA,   na.rm = TRUE)
cve_media_VA <- 100 * sd_VA / media_VA
mediana_VA   <- median(VA, na.rm = TRUE)
mad_VA       <- mad(VA, na.rm = TRUE)
cve_med_VA   <- 100 * mad_VA / mediana_VA

resumen <- data.frame(
  Estadístico = c("Promedio", "Varianza", "Desv. estándar",
                  "CVE (media)", "Mediana", "MAD", "CVE (mediana)"),
  Valor       = round(c(media_VA, var_VA, sd_VA,
                        cve_media_VA, mediana_VA,
                        mad_VA, cve_med_VA), 2)
)
knitr::kable(resumen, caption = "Estadísticos descriptivos para Valor Asegurado")

Estadísticos descriptivos para Valor Asegurado
Estadístico	Valor
Promedio	8.168071e+07
Varianza	5.242059e+16
Desv. estándar	2.289554e+08
CVE (media)	2.803100e+02
Mediana	6.400000e+07
MAD	3.009678e+07
CVE (mediana)	4.703000e+01

Medidas de posición para Edad

La edad mínima reportada es r min_edad años y la máxima r max_edad. El rango intercuartílico es de r IQR_edadaños, mostrando que el 50% central está relativamente concentrado. Se detecta un valor extremo (edad >90años) que podría requerir verificación.

min_edad   <- min(datos$Edad, na.rm = TRUE)
max_edad   <- max(datos$Edad, na.rm = TRUE)
rang_edad  <- max_edad - min_edad
cuartiles  <- quantile(datos$Edad, probs = seq(0,1,0.25), na.rm = TRUE)
IQR_edad   <- IQR(datos$Edad, na.rm = TRUE)

posicion <- data.frame(
  Medida   = c("Mínimo", "Máximo", "Rango",
               paste0("Cuartil ",0:4), "IQR"),
  Edad     = c(min_edad, max_edad, rang_edad,
               cuartiles, IQR_edad)
)
knitr::kable(posicion, digits = 1, caption = "Medidas de posición para Edad")

Medidas de posición para Edad
Medida	Edad
Mínimo	1.0
Máximo	937.0
Rango	936.0
Cuartil 0	1.0
Cuartil 1	37.0
Cuartil 2	42.0
Cuartil 3	49.2
Cuartil 4	937.0
IQR	12.2

Visualización univariada

Diagramas circulares (pie charts)

El 40% de las cotizaciones provienen de mujeres y el resto de hombres.

# Pie simple de Género
pie(table(datos$Genero),
    col = c("#FFC1C1", "#6495ED"),
    main = "Distribución por género", radius = 0.9)

# Pie 3D de Género
pie3D(table(datos$Genero),
      labels = c("Mujeres", "Hombres"),
      explode = 0.1,
      col = brewer.pal(2, "Pastel1"),
      main = "Género (pie 3D)", radius = 0.9)

Barras para variables categóricas

Los Automóviles representan la categoría más frecuente (r max(table(datos$Clase)) casos), seguidos de Camionetas. Las motos son minoritarias.

barplot(sort(table(datos$Clase), decreasing = TRUE),
        col = brewer.pal(6, "Set3"),
        main = "Frecuencia de la variable CLASE",
        las = 2, ylab = "Número de registros")

Histograma y gráfico de tallo (stem) para Valor Asegurado

Se observa una cola a la derecha consistente con la asimetría detectada previamente; pocos vehículos superan los 200M COP.

stem(VA, scale = 2)

## 
##   The decimal point is 8 digit(s) to the right of the |
## 
##    0 | 01111111111122222222233333333333333333333333334444444444444444444444+220
##    1 | 00000000000011112222222233333333333334444444445555555666667789
##    2 | 7
##    3 | 2
##    4 | 
##    5 | 
##    6 | 
##    7 | 
##    8 | 
##    9 | 
##   10 | 
##   11 | 
##   12 | 
##   13 | 
##   14 | 
##   15 | 
##   16 | 
##   17 | 
##   18 | 
##   19 | 
##   20 | 
##   21 | 
##   22 | 
##   23 | 
##   24 | 
##   25 | 
##   26 | 
##   27 | 
##   28 | 
##   29 | 
##   30 | 
##   31 | 
##   32 | 
##   33 | 
##   34 | 
##   35 | 
##   36 | 
##   37 | 
##   38 | 
##   39 | 
##   40 | 
##   41 | 
##   42 | 
##   43 | 8

hist(VA, breaks = "FD", freq = FALSE,
     col = "#98F5FF",
     main = "Distribución de Valor Asegurado",
     xlab = "Valor asegurado (COP)")
lines(density(VA, na.rm = TRUE))

Diagramas de caja (boxplot)

Las pólizas de los hombres muestran una ligera tendencia a valores mayores, aunque las medianas son similares; las colas denotan algunos aseguramientos particularmente altos.

boxplot(datos$ValorPoliza,
        col = "#66CDAA",
        horizontal = TRUE,
        main = "Diagrama de caja de Valor de la Póliza",
        xlab = "COP")

boxplot(ValorPoliza ~ Genero, data = datos,
        col = c("#FFE4E1", "#B0E0E6"),
        main = "Valor de la póliza por género", ylab = "COP")
stripchart(ValorPoliza ~ Genero, data = datos,
           method = "jitter", add = TRUE, pch = 19, col = "gray40")

Tablas de contingencia y gráficas bivariadas

GENERO×CLASE

En proporción, las mujeres cotizan más automóviles que camionetas, mientras los hombres muestran mayor interés por vehículos utilitarios y camionetas.

tab_gc <- table(datos$Genero, datos$Clase)
prop_fila  <- prop.table(tab_gc, 1)
prop_col   <- prop.table(tab_gc, 2)
tab_gc

##    
##     AUTOMOVIL CAMIONETA CARROTANQUE MINIVAN MOTO PICK UP
##   F        72        66           1       0    3       1
##   M       132        76           0       0   10       1

colores2 <- c("#A020F0", "#FFBBFF")
barplot(tab_gc, col = colores2,
        main = "GENERO × CLASE (frecuencias absolutas)")
legend("topright", legend = c("Femenino", "Masculino"), fill = colores2)

colores_clase <- brewer.pal(n = length(levels(factor(datos$Clase))), "Set2")
mosaicplot(tab_gc, col = colores_clase,
           main = "Mosaic: Genero vs Clase")

Dispersión entre variables numéricas

La relación lineal es prácticamente nula (r round(cor(datos$Edad, datos$ValorAsegurado, use=‘complete.obs’),2)), indicando que la edad del solicitante no condiciona el valor del vehículo cotizado.

plot(datos$Edad, datos$ValorAsegurado,
     pch = 19, col = "#6A5ACD",
     xlab = "Edad del cotizante",
     ylab = "Valor asegurado (COP)",
     main = "Edad vs Valor Asegurado")
abline(lm(ValorAsegurado ~ Edad, data = datos), lwd = 2)

Conclusiones

El valor asegurado promedio ronda los r round(media_VA/1e6,1) millones de COP, con dispersión moderada y cola derecha.

El público femenino aporta cerca de r round(100*prop.table(table(datos$Genero))[“F”],0) % de las solicitudes y se inclina por automóviles.

No hay evidencia de relación entre edad y valor asegurado, lo que sugiere que variables distintas (p.ej. nivel socio‑económico o tipo de vehículo) explican la heterogeneidad en los montos.

Las pólizas presentan distribuciones similares entre géneros, aunque con valores extremos ligeramente superiores en hombres.

ANALISIS ESTADISTICO DE DATOS FORMULARIO DE SEGUROS

Juan Felipe Arias Ruiz

2025-07-24

Temas

Introducción

Justificación