I. INTRODUCCIÓN

En el presente trabajo, nos sumergiremos en el análisis de datos relacionados con la incidencia de cáncer en los 14 distritos de la provincia “Mundo Feliz”. Esta provincia, a pesar de su nombre alegre, se enfrenta a una realidad cruda y desafiante: la presencia del cáncer en su población.

En nuestro esfuerzo por comprender mejor esta problemática, abordaremos el análisis de datos desde diversas perspectivas, utilizando herramientas estadísticas avanzadas como la regresión de Poisson, la regresión logística y la inferencia bayesiana. Para ello, se han recopilado datos clave que incluyen tres variables fundamentales: la cantidad de personas afectadas por el cáncer en cada distrito (Casos), el rango de edad de los pacientes (Edad) y el área de residencia en la que han vivido en el último año, clasificada en urbana (1) o rural (0) (Área).

Este análisis se llevará a cabo con el objetivo de arrojar luz sobre posibles patrones, tendencias y factores asociados con la incidencia de cáncer en la provincia “Mundo Feliz”. Además, exploraremos cómo la utilización de técnicas estadísticas avanzadas puede ayudarnos a comprender mejor la relación entre estas variables y, en última instancia, contribuir a la toma de decisiones informadas para abordar este importante problema de salud pública.

II. REGRESIÓN DE POISSÓN CLÁSICA

PASOS PARA DESARROLLO DE A Y B: - Cargar las librerias - Cargar la base de datos - Ajusta el modelo de regresión de Poisson - Obtén un resumen de los resultados del modelo - Evaluación de supuestos - Examina la sobredispersión o subdispersión

library(AER)

## Loading required package: car

## Loading required package: carData

## Loading required package: lmtest

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## Loading required package: sandwich

## Loading required package: survival

library(carData)
library(car)

datos <- read.table("CASOS_CÁNCER.E.txt", header = T, sep = "\t")

attach(datos)
# Ajusta el modelo de regresión de Poisson

modelo_poisson <- glm(Casos ~ Edad + Área, data = datos, family = "poisson")

# Obtén un resumen de los resultados del modelo

summary(modelo_poisson)

## 
## Call:
## glm(formula = Casos ~ Edad + Área, family = "poisson", data = datos)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   2.1144     0.2145   9.858  < 2e-16 ***
## Edad30-40     0.6941     0.2248   3.088 0.002018 ** 
## Edad40-50     0.7027     0.2110   3.331 0.000867 ***
## Edad50-60     0.6751     0.2256   2.992 0.002770 ** 
## Edad60-70     0.6514     0.2837   2.296 0.021667 *  
## Área          0.1786     0.1794   0.996 0.319388    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 29.477  on 13  degrees of freedom
## Residual deviance: 11.992  on  8  degrees of freedom
## AIC: 87.578
## 
## Number of Fisher Scoring iterations: 4

#Evaluación de supuestos

# Verifica la bondad de ajuste del modelo

#Bondad de ajuste del modelo
plot(modelo_poisson, which = 1)

#Examina la sobredispersión o subdispersión:
dispersion_test <- dispersiontest(modelo_poisson)
dispersion_test

## 
##  Overdispersion test
## 
## data:  modelo_poisson
## z = -0.46371, p-value = 0.6786
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion 
##  0.8660679

INTERPRETACIÓN

*** Con respecto a los valores estimados se puede comentar lo siguiente :

** El valor del intercepto es 2.1144. Esto representa el logaritmo del número esperado de casos cuando todas las demás variables predictoras son cero.

** El coeficiente para “Edad30-40” es 0.6941, lo que significa que, manteniendo todas las demás variables constantes, se espera un aumento del 69.41% en la cantidad de casos de cáncer.

** Manteniendo todas las demás variables constantes, se espera un aumento del 70.27% en la cantidad de casos de cáncer en un distrito cuando las personas se encuentran en el rango de edad de 40 a 50.

**Manteniendo todas las demás variables constantes, se espera un aumento del 67.51% en la cantidad de casos de cáncer en un distrito cuando las personas se encuentran en el rango de edad de 50 a 60 años

**Manteniendo todas las demás variables constantes, se espera un aumento del 65.14% en la cantidad de casos de cáncer en un distrito cuando las personas se encuentran en el rango de edad de 60 a 70 años.

**La devianza residual es 11.992, lo que indica que el modelo se ajusta razonablemente bien a los datos.

**El AIC es 87.578, lo que sugiere que el modelo es adecuado pero podría mejorarse.

III. REGRESIÓN DE POISSÓN BAYESIANA

PASOS PARA DESARROLLO DE c , D Y E: - Cargar las librerias - Cargar la base de datos - Especifica el modelo Poisson bayesiano (Utiliza la función brm() para ajustar el modelo) - Obtén un resumen de los resultados del modelo - Predicciones - Muestra las predicciones

# Instala el paquete brms si no lo has hecho
# install.packages("brms")

# Carga el paquete brms
library(brms)

## Loading required package: Rcpp

## Loading 'brms' package (version 2.20.3). Useful instructions
## can be found by typing help('brms'). A more detailed introduction
## to the package is available through vignette('brms_overview').

## 
## Attaching package: 'brms'

## The following object is masked from 'package:survival':
## 
##     kidney

## The following object is masked from 'package:stats':
## 
##     ar

# Carga tus datos
datos <- read.table("CASOS_CÁNCER.E.txt", header = T, sep = "\t")
attach(datos)

## The following objects are masked from datos (pos = 5):
## 
##     Área, Casos, Edad

# Supongamos que tienes un conjunto de datos con una variable dependiente 'y' 
# y variables independientes 'x1', 'x2', ... 'xn'.

# Especifica el modelo Poisson bayesiano
# Utiliza la función brm() para ajustar el modelo
model <- brm(Casos ~ Edad + Área, family = poisson(), data = datos)

## Compiling Stan program...

## Start sampling

## 
## SAMPLING FOR MODEL 'anon_model' NOW (CHAIN 1).
## Chain 1: 
## Chain 1: Gradient evaluation took 2.8e-05 seconds
## Chain 1: 1000 transitions using 10 leapfrog steps per transition would take 0.28 seconds.
## Chain 1: Adjust your expectations accordingly!
## Chain 1: 
## Chain 1: 
## Chain 1: Iteration:    1 / 2000 [  0%]  (Warmup)
## Chain 1: Iteration:  200 / 2000 [ 10%]  (Warmup)
## Chain 1: Iteration:  400 / 2000 [ 20%]  (Warmup)
## Chain 1: Iteration:  600 / 2000 [ 30%]  (Warmup)
## Chain 1: Iteration:  800 / 2000 [ 40%]  (Warmup)
## Chain 1: Iteration: 1000 / 2000 [ 50%]  (Warmup)
## Chain 1: Iteration: 1001 / 2000 [ 50%]  (Sampling)
## Chain 1: Iteration: 1200 / 2000 [ 60%]  (Sampling)
## Chain 1: Iteration: 1400 / 2000 [ 70%]  (Sampling)
## Chain 1: Iteration: 1600 / 2000 [ 80%]  (Sampling)
## Chain 1: Iteration: 1800 / 2000 [ 90%]  (Sampling)
## Chain 1: Iteration: 2000 / 2000 [100%]  (Sampling)
## Chain 1: 
## Chain 1:  Elapsed Time: 0.062 seconds (Warm-up)
## Chain 1:                0.062 seconds (Sampling)
## Chain 1:                0.124 seconds (Total)
## Chain 1: 
## 
## SAMPLING FOR MODEL 'anon_model' NOW (CHAIN 2).
## Chain 2: 
## Chain 2: Gradient evaluation took 7e-06 seconds
## Chain 2: 1000 transitions using 10 leapfrog steps per transition would take 0.07 seconds.
## Chain 2: Adjust your expectations accordingly!
## Chain 2: 
## Chain 2: 
## Chain 2: Iteration:    1 / 2000 [  0%]  (Warmup)
## Chain 2: Iteration:  200 / 2000 [ 10%]  (Warmup)
## Chain 2: Iteration:  400 / 2000 [ 20%]  (Warmup)
## Chain 2: Iteration:  600 / 2000 [ 30%]  (Warmup)
## Chain 2: Iteration:  800 / 2000 [ 40%]  (Warmup)
## Chain 2: Iteration: 1000 / 2000 [ 50%]  (Warmup)
## Chain 2: Iteration: 1001 / 2000 [ 50%]  (Sampling)
## Chain 2: Iteration: 1200 / 2000 [ 60%]  (Sampling)
## Chain 2: Iteration: 1400 / 2000 [ 70%]  (Sampling)
## Chain 2: Iteration: 1600 / 2000 [ 80%]  (Sampling)
## Chain 2: Iteration: 1800 / 2000 [ 90%]  (Sampling)
## Chain 2: Iteration: 2000 / 2000 [100%]  (Sampling)
## Chain 2: 
## Chain 2:  Elapsed Time: 0.081 seconds (Warm-up)
## Chain 2:                0.061 seconds (Sampling)
## Chain 2:                0.142 seconds (Total)
## Chain 2: 
## 
## SAMPLING FOR MODEL 'anon_model' NOW (CHAIN 3).
## Chain 3: 
## Chain 3: Gradient evaluation took 8e-06 seconds
## Chain 3: 1000 transitions using 10 leapfrog steps per transition would take 0.08 seconds.
## Chain 3: Adjust your expectations accordingly!
## Chain 3: 
## Chain 3: 
## Chain 3: Iteration:    1 / 2000 [  0%]  (Warmup)
## Chain 3: Iteration:  200 / 2000 [ 10%]  (Warmup)
## Chain 3: Iteration:  400 / 2000 [ 20%]  (Warmup)
## Chain 3: Iteration:  600 / 2000 [ 30%]  (Warmup)
## Chain 3: Iteration:  800 / 2000 [ 40%]  (Warmup)
## Chain 3: Iteration: 1000 / 2000 [ 50%]  (Warmup)
## Chain 3: Iteration: 1001 / 2000 [ 50%]  (Sampling)
## Chain 3: Iteration: 1200 / 2000 [ 60%]  (Sampling)
## Chain 3: Iteration: 1400 / 2000 [ 70%]  (Sampling)
## Chain 3: Iteration: 1600 / 2000 [ 80%]  (Sampling)
## Chain 3: Iteration: 1800 / 2000 [ 90%]  (Sampling)
## Chain 3: Iteration: 2000 / 2000 [100%]  (Sampling)
## Chain 3: 
## Chain 3:  Elapsed Time: 0.065 seconds (Warm-up)
## Chain 3:                0.061 seconds (Sampling)
## Chain 3:                0.126 seconds (Total)
## Chain 3: 
## 
## SAMPLING FOR MODEL 'anon_model' NOW (CHAIN 4).
## Chain 4: 
## Chain 4: Gradient evaluation took 8e-06 seconds
## Chain 4: 1000 transitions using 10 leapfrog steps per transition would take 0.08 seconds.
## Chain 4: Adjust your expectations accordingly!
## Chain 4: 
## Chain 4: 
## Chain 4: Iteration:    1 / 2000 [  0%]  (Warmup)
## Chain 4: Iteration:  200 / 2000 [ 10%]  (Warmup)
## Chain 4: Iteration:  400 / 2000 [ 20%]  (Warmup)
## Chain 4: Iteration:  600 / 2000 [ 30%]  (Warmup)
## Chain 4: Iteration:  800 / 2000 [ 40%]  (Warmup)
## Chain 4: Iteration: 1000 / 2000 [ 50%]  (Warmup)
## Chain 4: Iteration: 1001 / 2000 [ 50%]  (Sampling)
## Chain 4: Iteration: 1200 / 2000 [ 60%]  (Sampling)
## Chain 4: Iteration: 1400 / 2000 [ 70%]  (Sampling)
## Chain 4: Iteration: 1600 / 2000 [ 80%]  (Sampling)
## Chain 4: Iteration: 1800 / 2000 [ 90%]  (Sampling)
## Chain 4: Iteration: 2000 / 2000 [100%]  (Sampling)
## Chain 4: 
## Chain 4:  Elapsed Time: 0.062 seconds (Warm-up)
## Chain 4:                0.06 seconds (Sampling)
## Chain 4:                0.122 seconds (Total)
## Chain 4:

# Resumen del modelo
summary(model)

##  Family: poisson 
##   Links: mu = log 
## Formula: Casos ~ Edad + Área 
##    Data: datos (Number of observations: 14) 
##   Draws: 4 chains, each with iter = 2000; warmup = 1000; thin = 1;
##          total post-warmup draws = 4000
## 
## Population-Level Effects: 
##           Estimate Est.Error l-95% CI u-95% CI Rhat Bulk_ESS Tail_ESS
## Intercept     2.09      0.22     1.65     2.53 1.00     1949     2327
## Edad30M40     0.70      0.23     0.26     1.15 1.00     2127     2699
## Edad40M50     0.71      0.22     0.29     1.13 1.00     2228     2902
## Edad50M60     0.68      0.23     0.23     1.14 1.00     2136     2647
## Edad60M70     0.65      0.29     0.07     1.20 1.00     2772     2866
## Área          0.18      0.18    -0.18     0.54 1.00     3465     3022
## 
## Draws were sampled using sampling(NUTS). For each parameter, Bulk_ESS
## and Tail_ESS are effective sample size measures, and Rhat is the potential
## scale reduction factor on split chains (at convergence, Rhat = 1).

# Gráficos y diagnósticos
plot(model)

INTERPRETACIÓN

*** Con respecto a los valores estimados se puede comentar lo siguiente :

**La estimación del logaritmo del número esperado de casos cuando todas las demás variables son cero es 2.10. Este valor representa el nivel base de incidencia de cáncer en los distritos de la provincia “Mundo Feliz”.

** Manteniendo todas las demás variables constantes, se estima que la incidencia de cáncer aumenta en un factor de 0.69 para personas en el rango de edad de 30 a 40 años.

** Para el rango de edad de 40 a 50 años, se estima un aumento en la incidencia de cáncer en un factor de 0.71 en comparación con el nivel base.

**Para el rango de edad de 50 a 60 años, se estima un aumento en la incidencia de cáncer en un factor de 0.68 en comparación con el nivel base. .

** El coeficiente estimado para “INTEGRANTES_VACUNADOS” es -0.02, con un intervalo de confianza del 95% entre -0.08 y 0.04. Esto indica que un aumento de una unidad en “INTEGRANTES_VACUNADOS” se asocia con una disminución estimada de 0.02 en la variable “CASOS”, manteniendo las otras variables constantes.

**Para el rango de edad de 60 a 70 años, se estima un aumento en la incidencia de cáncer en un factor de 0.64 en comparación con el nivel base. El intervalo de confianza al 95% muestra que existe cierta incertidumbre en la magnitud de este efecto.

**La variable AREA representa el efecto de vivir en un área urbana (1) en comparación con un área rural (0). La estimación es de 0.18, pero dado que el intervalo de confianza al 95% incluye el valor 0, no hay evidencia sólida para afirmar que el área de residencia tenga un efecto significativo en la incidencia de cáncer en este modelo.

IV. CONCLUSION

En resumen, tanto el enfoque de Poisson clásico como el bayesiano coinciden en la importancia de la edad como un factor determinante en la incidencia de cáncer en los distritos de la provincia ‘Mundo Feliz’. Sin embargo, ambos enfoques no encontraron evidencia sólida de que el área de residencia tenga un impacto significativo en la presencia de casos de cáncer. Estos hallazgos son fundamentales para la comprensión y la toma de decisiones relacionadas con la salud pública en la provincia.

REGRESIÓN POISSON CLÁSICO Y BAYESIANO

Yesica Suyai Castillo Olivares

2023-09-29

I. INTRODUCCIÓN

II. REGRESIÓN DE POISSÓN CLÁSICA

III. REGRESIÓN DE POISSÓN BAYESIANA

IV. CONCLUSION