Modelización Bayesiana Multinivel Avanzada con R con el paquete brms
Author
Eduardo Canales
Introducción
El siguiente pots tiene como objetivo principal el uso del paquete brms para la modelización bayesiana multinivel avanzada, en este caso utilizaremos varias bases de datos para mostrar su potencial al momento de realizar estimaciones y ajustes de los modelos.
Pesca de Peces
Los siguientes datos trata del número de peces capturados por varios grupos de personas, los datos se obtuvieron del sitio web
(https: //stats.idre.ucla.edu/stata/dae/zero-inflated-poisson-regression)
de la UCLA. Una descripción breve de los datos: "Los biólogos de vida salvaje desean modelar cuantos peces son capturados por los pescadores en un parque estatal y se realizan las siguientes preguntas a los visistantes; Cuánto tiempo se quedaron, Cuántas personas había en el grupo, si había niños en el grupo y cuántos peces se pescaron. Algunos visitantes no pescan, pero no hay datos sobre si una persona pescó o no, algunos visitantes si pescaron pero no capturan ningún pez, por lo que hay un exceso de ceros en los datos debido a las personas que nos pescaba"
La base de datos Peces contiene la siguientes variables:
nofish: Esta variable representa el número de peces que no fueron capturados en un día de pesca en particular.
livebait: Es una variable binaria que indica si se utilizó cebo vivo durante la pesca (1) o no (0).
camper: Esta variable muestra si el pescador era un campista (yes) o no (no).
persons: Representa el número de personas presentes en la pesca.
child: Es una variable binaria que indica si había niños presentes durante la pesca (1) o no (0).
xb: Esta variable corresponde a un predictor continuo o covariable en un modelo estadístico.
zg: Esta variable es un predictor continuo o covariable en un modelo estadístico.
count: Representa el número de peces capturados en un día de pesca en particular.
Para este caso se elige como predictores el numero de personas por grupo, el numero de niños, así como si el grupo esta formado por campistas o no. Dado que muchos grupos puede que no pesquen nada simplemente no lo intenten, por lo cual se ajusta un Modelo de Poisson de inflación cero.
Los siguientes datos para analizar son los alquileres de viviendas en Múnich a partir de 1999, los cuales contienen información sobre 3000 apartamentos aproximadamente.
La base de datos rent99 se enucentra dentro del paquete gamlss.data donde contiene la siguientes variables:
El objetivo en este caso es predecir el alquiler por metro cuadrado con el tamaño del apartamento y el año de construcción , teniendo en cuenta el distrito de Múnich
Family: gaussian
Links: mu = identity; sigma = identity
Formula: rentsqm ~ t2(area, yearc) + (1 | district)
Data: rent99 (Number of observations: 3082)
Draws: 2 chains, each with iter = 2000; warmup = 1000; thin = 1;
total post-warmup draws = 2000
Smooth Terms:
Estimate Est.Error l-95% CI u-95% CI Rhat Bulk_ESS Tail_ESS
sds(t2areayearc_1) 3.91 1.61 1.46 7.64 1.00 1610 1202
sds(t2areayearc_2) 4.13 1.87 1.36 8.69 1.00 1318 1316
sds(t2areayearc_3) 6.35 2.16 3.22 11.71 1.00 1561 1325
Group-Level Effects:
~district (Number of levels: 336)
Estimate Est.Error l-95% CI u-95% CI Rhat Bulk_ESS Tail_ESS
sd(Intercept) 0.59 0.06 0.47 0.71 1.00 679 982
Population-Level Effects:
Estimate Est.Error l-95% CI u-95% CI Rhat Bulk_ESS Tail_ESS
Intercept 7.80 0.11 7.59 8.01 1.00 2051 1604
t2areayearc_1 -1.01 0.08 -1.16 -0.85 1.00 2557 1701
t2areayearc_2 0.74 0.16 0.42 1.06 1.00 1887 1429
t2areayearc_3 -0.11 0.15 -0.39 0.20 1.00 2088 1415
Family Specific Parameters:
Estimate Est.Error l-95% CI u-95% CI Rhat Bulk_ESS Tail_ESS
sigma 1.96 0.03 1.91 2.01 1.00 2847 1421
Draws were sampled using sampling(NUTS). For each parameter, Bulk_ESS
and Tail_ESS are effective sample size measures, and Rhat is the potential
scale reduction factor on split chains (at convergence, Rhat = 1).
conditional_effects(Mod3)
En el ejemplo anterior solo se considero que media de la distribución solo varía según la zona y el año, en consecuencia se ajusta splines y efectos de distrito tanto para la localización como el parámetro de escala, que denominamos sigma en los modelos gausiano