Modelos Fuzzy para Aprendizado Estatístico

aplicados ao comportamento político

Renato Barreira

OBJETIVOS

Objetivo principal:

Análise exploratória do comportamento político sob o prisma canônico do que é o “Bolsonarismo”.

Objetivo secundário:

Apresentar o uso de ferramentas como Fuzzy c-means e Decision Trees na análise de comportamento político.

Teoria de Conjuntos e Racionalismo crítico:

As teorias em Ciência Política são formuladas verbalmente baseando-se em termos e relações entre conjuntos.

Racionalismo crítico

“Basic Statement” de Karl Popper: “Há um X em Y” Esta forma permite que tais enunciados sejam observáveis e verificáveis empiricamente.

Fuzzy C-Means

O Fuzzy C-Means (FCM) é um algoritmo de agrupamento (clustering) baseado em lógica fuzzy, proposto inicialmente por Dunn em 1973 e aprimorado por Bezdek em 1981. Ele realiza uma partição suave dos dados, onde cada elemento pode pertencer a múltiplos grupos com diferentes graus de pertencimento.

DUARTE, Matheus Henrique Pereira et al. Implementación del algoritmo Fuzzy C-means con operador lagrange para el procesamiento de trayectorias vehiculares de una ciudad para la comparación de indicadores de calidad de agrupamiento. Semantic Scholar, 2019.

MOLIN, José Paulo; AMARAL, Luiz Guilherme Meira. Definição de zonas de manejo utilizando algoritmo de agrupamento fuzzy c-means com variadas métricas de distâncias. Semantic Scholar, 2017. :::

Banco de Dados utilizado:

ESEB-2022 ESTUDO ELEITORAL BRASILEIRO

# A tibble: 1,504 × 7
   IDEOLOGIA GOSTA_BOLSONARO GOSTA_PT GOSTA_LULA INTERV_MIL_CRIME
       <dbl>           <dbl>    <dbl>      <dbl>            <dbl>
 1         0               1        9          8                2
 2         0               0       10         10                2
 3        10              10        0          0                1
 4        10              10        0          0                1
 5         0               0        5         10                1
 6         0               0       10         10                2
 7        10              10        0          0                1
 8         0               0        0          0                1
 9        10              10        0          0                1
10         0               0        5          5                2
# ℹ 1,494 more rows
# ℹ 2 more variables: INTERV_MIL_CORRUPCAO <dbl>, INTERV_MIL_INST_POL <dbl>

Fuzzy C Means - Clusterização: Gosta do Bolsonaro e Ideologia

Fuzzy C Means - Clusterização: Gosta do PT e Gosta do Lula

Teste de Consistência

\(\text{Consistência}(\text{μbolsonarismo≤μantipetismo}) = \frac{\sum \min(\text{μbolsonarismo}, \text{μantipetismo})}{\sum \text{μbolsonarismo}}\)

Na análise de conjuntos fuzzy, a consistência avalia o grau em que a relação “Bolsonarismo é um subconjunto do Antipetismo” é suportada pelos dados.

# Calcular a consistência manualmente
min_vals <- pmin(data2$BOLSONARISMO, data2$ANTIPETISMO)
consistency <- sum(min_vals) / sum(data2$BOLSONARISMO)
print(consistency)
[1] 0.7842446

Consistência (78,4%): Indica que 78,4% dos casos onde há a interseção mínima entre BOLSONARISMO e ANTIPETISMO são cobertos por ANTIPETISMO. Ou seja, quanto dos casos de antipetismo também exibem a condição de bolsonarismo.

Ragin, C. C. (2008). “Redesigning Social Inquiry: Fuzzy Sets and Beyond.” University of Chicago Press. Klir, G. J., & Yuan, B. (1995). Fuzzy sets and fuzzy logic: theory and applications. Prentice Hall PTR.

Teste de Cobertura:

\(\text{Cobertura}(\text{μbolsonarismo ≤ μantipetismo}) = \frac{\sum \min(\text{μbolsonarismo}, \text{μantipetismo})}{\sum \text{μantipetismo}}\)

A cobertura é uma medida de abrangência que quantifica a proporção de ocorrências do resultado que pode ser explicada pela condição causal considerada. Em outras palavras, enquanto a consistência foca na suficiência da condição causal para o resultado, a cobertura foca na sua necessidade e abrangência.

# Calcular a cobertura manualmente
coverage <- sum(min_vals) / sum(data2$ANTIPETISMO)
print(coverage)
[1] 0.7694563

Cobertura (76,9%): Se a cobertura for alta, isso indica que a maioria dos casos de antipetismo pode ser explicada pelos altos bolsonarismo, sugerindo que a bolsonarismo é uma condição abrangente e relevante para o antipetismo.

#ÁRVORES DE DECISÃO {background-image=“background.jpg”} ::: {style=“font-size: 14px;”} JAMES, Gareth; WITTEN, Daniela; HASTIE, Trevor; TIBSHIRANI, Robert. An Introduction to Statistical Learning: with Applications in R. 2. ed. Corrected Printing: June 21, 2023. :::

Em uma árvore de classificação, a previsão é a classe mais frequente entre as observações de treinamento na região correspondente. Na interpretação dos resultados de uma árvore de classificação, é importante considerar tanto a previsão da classe quanto as proporções de classes entre as observações de treinamento naquela região.

Bolsonarismo e “Intervenção Militar - Crime”

Bolsonarismo e “Intervenção Militar - Crime”

Inferência

Se BOLSONARISMO é maior ou igual a 0.2, há uma probabilidade de 39% de ser classificado como “sim” (1).

Se BOLSONARISMO é menor que 0.2, há uma probabilidade de 74% de ser classificado como “não” (2).

Bolsonarismo e “Intervenção Militar - Corrupção”

Bolsonarismo e “Intervenção Militar - Corrupção”

Inferência

Se BOLSONARISMO é maior ou igual a 0.2, há uma probabilidade de 23% de ser classificado como “sim” (1).

Se BOLSONARISMO é menor que 0.2, há uma probabilidade de 66% de ser classificado como “não” (2).

Bolsonarismo e “Intervenção Militar - Instabilidade Política”

Bolsonarismo e “Intervenção Militar - Instabilidade Política”

Inferência

Se BOLSONARISMO é maior ou igual a 0.83, há uma probabilidade de 28% de ser classificado como “sim” (1).

Se BOLSONARISMO é menor que 0.83, há uma probabilidade de 68% de ser classificado como “não” (2).

CONCLUSÃO

Inferência

Comportamento político é um fenômeno complexo e são necessárias várias camadas de análise e métodos para compreender sua complexidade.

Inferência

Como no caso da intervencionismo, o Bolsonarismo pode não ser um fenômeno tão bem delineado assim. Mas uma minoria barulhenta (como visto nas manifestações) pode acabar passando um padrão que não se sustenta quando olhamos os dados.

Muito Obrigado

renatobarreira@edu.unirio.br