Skip to Content

Sobre os resultados dos modelos lineares

A arma de Chekhov é um princípio dramático descrito por Anton Chekhov, segundo o qual todos os elementos presentes em uma história devem ser necessários e elementos irrelevantes devem ser removidos. Os elementos não devem produzir “falsas promessas”, sem afetar o enredo depois de apresentados.

Outro dia vi uma publicação muito interessante sobre a comparação de coeficientes em um modelo de regressão. A Publicação original está aqui. Esta publicação será uma tradução com comentários pessoais.

#devtools::install_github("svmiller/post8000r")
library(post8000r)
data(TV16)
head(TV16)
##   uid         state votetrump age  generation female collegeed racef famincr
## 1   1 New Hampshire         1  47       Gen X      1         0 White      NA
## 2   2     Louisiana         1  22  Millennial      1         0 White       6
## 3   3      Missouri        NA  52 Baby Boomer      1         0 Black       4
## 4   4       Alabama        NA  28  Millennial      1         0 Black       1
## 5   5      Colorado         0  34  Millennial      1         1 White       7
## 6   6       Alabama        NA  53 Baby Boomer      1         0 Mixed       1
##   ideo pid7na bornagain religimp churchatd prayerfreq angryracism whiteadv
## 1    3      5         0        3         1          3           2        3
## 2    3      4        NA       NA        NA         NA           1        4
## 3    5      1         0        4         4          5          NA       NA
## 4    4      4         0        3         3          5          NA       NA
## 5    2      2         0        1         1          2           2        1
## 6   NA      2         0        4         5          7           1        1
##   fearraces racerare      lrelig    lcograc    lemprac
## 1         1        3 -0.19168063  0.4750548 -0.1387147
## 2         1        1          NA -0.1841721 -0.6194270
## 3        NA       NA  0.57306009         NA         NA
## 4        NA       NA  0.06935603         NA         NA
## 5         1        1 -1.13017488 -1.2041252 -0.1387147
## 6         1        1  1.17109733 -1.2041252 -0.6194270
# TV16 (Trump vote, 2016) data. The data frame has 64,600 rows and 22 columns.

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
TV16 %>%
  filter(racef == "White") %>%
  filter(state %in% c("Indiana","Ohio","Pennsylvania","Wisconsin","Michigan")) -> Data

M1 <- glm(votetrump ~ age + female + collegeed + famincr +
            pid7na + ideo + bornagain + lcograc + lemprac,
          data = Data, family=binomial(link="logit"), na.action=na.exclude)

O problema da comparação dos coeficientes

Aqui está um resumo simples desse resultado por meio do pacote broom. Esse é o tipo de tabela de regressão que um pesquisador novato criaria e apresentaria ao leitor de um manuscrito.

library(broom)
## Warning: package 'broom' was built under R version 4.0.3
COEFICIENTES<-tidy(M1)
COEFICIENTES
## # A tibble: 10 x 5
##    term        estimate std.error statistic   p.value
##    <chr>          <dbl>     <dbl>     <dbl>     <dbl>
##  1 (Intercept)  -6.03     0.277     -21.8   5.04e-105
##  2 age           0.0168   0.00301     5.57  2.50e-  8
##  3 female        0.0967   0.0906      1.07  2.86e-  1
##  4 collegeed    -0.693    0.105      -6.58  4.62e- 11
##  5 famincr      -0.0130   0.0163     -0.795 4.27e-  1
##  6 pid7na        0.749    0.0274     27.3   4.81e-164
##  7 ideo          0.643    0.0622     10.3   5.19e- 25
##  8 bornagain     0.342    0.104       3.29  9.87e-  4
##  9 lcograc       1.17     0.0748     15.7   1.94e- 55
## 10 lemprac       0.705    0.0981      7.18  6.73e- 13

As conclusões aqui não são tão novas ou surpreendentes. Tudo está na direção esperada e quase tudo é significativo. Os únicos efeitos nulos são se o respondente é uma mulher e a variável de renda familiar. Informalmente, não observamos uma diferença estatisticamente discernível entre homens e mulheres brancas nesses cinco estados do meio-oeste em sua tendência a ter votado em Donald Trump, tudo o mais igual. Da mesma forma, não vemos nenhum efeito perceptível do aumento da renda também. De um modo geral, e adaptando a linguagem às covariáveis do modelo: os brancos mais velhos tinham mais probabilidade do que os brancos mais jovens de dizer que votaram em Donald Trump nesses cinco estados do meio-oeste. Aqueles sem diploma universitário tinham maior probabilidade de votar nele do que aqueles com diploma universitário. Aqueles cuja ideologia autodeclarada está mais próxima do conservador do que do liberal tinham mais probabilidade de ter votado nele (duh), assim como aqueles cujas afinidades políticas gravitam em torno do Partido Republicano em relação ao Partido Democrata (de novo, duh). Ser um cristão renascido aumenta as chances naturais de votar em Donald Trump em 0,342 (também, dã). Os níveis crescentes de racismo cognitivo e racismo empático também aumentam as chances naturais de um entrevistado dizer que votou em Donald Trump.

Nada aqui é terrivelmente surpreendente ou novo neste modelo, mas o resumo do modelo tem dois componentes insatisfatórios. Primeiro, a constante é um componente importante do modelo, mas agora é um parâmetro inútil (para ficar claro: as chances naturais registradas de voto em Donald Trump nesta amostra quando todos os outros parâmetros no modelo são zero).

Nesse contexto, suponha a seguinte pessoa na amostra. Esta pessoa é um homem de zero anos (!) Sem diploma universitário. Ele tem uma renda familiar de 0 em uma escala de 1 a 12 (!). Politicamente, ele tem uma ideologia de 0 em uma escala de 1 a 5 (!) E um partidarismo de 0 em uma escala de 1 a 7 (!). Ele não é um cristão nascido de novo e suas atitudes em relação ao racismo são definidas como 0 (que é o meio da distribuição). A chance registrada dessa pessoa votar em Donald Trump é -6,026, o que equivale a uma probabilidade prevista de 0,002.

Essa pessoa claramente não pode existir. Ninguém tem zero anos em uma pesquisa com adultos. As estimativas de partidarismo e ideologia estão fora dos limites da escala. No entanto, o modelo ainda está tentando encontrar uma estimativa para esta pessoa hipotética porque a constante / y-intercept faz parte do modelo. Você pode optar por suprimir este parâmetro, tanto no modelo como na apresentação do mesmo. Na maioria das vezes, porém, está lá e o leitor leigo vai querer interpretá-lo.

Pense nisso como o equivalente do modelador de regressão da arma de Chekhov. A modelagem de regressão também é uma narrativa. Se você vai incluí-lo, é melhor se preparar para explicá-lo.

Uma limitação relacionada surge na tentativa de comparar coeficientes. O maior coeficiente no modelo é a variável de racismo cognitivo, mas esse é realmente o maior “efeito”? Em termos absolutos, o efeito negativo da educação universitária é equivalente ao partidarismo? A resposta aqui deve ser claramente “não, claro que não”. O partidarismo invariavelmente será o maior efeito em qualquer modelo de escolha de voto partidário nos EUA. O racismo pode ter desempenhado um papel desproporcional na eleição presidencial de 2016, mas o partidarismo ainda será o maior motor aqui. No entanto, quase todas as variáveis compartilham escalas diferentes. A idade varia de 18 a 92. A variável de educação universitária só pode ser 0 e 1. Você não pode comparar coeficientes nessas circunstâncias, mesmo que você realmente queira fazer isso.