Skip to Content

Como interpretar a regressão logística

Modelo
Regressão logística
Interpretação

Qual função de ligação escolher? Logit ou probit?

Uma pergunta que eu recebo muito é: Qual é o melhor método, probit ou logit?

Não faz muita diferença. O modelo Logit e Probit são quase idênticos e a escolha da função de ligação geralmente é arbitrária. No entanto, os parâmetros dos dois modelos são dimensionados de forma diferente. Além disso:

Multiplicar os parâmetros no modelo probit por 1,6 é aproximadamente o mesmo que as estimativas logit.1

Em uma equação isso seria:

$ _{logit}=1,6*_{probit} $

Em outras palavras, pegue os coeficientes logit e divida por aproximadamente 1,6 para obter coeficientes probit. (JOHNSTON & DiNARDO,1997; GREENE, 2003). Todavia, o logit tem a vantagem de ser mais fácil de interpretar (por causa da razão de chances).

y <- c(1,1,0,0,1,0,0,1,1)
x <- c(0,1,1,1,0,0,1,0,1)
dados <- data.frame(y,x)

logit_1  <- glm(y~ x, family = binomial(link = "logit"), data = dados)
probit_1 <- glm(y~ x, family = binomial(link = "probit"), data = dados)

coef(logit_1)
(Intercept)           x 
   1.098612   -1.504077 
1.6*coef(probit_1)
(Intercept)           x 
   1.079184   -1.484539 
# a diferenca residual deve ser em função da amostra minima (ou p!=0.4)
# coef(logit_1)[2] -1.6*coef(probit_1)[2]

Como interpretar a razão de chances?

Todos sabemos que precisamos passar o antilogaritmo para encontrar a razão de chances.

Vamos nos concentrar no significado do único preditor binário modelo. O coeficiente do preditor x é -1,504077. Um coeficiente é uma inclinação.

Esse é o valor da taxa de variação em y com base na variação de uma unidade em x. Quando x é binário (dummy), é a quantidade de mudança em y quando x muda de 0 para 1 em valor.

Mas o que mudou?

Lembre-se de que o preditor linear, Xb, de um modelo logístico é definido como log(mu / (1 - mu)). Essa expressão é chamada de log-odds ou logit.

Essa função, chamada de função de ligação ,é a base para interpretar coeficientes do modelo logístico.

A interpretação de x é que quando x muda de 0 para 1, o log-odds (logit) de y muda em -1,504. Todavia, não estamos interessados no log-odds, mas sim no odds.

O que acontece se exponenciarmos log(mu / (1 - mu))? O resultado é simplesmente mu / (1 - mu), que é interpretado como as chances de mu, sendo mu a probabilidade que y = 1, e 1 - mu sendo a probabilidade de y = 0 (a probabilidade de y não ser 1).

Exponenciando o coeficiente de x, podemos interpretar o resultado da seguinte forma: A razão de chances (odds ratio) de x = = 1 é o odds de x = 1 e o odds de x = 0.

A probabilidade de y dado x = 1 é exp(−1,504077) ou 0,22222 vezes maior do que as chances de x = 0. Isso é o mesmo que dizer que as chances de x = 0 são 1 / exp (−1,504077) ou 4,5 vezes maior do que x = 1.

coef(logit_1)
(Intercept)           x 
   1.098612   -1.504077 
#LINEAR PREDICTOR WHEN X = 1
1.098612 -1.504077*1
[1] -0.405465
#LINEAR PREDICTOR WHEN X = 0
1.098612 -1.504077*0
[1] 1.098612

Razão de chances via tabela

table(y,x)
   x
y   0 1
  0 1 3
  1 3 2

A chance (odds) de x = 1 é definida como “o valor de x = 1 quando y = 1 dividido pelo valor de x = 1 quando y = 0”. A chance (odds) de x = 1 é 2/3, ou chance (odds) x = 1.

2/3
[1] 0.6666667

A chance (odds) de x = 0 é, chance(odds) x = 0

3/1
[1] 3

Criando uma razão de valores que temos Razão de chances (Odds Ratio) entre x = 1 e x = 0

(2/3)/(3/1)
[1] 0.2222222

Isso é o mesmo que

exp(coef(logit_1)[2])
        x 
0.2222222 

Exemplo 2

load(url("https://raw.githubusercontent.com/DATAUNIRIO/Base_de_dados/master/Hair_Favero_e_Agresti/Pratical_guide_to_logistic_regression_datasets/medpar.rdata"))
#head(medparr)
table(medparr$died)

  0   1 
982 513 
table(medparr$type)

   1    2    3 
1134  265   96 
logit_2 <- glm(died ~ factor(type), family = binomial, data = medparr)

exp(coef(logit_2))
  (Intercept) factor(type)2 factor(type)3 
    0.4727273     1.3664596     1.8665158 

A interpretação é:
* Pacientes com internação de urgência têm uma chance quase 37% maior de morrer em hospital do que admissões eletivas.
* Pacientes com internação de emergência têm probabilidade quase 87% maior de morrer no hospital do que as admissões eletivas.

Modificando a categoria de referência Nós vamos mudar da categoria de referência 1 para a categoria de referência 3 usando a função relevel:

medparr$type <- factor(medparr$type)
medparr$type <- relevel(medparr$type, ref=3)
logit_3 <- glm( died~factor(type), family=binomial, data=medparr)
exp(coef(logit_3))
  (Intercept) factor(type)1 factor(type)2 
    0.8823529     0.5357576     0.7320911 

Nova interpretação:
* Pacientes eletivos têm cerca de metade das chances de morrer no hospital do que os pacientes de emergência.
* Pacientes urgentes têm cerca de três quartos das chances de morrer em hospital do que pacientes de emergência. Para saber mais, consulte Hilbe (2016).

Pressupostos

Pressupostos dos modelos lineares generelizados:

fonte

  1. Os dados Y1, Y2, …, Yn são distribuídos de forma independente, ou seja, as observações são independentes.
  2. A variável dependente Yi NÃO precisa ter uma distribuição normal, mas assume uma distribuição de uma família exponencial (por exemplo, binomial, Poisson, multinomial, normal, …).
  3. O Modelo Linear Generalizado NÃO assume uma relação linear entre a variável dependente e as variáveis independentes, mas assume uma relação linear entre a resposta transformada em termos da função de ligação e as variáveis explicativas; por exemplo, para regressão logística binária logit(pi) = β0 + βX.
  4. A homogeneidade da variância NÃO precisa ser satisfeita. Na verdade, nem mesmo é possível em muitos casos, dada a estrutura do modelo, e a superdispersão (quando a variância observada é maior do que o que o modelo presume) pode estar presente.
  5. Os erros precisam ser independentes, mas NÃO normalmente distribuídos.
  6. Ele usa estimativa de máxima verossimilhança em vez de mínimos quadrados ordinários (MQO) para estimar os parâmetros e, portanto, depende de aproximações de grandes amostras.

Esses dois textos também podem ajudar na interpretação de resultados: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/ https://metodos.netlify.app/docs/razao_de_chances/

Bibliografia

GREENE, William H. Econometric analysis. Pearson Education India, 2003. HILBE, Joseph M. Practical guide to logistic regression. crc Press, 2016. JOHNSTON, Jack; e John DiNARDO, Econometric Methods, 4.ª ed., McGraw-Hill Book Company, New York, 1997.