Ny analysefunksjonalitet: Telleregresjoner

Regresjonsvariantene Poisson og Negativ binomial tilhører familien telleregresjoner, og brukes på data der responsvariabelen teller antall forekomster/hendelser (positive heltall).

Til forskjell fra ordinær lineær regresjon (OLS) forutsettes det at responsvariabelen ikke er normalfordelt, men venstreskjev og med lang høyrehale. Dette er en typisk egenskap ved telledata. Mer spesifikt forutsetter Poissonregresjoner at responsvariabelen følger en Poissonfordeling der snittet/forventet verdi av responsvariabelen er lik variansen. Negativ binomial-regresjon er en generalisert variant av Poisson der variansen til responsvariabelen forutsettes å være høyere enn snittverdien, dvs. at spredningen er større enn for Poisson.

Poisson bør altså velges dersom forventet verdi for den avhengige variabelen er lik variansen. Ellers (dersom variansen er større) bør Negativ binomial-regresjon brukes.

Kommandoene som benyttes er hhv. poisson og negative-binomial. Den første variabelen i inputlisten er den avhengige variabelen (tellevariabel som teller opp forekomster av en gitt hendelse). Øvrige variabler (forklaringsvariabler) kan spesifiseres på samme måte som ved OLS (gitt ved kommandoen regress).

Tilgjengelige opsjoner:

  • noconstant: Undertrykker konstantleddet
  • level(): Endre fra standard 95% konfidensintervall
  • robust: Robuste standardfeil
  • cluster(): Benytte clustervariabel (kan ikke benyttes sammen med robust)
  • control(): Ikke vis koeffisientestimater for utvalgte variabler
  • irr: Rapporterer incidence rate ratio-verdier i stedet for koeffisientverdier (verdiene transformeres gjennom den naturlige eksponensialfunksjonen). Verdien 1 betyr ingen effekt. Verdier over 1 betyr positiv effekt, mens verdier under 1 betyr negativ effekt.
  • exposure(): Inkluderer eksponeringsvariabel (kategorisk variabel). Denne representerer «mengden» av eksponering for den prosessen som genererer tellinger. Variabelen som angis inni parentesen må være kategorisk og må ikke inneholde 0-verdier. For eksempel, hvis du modellerer antallet bilulykker i forskjellige byer, kan tilknytning til by være en eksponeringsvariabel. Eksponeringsvariabelen blir automatisk log-transformert (naturlig logaritme) og inkludert som en offset i modellen, noe som betyr at den vil justere tellingsresponsen for mengden av eksponering. De andre estimatene blir da korrigert basert på denne variabelen, slik at de blir mer riktige. Merk at exposure-variabelen ikke skal angis som forklaringsvariabel i modellen.

Eksempel på Poissonregresjon:

Eksempel på Negativ binomial-regresjon:

Negativ binomial vs. Poisson

Forskjellen mellom en Poissonregresjon og en Negativ binomial-regresjon er at i sistnevnte inngår parameteren alpha som skal fange opp ekstra varians (overdispersjon), og verdien på denne rapporteres nederst i listen over koeffisientestimater (over konstantleddet). Parameteren brukes altså til å skalere variansen til modellen1.

En alphaverdi på 0 innebærer at modellen er identisk med en Poissonmodell der varians = gjennomsnitt for responsvariabelen, og at en Poissonregresjon er mer passende å bruke. Positive alphaverdier tyder på overdispersjon (større spredning), og jo høyere verdi, dess større spredning. I eksempelet over er verdien 0.89. Dette tyder på at det er relativt stor grad av overdispersjon og at Negativ binomial-regresjon muligens er best å bruke (selv om Pseudo R2 har lavere verdi i forhold til Poisson).

Prediksjons- og residualverdier

Prediksjonsverdier og residualer kan hentes ut og studeres gjennom å bruke kommandoene poisson-predict og negative-binomial-predict.

Eksempler på uthenting og visning av faktiske prediksjons- og residualverdier:

Merk at residualene ikke er normalfordelte slik om i en OLS-regresjon. Dette er som forventet for telleregresjoner.

Mer detaljer om poisson og negative-binomial finner du i brukermanualen kapittel 5.9.

Kilde:
Algoritmene for kommandoene poisson og negative-binomial baserer seg på funksjoner som man finner i Statsmodels-modulen i Python: Henholdsvis Poisson og NegativeBinomial.

Fotnote:

  1. Variansen til en Negativ binomialmodell kan uttrykkes slik: Varians = μ + α * μ2 , der μ = snitt av Y, α = alpha. I en Poissonmodell er alpha lik 0 slik at varians = snitt. ↩︎