Ny analysefunksjonalitet: Telleregresjoner
Regresjonsvariantene Poisson og Negativ binomial tilhører familien telleregresjoner, og brukes på data der responsvariabelen teller antall forekomster/hendelser (positive heltall).
Til forskjell fra ordinær lineær regresjon (OLS) forutsettes det at responsvariabelen ikke er normalfordelt, men venstreskjev og med lang høyrehale. Dette er en typisk egenskap ved telledata. Mer spesifikt forutsetter Poissonregresjoner at responsvariabelen følger en Poissonfordeling der snittet/forventet verdi av responsvariabelen er lik variansen. Negativ binomial-regresjon er en generalisert variant av Poisson der variansen til responsvariabelen forutsettes å være høyere enn snittverdien, dvs. at spredningen er større enn for Poisson.
Poisson bør altså velges dersom forventet verdi for den avhengige variabelen er lik variansen. Ellers (dersom variansen er større) bør Negativ binomial-regresjon brukes.
Kommandoene som benyttes er hhv. poisson
og negative-binomial
. Den første variabelen i inputlisten er den avhengige variabelen (tellevariabel som teller opp forekomster av en gitt hendelse). Øvrige variabler (forklaringsvariabler) kan spesifiseres på samme måte som ved OLS (gitt ved kommandoen regress
).
Tilgjengelige opsjoner:
noconstant
: Undertrykker konstantleddetlevel()
: Endre fra standard 95% konfidensintervallrobust
: Robuste standardfeilcluster()
: Benytte clustervariabel (kan ikke benyttes sammen medrobust
)control()
: Ikke vis koeffisientestimater for utvalgte variablerirr
: Rapporterer incidence rate ratio-verdier i stedet for koeffisientverdier (verdiene transformeres gjennom den naturlige eksponensialfunksjonen). Verdien 1 betyr ingen effekt. Verdier over 1 betyr positiv effekt, mens verdier under 1 betyr negativ effekt.exposure()
: Inkluderer eksponeringsvariabel (kategorisk variabel). Denne representerer «mengden» av eksponering for den prosessen som genererer tellinger. Variabelen som angis inni parentesen må være kategorisk og må ikke inneholde 0-verdier. For eksempel, hvis du modellerer antallet bilulykker i forskjellige byer, kan tilknytning til by være en eksponeringsvariabel. Eksponeringsvariabelen blir automatisk log-transformert (naturlig logaritme) og inkludert som en offset i modellen, noe som betyr at den vil justere tellingsresponsen for mengden av eksponering. De andre estimatene blir da korrigert basert på denne variabelen, slik at de blir mer riktige. Merk atexposure
-variabelen ikke skal angis som forklaringsvariabel i modellen.
Eksempel på Poissonregresjon:
Eksempel på Negativ binomial-regresjon:
Negativ binomial vs. Poisson
Forskjellen mellom en Poissonregresjon og en Negativ binomial-regresjon er at i sistnevnte inngår parameteren alpha
som skal fange opp ekstra varians (overdispersjon), og verdien på denne rapporteres nederst i listen over koeffisientestimater (over konstantleddet). Parameteren brukes altså til å skalere variansen til modellen1.
En alphaverdi på 0 innebærer at modellen er identisk med en Poissonmodell der varians = gjennomsnitt for responsvariabelen, og at en Poissonregresjon er mer passende å bruke. Positive alphaverdier tyder på overdispersjon (større spredning), og jo høyere verdi, dess større spredning. I eksempelet over er verdien 0.89. Dette tyder på at det er relativt stor grad av overdispersjon og at Negativ binomial-regresjon muligens er best å bruke (selv om Pseudo R2 har lavere verdi i forhold til Poisson).
Prediksjons- og residualverdier
Prediksjonsverdier og residualer kan hentes ut og studeres gjennom å bruke kommandoene poisson-predict
og negative-binomial-predict
.
Eksempler på uthenting og visning av faktiske prediksjons- og residualverdier:
Merk at residualene ikke er normalfordelte slik om i en OLS-regresjon. Dette er som forventet for telleregresjoner.
Mer detaljer om poisson
og negative-binomial
finner du i brukermanualen kapittel 5.9.
Kilde:
Algoritmene for kommandoene poisson
og negative-binomial
baserer seg på funksjoner som man finner i Statsmodels-modulen i Python: Henholdsvis Poisson og NegativeBinomial.
Fotnote:
- Variansen til en Negativ binomialmodell kan uttrykkes slik: Varians = μ + α * μ2 , der μ = snitt av Y, α = alpha. I en Poissonmodell er alpha lik 0 slik at varians = snitt. ↩︎