Regresjonsanalyse for paneldata

 av  Trond Pedersen

Microdata.no gir nå mulighet for å benytte paneldata-analyse. Paneldata er datasett der hver enhet/individ har oppgitt verdier for samtlige variabler målt over et gitt antall måletidspunkt. Dette har den fordelen at en kan ta med tidskomponenten i analyser, og at en får mye større datagrunnlag og analyser av en bedre kvalitet i forhold til ordinære regresjonsanalyser. Paneldata-analyse gir mulighet til å ta hensyn til varians over tid for variablene som inngår.

I første omgang er det åpnet for mulighet til å bruke lineær paneldata-regresjonsanalyse gjennom kommandoen regress-panel. Hovedforskjellen fra vanlig regresjonsanalyse (jfr. kommandoen regress) er at dataene må være organisert på et panelformat der samtlige variabler måles flere ganger per enhet. Et paneldatasett vil da bestå av T x N observasjoner, der T står for antall måletidspunkt og N står for antall enheter i populasjonen. Paneldata lages gjennom kommandoen import-panel.

Lineær paneldata-regresjon krever at den avhengige variabelen (som listes først i regress-panel-kommandoen) inneholder verdier med kontinuerlig/metrisk format, f.eks. inntekt.

Avhengig av hvilke antakelser som gjøres om de ulike variablenes variasjon over tid, kan en benytte varianter for bl.a. “fixed effect” og “random effect”.

I tillegg til regresjons-analyser, er det mulig å gjøre seg kjent med paneldatasett gjennom ulike deskriptive verktøy:

  • tabulate-panel tilsvarer kommandoen tabulate for vanlige datasett, men viser verdier for alle måletidspunkt. Opsjoner for prosentuering kan brukes i likhet med tabulate. Spesifiseres flere variabler, vises det flerdimensjonale krysstabeller for de aktuelle variabler.
  • summarize-panel tilsvarer kommandoen summarize for vanlige datasett, men viser verdier for alle måletidspunkt. Verdier vises vertikalt og ikke horisontalt, og en må holde musepeker over tallene for å vise deres betydning.
  • transitions-panel viser to-veis frekvens/sannsynlighet for overganger mellom alle kombinasjoner av kategoriske verdier over tid (overgangssannsynligheter), for en gitt variabel. Forspalten representerer utgangsverdiene, mens tabellhodet representerer overgangsverdien. Spesifiseres flere variabler, vises to-veis overgangstabeller for hver variabel i respektive tabeller. Overganger representeres som standard gjennom frekvenser og prosenter (rekkevis). Overganger enten fra eller til manglende verdi (sysmiss) holdes utenfor tabuleringen.

Også logistiske paneldata-analyser vil bli introdusert etterhvert. Dette er regresjonsanalyser for paneldata der den avhengige variabelen måler 2 utfall - suksess/ikke-suksess (dummy) - i likhet med logit-/probit-analyser.

Eksempel på paneldata-analyse