2.4 Datasett med regelmessige målinger over tid paneldata
For å kunne foreta avanserte regresjonsanalyser i form av paneldataanalyse, må data organiseres på en annen måte enn ved vanlige regresjonsanalyser. Paneldata er datasett der hver enhet har oppgitt verdier for samtlige variabler målt over et gitt antall måletidspunkt. Dette har den fordelen at en kan ta med tidskomponenten i analyser, og at en får mye større datagrunnlag og gjerne analyser av en bedre kvalitet.
Det finnes et stort batteri av teknikker for paneldataanalyse, skillet går på hvilke antakelser som gjøres om variablenes variasjon over tid. Vanlige varianter som brukes er "fixed effect"- og "random effect"-analyser. Denne analyseformen vil bli gjennomgått i kapittel 5.9.
Data som skal brukes i paneldataanalyse må importeres på følgende måte:
create-dataset <datasett>
import-panel <variabelliste> <måledatoliste> as <alias>
Eksempel: Datamatrise ved bruk av import-panel (3 variabler, 3 måletidspunkt)
ID | Tid | Variabel 1 | Variabel 2 | Variabel 3 |
---|---|---|---|---|
123456 | 2000-01-01 | 1 | 200000 | 0301 |
123456 | 2001-01-01 | 1 | 210000 | 0301 |
123456 | 2002-01-01 | 2 | 215000 | 1201 |
135791 | 2000-01-01 | 2 | 305011 | 1101 |
135791 | 2001-01-01 | 2 | 301000 | 1101 |
135791 | 2002-01-01 | 3 | 299000 | 0301 |
147036 | 2000-01-01 | 1 | 150000 | 2030 |
147036 | 2001-01-01 | 1 | 159000 | 2030 |
147036 | 2002-01-01 | 3 | 199000 | 0301 |
-
Paneldatasett blir fort veldig store ettersom alle enheter/individer i datasettet måles T ganger, der T står for antall målinger. Dette gjelder særlig om en importerer mange variabler i tillegg.
-
En god praksis ved opprettelse av paneldatasett er å først lage en populasjon av passende størrelse, så duplisere denne og til slutt importere paneldata inn i det tomme datasettet med den dupliserte populasjonen
Eksempel: Lage populasjon, duplisere enheter inn i nytt datasett, og til slutt importere paneldata for den gitte populasjonen (= bosatte i Oslo per 1/1 2010 i alderen 18-39 år)
require no.ssb.fdb:23 as db
create-dataset populasjon
import db/BOSATTEFDT_BOSTED 2010-01-01 as bosted
import db/BEFOLKNING_FOEDSELS_AAR_MND as faarmnd
generate alder = 2010 - int(faarmnd/100)
keep if alder >= 18 & alder < 40 & bosted == '0301'
clone-units populasjon paneldata
use paneldata
import-panel db/INNTEKT_WLONN db/SIVSTANDFDT_SIVSTAND db/BOSATTEFDT_BOSTED 2011-12-31 2012-12-31 2013-12-31 2014-12-31
Paneldatasett lages ved hjelp av en enkelt import-panel
-kommando. En kan ikke importere i flere omganger til det samme paneldatasettet. En kan heller ikke mikse vanlige tverrsnittsdata og/eller forløpsdata med paneldata. Man kan imidlertid koble på variabler som inneholder faste opplysninger (kjønn, fødselsdato, fødeland etc) vha. kommandoen merge
.
Det er også mulig å lage et paneldatasett gjennom å konvertere et eksisterende tverrsnittsdatasett til panel-/long-format ved bruk av kommandoen reshape-to-panel
. Se kapittel 2.9.1 for en gjennomgang av denne kommandoen.