Slik arbeider du med data du ikkje ser
Det går fint å gjere seg kjent med data og kontrollere dei utan å sjå matrisa.
I ein video frå juni 2021 gir ein forskar frå OsloMet råd om populasjonsbygging, koplingar og kontrollar med eksempel frå eit prosjekt. Du treng ikkje sjå heile videoen i eitt. Plukk emne frå markeringane på videoen si tidsline.
Frå start: microdata.no i prosjekt om turnusteneste for legar
03:38: microdata.no i masteroppgåver
05:28: Slik arbeider du med data du ikkje ser
06:31: Ein ny måte å skaffe seg data på
Her er utskrifta av det som blir sagt på videoen:
1. Slik har eg brukt microdata.no
Eg brukte microdata.no til å studere ein reform for medisinstudentar. I 2012 måtte ferdigutdanna legar søka om turnustenesta si, mens den tidlegare hadde blitt utdelt gjennom loddtrekning. Det eg ønska å bruka microdata.no til, det var å sjå – er det sosiale ulikheiter i kven som får tilsetting før reform når loddtrekning gjorde at det var tilfeldig og etter reforma når det var kandidatanes søknader som avgjorde kven som fekk tilsetting.
Det som var fint med microdata.no, var at den hadde mye meir oppdaterte arbeids- og utdanningsopplysningar enn det eg hadde tilgang til gjennom utlånte registerdata. Derfor ønskte eg å bruke denne tenesta som eg såg kunne fungere til mitt behov.
Det første eg måtte gjere, det var å identifisere dei kulla av legestudentar som eg var interessert i. Det eg gjorde da for å vere sikker på at eg fant dei kandidatane eg skulle ha, det var å selektere på ferdig legeutdanning, så eg selekterte på den utdanningskoden som identifiserte ferdigutdanna legar. Så hadde eg tre årskull før reforma og to årskull etter reforma.
Utfordringa som sagt, er at du aldri får sjå datamatrisa i microdata.no. Dermed må ein bruke tabellar og logikk for å sjekke at ein får tak i dei opplysningane ein treng. Den første kontrollen for min del, det var å sjå om utdanningskulla var omtrent like store, for det skulle ikkje vere nokon variasjon i utdanningslengda, og det var ingen variasjon i talet på studieplassar i løpet av den perioden eg såg på.
Når eg først hadde kontrollert det, så begynte eg å sjå på demografien til dei utdanna kandidatane. Eg såg at aldersprofilen var lik på tvers av alle kulla, og eg såg at det var fleire kvinner enn menn på studiet. Begge desse delane stemmer overeins med det vi veit om studiet frå før.
Så kobla eg på arbeidsopplysningar. Sidan dette var ferdigutdanna legar, så visste eg at majoriteten av dei skulle vere sysselsett som legar og ikkje som barnehagelærarar for eksempel. Når det stemte, så kunne eg vere trygg på at eg hadde fått tak i dei riktige arbeidsopplysningane.
Og så, når eg kobla på næring for å finna ut kven som jobba i sjukehus, såg eg at majoriteten jobba innafor den næringskoden som identifiserer somatiske sjukehus. Og i og med at dette var første året etter ferdig legeutdanning, så kunne eg også vere trygg på at dette sannsynlegvis var turnustenesta deira. I alle fall for majoriteten så ville det vere det.
Eg var interessert i skilnaden mellom universitetssjukehus, som gjerne har litt høgare status, og distriktssjukehus, som har lågare status. For å finna universitetssjukehusa så kobla eg på opplysningar om arbeidskommune. Dei som då jobba i Akershus, Lørenskog, dei høyrer vel til Ahus, Oslo er Oslo universitetssjukehus, Stavanger, Trondheim, Tromsø osv. Dette identifiserte med høg sannsynlegheit dei som hadde jobb ved universitetssjukehusa.
2. Råd til masterstudentar
Viss du er interessert i å bruke microdata.no i masteroppgåva di, så vil eg anbefala at du begynner med ein enkel datamatrise. Gjerne last inn eit årskull. Finn ein populasjon fødd i 1990, for eksempel, og du veit at ein fødselspopulasjon ligg på rundt 60 000 personar. Så kan du koble på opplysningar om kjønn. Da skal halvparten vere jenter, halvparten vere gutar omtrent, koble på opplysningar om utdanning, ikkje sant. Etter tjue år, 2010, så skal majoriteten vere ferdig med vidaregåande skule. Så kan du begynne å bygge på matrisa etter kvart som du kjenner at du blir trygg på koblingane og korleis dei skal sjekkast ut.
Så det viktigaste ein gjer etter at ein har lagt til ein ny variabel, det er å tabulere han, sjå at fordelinga ser fornuftig ut, ut frå det vi veit om fordeling av utdanning eller arbeidsdeltaking i ulike aldersgrupper i samfunnet. Sjekk at talet på observasjonar er omtrent det same, at du ikkje har mista ein stor del av kohorten din. Ta nokre kontrollar. Sjå på inntektsfordelinga, for eksempel. Vi veit at kvinner generelt tener mindre enn menn. Finn du det motsette, er det truleg eit eller anna som har gått feil. Sjå på deltaking i arbeid. Deltidstilsette er gjerne yngre, der er gjerne fleire kvinner. Viss du finn dei overordna mønstra og dei ser ut til å stemme, og det ikkje blir nokre feilkoblingar, for eksempel at folk har akademiske yrke utan lang, høgare utdanning, for eksempel, så er det mye som tyder på at ein er på rett veg.
3. Det går fint å arbeide med data du ikkje ser
Det å jobbe utan å sjå data kan vere eit utfordring til å begynne med, fordi ein er så vant med å slå opp i matrisa og sjå at koblingane blir slik som dei skal. Det som eg gjer mye – eg teiknar, berre for å visualisere for meg sjølv korleis eg ønsker at matrisa skal sjå ut når eg bygger på den i lengda og når eg bygger på den i bredda. Eg kan også gjerne lage meg eit datasett i Stata som er falskt, men der eg koblar på same måten som det eg vil gjere i microdata.no, berre for å sjekke – korleis blir det?
For koden som microdata.no brukar, er veldig lik koden i andre dataprogram og da særleg Stata. Så det hjelper å ha ei slik krykke nokre gongar for å sjå – blir koblingane slik som eg ønsker, og kva må eg gjere for å få det til, kva type kode er det som trengs, for eksempel.
4. Kva er den største skilnaden mellom microdata.no og tradisjonell datatilgang?
Så er det ein del begrensningar i kva for modellar ein kan køyre. Ein kan kjøre vanleg regresjon, og også nokre litt meir avanserte metodar for paneldata, men full fridom vil ein jo ikkje ha med microdata.no.
Utviklinga går jo fort. Ein kan gjere meir nå enn ein kunne gjere berre for eit år eller to sidan, men eg vil nok seie at microdata.no er for dei litt enklare analysane, enn så lenge da. Men det gir veldig god moglegheit til å utforske spanande forskingsidear, noko ein ikkje kunne gjort med registerdata.
Sånn som det eksempelet mitt med den legestudien. Der visste eg om ein reform som eg ville studere konsekvensen av, men eg hadde ingen prosjektmidlar, så eg kunne ikkje søke om utlån av registerdata frå SSB. Så den moglegheita som låg i microdata.no til å nytta dei opplysningane når eg eigentleg berre trengte utdanning og hovudarbeid, dei var tilstrekkelege for å kunne gjere den studien.