Logistisk regresjonsanalyse: Personer uten jobb i alderen 16-60 -> sanns. for inntekt over 400000kr to år senere

Eksempelet illustrerer hvordan man kan gå frem for å analysere sannsynligheten for å komme i jobb og tjene over 400000kr to år etter at en befinner seg i en tilstand uten jobb. Aldersgruppen vi ser på er 16-60.

I analysen blir det kontrollert for diverse demografiske kjennetegn samt status på arbeidsmarkedet (arbeidsledig, ordinære arbeidsmarkedstiltak, yrkeshemmet, andre arbeidssøkertilstander, samt arbeidsuførhet).

Det lages først en del deskriptiv statistikk, og tilslutt kjøres en logit-analyse inkludert marginaleffekter (opsjonen mfx(dydx) brukes til dette).

Som en kan se, har alle forklaringsvariabler signifikante estimerte koeffisientverdier. Verdien av Pseudo R2 viser at modellen forklarer ca. 18% av den totale variasjonen for den avhengige variabelen. Slike verdier er ikke uvanlige i samfunnsøkonomiske analyser.

// Oppretter datasett som inneholder personer uten jobb i alderen 16-60 år, og som er bosatt i Norge per 1. november 2010 
create-dataset demografidata
import BEFOLKNING_FOEDSELS_AAR_MND as faarmnd
import BEFOLKNING_REGSTAT 2010-11-01 as regstat
import REGSYS_YRKSTAT 2010-11-01 as arbmstatus

generate alder = 2010 - int(faarmnd / 100)
generate jobb = 0
replace jobb = 1 if arbmstatus == '1' | arbmstatus == '2'
keep if alder >= 16 & alder <= 60 & regstat == '1' & jobb == 0

histogram alder, discrete

// Henter øvrige variabler
import BEFOLKNING_KJOENN as kjønn
import BEFOLKNING_INVKAT as innvkat
import SIVSTANDFDT_SIVSTAND 2010-11-01 as sivstand
import BEFOLKNING_BARN_I_HUSH 2010-01-01 as antbarn
import NUDB_BU 2010-11-01 as utdnivå
import NUDB_SOSBAK as sosbakgrunn
import BOSATTEFDT_BOSTED 2010-11-01 as bosted
import ARBSOEK2001FDT_HOVED 2010-11-01 as arbsøkerstatus
import UFOERP1992FDT_UFG 2010-11-01 as uføregrad
import INNTEKT_BRUTTOFORM 2010-11-01 as formue
import INNTEKT_WYRKINNT 2010-11-01 as inntekt10
import INNTEKT_WYRKINNT 2011-11-01 as inntekt11
import INNTEKT_WYRKINNT 2012-11-01 as inntekt12

// Lager en avhengig variabel med to utfall (dummyvariabel): Høy inntekt vs. lav inntekt
histogram inntekt12, width(100000) freq
summarize inntekt12
generate høyinnt = 0
replace høyinnt = 1 if inntekt12 > 400000
replace høyinnt = inntekt12 if sysmiss(inntekt12)
piechart høyinnt
barchart(mean) inntekt10 inntekt11 inntekt12

// Tilrettelegger de uavhengige variablene slik at de passer med den statistiske modellen (innebærer at de fleste variabler gjøres som til dummy’er)
generate mann = 0
replace mann = 1 if kjønn == '1'
piechart mann

destring sivstand, force
generate gift = 0
replace gift = 1 if sivstand == 2
replace gift = sivstand if sysmiss(sivstand)
piechart gift

generate innvandrer = 0
replace innvandrer = 1 if innvkat == 'B'
piechart innvandrer

tabulate antbarn, missing
generate ettbarn = 0
replace ettbarn = 1 if antbarn == 1

generate flerebarn = 0
replace flerebarn = 1 if antbarn > 1

destring utdnivå, force
generate høyutd = 0
replace høyutd = 1 if utdnivå >= 700000 & utdnivå < 999999
replace høyutd = utdnivå if sysmiss(utdnivå)
piechart høyutd

generate høyutd_foreldre = 0
replace høyutd_foreldre = 1 if sosbakgrunn == '1'
piechart høyutd_foreldre

generate oslo = 0
replace oslo = 1 if bosted == '0301'

generate bergen = 0
replace bergen = 1 if bosted == '1201'

generate stavanger = 0
replace stavanger = 1 if bosted == '1103'

generate trondheim = 0
replace trondheim = 1 if bosted == '1601'

barchart(sum) oslo bergen stavanger trondheim

destring arbsøkerstatus, force
tabulate arbsøkerstatus, missing

generate ledig = 0
replace ledig = 1 if arbsøkerstatus == 1

generate tiltak = 0
replace tiltak = 1 if arbsøkerstatus == 3

generate yrkeshemmet = 0
replace yrkeshemmet = 1 if arbsøkerstatus == 5 | arbsøkerstatus >= 10

generate andrearbsøk = 0
replace andrearbsøk = 1 if arbsøkerstatus == 2 | arbsøkerstatus == 4 | arbsøkerstatus == 7 

generate ufør = 1
replace ufør = 0 if sysmiss(uføregrad)

barchart(sum) ledig tiltak yrkeshemmet andrearbsøk ufør

histogram formue, width(100000) freq
summarize formue
generate formuehøy = 0
replace formuehøy = 1 if formue > 800000
replace formuehøy = formue if sysmiss(formue)
piechart formuehøy

// Bruk correlate og sankey for å vise overganger og multikollinearitet
sankey arbsøkerstatus høyinnt
sankey høyutd høyinnt

// Kjører selve logit-analysen der den avhengige variabelen listes først (må være dummy)
logit høyinnt mann gift alder innvandrer ettbarn flerebarn høyutd høyutd_foreldre oslo bergen stavanger trondheim ledig tiltak yrkeshemmet andrearbsøk ufør formuehøy, mfx(dydx)