Logistic regression analysis: Jobless persons aged 16-60 -> prob. of income over 400000NKR two years later

This example illustrates how to perform an analysis on the probability of being employed with wages over 400000NKR two years after a condition of being without job. Age group: 16-60.

The analysis controls for various demographical characteristics in addition to labour market status (unemployed, labour market measures, vocational disabled, other workseeker conditions, and work disabled).

First, descriptive statistics is produced, then a logit-regressionanalysis including marginal effects is performed (the option mfx(dydx) is used for this).

As one can see from the result, all the explanatory variables are estimated to be statistically significant. The Pseudo R2 value reveals a total explanatory power of app. 18%. Such values are not uncommon in socioeconomical sciences.

//Create dataset with jobless persons aged 16-60 and resident in Norway per November 1st 2010 
create-dataset demografidata
import BEFOLKNING_FOEDSELS_AAR_MND as faarmnd
import BEFOLKNING_REGSTAT 2010-11-01 as regstat
import REGSYS_YRKSTAT 2010-11-01 as arbmstatus

generate alder = 2010 - int(faarmnd / 100)
generate jobb = 0
replace jobb = 1 if arbmstatus == '1' | arbmstatus == '2'
keep if alder >= 16 & alder <= 60 & regstat == '1' & jobb == 0

histogram alder, discrete

//Importing relevant variables
import BEFOLKNING_KJOENN as kjønn
import BEFOLKNING_INVKAT as innvkat
import SIVSTANDFDT_SIVSTAND 2010-11-01 as sivstand
import BEFOLKNING_BARN_I_HUSH 2010-01-01 as antbarn
import NUDB_BU 2010-11-01 as utdnivå
import NUDB_SOSBAK as sosbakgrunn
import BOSATTEFDT_BOSTED 2010-11-01 as bosted
import ARBSOEK2001FDT_HOVED 2010-11-01 as arbsøkerstatus
import UFOERP1992FDT_UFG 2010-11-01 as uføregrad
import INNTEKT_BRUTTOFORM 2010-11-01 as formue
import INNTEKT_WYRKINNT 2010-11-01 as inntekt10
import INNTEKT_WYRKINNT 2011-11-01 as inntekt11
import INNTEKT_WYRKINNT 2012-11-01 as inntekt12

//Create a dependent variabel with two outcomes: High vs. low income
histogram inntekt12, width(100000) freq
summarize inntekt12
generate høyinnt = 0
replace høyinnt = 1 if inntekt12 > 400000
replace høyinnt = inntekt12 if sysmiss(inntekt12)
piechart høyinnt
barchart(mean) inntekt10 inntekt11 inntekt12

//Adapt all the independent variables to satisfy the statistical model (by transforming into dummy-variables)
generate mann = 0
replace mann = 1 if kjønn == '1'
piechart mann

destring sivstand, force
generate gift = 0
replace gift = 1 if sivstand == 2
replace gift = sivstand if sysmiss(sivstand)
piechart gift

generate innvandrer = 0
replace innvandrer = 1 if innvkat == 'B'
piechart innvandrer

tabulate antbarn, missing
generate ettbarn = 0
replace ettbarn = 1 if antbarn == 1

generate flerebarn = 0
replace flerebarn = 1 if antbarn > 1

destring utdnivå, force
generate høyutd = 0
replace høyutd = 1 if utdnivå >= 700000 & utdnivå < 999999
replace høyutd = utdnivå if sysmiss(utdnivå)
piechart høyutd

generate høyutd_foreldre = 0
replace høyutd_foreldre = 1 if sosbakgrunn == '1'
piechart høyutd_foreldre

generate oslo = 0
replace oslo = 1 if bosted == '0301'

generate bergen = 0
replace bergen = 1 if bosted == '1201'

generate stavanger = 0
replace stavanger = 1 if bosted == '1103'

generate trondheim = 0
replace trondheim = 1 if bosted == '1601'

barchart(sum) oslo bergen stavanger trondheim

destring arbsøkerstatus, force
tabulate arbsøkerstatus, missing

generate ledig = 0
replace ledig = 1 if arbsøkerstatus == 1

generate tiltak = 0
replace tiltak = 1 if arbsøkerstatus == 3

generate yrkeshemmet = 0
replace yrkeshemmet = 1 if arbsøkerstatus == 5 | arbsøkerstatus >= 10

generate andrearbsøk = 0
replace andrearbsøk = 1 if arbsøkerstatus == 2 | arbsøkerstatus == 4 | arbsøkerstatus == 7 

generate ufør = 1
replace ufør = 0 if sysmiss(uføregrad)

barchart(sum) ledig tiltak yrkeshemmet andrearbsøk ufør

histogram formue, width(100000) freq
summarize formue
generate formuehøy = 0
replace formuehøy = 1 if formue > 800000
replace formuehøy = formue if sysmiss(formue)
piechart formuehøy

//Use sankey to illustrate transitions
sankey arbsøkerstatus høyinnt
sankey høyutd høyinnt

//Perform logit analysis (the dependent variable must be listed first (must be dummy))
logit høyinnt mann gift alder innvandrer ettbarn flerebarn høyutd høyutd_foreldre oslo bergen stavanger trondheim ledig tiltak yrkeshemmet andrearbsøk ufør formuehøy, mfx(dydx)