Skip to main content

5.6 Oaxaca - ordinær lineær regresjon med dekomponering av gruppespesifikke effekter

Kommandoen oaxaca er et verktøy til å måle om det er systematiske forskjeller mellom to grupper, f.eks. menn og kvinner, og forskjellene blir videre dekomponert i en forklart og en uforklart komponent.

Kommandoen utfører en Blinder-Oaxaca dekomponering1 som brukes til å forklare forskjeller i den avhengige variabelens gjennomsnittverdi for to grupper. Forskjellen/differansen dekomponeres til to komponenter: Forklart differanse («between group») og uforklart effekt (koeffisienteffekt). I likhet med kommandoen regress, brukes kontinuerlige avhengige variabler som f.eks. lønn. Forskjellen er at man spesifiserer de to gruppene gjennom by-variabelen når man bruker oaxaca.

By-variabelen som brukes til å gruppere må være kategorisk, men kan ha både numerisk og alfanumerisk verdiformat. Verdien som rangeres først (numerisk eller alfabetisk) knyttes til gruppe 1. Om variabelen inneholder mer enn to verdier, brukes de to verdiene som rangeres først, mens de andre holdes utenfor analysen.

Standard-løsningen som brukes er «three-fold», og man får ut hovedtallene:

  • Differansen i gjennomsnittsverdi for den avhengige variabelen målt for hver av de to gruppene: mean(gruppe1) - mean(gruppe2)

  • Dekomponert differanse: Forklart, uforklart og samtidig effekt

  • Antall enheter tilhørende de to respektive gruppene, samt hvilke verdikoder som benyttes

Ved å bruke opsjonen pool, vil systemet bruke en såkalt «two-fold pooled» tilnærming der dekomponeringen bruker det samlede gjennomsnittet som referanseverdi (samtidig effekt rapporteres ikke ved denne tilnærmingen).

Det mest vanlige bruksområdet er å analysere systematiske forskjeller i økonomiske variabler som lønn, og sammenlikne menn mot kvinner. Men også andre typer grupperinger kan benyttes.

Eksempel på bruk av oaxaca:

NB!

Differansen i gjennomsnittsverdi (mean difference) som rapporteres av oaxaca avviker litt fra differansen man finner gjennom å bruke kommandoen summarize på den avhengige variabelen for hver av de to gruppene. Årsaken er at deskriptiv statistikk som genereres gjennom kommandoer som summarize er gjenstand for winsorisering (høyre- og venstresensur). Regresjonsresultater fra kommandoer som oaxaca blir derimot ikke winsorisert, og viser den korrekte differansen.

For mer om winsorisering og andre personvern-mekanismer, se vedlegg C.

Footnotes

  1. Metoden baserer seg på prinsippene beskrevet i Ben Janns Stata Journal-artikkel (2008): https://www.stata-journal.com/sjpdf.html?articlenum=st0151. Python-implementasjonen som benyttes i microdata.no beskrives her: https://github.com/statsmodels/statsmodels/blob/main/statsmodels/stats/oaxaca.py.