5.4.4 Prediksjonsverdier og residualverdier
Når man kjører lineære regresjonsanalyser gjennom kommandoen regress
, er det to måter å hente ut prediksjonsverdier på. Den ene måten er gjennom bruk av kommandoen regress-predict
som kan brukes til å generere en ny variabel med individuelle prediksjonsverdier, residualverdier eller Cook's distance-verdier. Disse kan brukes til videre input til ulike statistiske formål. Den andre måten er å benytte opsjonen margins()
som returnerer en ferdig utregnet prediksjonsverdi for responsvariabelen målt ved gjennomsnittet for alle forklaringsvariablene som inngår.
Generere ny variabel med individuelle prediksjons-, residual- eller Cook's distance-verdier
Alle regresjonsvarianter som finnes i microdata.no, deriblant regress
, har tilknyttede kommandoer som genererer blant annet residual- og prediksjonsverdier. Dette er verdier som kan brukes til å analysere dataspredningen og for testing av regresjonsmodeller. Prediksjonsverdier kan dessuten brukes som input til videre analyser.
Kommandoene har samme navn som tilhørende regresjonskommando pluss -predict
.
Syntax:
regress-predict <variabel> <variabelliste> [if <betingelse>] [,<opsjoner>]
Variablene angis på samme måte som for den tilhørende regresjons-modellen som kjøres med kommandoen regress
.
Følgende verdier kan hentes ut: Prediksjonsverdier, residualer og "Cook's distance"
En bestemmer selv hvilke verdier en vil generere gjennom bruk av opsjoner. Resultatet av kjøringene er et sett med variabler som inneholder de ulike verdiene. Som standard genereres førstnevnte verditype, men det anbefales likevel å spesifisere dette gjennom opsjoner ettersom en da også kan bestemme navn på de genererte variablene inni en parentes som vist i syntax-eksempelet nedenfor. Om en kjører flere predict
-kommandoer, må en lage nye navn for de automatisk genererte variablene.
Syntax-eksempel:
regress-predict lønn alder mann formue, residuals(res) predicted(pred) cooksd(cook)
De automatisk genererte variablene kan brukes som input til videre analyser eller til å vises grafisk. Aktuelle grafiske kommandoer er hexbin
og histogram
. Ved å kjøre histogram
på residualvariabelen, kan en sjekke hvorvidt residualene er normalfordelte. Hexbin
-kommandoen kan dessuten brukes til lage anonymiserte spredningsplott der en kombinerer to sett med verdier.
For mer detaljer anbefales det å bruke kommandoen help regress-predict
.
Eksempel: Analyse av prediksjons- og residualverdier
Beregne predikert verdi for responsvariabel målt ved gjennomsnittet for forklaringsvariablene
Ved å bruke opsjonen margins()
når du kjører en lineær regresjonsmodell gjennom kommandoen regress
, kan du enkelt finne ferdig beregnet predikert verdi for responsvariabelen (Y) målt ved gjennomsnittsverdien for alle de respektive forklaringsvariablene.
Eksempel:
Det som da blir returnert under modellestimatene er den predikerte Y-verdien samt konfidensintervallet. «Marginal estimat» (altså predikert Y) kan tolkes som «forventet verdi av Y målt for en gjennomsnittsperson», og baserer seg på en standard utregning der hver av de estimerte koeffisientverdiene blir multiplisert med gjennomsnittsverdien for tilhørende forklaringsvariabel (x). Disse summeres så sammen med konstantleddet i tråd med den estimerte regresjonslikningen: