Commands
Analysis
anova
anova var-name var-list [if] [, options]
Description
Analyse av varians og kovarians. Gjelder variansanalyse- (ANOVA) og kovariansanalyse- (ANCOVA) modeller for balanserte og ubalanserte design. Det er påkrevd med en variabelliste der den første variablen er kontinuerlig. I anovaanalyse skal de uavhengige variablene være faktorvariabler, mens ancova-analyse inkluderer en metrisk variabel
Options
noconstant
-Undertrykker modellens konstantledd (der linja krysser y-aksen)
Examples
anova inntekt kjønn utdanning
Toveis faktoriell anovaanalyse av inntekt
over kjønn
og utdanning
anova inntekt kjønn utdanning kjønn#utdanning
Toveis faktoriell anovaanalyse av inntekt
over kjønn
og utdanning
med interaksjonsledd
anova inntekt kjønn##utdanning
Toveis faktoriell anovaanalyse av inntekt
over kjønn
og utdanning
med interaksjonsledd
anova inntekt kjønn utdanning if kjønn == 'kvinne'
Toveis faktoriell anovaanalyse med modifiserende utrykk
ci
ci var-list [, options]
Description
Vis konfidensintervaller og standardfeil for hver enkelt variabel i variabellisten
Options
level()
-Spesifiserer konfidensnivået i prosent for konfidensintervallene. Standarden er 95, altså 95%
Examples
ci inntekt2004
Vis konfidensintervaller (standardnivå: 95%) og standardfeil for variabelen inntekt2004
ci inntekt2004 inntekt2003, level(90)
Vis konfidensintervaller sett til 90% og standardfeil for variablene inntekt2004
og inntekt2003
correlate
correlate [var-list] [if] [, options]
Description
Vis korrelasjosmatrisen for de inkluderte variablene. Dersom en skriver correlate uten variabelliste, vises korrelasjonsmål for alle variablene i datasettet. Dette gjelder også ved bruk av options-alternativene
Options
covariance
-Vis kovariansen for de forskjellige variablene istedet for korrelasjonsverdiene
pairwise
-Manglende verdier blir slettet parvis istedetfor standardmåten (listevis sletting)
obs
-Matrisen inkluderer antall observasjoner som har blitt brukt til å kalkulere hver korrelasjonskoeffisient
sig
-Vis signifikansverdien til hver gruppe
Examples
correlate kjonn alder inntekt
Treveis korrelasjonsmatrise
correlate alder inntekt if kjonn == 'kvinne'
Toveis korrelasjonsmatrise med modifiserende utrykk
normaltest
normaltest [var-list] [if]
Description
Normaltest-kommandoen kjører et utvalg tester for normalfordeling for valgte variabler, eller hele datasett dersom ingen variabler er oppgitt. For hver test er måltall og p-verdi oppgitt.
Testene som kjøres er skewness, kurtosis, s-k (ikke justert), Jarque-Bera og Shapiro-Wilk
Options
Examples
normaltest var1 var2
Kjør testene på var1
og var2
normaltest
Kjør testene på alle variabler i datasettet
transitions-panel
transitions-panel var-name [var-list] [if]
Description
Vis to-veis frekvens/sannsynlighet for overganger mellom alle kombinasjoner av kategoriske verdier over tid (overgangssannsynligheter), for en gitt variabel. Forspalten representerer utgangsverdiene, mens tabellhodet representerer overgangsverdien. Spesifiseres flere variabler, vises toveis overgangstabeller for hver variabel i respektive tabeller.
Overganger representeres som standard gjennom frekvenser og prosenter (rekkevis). Overganger enten fra eller til manglende verdi (sysmiss) holdes utenfor tabuleringen. Overgangsratene gjelder alle overganger fra ett tidspunkt til et annet, målt over alle måletidspunkter. Kommandoen er kompatibel med kategoriske variabler
Options
Examples
transitions-panel var1 var2
Vis overgangssannsynligheter for to variabler (i separate tabeller)
Bindings
let
let name = expression
Description
Generer ny binding. Denne blir definert ved et uttrykk etter =
. En binding lagrer en konkret verdi i motsetning til variabler som lagrer en mengde data.
Bindinger defineres i klienten og har ingen sammenheng med de konfidensielle verdiene i variablene. De er ment til å representere repetitive informasjon som en dato, årstall eller lignende.
Du kan derfor se den lagrede verdien av bindingene når du kjører let
-kommandoen, i sidepanelet, eller ved å klikke på verdiene etter at de er generert.
Bindinger kan lagre et tall, en streng, eller et navn og skiller seg fra variabler ved at man refererer til de med et $
foran navnet på bindingen.
Bindinger kan også genereres og evalueres på samme sted ved å bruke et bindings-uttrykk. Dette er et uttrykk inne i en blokk omringet av $(...)
.
Ved å bruke et slik uttrykk kan du slippe å definere en binding i en egen kommando som skal kun brukes èn gang. Merk at at koden blir mer kompleks ved å bruke disse uttrykkene - om en binding gjentas flere ganger er det anbefalt å gi den et eget navn via let
.
På samme måte som at variabler har et sett med funksjoner som kan operere på de, har bindinger et sett med prosedyrer som kan brukes. Se help-procedure
for mer informasjon om disse.
Options
Examples
let årstall = '2011-11-12'
Genererer en binding til årstall
med årstallet 2011-11-12
i en streng
let årstall = date_fmt(2011, 11, 12)
Genererer en binding til årstall
ved hjelp av prosedyren date_fmt
let siv = sivstand_ ++ $år
Genererer en binding til navnet siv
. Om f.eks den eksisterende bindingen år
har verdien 12, blir $siv = sivstand_12
import fdb/SIVSTANDFDT_SIVSTAND $årstall as $siv
Importerer variabelen SIVSTANDFDT_SIVSTAND
ved å bruke årstallet lagret i årstall
og navnet lagret i $siv
. Dette er ekvivalent med å kjøre import fdb/SIVSTANDFDT_SIVSTAND 2011-11-12 as sivstand_12
import fdb/SIVSTANDFDT_SIVSTAND date_fmt(2011, 11, 12) as sivstand_ ++ $år
Importerer variabelen SIVSTANDFDT_SIVSTAND
med å bruke verdier generert i bindings-uttrykk. Dette uttrykket er ekvivalent med det over. Når datoer forventes kan man gi inn en prosedyre direkte for å få datoverdien. Se help procedure
for mer informasjon om disse. Når et nytt navn forventes kan man gi inn et uttrykk direkte. Konkatineringsoperatoren ++
slår sammen symbolet og verdien lagret i bindinen $år til verdien `sivstand_12
for
for i [, j] in (iter0, iter1, ..., iterN | range-from : range-to) [, iters...] [; g in ..]
Description
Start en løkke over alle iterator-verdiene etter in
. Dette kan enten en liste av verdier, eller et numerisk verdiområde gitt med n : m
(inklusiv).
Alle etterfølgende kommandoer frem til løkken er lukket med end
vil bli kjørt med iteratoren bundet til den første verdien gitt, i = iter0
.
Når end
eksekveres vil så alle kommandoene inne i løkken bli kjørt med de etterfølgende iteratorverdiene, i = iter1, ... i = iterN
.
Alle bindinger som skapes inne i løkken er lokale for den løkke-iterasjonen, men variabler som skapes, eller endringer på eksisterende variabler vil være tilgjengelige etter løkken.
Itererasjon over flere verdier samtidig støttes ved en form for løkke-'comprehension'. For å iterere over tupler, tripler. osv av verdier oppgis et sett med flere iteratorer separert med komma før in
.
Like mange lister med verdier, eller verdiområder, også separert av komma, må oppgis etter in
.
Nøstede løkker oppnås med å følge løkken med en ;
og så et nytt sett med iteratorer og verdier. Den siste løkken vil så kjøres for hver av de forestående iteasjonene.
Options
Examples
for forelder in mor, far
Starter en løkke med iteratoren forelder
over symbolene mor
og far
for år in 0 : 5
Starter en løkke på år
over heltallene fra 0 til og med 5
for år, verdi in 0 : 2, første andre tredje
Starter en løkke på år
og verdi
over verdiene 0 første
, 1 andre
og 2 tredje
for år, verdi in 0 : 2, første andre tredje; sted in 'indre' 'ytre'
Starter en løkke på år
, verdi
og sted
over verdiene 0 første indre
, 1 andre indre
, 2 tredje indre
, 0 første ytre
, 1 andre ytre
og 2 tredje ytre
end
end
Description
Avslutt løkken og kjører kommandoene i løkken for de resterende iteasjonene. Se help for
.
Options
Dataset
require
require datastore as local-ds-alias
Description
Opprett kobling fra en versjonert datakilde til et lokalt alias. Må brukes før import av data kan gjenmomføres.
Merk at denne kommandoen gjelder globalt, altså på tvers av dine datasett. Det lokale aliaset brukes som prefix sammen med et /
-tegn i forbindelse med import av variabler
Options
Examples
require no.ssb.fdb:9 as ds
Lager en kobling fra versjon 9 av SSB sin registerdatabase til det lokale navnet ds
create-dataset
create-dataset new-dataset
Description
Opprett et tomt datasett med det oppgitte navnet. Datasettet aktiveres automatisk når kommandoen kjøres.
Options
Examples
create-dataset newdata
Oppretter et tomt datasett med navn newdata
delete-dataset
delete-dataset dataset
Description
Slett hele det spesifiserte datasettet og alle de inkluderte variablene
Options
Examples
delete-dataset PERSON
Sletter hele datasettet PERSON
use
use dataset
Description
Aktiver et eksisterende datasett. Dersom to eller flere datasett er opprettet gjennom kommandoen create-dataset
, må denne kommandoen brukes for å forflytte seg fra ett datasett til et annet.
Options
Examples
use trygdedatasett
Aktiverer datasettet trygdedatasett
clone-dataset
clone-dataset dataset new-dataset
Description
Kopier et datasett
Options
Examples
clone-dataset set1 set2
Lag en kopi av datasettet set1
og gi det navnet set2
clone-units
clone-units dataset new-dataset
Description
Oppretter et nytt tomt datasett som består av populasjonen/enhetene fra et angitt datasett. Bruk kommandoen use
for å aktivere det nye datasettet
Options
Examples
clone-units set1 set2
Lager et nytt tomt datasett, set2
, som består av populasjonen fra set1
rename-dataset
rename-dataset dataset new-dataset
Description
Gir nytt navn til et eksisterende datasett
Options
Examples
rename-dataset navn nyttnavn
Datasettet endrer navn fra navn
til nyttnavn
. All annen informasjon forblir som før
reshape-from-panel
reshape-from-panel
Description
Kommandoen endrer datastrukturen fra panel-/long-format til wide-format der opplysningene struktureres horisontalt på variabelnivå med én record per enhet.
Datasett med panel-/long-format lages enten gjennom kommandoen import-panel
eller reshape-to-panel
. Alle variabler i datasettet du står i restruktureres til wide-format etter at kommandoen er kjørt.
Variablene får suffiks basert på undernivået gitt ved variabelen date@panel
.
Options
reshape-to-panel
reshape-to-panel variable-prefixes
Description
Datasett som er laget ved bruk av import-kommandoen er av typen 'wide' (opplysninger om hver enhet struktureres på variabelnivå). Kommandoen endrer datastrukturen slik at den blir på panel-/long-format, og opplysninger om hver enhet struktureres da vertikalt på observasjons-/record-nivå.
Kommandoen tar et sett med prefiks til eksisterende variabler. Disse bestemmer hvilke variabler som omgjøres til panelvariabler i det nye formatet og suffiksene til hver variabel bestemmer innholdet i datokolonnen (typisk brukes alle bokstaver frem til siffer/suffiks som angir årstall, dato, nummer eller liknende). Kun sifre og spesialtegn som ikke er bokstaver godtas som suffiks. Øvrige variabler i datasettet regnes som faste opplysninger og repeteres for alle observasjoner per enhet i det nye panel-datasettet
Options
Examples
reshape-to-panel sivilstand kommune
Gjør om datasettet til long-format med de to variablene sivilstand
og kommune.
Det opprinnelige datasettet har variablene sivilstand19
, sivilstand20
, sivilstand21
, kommune19
, kommune20
og kommune21
.
Opplysningene legges da nedover med tre observasjoner per enhet, sortert i stigende rekkefølge etter suffiks-sifrene 19, 20 og 21. Hjelpevariabelen panel@date
opprettes automatisk, og inneholder suffiks-verdiene 19, 20 og 21.
reshape-to-panel arbeidstid heltid_deltid
Gjør om datasettet til long_format med de to variablene arbeidstid
og heltid_deltid
. Det opprinnelige datasettet har variablene arbeidstid2021_01_01
, arbeidstid2021_02_01
, arbeidstid2021_03_01
,
heltid_deltid2021_01_01
, heltid_deltid2021_02_01
og heltid_deltid2021_03_01
. Opplysningene legges da nedover med tre observasjoner per enhet, sortert i stigende rekkefølge etter ISO-datoene 2021_01_01
, 2021_02_01
og 2021_03_01
.
Facilitation
import
import register-var [time] [as name] [, options]
Description
Generer en ny tverrsnittsvariabel i det gjeldende datasettet basert på en registervariabel i en tilkoblet datakilde med et spesifisert måletidspunkt. Dersom ingen datasett eksisterer, må man opprette et først. Dersom et nytt navn ikke spesifiseres får variabelen et standardnavn. Merk at dato skal utelates for konstante variabler.
Se kommandoen create-dataset
for å opprette datasett og require
for å koble til datakilder
Options
outer_join
-Spesifiser at 'outer join' skal brukes ved import av datasettet.
Dette vil inkludere rader fra både det eksisterende datasettet, samt alle rader fra datasettet til variabelen som importeres. Altså gjøres en (full) outer join. Dette er i motsetning til en vanlig import som fungerer på (outer) left join prinsippet. Det vil si at alle radene i det eksisterende datasettet og kun radene til import-variabelen som eksisterer i dette vil bli importert.
Examples
import fd/F_REHAB_INNV_GRAD 2011-11-12 as rehab2011
Tverrsnittsvariabelen rehab2011
blir skapt fra registervariabelen fd/F_REHAB_INNV_GRAD
, med måletidspunkt 12. november 2011 og lagt til i det gjeldende datasettet
import fd/INNTEKT_WLONN 2011-11-12
En tverrsnittsvariabel blir skapt fra registervariabelen fd/INNTEKT_WLONN
, med måletidspunkt 12. november 2011 og lagt til i det gjeldende datasettet. Siden navn ikke er spesifisert får den et standardnavn basert på registervariabelnavnet
import fd/BEFOLKNING_FOEDSELS_AAR_MND as fødselsdato
En tverrsnittsvariabel med fast opplysning blir skapt fra registervariabelen fd/BEFOLKNING_FOEDSELS_AAR_MND
og lagt til i det gjeldende datasettet. Siden fd/BEFOLKNING_FOEDSELS_AAR_MND
er en konstant variabel skal man ikke oppgi noe måletidspunkt
import-event
import-event register-var time to time [as name] [, options]
Description
Generer en ny hendelsesvariabel/forløpsvariabel i det gjeldende datasettet basert på en registervariabel i en tilkoblet datakilde i det spesifiserte tidsrommet. Dersom et nytt navn ikke spesifiseres får variabelen et standardnavn.
Dersom ingen datasett eksisterer, må man opprette et først. Hendelsesvariabler/forløpsvariabler kan ikke importeres inn i et datasett med tverrsnittsdata (og vice versa). Det er heller ikke mulig å importere flere hendelsesvariabler/forløpsvariabler inn i ett og samme datasett (en må da opprette et eget datasett for hver variabel).
Se kommandoen create-dataset
for å opprette datasett og require
for å koble til datakilder
Options
Examples
import-event fd/F_REHAB_INNV_GRAD 2011-11-12 to 2012-11-12 as rehab2011to2012
Forløpsvariablelen rehab2011to2012
blir skapt fra registervariabelen fd/F_REHAB_INNV_GRAD
for perioden 12. november 2011 til 12. november 2012 og lagt til i det gjeldende datasettet
import-panel
import-panel register-var [register-var-list] time [time ...]
Description
Importerer de valgte variablene i 'langt' format med repeterte enheter fra variabler i en tilkoblet datakilde. Dette muliggjør analyse via panelmetoder. Kan kun brukes i et tomt datasett.
Se kommandoen create-dataset
for å opprette datasett og require
for å koble til datakilder
Options
Examples
import-panel ds/BEFOLKNING_KJONN ds/INNTEKT_WLONN 2001-01-01 2002-02-02 2003-01-01
Importerer to variabler på tre tidspunkt
generate
generate name = expression [if]
Description
Skap ny variabel. Denne blir definert ved et uttrykk etter =
. Generelle aritmetiske funksjoner er støttet. Funksjonsuttrykk støttes også (oversikt over funksjoner vises ved å bruke kommandoen help-function
)
Options
Examples
generate nyvariabel = inntekt/2
genererer en variabel som heter nyvariabel
. Verdien for hver enhet vil være halvparten av inntekstverdien
generate nyvariabel = inntekt/2 if fodear < 1985
Skaper en variabel ved navn nyvariabel
der verdien for hver enhet er lik inntekten delt på to dersom de er født før 1985. Alle andre får manglende verdier
rename
rename old-name new-name
Description
Gir nye navn til eksisterende variabler
Options
Examples
rename loonn lonn
Variabelen endrer navn fra loonn
til lonn
. Verdiene og all annen informasjon forblir som før
clone-variables
clone-variables var-name [-> new-name] [var-name [-> new-name] ...] [, options]
Description
Lag kopier av en eller flere variabler. Kopiene kan få eksplisitte navn eller originalens navn med et prefiks og/eller et suffiks
Options
prefix()
-Angi prefiks som skal brukes sammen med originalvariablenes navn til å navngi kopiene
suffix()
-Bruk originalvariablenes navn og angitt suffiks til å navngi kopiene
Examples
clone-variables var1 -> new1 var2 -> new2
Lager kopier av var1
og var2
med navn new1
og new2
clone-variables var1 var2, prefix('new_')
Oppretter variablene new_var1
og new_var2
drop
drop (var-list | if)
Description
Fjern variabler, enheter eller observasjoner fra datasettet dersom en betingelse blir oppfylt. En kan fjerne enten en variabelliste, drop var-list
, eller gitte observasjoner (for eksempel drop if var-name > x
), men ikke begge deler samtidig.
Når var-list
er spesifisert vil variabelkolonnen bli fjernet. Når if
er spesifisert, vil de gjeldende observasjonen bli slettet.
Options
Examples
drop alder
fjerner variabelen alder
fra datasettet
drop if inntekt < 500000
Sletter alle observasjoner på alle variabler der enheten har en verdi på under 500000 for variabelen inntekt
keep
keep (var-list | if)
Description
Sletter alle observasjoner og enheter i datasettet som ikke oppfyller de spesifiserte kriteriene og beholder de som gjør det. En kan beholde enten en variabelliste, keep var-list
, eller gitte observasjoner (for eksempel keep if var-name > x
).
Når var-list
er spesifisert vil variabelkolonnen bli beholdt. Når if
er spesifisert, vil de gjeldende observasjonene bli beholdt.
Options
Examples
keep alder
Beholder variabelen alder
i datasettet, og sletter alle andre
keep if alder < 20
Beholder alle observasjoner for enheter der alder
er under 20 og sletter alle andre
collapse
collapse (statistic) var-name [-> new-name] [((statistic) var-name [-> new-name])...] [, options]
Description
Aggreger variabler etter grupperingsvariabel oppgitt i by()
-parameteret. Datasettet vil etter aggregering bestå av de spesifiserte aggregeringsvariablene (opprinnelige verdier erstattes med aggregert verdi) samt grupperingsvariabelen,
og enhetstype defineres av grupperingsvariablen. En kan aggregere mange numeriske variabler samtidig, også med forskjellige statistic
-spesifiseringer.
statistic
kan være følgende: mean
, min
, max
, median
, count
(antall verdier), sum
, semean
(standardfeil av gjennomsnitt), sebinomial
(binominal standardfeil av gjennomsnitt), sd
(standardavvik),
percent
(prosentandel gyldige verdier), iqr
(interkvartilbredde). Alle aggregeringsvariantene krever at variabelen er numerisk bortsett fra count
.
Options
by()
-Grupperingsvariabelen det aggregeres opp til
Examples
collapse (mean) lønn, by(bosted)
Kollapser variabelen lønn
og lager en ny variabel som viser snittverdien for lønn
for hver enhet i bostedsvariablen (grupperingsvariablen).
collapse (mean) lønn (min) Start@lønn (max) Stop@lønn, by(kjønn)
Aggregering av variablene lønn
, Start@lønn
og Stop@lønn
. lønn
blir skapt om til en aggregert variabel som gir snittverdien per kjønn, mens Start@lønn
blir skapt om til å vise tidligste startverdi for Start@lønn
.
Stop@lønn
blir på samme måte skapt om til å vise siste stoppverdi for Stop@lønn
collapse (sum) inntekt -> familieinntekt, by(familienummer)
Aggregerer opp fra personnivå til familienivå (summerer familiemedlemmers inntekter og lager familieinntekt) og kobler familiedataene på et persondatasett.
Gir også et nytt navn til den aggregerte variabelen inntekt
som blir familieinntekt
for å gjenspeile dette
merge
merge var-list into dataset [on variable]
Description
Koble variabler inn i et annet datasett på samme eller lavere enhetsnivå. Den kan f.eks. brukes til å koble faste opplysninger inn i et forløpsdatasett eller til å koble aggregert informasjon på kommunenivå inn i et persondatasett med bostedskommune som koblingsvariabel
Options
Examples
merge kjønn inntekt10 into datasett1
Kobler variablene kjønn
og inntekt10
inn i datasett1. Enhetsidentifikatoren i datasett1
blir brukt for kobling siden ingen koblingsvariabel er eksplisitt oppgitt
merge antallinnbyggere into persondatasett on bostedskommune16
Kobler en aggregert variabel (antall innbyggere aggregert til kommunenivå) inn som en kontekstuell variabel i et persondatasett. Koblingsvariablen er bostedskommune16
recode
recode var-list (rule) [(rule)...] [if] [, options]
Description
Endre verdiene til en eller flere variabler i henhold til et sett med regler. Verdier som ikke berøres av noen regler forblir uendret. De opprinnelige variablene overskrives. En regel består av en venstreside og en høyreside separert av =
.
Regler omkoder enten et sett med tallverdier, eller et sett med strenger.
Venstresiden spesifiserer verdier som skal omkodes og er enten en liste av diskrete verdier og/eller lukkede intervaller; eller en av kodene missing
, nonmissing
eller *
der sistnevnte betyr enhver verdi. Intervaller kan kun benyttes for omkoding av tallverdier. Her kan også også verdiene min
og max
brukes for den hhv. minste og største koden i kodelisten.
Høyresiden spesifiserer erstatterverdien. Reglene kjøres i den rekkefølgen de er oppgitt. Verdier som allerede er omkodet påvirkes ikke av påfølgende regler. Regler som følger etter en med venstreside lik *
får dermed ingen virkning.
Options
prefix()
-Opprett ny(e) variabel/-ler med de omkodete verdier, som tar originalnavnet med det spesifiserte prefikset foran
generate()
-Opprett nye variabler for de de omkodete verdier, med agnitt prefiks
Examples
recode var1 (1 2 3 = 0)
Endrer verdiene 1, 2 og 3 til 0 i variabelen var1
.
recode var1 var2 ('1' '2' '3' = '0') ('4' = '1')
Endrer verdiene '1', '2', '3' til '0' og verdien '4' til '1' i variablene var1
og var2
av alfanumerisk datatype.
recode var1 var2 (1/7 = 0)
Endrer verdiene fra 1 til 7 til 0 i variablene var1
og var2
. Dette er kun mulig for omkoding av tall.
recode var1 var2 (1/7 = 0) (nonmissing = 1) (missing = 99 "vet ikke" missing)
Endrer verdiene fra 1 til 7 til 0, andre gyldige verdier til 1, samt alle missing-verdier til 99 i variablene var1
og var2
. Verdien 99 får i tillegg merkelappen "vet ikke" og flagges som missing.
recode var1 var2 (1/7 = 0) (* = 99)
Endrer verdiene fra 1 til 7 til 0, alle andre verdier til 99 i variablene var1
og var2
recode var1 var2 (min/5 = 0) (10/max = 99)
Endrer verdiene i intervallet mellom den minste i kodelisten og 5 til 0 og verdiene i intervallet mellom 10 og den største koden til 99 i variablene var1
og var2
.
recode var1 var2 (1/7 = 0), prefix('new_')
Oppretter variablene new_var1
og new_var2
som inneholder omkodete verdier fra hhv. var1
og var2
.
recode regstat ('3' '5' = '0' 'ikke-bosatt')
Endrer verdiene '3' og '5' til '0' for variabelen regstat
, og lager en verdi-label med navnet 'ikke-bosatt' som knyttes til denne verdien.
replace
replace var-name = expression [if]
Description
Endr verdier for enheter i en variabel dersom de dekkes av det definerte uttrykket. Om ikke forblir de som de var.
Generelle aritmetiske funksjoner er støttet. Funksjonsuttrykk støttes også (oversikt over funksjoner vises ved å bruke kommandoen help-function
)
Options
Examples
replace inntekt = inntekt/10
Erstatter verdiene for inntekt
med inntekt
delt på ti.
replace inntekt = inntekt/10 if kjonn==1
Som over, men kun for de enheter som har verdien 1 for kjønn
destring
destring var-list [, options]
Description
Konverter alfanumeriske verdier til numeriske verdier. Dette kan bare gjøres for variabler med alfanumerisk dataformat.
Etter at kommandoen er kjørt, vil spesifisert(e) variabel/variabler endre format til numerisk. Inneholder verdikodene bokstaver eller andre ikke-numeriske tegn, vil du få en feilmelding.
Options
prefix()
-Opprett ny(e) variabel(er) med de omkodete verdiene, som tar originalnavnet med det spesifiserte prefikset foran.
ignore()
-Fjern spesifiserte ikke-numeriske karakterer før konvertering. Slik kan du konvertere ellers delvis gyldige verdier til numeriske verdier.
force
-Koder med bokstaver (og andre ikke-tall) settes til missing. Er spesielt nyttig om dette gjelder noen få koder.
dpcomma
-Alfanumeriske kommategn konverteres til desimaltegn og erstattes med punktum
Examples
destring var1
Konverterer verdiene i variabelen var1
fra alfanumerisk til numerisk format. Om noen verdier inneholder ikke-numeriske karakterer, vil operasjonen ikke gjennomføres og en får feilmelding.
destring var1 var2, prefix(ny)
Konverterer verdiene i variablene var1
og var2
fra alfanumerisk til numerisk format, og gir dem navnene nyvar1
og nyvar2
destring var1, force
Konverterer verdiene i variabelen var1
fra alfanumerisk til numerisk format. Verdier som inneholder ikke-numeriske karakterer konverteres til missingverdi
destring var1, ignore('.,-') force
Konverterer verdiene til variabelen var1
fra alfanumerisk til numerisk format. Karakterene .
, ,
og -
ignoreres. Verdier som inneholder øvrige ikke-numeriske karakterer konverteres til missingverdi
assign-labels
assign-labels var-name codelist-name
Description
Tar som parameter et variabelnavn og navn på en kodeliste definert ved hjelp av define-labels
Options
Examples
assign-labels var1 enig_uenig
Kodelisten ved navn enig_uenig
kobles til variabelen var1
define-labels
define-labels codelist-name value label [value label ...]
Description
Definer en ny, navngitt kodeliste som kan brukes av kategoriske variabler. Verdiene må være unike. Bruk av fnutter eller enkeltfnutter er valgfritt, men kreves dersom labelen inneholder spesialtegn (inkludert mellomrom). Kommategn kan uansett ikke brukes i labler.
En ferdig kodeliste må knyttes til en variabel gjennom kommandoen assign-labels
for at lablene skal kunne vises ved statistisk output
Options
Examples
define-labels kjønnlabel 1 Mann 2 Kvinne 3 Annet
Lager en kodeliste med navn kjønnlabel for verdiene 1 - 3
define-labels enig_uenig A 'helt uenig' B 'litt uenig' C 'litt enig' D 'helt enig'
Lager en kodeliste med navn enig_uenig for verdiene A - D. Fnutter eller enkeltfnutter er nødvendig når etikettene inneholder mellomrom (eller spesialtegn)
drop-labels
drop-labels codelist-name [codelist-name ...]
Description
Slett kodelistene oppgitt som parametre
Options
Examples
drop-labels codelist1 codelist2
Fjerner kodelistene codelist1
og codelist2
list-labels
list-labels
Description
Skriver ut en liste over definerte kodelister med beskrivelser av disse. Ingen parametre
Options
sample
sample count|fraction seed
Description
Ta et tilfeldig uttrekk av observasjoner på datasettet. Første argument spesifiserer hvor mange observasjoner som skal beholdes. Dette kan være et heltall > 1000 eller en andel (desimaltall mellom 0 og 1). Andre argument angir en seed, der en kan bruke positive heltall >= 1.
Ved bruk av samme seed og størrelse på sample vil det tilfeldige uttrekket være det samme hver gang kommandoen kjøres. Om en ønsker et nytt tilfeldig sample av samme størrelse, må en bruke en ny seed-verdi
Options
Examples
sample 10000 342343
Beholder 10000 tilfeldige observasjoner basert på seed-verdien 342343
sample 10000 351333
Beholder 10000 tilfeldige observasjoner basert på seed-verdien 351333 (et annet uttrekk)
sample 0.2 422323
Beholder 20% av observasjonene i datasettet, tilfeldig trukket, basert på seed-verdien 422323
Graphics
barchart
barchart (statistic) var-list [if] [, options]
Description
Lager søylediagram som viser statistikk for de inkluderte variablene.
statistic
kan være følgende: count
(frekvens/antall enheter), percent
(prosentandeler for frekvenser). Dette viser antall og prosentandeler for kategoriske variabler presentert som søyler, og er i praksis en grafisk fremstilling av tall generert gjennom kommandoen tabulate
. Man bør kun angi én variabel dersom man bruker disse to måletypene. I tillegg kan man benytte måletypene mean
, min
, max
, median
, sum
, sd
(standardavvik). Disse viser gjennomsnitt, median etc for alle variablene som brukes som input, og krever at variabelen(e) er numerisk(e). Dette er i praksis en grafisk måte å vise tilsvarende verdier gjennom kommandoen summarize
.
Opsjonen over()
er veldig nyttig å bruke til å lage fordelinger på ulike kategoriske inndelinger. Kombinert med opsjonen stack
vil man kunne lage ganske avanserte søylediagrammer. Diagrammet blir da mer komprimert og oversiktlig (spesielt nyttig dersom man har mange kategorier).
Options
over()
-Èn søyle per kategori i variabelen(e) gitt som parameter til over()
by()
-Èn graf per kategori i variabelen(e) gitt som parameter til by()
stack
-Stable frekvensverdier eller prosentverdier i stedet for å vise separate søyler ved siden av hverandre. Kan brukes sammen med måletypenecount
ogpercent
.
horizontal
-Vis søylediagrammet med liggende søyler
Examples
barchart (count) fylke
Søylediagram som viser antallet personer bosatt i hvert fylke, der hver søyle representerer et fylke
barchart (percent) fylke
Søylediagram som viser prosentandelen personer bosatt i hvert fylke, der hver søyle representerer et fylke
barchart (percent) fylke, over(kjønn)
Søylediagram som viser prosentandelen personer bosatt i hvert fylke, der hver søyle representerer et fylke. Søylene gruppes etter kjønn.
barchart (percent) fylke, over(kjønn) stack
Søylediagram som viser prosentandelen personer bosatt i hvert fylke. Søylene gruppes etter kjønn. I stedet for separate søyler for hvert fylke innenfor hvert kjønn, stables i stedet fylkesverdiene i en og samme søyle for hver verdi av kjønn. Man viser da kun to søyler, en for menn og en for kvinner, der hver søyle fargelegges med ulike farger basert på fylkesandelen innenfor det aktuelle kjønnet. Hver søyle har samme høyde (= 100%), men ulike fargeinndelinger.
barchart (count) fylke, over(kjønn) stack
Søylediagram som viser antallet personer bosatt i hvert fylke. Søylene gruppes etter kjønn. I stedet for separate søyler for hvert fylke innenfor hvert kjønn, stables i stedet fylkesverdiene i en og samme søyle for hver verdi av kjønn. Man viser da kun to søyler, en for menn og en for kvinner, der hver søyle fargelegges med ulike farger basert på antallet bosatte i de ulike fylker innenfor det aktuelle kjønnet. Søylenes høyde er forskjellige og lik totalverdi for det aktuelle kjønnet.
barchart (count) fylke, over(kjønn, sivilstand) stack horizontal
Søylediagram som viser antallet personer bosatt i hvert fylke. Søylene gruppes etter kjønn og sivilstand. I stedet for separate søyler for hvert fylke innenfor hver kombinasjon av kjønn og sivilstand, stables i stedet fylkesverdiene i en og samme søyle for hver kombinasjon av kjønn og sivilstand. Man viser da et antall søyler som tilsvarer antallet kombinasjoner av kjønn og sivilstand, der hver søyle fargelegges med ulike farger basert på antallet bosatte i de ulike fylker innenfor den aktuelle kombinasjonen.
barchart (mean) lønn, over(bosted)
Søylediagram som viser snittverdien for den metriske variabelen lønn fordelt på den kategoriske variabelen bosted
barchart (mean) lønn fødselsår, over(landbakgrunn)
Søylediagram som viser snittverdiene for lønn
og fødselsår
fordelt over landbakgrunn
barchart (mean) lønn fødselsår if lønn > 500000, over(landbakgrunn, kjønn)
Søylediagram som viser snittverdiene for lønn
og fødselsår
dersom lønn
har verdier høyere enn 500000, fordelt over landbakgrunn
og kjønn
boxplot
boxplot var-list [if] [, options]
Description
Lag et boksplott for hver enkelt variabel sortert etter de gitte spesifikasjonene. En kan bare ha én by-variabel av gangen, men flere over-variabler
Options
over()
-Lager ett boksplott per kategori for de(n) kategoriske variabelen/-lene spesifisert i opsjonen over()
horizontal
-Vis boksplottet med liggende søyler
Examples
boxplot inntekt2004
Lager et boksplott for variabelen inntekt2004
boxplot inntekt2004 inntekt2005
Lager et boksplott for variabelen inntekt2004
og inntekt2005
i samme tabell
boxplot inntekt2004, over(kjønn)
Lager ett boksplott for variabelen inntekt2004
for hver av kategoriene i kjønn-variabelen og setter dem ved siden av hverandre i samme tabell
boxplot inntekt2004 if bosted == 3
Lager et boksplott for variabelen inntekt2004
for de enheter som har verdien 3 på bostedsvariabelen
coefplot
coefplot regress-type var-name var-list [if] [, options]
Description
Lag et grafisk plot som viser koeffisientverdiene og tilhørende konfidensintervall.
Tar som argument en regresjonskommando i sin helhet med samme syntax som kommandoen har for seg selv.
Se hjelpetekstene for de individuelle regresjonene for mer informasjon om dette ved f.eks help regress
Options
Examples
coefplot regress lønn alder mann gift formue, standardize
Lager grafisk fremvisning av standardiserte koeffisientverdier for vanlig OLS-regresjon
coefplot logit jobb høy_utd mann oslo
Lager grafisk fremvisning av koeffisientverdier for en logit-regresjon
hexbin
hexbin var-name var-list [if], [, options]
Description
Vis fordelingen av enhetsverdiene for to angitte variabler i sekskanter. Fargen på sekskantene avhenger av hvor mange enheter som er representerte i hver. En kodenøkkel blir vist ved siden av diagrammet
Options
gridsize()
-Antall hexagon på x- og y- aksen. Hvis ikke oppgitt, er standardvalget satt til verdien 20 (maksverdi = 25)
groups()
-Antall grupper/farger i hexbinplottet. Hvis ikke oppgitt, er standardvalget satt til maksverdien 10
Examples
hexbin lonn alder
Vis fordelingen av lonn
over alder
hexbin lonn kjonn
Vis den metriske variabelen lonn
over den kategoriske variabelen kjonn
hexbin lonn alder if alder >= 18
Vis lonn
for alder
dersom alderen er høyere eller lik 18
histogram
histogram var-name [if] [, options]
Description
Histogram-kommandoen lager et histogram over den spesifiserte, kontinuerlige variabelen. For kategoriske numeriske variabler må discrete
opsjonen brukes
Options
by()
-Lager flere histogram som viser fordelingen for hver av underkategoriene i den spesifiserteby
-variabelen
density
-Vis tetthetsverdier. Standardmålet for histogram. Summen av søylearealet er lik 1
freq
-Vis antall enheter (frekvens) i stedet for tetthet
fraction
-Vis brøkdelsverdier. Summen av søylehøydene er lik 1
percent
-Vis prosentverdier. Summen av alle søylehøydene er lik 100
bin()
-Definerer hvor mange grupper dataene skal grupperes til. Kan ikke brukes sammen med opsjonen discrete.
width()
-Spesifiser hvor brede søylene skal være
normal
-Vis normalfordelingskurven for histogrammet
discrete
-Spesifiser at variabelen skal behandles diskret, noe som vil si at du får én søyle per verdi. Med denne kan man lage histogram over kategoriske numeriske variabler (f.eks. alder). Kan ikke brukes sammen med opsjonen bin().
Examples
histogram lønn2002
Lager et histogram av den kontinuerlige variabelen lønn2002
histogram lønn2002 if kjønn == 2
Lager et histogram av den kontinuerlige variabelen lønn2002
for de enheter som har verdien 2 på kjønn
histogram lønn2002, bin(12)
Lager histogram av variabelen lønn2002
, der verdiene er fordelt i 12 like vide grupper som gir 12 søyler
histogram lønn2002, width(10000)
Lager et histogram av den kontinuerlige variabelen lønn2002
, der hver søyle har en bredde på 10000 enheter (her: kroner)
histogram hdi, discrete
Lager et histogram av hdi
-skalaen der hver verdi blir gitt sin egen søyle
piechart
piechart var-name [if]
Description
Lag et kakediagram av den spesifiserte variabelen
Options
Examples
piechart utdanningsniva
Lager kakediagram av variabelen utdanningsniva
piechart utdanningsniva if kjønn == 2
Lager kakediagram av variabelen utdanningsniva
for de enheter som har verdien 2 på kjønn
sankey
sankey var-list [if]
Description
Sankeydiagrammet viser strømninger fra en kategori til en annen for det gitte enhetsnivå (f.eks. individer). Kommandoen er kun kompatibel med kategoriske variabler
Options
Examples
sankey bosted10 bosted11
Lager sankeydiagram som viser hvilke kommuner personer flytter fra/til mellom årene 2010 og 2011
Regression
hausman
hausman var-name var-list [if] [, options]
Description
Kjør to regress-panel modeller - én med fixed effects (FE) og én med random effects (RE) - og sammenligner dem ved bruk av Hausmantesten. Variabler og opsjoner spesifiseres slik som i regress-panel.
Outputen viser regresjonsresultat for hhv. FE og RE, differanse mellom koeffisientestimater, samt test-parametrene chi2 og P. P-verdi < 0.05 betyr at FE bør benyttes. P-verdi >= 0.05 betyr at RE bør brukes.
Options
noconstant
-Undertrykk konstantleddet (krysningspunktet for y-aksen) i regresjonsmodellene
level()
-Spesifiserer konfidensnivået i prosent. Standarden er 95%
sigmamore
-Baser begge kovariansmatrisene på estimat for forstyrrelsesvarians (sigma) fra effisient estimator
sigmaless
-Baser begge kovariansmatrisene på estimat for forstyrrelsesvarians (sigma) fra konsistent estimator
include_constant
-Inkluder konstantleddet i Hausmantesten
Examples
hausman inntekt gjeld
Hausmantest av en regress-panel med fixed effects og en med random effects
ivregress
ivregress var-name [var-list] [( var-list = var-list )] [var-list] [if] [, options]
Description
Lineær regresjon med instrumentvariabler for å kontrollere for korrelasjon mellom restleddet og én eller flere uavhengige variabler.
Instrumentvariabel/-ler angis på venstre side av =
i et uttrykk inni en parentes. Variablene på høyresiden av =
angir variablene en mistenker å korrelere med instrumentvariabelen/-lene
Options
tsls
-Bruk estimatoren "two-stage least squares" (standard hvis ingen modelltype er oppgitt)
liml
-Bruk estimatoren "limited-information maximum likelihood"
gmm
-Bruk estimatoren "generalized method of moments"
noconstant
-Undertrykk konstantleddet (krysningspunktet for y-aksen)
level()
-Spesifiser konfidensnivået i prosent. Standarden er 95%
robust
-Beregn robuste standardfeil. Kan ikke brukes sammen med cluster
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
Examples
ivregress innt05 mann gift ( formuehøy = alder )
En line ær regresjonsmodell med innt05
som avhengig variabel, og mann
, gift
og formuehøy
som uavhengige variabler, hvor alder
(samt mann
og gift
) fungerer som intrument på formuehøy
.
ivregress innt05 mann gift ( formuehøy = alder ), tsls
Samme som over, med standardestimatoren "two-stage least squares" eksplisitt angitt
ivregress innt05 mann gift ( formuehøy = alder ), liml
Samme som over med estimatoren "limited-information maximum likelihood"
ivregress innt05 mann gift ( formuehøy = alder ), gmm
Samme som over med estimatoren "generalized method of moments"
ivregress innt05 mann gift ( formuehøy = alder utdanningsnivå)
En lineær regresjonsmodell med innt05
som avhengig variabel, og mann
, gift
og formuehøy
som uavhengige variabler, hvor alder
og utdanningsnivå
(samt mann
og gift
) fungerer som intrument på formuehøy
.
ivregress innt05 mann gift ( utdanningsnivå formuehøy = alder )
En lineær regresjonsmodell med innt05
som avhengig variabel, og mann
, gift
og formuehøy
som uavhengige variabler, hvor alder
(samt mann
og gift
) fungerer som intrument på formuehøy
og utdanningsnivå
.
ivregress innt05 mann gift ( formuehøy = alder ), robust
En modell med robuste standardfeil
ivregress innt05 mann gift ( formuehøy = alder ), cluster(utdanningsnivå)
En modell med utdanningsnivå
som cluster-variabel for beregning av standardfeil
ivregress-predict
ivregress-predict var-name [var-list] [( var-list = var-list )] [var-list] [if] [, options]
Description
Gjennomfør en lineær regresjon med instrumentvariabler for de inkluderte variablene, og genererer variabler med predikerte verdier (standard) og/eller residualverdier, med angitte navn.
Options
predicted()
-Generer variabel med predikerte verdier, med angitt navn. Standarden erpredicted
residuals()
-Generer variabel med residualer, med angitt navn
noconstant
-Undertrykk konstantleddet i regresjonsmodellen
tsls
-Bruk estimatoren "two-stage least squares" (standard hvis ingen modelltype er oppgitt)
liml
-Bruk estimatoren "limited-information maximum likelihood" i regresjonsmodellen
gmm
-Bruk estimatoren "generalized method of moments" i regresjonsmodellen
Examples
ivregress-predict inntekt2004 kjonn inntekt2003 ( formuehøy = alder ), predicted(pred)
Generer variabelen pred
, med de predikerte verdiene fra en lineær regresjon med instrumentvariabler
ivregress-predict inntekt2004 kjonn inntekt2003 ( formuehøy = alder )
Samme som over
ivregress-predict inntekt2004 kjonn inntekt2003 ( formuehøy = alder ), residuals(res)
Generer variabelen res
, med residualverdiene fra en lineær regresjon med instrumentvariabler
ivregress-predict inntekt2004 kjonn inntekt2003 ( formuehøy = alder ), predicted(pred) residuals(res)
Generer variablene pred
og res
med de predikerte verdiene og residualverdiene fra en lineær regresjon med instrumentvariabler
logit
logit var-name var-list [if] [, options]
Description
Gjennomfør en logistisk regresjonsanalyse (logit) for de inkluderte variablene via sannsynlighetsmaksimering. Den avhengige variabelen er den første i variabellista, og denne må være binær. For de uavhengige er dette ikke nødvendig.
Denne regresjonen finner sannsynligheten for positive utfall (verdien 1). Avhengig variabel lik 0 indikerer et negativt utfall
Options
mfx()
-Kalkuler marginaleffekter og elastisitetsverdier i tillegg til logistiske koeffisienter. Ønsket effekttype må oppgis som en av følgende:dydx
(marginaleffekt = d(y)/d(x)),eyex
(elastisitetsverdi = d(ln(y))/d(ln(x))),dyex
(semielastisitet = d(y)/d(ln(x))),eydx
(semielastisitet = d(ln(y))/d(x)). Om målevariant ikke angis via mfx_at() brukes 'overall', dvs. gjennomsnittlig marginaleffekt.
mfx_at()
-Spesifiser for hvilke verdier av x marginaleffekter og elastisitetsverdier skal måles. Disse variantene kan brukes: overall (snittverdien av marginaleffektene målt over alle verdier av x), mean (marginaleffekt målt ved snittet av x), median (marginaleffekt målt ved median av x), zero (marginaleffekt målt ved 0-verdien for x).overall
brukes som standard dersom opsjonen utelates. Om effekttype ikke er angitt via mfx() brukesdydx
.
noconstant
-Undertrykk konstantleddet (krysningspunktet for y-aksen)
level()
-Spesifiser konfidensintervallnivået. Skrives i prosenttall. Om ingenting annet er forespurt, blir det satt til standarden på 95%
or
-Vis oddsratio istedet for koeffisientverdier
robust
-Beregner robuste standardfeil (HC1). Kan ikke brukes sammen med cluster
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
control()
-Spesifiser variabler som skal inngå i regresjonsanalysen, men som det ikke skal vises koeffisientestimater for. Sehelp regress
.
margins()
-Beregn predikert verdi for den avhengige variabelen målt ved gjennomsnittsverdien for alle forklaringsvariablene i modellen. Ved å angi en dummyvariabel inni parentesen (denne må også inngå som en forklaringsvariabel i modellen), vil man i stedet beregne predikert verdi for hver verdi av dummyvariabelen (0/1) målt ved gjennomsnittet for de resterende forklaringsvariablene. Dette kan brukes til å sammenlikne predikerte verdier mellom to grupper.
Examples
logit universitetsutdannet2003 inntekt2003 mann
En logit-analyse der den binære variabelen universitetsutdannet2003
er avhengig, og mann
og inntekt2003
er uavhengige
logit universitetsutdannet2003 inntekt2003 mann, level(90)
Samme som over, men med konfidensnivået satt til 90% heller enn standarden som er 95%
logit universitetsutdannet2003 inntekt2003 mann, or
Samme som over, men med oddsratioen heller en koeffisienten
logit universitetsutdannet2003 inntekt2003 inntekt2002 mann c.inntekt2003#c.inntekt2002
Kjør en logit-analyse med universitetsutdannet2003
som avhengig variabel. Leddet c.inntekt2003#c.inntekt2002
gir en interaksjonsvariabel for de to metriske variablene inntekt2002
og inntekt2003
logit universitetsutdannet2003 mann#innvandrerbakgrunn
Kjør en logit-analyse med universitetsutdannet2003
som avhengig variabel. Leddet mann#innvandrerbakgrunn
gir en estimering for hver av underkategoriene av de to mot hveranre. Mann og innvandrerbakgrunn er kategoriske variabler
logit høyinntekt2002 c.inntekt2000#c.inntekt2001
Analyse av den binære avhengige variabelen høyinntekt2002
med et interaksjonsledd mellom de to metriske variablene inntekt2000
og inntekt2001
som uavhengig variabel
logit høyinntekt2004 i.kjønn
Gjør en analyse av høyinntekt2004 for hver av kjønnskategoriene
logit høyinntekt2004 mann utdanningsnivå i.mann#i.utdanningsnivå
Logit-analyse med høyinntekt2004
som avhengig variabel. Estimeringen bruker mann
og utdanningsnivå
, samt krysser alle underkategorier av de uavhengige variablene mot hverandre
logit høyinntekt2004 mann c.klassetrinn
Logit-analyse der den kategoriske variabelen klassetrinn
blir behandlet som om den var kontinuerlig
logit høyinntekt2004 mann if inntekt > 500000
Logit-analyse med modifiserende utrykk
logit høyinntekt2004 mann, robust
En logit-modell med robuste standardfeil
logit høyinntekt2004 mann, cluster(utdanningsnivå)
En logit-modell med utdanningsnivå som cluster-variabel for beregning av standardfeil
logit-predict
logit-predict var-name var-list [if] [, options]
Description
Gjennomfør en logistisk regresjon (logit)for de inkluderte variablene, og genererer variabler med sannsynlighetsverdi (standard), predikerte verdier, og/eller residualverdier, med angitte navn.
Options
probabilities()
-Generer variabel med sannsynlighetsverdi for positivt utfall, med angitt navn. Standarden erprobabilities
predicted()
-Generer variabel med lineære prediksjonsverdier, med angitt navn
residuals()
-Generer variabel med residualer, med angitt navn
noconstant
-Undertrykk konstantleddet i regresjonsmodellen
Examples
logit-predict universitetsutdannet2003 inntekt2003 kjonn, probabilities(prob)
Generer variabelen prob
med sannsynlighetsverdier fra en logit-regresjon
logit-predict universitetsutdannet2003 inntekt2003 kjonn
Samme som over
logit-predict universitetsutdannet2003 inntekt2003 kjonn, predicted(pred)
Generer variabelen pred
med lineære prediksjonsverdier fra en logit-regresjonsmodell
logit-predict universitetsutdannet2003 inntekt2003 kjonn, residuals(res)
Generer variabelen res
med residualer fra en logit-regresjonsmodell
logit-predict universitetsutdannet2003 inntekt2003 kjonn, residuals(res) noconstant
Generer variabelen res
med residualer fra en logit-regresjonsmodell uten konstantledd
logit-predict universitetsutdannet2003 inntekt2003 kjonn, probabilities(prob) predicted(pred) residuals(res)
Generer variablene prob
, pred
, res
med henholdsvis sannsynlighetsverdier, lineære prediksjonsverdier, og residualer fra en logit-regresjonsmodell
mlogit
mlogit var-name var-list [if] [, options]
Description
Gjennomfør en multinomisk logit-regresjonsanalyse. Til forskjell fra ordinær logit, kreves det at avhengig variabel opererer med flere enn 2 verdikategorier.
En kan definere begrensninger (constraints) i analysen. Kommandoen støtter faktorvariabler
Options
mfx()
-Kalkuler marginaleffekter og elastisitetsverdier i tillegg til logistiske koeffisienter. Ønsket effekttype må oppgis: dydx (marginaleffekt = d(y)/d(x)), eyex (elastisitetsverdi = d(ln(y))/d(ln(x))), dyex (semielastisitet = d(y)/d(ln(x))), eydx (semielastisitet = d(ln(y))/d(x)). Om målevariant ikke angis via mfx_at() brukes 'overall', dvs. gjennomsnittlig marginaleffekt.
mfx_at()
-Spesifiser for hvilke verdier av x marginaleffekter og elastisitetsverdier skal måles. Disse variantene kan brukes: overall (snittverdien av marginaleffektene målt over alle verdier av x), mean (marginaleffekt målt ved snittet av x), median (marginaleffekt målt ved median av x), zero (marginaleffekt målt ved 0-verdien for x). 'overall' brukes som standard dersom opsjonen utelates. Om effekttype ikke er angitt via mfx() brukes 'dydx'.
noconstant
-Undertrykk konstantleddet (der y-aksen krysses) i modellen
level()
-Spesifiser konfidensintervallnivået. Om ingenting er spesifisert benyttes normalen på 95%
robust
-Beregner robuste standardfeil (HC1). Kan ikke brukes sammen med cluster
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
control()
-Spesifiser variabler som skal inngå i regresjonsanalysen, men som det ikke skal vises koeffisientestimater for. Sehelp regress
.
Examples
mlogit utdanningsnivå inntekt mann
Utfører en multinomisk logitanalyse der den avhengige variabelen utdanningsnivå
er en kategorisk variabel med flere enn to verdier
mlogit utdanningsnivå inntekt mann, level(90)
Samme som over, men med konfidensintervallnivået satt til 90% heller enn standarden på 95%
mlogit inntektsnivå2002 utdanningsnivå mann utdanningsnivå#mann ELLER mlogit inntektsnivå2002 utdanningsnivå##mann
Begge disse kommandoene gir samme regresjonstabell. Dette gir en multinomisk logitanalyse med den kategoriske variabelen innteksniva2002
som avhengig variabel og de kategoriske variablene utdanningsnivå
og mann
som uavhengige. Vi analyserer først utdanningsnivå
og mann
for seg, og deretter hver underkategori mot hverandre
mlogit inntektsnivå2002 c.inntekt2000#c.inntekt2001
Analyse av den kategoriske avhengige variabelen inntektsnivå2002
med et interaksjonsledd mellom de to metriske variablene inntekt2000
og inntekt2001
som uavhengig variabel
mlogit inntekt2004 i.kjønn
Analyse av inntekt2004
for hver av kjønnskategoriene
mlogit inntektsnivå2004 mann utdanningsnivå i.mann#i.utdanningsnivå
Mlogit-analyse med inntektsnivå2004
som avhengig variabel. Analysen bruker mann
og utdanningsnivå
, samt krysser alle underkategorier av de uavhenggie variablene mot hverande
mlogit inntektsnivå2004 mann c.klassetrinn
Regresjonsanalyse der den kategoriske variabelen klassetrinn
blir behandlet som om den var kontinuerlig
mlogit inntektsnivå2004 mann if inntekt > 500000
Regresjonsanalyse med modifiserende utrykk
mlogit inntektsnivå2004 mann, robust
En modell med robuste standardfeil
mlogit inntektsnivå2004 mann, cluster(utdanningsnivå)
En modell med utdanningsnivå som cluster-variabel for beregning av standardfeil
mlogit-predict
mlogit-predict var-name var-list [if] [, options]
Description
Gjennomfør en multinomisk logit-analyse for de inkluderte variablene, og genererer variabler med sannsynlighetsverdi (standard), og/eller predikerte verdier, med angitte navn som prefix, for hver verdi på avhengig variabel.
Options
probabilities()
-Generer variabel med sannsynlighetsverdi for positivt utfall, med angitt navn. Standarden erprobabilities
predicted()
-Generer variabel med lineære prediksjonsverdier, med angitt navn
noconstant
-Undertrykk konstantleddet i regresjonsmodellen
Examples
mlogit-predict utdanningsniva inntekt kjonn, probabilities(prob)
Generer variablene prob_[n]
med sannynlighetsverdier fra en mlogit-regresjon
mlogit-predict utdanningsniva inntekt kjonn
Samme som over
mlogit-predict utdanningsniva inntekt kjonn, predicted(pred)
Generer variablene pred_[n]
med lineære prediksjonsverdier fra en mlogit-regresjon
mlogit-predict utdanningsniva inntekt kjonn, probabilities(prob) predicted(pred)
Generer variablene prob_[n]
og pred_[n]
med sannynlighetsverdier og lineære prediksjonsverdier fra en logistisk regresjonsmodell
oaxaca
oaxaca var-name var-list by var-name [if] [, options]
Description
Blinder-Oaxaca dekomponering brukes til å forklare forskjeller i den avhengige variabelens gjennomsnittverdi for to grupper ved å dekomponere til to komponenter: Forklart differanse ('between group') og uforklart effekt (koeffisienteffekt).
Som for regress, brukes kontinuerlige avhengige variabler, som f.eks. lønn. Man spesifiserer de to gruppene gjennom by-variabelen.
Options
robust
-Robuste standardavvik vises i stedet for standard
noconstant
-Undertrykk konstantledd
pool
-Benytter 'pooled two-fold' variant i stedet for standard three-fold. Ved 'pooled two-fold' brukes koeffisientene fra en 'pooled' modell over begge grupper som referansekoeffisienter
Examples
oaxaca ln_lønn utd_høy alder oslo by kvinne
Vanlig oaxaca-uttrykk der man bruker ln_lønn
som avhengig variabel, og grupperer på kjønn
oaxaca ln_lønn utd_høy alder oslo by kvinne, pool
oaxaca-uttrykk der man bruker ln_lønn
som avhengig variabel, og grupperer på kjønn
. Opsjonen pool
bruker en 'pooled two-fold' variant
probit
probit var-name var-list [if] [, options]
Description
Gjennomfør en sannsynlighetsmaksimerende probitanalyse av de spesifiserte variablene. Den avhengige variabelen må være binær. Faktorvariabler er støttet
Options
mfx()
-Kalkuler marginaleffekter og elastisitetsverdier i tillegg til logistiske koeffisienter. Ønsket effekttype må oppgis som en av følgende:dydx
(marginaleffekt = d(y)/d(x)),eyex
(elastisitetsverdi = d(ln(y))/d(ln(x))),dyex
(semielastisitet = d(y)/d(ln(x))),eydx
(semielastisitet = d(ln(y))/d(x)). Om målevariant ikke angis via mfx_at() brukes 'overall', dvs. gjennomsnittlig marginaleffekt.
mfx_at()
-Spesifiser for hvilke verdier av x marginaleffekter og elastisitetsverdier skal måles. Disse variantene kan brukes: overall (snittverdien av marginaleffektene målt over alle verdier av x), mean (marginaleffekt målt ved snittet av x), median (marginaleffekt målt ved median av x), zero (marginaleffekt målt ved 0-verdien for x).overall
brukes som standard dersom opsjonen utelates. Om effekttype ikke er angitt via mfx() brukesdydx
.
noconstant
-Undertrykk konstantleddet (der y-aksen krysses) i modellen
level()
-Spesifiser konfidensintervallnivået. Om ingenting er spesifisert benyttes normalen på 95%
robust
-Beregner robuste standardfeil. Kan ikke brukes sammen med cluster
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
control()
-Spesifiser variabler som skal inngå i regresjonsanalysen, men som det ikke skal vises koeffisientestimater for. Sehelp regress
.
margins()
-Beregn predikert verdi for den avhengige variabelen målt ved gjennomsnittsverdien for alle forklaringsvariablene i modellen. Ved å angi en dummyvariabel inni parentesen (denne må også inngå som en forklaringsvariabel i modellen), vil man i stedet beregne predikert verdi for hver verdi av dummyvariabelen (0/1) målt ved gjennomsnittet for de resterende forklaringsvariablene. Dette kan brukes til å sammenlikne predikerte verdier mellom to grupper.
Examples
probit utdanningsnivå inntekt mann
Kjør en probitanalyse med den binære variabelen utdanningsnivå
som avhengig variabel. De kategoriske og metriske variablene inntekt
og mann
er de uavhengige variablene
probit utdanningsnivå inntekt mann, level(90)
Samme som over, men med konfidensintervallet på 90% heller enn standarden som er 95%
probit høyinntekt2002 utdanningsnivå mann utdanningsnivå#mann ELLER probit høyinntekt2002 utdanningsnivå##mann
Begge disse kommandoene gir samme regresjonstabell. Dette gir en probitanalyse med den binære variabelen høyinntekt2002
som avhengig variabel og de kategoriske variablene utdanningsnivå
og mann
som uavhengige.
Vi analyserer først utdanningsnivå
og mann
for seg, og deretter hver underkategori mot hverandre
probit høyinntekt2002 c.inntekt2000#c.inntekt2001
Analyse av den binære avhengige variabelen høyinntekt2002
med et interaksjonsledd mellom de to metriske variablene inntekt2000
og inntekt2001
som uavhengig variabel
probit høyinntekt2004 i.kjønn
Kjør en analyse av høyinntekt2004
for hver av kjønnskategoriene
probit høyinntekt2004 mann utdanningsnivå i.mann#i.utdanningsnivå
Probit-analyse med høyinntekt2004
som avhengig variabel. Analysen estimerer for mann
og utdanningsnivå
, samt krysser alle underkategorier av de uavhengige variablene mot hverande
probit høyinntekt2004 mann c.klassetrinn
Probit-analyse der den kategoriske variabelen klassetrinn
blir behandlet som om den var kontinuerlig
probit høyinntekt2004 mann c.utdanningsnivå if inntekt > 500000
Probit-analyse med modifiserende utrykk
probit høyinntekt2004 mann, robust
En modell med robuste standardfeil
probit høyinntekt2004 mann, cluster(utdanningsnivå)
En modell med utdanningsnivå som cluster-variabel for beregning av standardfeil
probit-predict
probit-predict var-name var-list [if] [, options]
Description
Gjennomfør en probit-regresjon for de inkluderte variablene, og genererer variabler med sannsynlighetsverdi (standard) og/eller predikerte verdier, med angitte navn.
Options
probabilities()
-Generer variabel med sannsynlighetsverdi for positivt utfall (verdien 1), med angitt navn. Standard er 'probabilities'
predicted()
-Generer variabel med linære prediksjonsverdier, med angitt navn
noconstant
-Undertrykk konstantleddet i regresjonsmodellen
Examples
probit-predict utdanningsniva inntekt kjonn, probabilities(prob)
Generer variabelen prob
med sannynlighetsverdier fra en probit-regresjonsmodell
probit-predict utdanningsniva inntekt kjonn
Samme som over
probit-predict utdanningsniva inntekt kjonn, predicted(pred)
Generer variabelen pred
med linære prediksjonsverdier fra en probit-regresjonsmodell
probit-predict utdanningsniva inntekt kjonn, probabilities(prob) predicted(pred)
Generer variablene prob
og pred
med henholdsvis sannsynlighetsverdier og linære prediksjonsverdier fra en probit-regresjonsmodell
rdd
rdd depvar depvar runvar [var-list] [if] [, options]
Description
Regression Discontinuity Design (RDD) kjører en regresjonsanalyse der en behandling eller intervensjon er tildelt basert på en bestemt terskel eller kutt-punkt i en kontinuerlig variabel.
Modellen krever at man oppgir minst to variabler: Den første variabelen (avhengig variabel) kan være av valgfritt numerisk format, mens variabel nr. 2 (cutoff-variabel / running variable) må være enten kontinuerlig eller rangerbar. Øvrige forklaringsvariabler angis som variabel nr. 3 og utover. Cutoff-punktet er satt til verdien 0 som standard, gitt ved variabel nr. 2.
Dette kan justeres gjennom opsjonen cutoff()
. Gjennom opsjonen fuzzy()
kan man gjøre en fuzzy rdd. Denne varianten passer når det ikke er en deterministisk sammenheng, men en gitt sannsynlighet for behandling/intervensjon etter cutoff-punktet. Dette krever at man lager en såkalt treatment-dummy som tar verdien 1 dersom behandling/intervensjon, og 0 ellers.
Options
cutoff()
-Cutoff-verdi, standard = 0
polynomial()
-Orden på den lokale polynomial-likningen som brukes til å konstruere punkt-estimatoren, standard er p(1) (lokal lineær regresjon)
fuzzy()
-Kjør alternativ fuzzy-modell. Forutsetter at man har laget en treatment-dummy som man angir i opsjonen
derivate()
-Deriveringsorden som skal brukes på regresjonslikningen, 0, 1, 2 er vanligst, 0 er standard
level()
-Spesifiserer konfidensnivået i prosent. Standard er 95%
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Variabelen må være numerisk og kategorisk, og kan ikke inngå i selve regresjonsuttrykket.
Examples
rdd vote margin
Kjør rdd-analyse over effekt av å vinne valget (seiersmargin (margin) > 0) på valgresultatet i neste valg (vote). Cutoff = 0 og ingen ekstra forklaringsvariabler
rdd var1 var2 i.kjønn gift, cutoff(600000) cluster(fylke)
Kjør rdd-analyse over effekt av å nå verdien 600000 for var2
på den avhengige variabelen var1
. Cutoff = 600000 og man bruker forklaringsvariablene kjønn
og gift
samt fylke
som clustervariabel
regress
regress var-name var-list [if] [, options]
Description
Gjennomfør en ordinær lineær minste kvadratsums metode-regresjon. Den første variabelen i lista er den avhengige variabelen, de(n) etter er de(n) uavhengige. Både metriske og faktorvariabler støttes
Options
noconstant
-Undertrykk konstantleddet (krysningspunktet for y-aksen)
level()
-Spesifiser konfidensnivået i prosent. Standarden er 95%
robust
-Beregner robuste standardfeil (HC1). Kan ikke brukes sammen med cluster
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
control()
-Spesifiser variabler som skal inngå i regresjonsanalysen, men som det ikke skal vises koeffisientestimater for. Sehelp regress
.
ov
-Rapporterer Ramseys RESET test for utelatte variabler
vif
-Rapporterer variance inflation factor test for multikollinearitet
het_bp
-Rapporterer Breusch-Pagan test for heteroskedastisitet
het_iid
-Rapporterer studentisert Breusch-Pagan test for heteroskedastisitet
het_fstat
-Rapporterer f-statistikk fra Breusch-Pagan test for heteroskedastisitet
standardize
-Vis regresjonsresultat der modellen kjøres på standardiserte verdier
margins()
-Beregn predikert verdi for den avhengige variabelen målt ved gjennomsnittsverdien for alle forklaringsvariablene i modellen. Ved å angi en dummyvariabel inni parentesen (denne må også inngå som en forklaringsvariabel i modellen), vil man i stedet beregne predikert verdi for hver verdi av dummyvariabelen (0/1) målt ved gjennomsnittet for de resterende forklaringsvariablene. Dette kan brukes til å sammenlikne predikerte verdier mellom to grupper.
Examples
regress inntekt2004 mann inntekt2003
Kjør en lineær regresjonsestimering der inntekt2004
er den avhengige variabelen. Mann og inntekt2003
er to uavhengige variabler. Standardkonfidensintervallet er 95%
regress inntekt2004 mann inntekt2003, level(90)
Samme som over, men med 90% konfidensintervall
regress inntekt2002 utdanningsnivå mann utdanningsnivå#mann
Kjør en lineær regresjonsanalyse med inntekt2002
som den avhengige variabelen. De uavhengige variablene er utdanningsnivå
, mann
og alle undergrupper av utdanningsnivå krysset med begge kjønnsgrupper
(ene kjønnet brukes som referansegruppe, dvs. mann == 0
)
regress inntekt2002 utdanningsnivå##mann
Samme som over
regress inntekt2004 i.kjønn
Kjør en lineær regresjonsanalyse av inntekt2004
for hver av kjønnskategoriene
regress inntekt2004 mann utdanningsnivå i.mann#i.utdanningsnivå
Regresjonsanalyse med inntekt2004
som avhengig variabel. Analysen benytter mann
og utdanningsnivå
som forklaringsvariabler, inkludert alle underkategorier av disse som krysses mot hverande
regress inntekt2004 mann c.klassetrinn
Regresjonsanalyse der den kategoriske variabelen klassetrinn blir behandlet som om den var kontinuerlig
regress inntekt2004 mann i.utdanningsnivå if inntekt > 500000
Regresjonsanalyse med modifiserende utrykk
regress inntekt2004 mann inntekt2003, ov vif het_bp
Regresjonsanalyse med tester for utelatte variabler, multikollinearitet og heteroskedastisitet
regress inntekt2004 mann, robust
En modell med robuste standardfeil
regress inntekt2004 mann, cluster(utdanningsnivå)
En modell med utdanningsnivå som cluster-variabel for beregning av standardfeil
regress lønn høy_utd gift, control(i.bosted, i.næring)
Kjør en lineær regresjon med lønn som avhengig variabel, og høy_utd, gift, bosted og næring som forklaringsvariabler. De kategoriske variablene bosted og næring gjøres om til faktorledd og estimatene for disse holdes skjult i regresjonsresultatet.
regress-mml
regress-mml response-var var-list by group-var-1 [group-var-2] [if] [, options]
Description
Kjører en lineær flernivåanalyse med inntil tre nivåer (MML = Mixed Multilevel Model). Variabelkonvensjonene er de samme som for regress. I tillegg spesifiseres gruppevariablene etterfulgt av et by-ledd.
Ved tonivåanalyse oppgis navnet på den relevante gruppevariabelen (kategorisk) etter by-leddet. Trenivåanalyse kjøres ved å angi to gruppevariabler etter by-leddet, adskilt med mellomrom. Gruppevariabel for høyeste hierarkinivå skal angis først.
Modellen er utviklet med utgangspunkt i regresjonsklassen mixedlm i Python-pakken statsmodels. Standardestimering = REML (Residual/Restricted Maximum Likelihood)
Options
control()
-Spesifiser variabler som skal inngå i regresjonsanalysen, men som det ikke skal vises koeffisientestimater for. Sehelp regress
.
noconstant
-Undertrykk konstantleddet (krysningspunktet for y-aksen)
level()
-Spesifiser konfidensnivået i prosent. Standarden er 95%
Examples
regress-mml lønn mann gift i.utdnivå by region
Kjører en tonivåanalyse med nivå to representert ved variabelen region
regress-mml lønn mann gift i.utdnivå by region fylke
Kjører en trenivåanalyse der høyeste nivå er representert ved variabelen region, og undernivået er gitt ved variabelen fylke
regress-mml lønn mann gift i.utdnivå by region fylke, level(90)
Samme som over, men med 90% konfidensintervall
regress-mml-predict
regress-mml-predict response-var var-list by group-var-1 [group-var-2] [if] [, options]
Description
Henter ut prediksjons- og residualverdier fra regress-mml-modell og genererer automatisk en variabel som inneholder verdiene. Modelluttrykket må være identisk med det som angis for regress-mml.
Options
predicted()
-Generer variabel med predikerte verdier, med angitt navn. Standarden er 'predicted'
residuals()
-Generer variabel med residualer, med angitt navn
noconstant
-Undertrykk konstantleddet i regresjonsmodellen
Examples
regress-mml-predict lønn mann gift i.utdnivå by region fylke, residuals(res)
Kjører en trenivå-analyse og henter ut residualverdier som kan finnes i variabelen res
regress-panel
regress-panel var-name var-list [if] [, options]
Description
Lineær minste kvadratsums metode-regresjon for paneldata.
Den første variabelen i lista er den avhengige variabelen, de(n) etter er de(n) uavhengige. Både metriske og faktorvariabler støttes.
Kommandoen hausman
kan brukes til spesifikasjonstest fixed vs. random effects
Options
noconstant
-Undertrykk konstantleddet (krysningspunktet for y-aksen)
level()
-Spesifiser konfidensnivået i prosent. Standarden er 95%
fe
-'Fixed effects' (standard hvis ingen modelltype er oppgitt)
re
-'Random effects'
be
-'Between effects'
robust
-Beregner robuste standardfeil. Tilsvarer å bruke panel-id variabelen som cluster-variabel. Kan ikke brukes sammen med cluster
pooled
-Pooled panelregresjon ser bort i fra tidsdimensjonen og betrakter alle observasjoner som separate enheter
- tilsvarer kjøring av kommandoen regress på paneldata
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
Examples
regress-panel inntekt mann, re
'Random effects' regresjonsmodell der inntekt er den avhengige variabelen. Mann er uavhengig variabel. Standardkonfidensintervallet er 95%
regress-panel inntekt mann, level(90)
Samme som over, men med 90% konfidensintervall
regress-panel inntekt utdanningsnivå utdanningsnivå#mann
Lineær regresjonsanalyse med inntekt som den avhengige variabelen.
Den uavhengige variabelen er utdanningsnivå
, mann
og alle undergrupper av utdanningsnivå
krysset med begge kjønnsgrupper (det ene kjønnet mann == 0
brukes som referansegruppe)
regress-panel inntekt utdanningsnivå##mann
Samme som over
regress-panel inntekt i.kjønn
Lineær regresjonsanalyse av inntekt for hver av kjønnskategoriene
regress-panel inntekt mann c.klassetrinn
Regresjonsanalyse der den kategoriske variabelen klassetrinn
blir behandlet som om den var kontinuerlig
regress-panel inntekt utdanningsnivå if mann
Regresjonsanalyse med modifiserende utrykk
regress-panel inntekt mann, robust
En modell med robuste standardfeil
regress-panel inntekt mann, cluster(utdanningsnivå)
En modell med utdanningsnivå som cluster-variabel for beregning av standardfeil
regress-panel-diff
regress-panel-diff var-name group-var treated-var var-list [if] [, options]
Description
Kjør en diff-in-diff-regresjon som estimerer gjennomsnittlig differanse i den avhengige variabelen før/etter behandlingstidspunkt for behandlingsgruppen vs kontrollgruppen.
Den avhengige variabelen listes først, etterfulgt av to dummyvariabler, altså med verdien 1 eller 0, som spesifiserer hhv. gruppe og behandling. Øvrige uavhengige variabler listes til slutt.
Variabel 2 (group-var, gruppevariabel) skal ha verdien 1 for enheter i behandlingsgruppen, og 0 for enheter i kontrollgruppen.
Variabel 3 (treated-var, behandlingsvariabel) skal ha verdien 1 fra og med tidspunktet for behandling, og 0 ellers. Dette er en forutsetning for at resultatet skal bli riktig.
Diff-in-diff-verdien (ATET-verdi) tilsvarer koeffisientverdien til interaksjonsleddet for de to dummyvariablene gruppe og behandling.
Options
level()
-Spesifiser konfidensnivået i prosent. Standarden er 95%
robust
-Beregner robuste standardfeil. Tilsvarer å bruke panel-id variabelen som cluster-variabel. Kan ikke brukes sammen med cluster
cluster()
-Bruk en cluster-variabel for beregning av standardfeil. Kan ikke brukes sammen med robust. Variabelen må være numerisk, og kan ikke inngå i selve regresjonsuttrykket.
Examples
regress-panel-diff lønn gruppe behandling i.kjønn høy_utd formue
Kjør en diff-in-diff-analyse med lønn som avhengig variabel, og kjønn, høy_utd og formue som uavhengige variabler.
Variablene gruppe og behandling er dummyvariabler som definerer hhv. behandlingsgruppe/kontrollgruppe (1/0) og tidspunkt før/etter behandling (0/1).
Man får samme resultat ved å kjøre en pooled panel-OLS der gruppe- og behandlingsdummyene inngår og brukes som interaksjonsledd: regress-panel lønn gruppe##behandling i.kjønn høy_utd formue, pooled
regress-panel-predict
regress-panel-predict var-name var-list [if] [, options]
Description
Gjennomfør en lineær panelregresjon for de inkluderte variablene, og genererer variabler med predikerte verdier (standard), residualverdier og/eller enhetseffekter, med angitte navn.
Options
predicted()
-Generer variabel med predikerte verdier, med angitt navn. Standarden er 'predicted'
residuals()
-Generer variabel med residualer, med angitt navn
effects()
-Generer variabel med enhetseffekter, med angitt navn
pooled
-Pooled panelregresjon ser bort i fra tidsdimensjonen og betrakter alle observasjoner som separate enheter
- tilsvarer kjøring av kommandoen regress på paneldata
noconstant
-Undertrykk konstantleddet i regresjonsmodellen
fe
-'Fixed effects' (standard hvis ingen modelltype er oppgitt)
re
-'Random effects'
be
-'Between effects'
Examples
regress-panel-predict inntekt kjonn, fe predicted(pred)
Generer variabelen pred
, med de predikerte verdiene fra en panelregresjon med 'fixed effects'
regress-panel-predict inntekt kjonn, re residuals(res)
Generer variabelen res
, med residualverdiene fra en panelregresjon med 'random effects'
regress-panel-predict inntekt kjonn, re effects(effs)
Generer variabelen effs
, med enhetseffekter fra en panelregresjon med 'random effects'
regress-panel-predict inntekt kjonn, re
Generer variabelen predicted
, med de predikerte verdiene fra en panelregresjon med 'random effects'
regress-panel-predict inntekt kjonn, re noconstant predicted(pred) residuals(res)
Generer variablene pred
(med de predikerte verdiene) og
res
(med residualverdiene) fra en panelregresjon med 'random effects' uten konstantledd
regress-predict
regress-predict var-name var-list [if] [, options]
Description
Gjennomfør en ordinær lineær regresjon for de inkluderte variablene, og genererer variabler med predikerte verdier (standard), residualverdier og/eller "Cook's distance", med angitte navn.
Options
predicted()
-Generer variabel med predikerte verdier, med angitt navn. Standarden er 'predicted'.
residuals()
-Generer variabel med residualer, med angitt navn.
cooksd()
-Generer variabel med "Cook's distance", med angitt navn.
noconstant
-Skjuler konstantleddet i regresjonsmodellen
Examples
regress-predict inntekt2004 kjonn inntekt2003, predicted(pred)
Generer variabelen pred
, med de predikerte verdiene fra en lineær regresjon
regress-predict inntekt2004 kjonn inntekt2003
Samme som over
regress-predict inntekt2004 kjonn inntekt2003, residuals(res)
Generer variabelen res
, med residualverdiene fra en lineær regresjon
regress-predict inntekt2004 kjonn inntekt2003, cooksd(cooks)
Generer variabelen cooks
, med "Cook's distance" verdiene fra en lineær regresjon
regress-predict inntekt2004 kjonn inntekt2003, predicted(pred) residuals(res) cooksd(cooks)
Generer variablene pred
, res
, og cooks
med henholdsvis de predikerte verdiene, residualverdiene, og "Cook's distance" verdiene fra en lineær regresjon
Statistics
summarize
summarize [var-list] [if] [, options]
Description
Vis en sammendragstabell med univariat variabelinformasjon. Dersom ingen variabler er spesifiserte vises informasjon om alle i datasettet. Kommandoen er kun kompatibel med numeriske variabler
Options
gini
-Vis gini-koeffisient i tillegg til standard visning. Brukes vanligvis til å måle inntekts- eller formuesforskjeller i en befolkning. Tar verdiene 0-1. 0 indikerer at alle har akkurat like stor inntekt eller formue, mens 1 indikerer at én person eier all inntekt eller formue
iqr
-Vis interkvartilavstand (interquartile range (IQR)) i tillegg til standard visning. Dette er det samme som avstanden mellom 75. og 25. prosentil, og kalles også mellomspredning
Examples
summarize kjonn inntekt2002
Vis univariat informasjon om de to variablene kjonn
og inntekt2002
summarize kjonn inntekt2002 if inntekt2002 > 500000
Samme som over, men bare i de tilfeller inntektsverdiene er over 500000
summarize-panel
summarize-panel [var-list] [if] [, options]
Description
Vis en sammendragstabell med variabelinformasjon som fordeles etter måletidspunkter. Kommandoen kan bare brukes på paneldata importert ved kommandoen import-panel. Kommandoen er kun kompatibel med numeriske variabler
Options
gini
-Vis gini-koeffisient i tillegg til standard visning. Brukes vanligvis til å måle inntekts- eller formuesforskjeller i en befolkning. Tar verdiene 0-1. 0 indikerer at alle har akkurat like stor inntekt eller formue, mens 1 indikerer at én person eier all inntekt eller formue
iqr
-Vis interkvartilavstand (interquartile range (IQR)) i tillegg til standard visning. Dette er det samme som avstanden mellom 75. og 25. prosentil, og kalles også mellomspredning
Examples
summarize-panel inntekt
Vis nøkkelstatistikk om variabelen inntekt fordelt rekkevis etter måletidspunkter
summarize-panel inntekt if inntekt > 500000
Vis nøkkelstatistikk om variabelen inntekt fordelt rekkevis etter måletidspunkter, men bare for tilfeller der inntektsverdiene er over 500000
tabulate
tabulate var-list [if] [, options]
Description
Vis endimensjonal frekvenstabell om én variabel angis, og flerdimensjonal fordeling dersom to eller flere variabler angis. Kommandoen er kun kompatibel med kategoriske variabler.
Ved bruk av opsjonen summarize()
kan en vise andre verdier enn frekvenser i hver celle av tabellen
Options
missing
-Manglende verdier blir ikke ignorert, men blir tatt med i utregninger av prosenter, fordelinger med mer
nolabels
-Vis originalverdiene for hver kategori og undertrykker labels
freq
-Vis frekvens i cellene. Dette er standardvisningen for frekvenstabeller
rowpct
-Vis rekkevis prosentuering. Krever at tabellen har to eller flere variabler
colpct
-Vis kolonnevis prosentuering. Krever at tabellen har to eller flere variabler
cellpct
-Vis prosentandel av totalen for tabellpopulasjonen
chi2
-Vis verdier fra kjikvadrattesten. Krever at tabellen har to eller flere variabler. Tester for om frekvensfordelingen er tilfeldig eller systematisk
flatten
-Flater ut tabellen til et rutenettformat som kan eksporteres direkte til CSV
colsort()
-Sorter kolonnene i stigende rekkefølge basert på verdiene i raden(e) angitt i argumentet. Raden angis ved dens kodeverdi. For flerdimensjonale tabeller må flere koder angis for å unikt identifisere raden. Ingen angitt rad fører til at det sorteres på totalen. Gjør en implisitt utflating av tabellen.
rowsort()
-Sorter radene i stigende rekkefølge basert på verdiene i kolonnen angitt i argumentet. Kolonnen angis ved dens kodeverdi. Ingen angitt kolonne fører til at det sorteres på totalen. Hvis kolonnen er en dato, angis denne i en streng. Gjør en implisitt utflating av tabellen.
top()
-Vis de n øverste radene i tabellen
bottom()
-Vis de n nederste radene i tabellen
summarize()
-Vis gjennomsnittsverdien av spesifisert variabel for hver celle (erstatter frekvens). Alternative statistikker kan legges på som opsjoner, jfr. listen under
mean
-Vis gjennomsnitt i cellene. Dette er standardvisningen for volumtabeller
std
-Vis standardavvik i cellene
sum
-Vis sum i cellene
p25
-Vis 25-prosentil i cellene (grenseverdi for 2. kvartilet i verdifordelingen) med en nøyaktighet på 3 siffer
p50
-Vis 50-prosentil i cellene (grenseverdi for 3. kvartilet i verdifordelingen (median)) med en nøyaktighet på 3 siffer
p75
-Vis 75-prosentil i cellene (grenseverdi for 4. kvartilet i verdifordelingen) med en nøyaktighet på 3 siffer
gini
-Vis gini-koeffisient i cellene. Brukes vanligvis til å måle inntekts- eller formuesforskjeller i en befolkning. Tar verdiene 0-1. 0 indikerer at alle har akkurat like stor inntekt eller formue, mens 1 indikerer at én person eier all inntekt eller formue
iqr
-Vis interkvartilavstand (interquartile range (IQR)) i cellene. Dette er det samme som avstanden mellom 75. og 25. prosentil, og kalles også mellomspredning
Examples
tabulate kjønn sivilstand
Toveistabulering av variablene kjønn
og sivilstand
tabulate kjønn sivilstand fødeår, rowsort() colsort('1', 201905)
Toveistabulering sortert på totalverdien i radene og på verdien angitt av kodene '1' og 201905 i kolonnene
tabulate kjønn sivilstand if kjønn == 2
Samme som over, men bare om kjønn har verdien 2
tabulate kjønn skilt
Vis en oversikt over antall skilte og ikke-skilte, fordelt på kjønn (forutsetter at variabelen skilt
er en dummyvariabel)
tabulate kjønn skilt, summarize(lønn)
Vis en oversikt over gjennomsnittlig lønn fordelt på status skilt/ikke-skilt og kjønn
tabulate kjønn skilt, summarize(lønn) p50
Vis en oversikt over median lønn fordelt på status skilt/ikke-skilt og kjønn
tabulate kjønn skilt, summarize(lønn) p50 std rowsort()
Vis en oversikt over median lønn og standardavvik fordelt på status skilt/ikke-skilt og kjønn. Sorterer også på radene. Ved bruk av flere statistikker i summarize vil det sorteres på den første angitte
tabulate-panel
tabulate-panel var-list [if] [, options]
Description
Vis frekvenstabell for de spesifiserte paneldata-variablene (må være kategoriske). Kan bare brukes på paneldata importert ved kommandoen import-panel
eller generert ved kommandoen reshape-to-panel
.
Variabel 1 vises nedover i forspalten, og tallene fordeles kolonnevis etter måletidspunkt. Ved flere enn 1 variabel presenteres variablene hierarkisk i forspalten basert på rekkefølgen i spesifikasjonen.
Kommandoen er ekvivalent til tabulate
der tidsvariabelen vises som variabel 2. Ved bruk av opsjonen summarize()
kan en vise andre verdier enn frekvenser i hver celle av tabellen
Options
chi2
-Vis verdier fra kjikvadrattesten. Krever at tabellen har to eller flere variabler
missing
-Manglende verdier blir ikke ignorert, men blir tatt med i utregninger av prosenter, fordelinger med mer
nolabels
-Vis originalverdiene for hver kategori og undertrykker labels
freq
-Vis frekvens i cellene. Dette er standardvisningen for frekvenstabeller
rowpct
-Vis rekkevis prosentuering
colpct
-Vis kolonnevis prosentuering. Krever at tabellen har to eller flere variabler
cellpct
-Vis prosentandel av den totale tabellpopulasjon
summarize()
-Vis gjennomsnittsverdien for hver celle (erstatter frekvens). Andre statistikker kan legges på vha options
mean
-Vis gjennomsnitt i cellene. Dette er standardvisningen for volumtabeller
std
-Vis standardavvik i cellene
sum
-Vis sum i cellene
p25
-Vis 25-prosentil i cellene (grenseverdi for 2. kvartilet i verdifordelingen) med en nøyaktighet på 3 siffer
p50
-Vis 50-prosentil i cellene (grenseverdi for 3. kvartilet i verdifordelingen (median))
p75
-Vis 75-prosentil i cellene (grenseverdi for 4. kvartilet i verdifordelingen) med en nøyaktighet på 3 siffer
gini
-Vis gini-koeffisient i cellene. Brukes vanligvis til å måle inntekts- eller formuesforskjeller i en befolkning. Tar verdiene 0-1. 0 indikerer at alle har akkurat like stor inntekt eller formue, mens 1 indikerer at én person eier all inntekt eller formue
iqr
-Vis interkvartilavstand (interquartile range (IQR)) i cellene. Dette er det samme som avstanden mellom 75. og 25. prosentil, og kalles også mellomspredning
Examples
tabulate-panel sivstand
Toveistabulering av variabelen sivstand fordelt på måletidspunkter (kolonnevis)
tabulate-panel sivstand fylke if kjonn < 2
Treveistabulering av variablene sivstand/fylke (hierarkisk) fordelt på måletidspunkter (kolonnevis), men bare om kjonn har en verdi lavere enn 2
Support
clear
clear
Description
All historikk og alle importerte variabler i kommandolinjeområdet fjernes. Det er ikke mulig å angre denne handlingen
Options
Examples
clear
Fjerner all tilstand fra kommandolinjeområdet
edit
edit
Description
Skriv over det aktive skriptet med den gjeldende kommandolinjeøkten og gå til editoren. Alias til save, edit
.
Merk at dette vil skrive over det aktive skriptet ditt med økten du lagrer. Dette er praktisk om du har sendt et skript til kommandolinjen fra editoren og vil ha det tilbake igjen med endringene du har gjort i mellomtiden.
Options
load
load 'script-name'
Description
Den gjeldende kommandolinjeøkten vil bli lagret som et nytt skript under navnet "Kopi av kommandolinjeøkt (tidspunkt)", og kommandolinjeøkten vil byttes ut med kommandoene fra det oppgitte skriptet. Se også kommandoen save
Options
Examples
load 'arbeidsledighet per alder'
Bytter ut innholdet i kommandolinjeøkten med kommandoene fra skriptet ved navn "arbeidsledighet per alder". Den gjeldende kommandolinjeøkten vil lagres under navnet "Kopi av kommandolinjeøkt (tidspunkt)"
save
save [script-name]
Description
Den gjeldende kommandolinjeøkten lagres som et skript under oppgitt navn, eller med et generert navn hvis navn ikke oppgis ("Kopi av kommandolinjeøkt (tidspunkt)").
Skriptet vises i skriptvinduet slik at en kan redigere og jobbe videre med det der. Den gjeldende økten forblir urørt. Se også kommandoen load
Options
edit
-Skriv over det aktive skriptet med den gjeldende kommandolinjeøkten og gå til editoren. Se ogsåhelp edit
.
Examples
save
Lagrer den gjeldende kommandolinjeøkten under navnet "Kopi av kommandolinjeøkt (tidspunkt)"
save eksempel
Lagrer den gjeldende kommandolinjeøkten under navnet "eksempel"
save 'utforskning av trygdevariabler'
Lagrer den gjeldende kommandolinjeøkten under navnet "utforskning av trygdevariabler". Apostrofer kreves når navn inneholder mellomrom
help
help [command-name]
Description
Vis hjelpetekster for de forskjellige kommandoene. help
uten parametre lister opp alle støttede kommandoer
Options
Examples
help tabulate
Vis hjelpeteksten til tabulate
-kommandoen
help-function
help-function [function-name]
Description
Vis hjelpetekst for den spesifiserte funksjonen. help-function
uten parametre lister opp alle støttede funksjoner
Options
Examples
help-function sqrt
Vis hjelpeteksten til sqrt
-funksjonen
help-procedure
help-procedure [procedure-name]
Description
Vis hjelpetekst for den spesifiserte prosedyren. En prosedyre er en funksjon som opererer på bindinger, tall og strenger og ikke på variabler. help-procedure
uten parametre lister opp alle støttede funksjoner
Options
Examples
help-procedure date_fmt
Vis hjelpeteksten til date_fmt
-prosedyren
history
history
Description
List ut alle kommandoene i den gjeldende kommandolinjeøkten uten resultatene. Dette kan være nyttig for å få oversikt over arbeidet så langt, eller for å enkelt kopiere rekken av kommandoer over i et annet program
Options
Examples
history
Lister ut alle kommandoene i den gjeldende kommandolinjeøkten
textblock
textblock
Description
En tekstblokk er en utvidet kommentar som går over flere linjer. Start en tekstblokk ved å skrive textblock
og avslutt med endblock
(på hver sin linje).
Alt som skrives mellom disse to vil ikke bli eksekvert, men vist frem i et markdown format. Du kan altså bruke overskrift, lister osv. Se et av eksempelskriptene for en demonstrasjon av hvordan dette kan se ut.
Options
variables
variables [register-var-list]
Description
List opp registervariabler med tilhørende metadata
Options
Examples
variables
Vis alle registervariabler fra de(n) påkoblede datakilde(ne) med tilhørende metadata
variables db/F_REHAB_INNV_GRAD db/INNTEKT_WLONN
Vis metadata for registervariablene F_REHAB_INNV_GRAD
og INNTEKT_WLONN
fra kilden med lokalt alias db
configure
configure konfigurasjon
Description
Aktiver en konfigurasjon for dette skriptet.
alpha
: ved configure alpha
vil du få tilganger til gitte kommandoer og funksjonalitet som ikke kan brukes ellers. Disse kommandoene kan, i motsetning til andre kommandoer, endres i fremtiden.
Det frarådes derfor å bruke benytte seg av disse i skript som skal brukes til spesifikke formål.
nocache
Er til bruk ved feilsøking hvor man trenger kommandoen beregnes på nytt og ikke hentes ut av en av de mange bufferne som tar vare på resultatene.
Se configure nocache
for mer informasjon om alternativene til denne konfigurasjonen. Om ingen alternativ angis vil alle alternativene gjelde og alle former for caching vil skrus as.
Options
Survival Analysis
cox
cox hendelse-var tid-var var-list [if] [, options]
Description
Kjør en Cox-regresjonsanalyse på et ferdig tilrettelagt datasett. Cox-regresjoner brukes til å estimere hvilke variabler som påvirker hazardrisikoen mest (økt hazardrisiko betyr kortere overlevelsestid og vice versa).
Avhengig variabel er alltid tid-var
, og man kan benytte forklaringsvariabler på samme måte som for andre regresjoner, f.eks. regress. Man estimerer altså effekten av forklaringsvariablene på overlevelsestid
, og implisitt hazardrisikoen.
Som standard estimeres koeffisienter som skal tolkes på vanlig måte, men ved bruk av opsjonen hazard
estimeres istedet hazardrater. Dette er rateverdier der man ser på verdier over/under 1 (1 = ingen effekt).
Analysen forutsetter at data tilrettelegges på riktig måte. Datasett som er tilrettelagt for Kaplan-Meier, kan også brukes til Cox-analyser. Du finner oppskrifter for dette på nettsiden microdata.no (analyseeksempler).
hendelse-var
må være en dummyvariabel som tar verdien 1 dersom en hendelse inntreffer (død, uførhet, arbeidsledighet etc), gitt ved en spesifikk verdi for en variabel på forløpsformat.
Også ferdige dateringsvariabler kan benyttes (konstante enhetsopplysninger der variabelen angir en dato). Da må variabelen ha en gyldig verdi som befinner seg mellom det definerte start- og stoppintervallet for at verdien til hendelse-var
skal settes til 1.
Dersom hendelsen ikke inntreffer i overlevelsestidsrommet, evt. datovariabelen ikke har noen verdi for den gitte enhet, settes hendelse-var
til 0.
tid-var
må bestå av en numerisk kontinuerlig eller rangerbar variabel som lages ved å telle opp antall tidsenheter fra et definert start-tidspunkt til en spesifikk hendelse skjer (antall dager, uker, måneder, år etc).
Ved bruk av data på forløpsformat (data med variable start- og stoppdatoer) kan man via kommandoen import-event identifisere en spesifikk hendelse som skjer i løpet av en gitt måleperiode (død, arbeidsledighet, uførhet etc), gitt ved en spesifikk verdi for variabelen som importeres.
Deretter kjøres kommandoen collapse (min) START@... by(PERSONID_1)
som finner datoen for den gitt hendelsen. Datovariabelen START@...
fungerer da som en datering for hendelsen. Etterpå kobles datoen på et ordinært tverrsnittdatasett via kommandoen merge
.
Også ferdige dateringsvariabler (data med faste datoopplysninger, én per enhet) kan benyttes om dette er tilgjengelig (dødsdato etc). Da trenger man ikke foreta noen import-event-trinn først, men bare jobbe med data via import-kommandoen på vanlig måte.
tid-var
beregnes da gjennom å måle differansen mellom det definerte start-tidspunktet og datoverdien til den aktuelle datovariabelen (krever litt omformatering først).
For enheter det ikke eksisterer gyldige hendelsesobservasjoner for i løpet av tidsintervallet, setter man tid-var
til maksverdi.
Options
hazard
-Estimerer hazardrater i stedet for koeffisienter. Man bruker 1 som nullpunkt (1 betyr ingen effekt). Verdier > 1 betyr positiv effekt på hazardrisiko/-rate (og negativ effekt på overlevelsestid). Verdier < 1 betyr det motsatte. Standardfeil-verdier vises ikke for hazardrater.
level()
-Spesifiser konfidensintervallnivået. Om ingenting er spesifisert benyttes normalen på 95%
Examples
cox hendelse dager norsk alder
Estimerer effekten av norsk opprinnelse og alder på hazardrisikoen for en gitt hendelse definert gjennom dummy-variabelen hendelse
cox hendelse dager norsk alder i.kjønn, hazard
Estimerer effekten av norsk opprinnelse, alder og kjønn på hazardrisikoen for en gitt hendelse definert gjennom dummy-variabelen hendelse
, men viser hazardrater i stedet for koeffisienter
kaplan-meier
kaplan-meier hendelse-var tid-var [if] [, options]
Description
Kjør en Kaplan-Meier overlevelsesanalyse på et ferdig tilrettelagt datasett.
Generer en standard grafisk fremstilling av overlevelsesrate med loglog-konfidensintervall, som funksjon av tid. Nøkkeltall basert på analysen vises under grafen. Ved bruk av by-opsjon vises det separate nøkkeltall for hver by-kategori. Analysen forutsetter at data tilrettelegges på riktig måte. Du finner oppskrifter for dette på nettsiden microdata.no (analyseeksempler).
hendelse-var
må være en dummyvariabel som tar verdien 1 dersom en hendelse inntreffer (død, uførhet, arbeidsledighet etc), gitt ved en spesifikk verdi for en variabel på forløpsformat.
Også ferdige dateringsvariabler kan benyttes (konstante enhetsopplysninger der variabelen angir en dato). Da må variabelen ha en gyldig verdi som befinner seg mellom det definerte start- og stoppintervallet for at verdien til hendelse-var
skal settes til 1.
Dersom hendelsen ikke inntreffer i overlevelsestidsrommet, evt. datovariabelen ikke har noen verdi for den gitte enhet, settes hendelse-var
til 0.
tid-var
må bestå av en numerisk kontinuerlig eller rangerbar variabel som lages ved å telle opp antall tidsenheter fra et definert start-tidspunkt til en spesifikk hendelse skjer (antall dager, uker, måneder, år etc).
Ved bruk av data på forløpsformat (data med variable start- og stoppdatoer) kan man via kommandoen import-event identifisere en spesifikk hendelse som skjer i løpet av en gitt måleperiode (død, arbeidsledighet, uførhet etc),
gitt ved en spesifikk verdi for variabelen som importeres. Deretter kjøres kommandoen collapse (min) START@... by(PERSONID_1)
som finner datoen for den gitt hendelsen. Datovariabelen START@...
fungerer da som en datering for hendelsen.
Etterpå kobles datoen på et ordinært tverrsnittdatasett via kommandoen merge
.
Også ferdige dateringsvariabler (data med faste datoopplysninger, én per enhet) kan benyttes om dette er tilgjengelig (dødsdato etc). Da trenger man ikke foreta noen import-event-trinn først, men bare jobbe med data via import-kommandoen på vanlig måte.
tid-var
beregnes da gjennom å måle differansen mellom det definerte start-tidspunktet og datoverdien til den aktuelle datovariabelen (krever litt omformatering først).
For enheter det ikke eksisterer gyldige hendelsesobservasjoner for i løpet av tidsintervallet, setter man tid-var
til maksverdi.
Options
by()
-Vis flere overlevelseskurver i samme graf, én per kategori i variabelen gitt som parameter til by(). Separate nøkkeltall vises for hver by-kategori.
Examples
kaplan-meier hendelse tid, by(kjønn)
Kjør en kaplan-meier overlevelsesanalyse på et tilrettelagt datasett, og estimerer separat for menn og kvinner i en og samme graf.