Ny kommando for tilfeldige populasjonsuttrekk

 av  Trond Pedersen

Det er nå mulig å foreta tilfeldige populasjonsuttrekk gjennom å bruke den nye kommandoen sample.

For brukere som opererer med store populasjoner/datasett kan tilrettelegging, koding og analyser bli ressurskrevende og tidkrevende å kjøre. Kommandoen sample kan da brukes til å trimme ned populasjoner, slik at kjøringer går mer smidig. På denne måten kan en teste kommandoskript på et mindre utvalg før en foretar endelige kjøringer på en totalpopulasjon.

Også for diverse testformål, det være seg testing av statistiske metoder eller annen statistikk, kan sample være et nyttig hjelpemiddel.

Kommandoen forventer to inputparametre, hhv. utvalgsstørrelse og såkalt seed-nummer. Ved å angi et desimaltall (0.0 - 1.0), trimmes datasettet ditt ned til den angitte tilfeldig trukkede andelen. Angis et heltall > 1000, er det dette antallet som trekkes ut tilfeldig.

Seed-nummeret er et egendefinert positivt heltall som sikrer at det tilfeldige uttrekket er identisk ved påfølgende kjøringer. Velges et annet seed-nummer, trekkes det ut et nytt tilfeldig utvalg forskjellig fra det forrige.

Eksempel på uttrekk av et tilfeldig 10%-utvalg (seed = 1234):

sample 0.1 1234

Eksempel på uttrekk av et tilfeldig utvalg bestående av 10 000 individer (seed = 1234):

sample 10000 1234

Eksempel på et nytt 10%-uttrekk forskjellig fra det første eksempelet (nytt seed = 5678):

sample 0.1 5678

Klikk her for flere eksempler på bruk av funksjonen