Endring i winsoriseringen

 av  Trond Pedersen

Winsoriseringstiltakene i microdata.no er justert slik at underliggende data i brukerens arbeidsområde ikke lenger berøres. Dermed kan en kjøre regresjonsanalyser som ikke blir påvirket av sikkerhetstiltaket.

Numeriske data har frem til nå blitt winsorisert ved import av data til brukerens arbeidsområde, populasjonsavgrensninger (drop if/keep if), og ved kjøring av deskriptiv statistikk for delutvalg (f.eks. summarize inntekt if kjønn == "1").

Dette er ett av flere konfidensialiseringstiltak i microdata.no, og har til hensikt å forhindre indirekte identifikasjon av personer via ekstreme verdier. Inntekter er eksempler på opplysninger der dette kan være et problem.

Winsorisering vil i denne sammenheng si at for numeriske variabler blir de 1% høyeste verdiene sensurert og satt til nedre grenseverdi for det siste prosentilet, og de 1% laveste verdiene blir satt til øvre grenseverdi for første prosentil.

Påvirkning av gjennomsnitt, standardavvik og regresjoner

En uønsket effekt av måten winsoriseringen har fungert frem til nå, er at numeriske variabler importert til brukerens arbeidsområde har blitt sensurerte på en måte som påvirket alle påfølgende analyser og databearbeidingsprosesser.

Statistiske mål som gjennomsnitt og standardavvik vil dermed rapportere verdier som er noe lavere enn de faktiske. Også regresjonsestimater har frem til nå blitt påvirket ved at estimeringen tar utgangspunkt i sensurerte verdier. Graden av påvirkning kommer an på hvor lange “halene” er i verdidistribusjonen til de aktuelle variabler (altså i hvor stor grad det forekommer ekstremverdier).

For å redusere ulempene ved winsoriseringstiltaket, er det nå innført et system der kun outputen fra deskriptiv statistikk winsoriseres.

Underliggende data i brukerens arbeidsområde blir ikke lenger gjenstand for sensureringen. Regresjonsestimater blir derfor 100% korrekte ettersom de tar utgangspunkt i de faktiske data.

For deskriptiv statistikk vil fremdeles rapporterte gjennomsnitt og standardavvik være noe lavere enn de faktiske verdier for de fleste numeriske variabler. Dette er med hensikt, og anses som et nødvendig tiltak for å ivareta riktig balanse mellom konfidensialitet og tilstrekkelig fleksibilitet i definisjon av studiepopulasjon.

Dummyvariabler og numeriske flerkategorivariabler

Et vanlig problem har vært at også importerte dummyvariabler (numeriske variabler med verdiene 0 og 1) ble winsorisert dersom en av kategoriene utgjorde mindre enn 1% av verdiene i analysepopulasjonen.

Fordi winsoriseringen bruker naboprosentilet som sensureringsverdi, har alle dummyverdiene blitt kodet til hhv. 0 eller 1 i slike tilfeller. Ved kjøringer av regresjonsanalyser kan dette skape problem i de tilfeller hvor winsoriserte dummyvariabler inngår, enten importerte eller variabler avledet av disse, siden det ikke godtas variabler med kun én verdi.

Også for numeriske flerkategorivariabler har en risikert at høyeste og/eller laveste kategori har blitt slått sammen med nabokategorien. Da ser det ut som at høyeste eller laveste kategori ikke har observasjoner for ditt datasett.

Etter endringen ser det fortsatt ut som om dummyvariabler blir winsoriserte ved kjøring av deskriptiv statistikk. Men dette gjelder bare den synlige deskriptive statistikk-outputen. Når de samme variablene benyttes i regresjonsanalyser, er det imidlertid ikke-winsoriserte data som brukes som input.

Populasjonsavgrensninger

Frem til nå har numeriske data ikke bare blitt winsorisert ved import, men også for hver gang en foretar populasjonsavgrensninger. Ved kjøring av flere drop if eller keep if-kommandoer på brukerdatasettet, har numeriske variabler blitt re-winsorisert tilsvarende antall ganger.

Dette problemet er nå eliminert, siden winsorisering nå kun gjøres i forbindelse med presentasjon av deskriptive statistikker.