Skip to main content

4.4 Histogram - grafisk fremstilling av frekvensfordelinger

Histogrammer er grafiske fremstillinger av univariate fordelinger for kontinuerlige variabler (f.eks. inntekt). Hver søyle representerer frekvensverdien for et gitt forhåndsbestemt intervall for den aktuell variabelen. Gjennom opsjonene bin() og width() kan en overstyre dette og selv bestemme hhv. antall søyler og søyleintervallenes bredde. Nedenfor illustreres dette gjennom eksempler.

Standardfremvisningen viser tetthet som frekvensverdi. Også dette kan overstyres gjennom opsjoner, slik at måleenheten på y-aksen i stedet viser faktisk frekvens (antall), andel eller prosentandel. Følgende opsjoner kan benyttes til dette: freq, fraction, percent.

Personer med svært høye eller svært lave inntekter kan lett identifiseres om verdi-intervallet blir for smalt, noe som er problematisk med tanke på personvernet. Derfor foretar systemet en topp-/bunnkoding der de 1% høyeste og 1% laveste verdiene erstattes av grenseverdien til hhv. den siste og første prosentilen. Derfor vil alltid første og siste søyle være mye høyere enn nabosøylene, som illustrert i eksemplene nedenfor. Denne topp-/bunnkodingen omtales i detalj her.

Eksempel:


TIPS

Om en holder musepekeren over de ulike søylene i figuren, vil en få opp intervallet samt frekvensverdi for den aktuelle søylen.


Histogram over inntekt fordelt på 6 søyler og frekvenstall på y-aksen (hver søyle har samme intervallbredde for inntekt):

Histogram over inntekt der hver søyle får intervallbredde for inntekt lik 100'000:

Gjennom opsjonen normal, kan en legge en normalfordelt kurve over søylene i figuren. Dette er til hjelp for å se på grad av avvik fra en normalfordeling:

Histogrammer kan vises over fordelinger for en annen variabel som må være kategorisk, f.eks. Kjønn. Dette gjøres gjennom opsjonen by(<variabel>).

Eksempel:

Som for andre statistiske fremstillinger i microdata.no, kan en gjøre en filtrering gjennom IF-betingelser, der en kun viser histogram for en delpopulasjon.

Eksempel der en viser histogram kun for personene med inntekt over 100 000:

Som nevnt vil histogram som standard dele inn i et forhåndsbestemt antall søyler/intervaller. Gjennom opsjonen discrete kan man overstyre dette og vise en søyle for hver enkelt verdi. Dette er ikke hensiktsmessig for metriske variabler av økonomisk art (blir svært mange søyler), men for numeriske variabler med et begrenset antall verdier anbefales det å bruke denne typen fremstilling. Eksempler på slike variabler kan være alder, prosentandeler, eller beløp som er ferdig avrundet (til nærmeste 10 000 eller 100 000).

Eksempel på bruk av opsjonen discrete for variabelen "alder" (en ser også her at systemet sørger for at første og siste søyle er mye høyere enn nabosøyler pga. topp-/bunn-kodingen, siden personer med svært høy/lav alder er relativt lette å identifisere):


OBS!

Histogrammer som kombinerer bin() og discrete vil returnere et tomt diagram evt. en feilmelding siden disse to opsjonene ikke er kompatible sammen.


For mer informasjon om denne kommandoen, bruk kommandoen help histogram. Dette vil vise syntaxeksempler og en fullstendig liste over tilgjengelige opsjoner som kan brukes til å tilpasse utseende til statistikken som genereres.


\rhd [Eksempler på bruk av histogram](docs\eksempel\Deskriptiv statistikk\Søylediagrammer - histogram og barchart.md)