Feb 102013
 

I en foregående post om Scatterplots viste jeg en enkel teknik til at se om der er sammenhæng mellem data. I denne post ser vi på barcharts som en vej til at filtrere støj ud som oftest ses på et scatterplot. Hvis du bruger ca. 5 minutter på læsning af denne post vil du have tilegnet dig endnu et nyttigt redskab der kan anvendes til ganske mange ting – og forfine de resultater du har opnået ved anvendelse af scatterplots.

I et barchart samles datapunkter i kategorier og der regnes på gennemsnitsværdier. Derved vil "tilfældig støj" i data til en vis grad elimineres (+ går ud mod -) og trends eller sammenhænge kan nemmere ses. Der er dog visse farepunkter at tage vare på - dem behandler jeg senere i denne post. Lad os fortsætte med det oprindelige datasæt. Målet var at undersøge om der er en sammenhæng mellem boligareal og huspris.

Datasæt huspriser

Vi inddeler de 17 datapunkter i 4 kategorier og beregner gennemsnit(note 1) i kategorierne således

kategori range (m2) huse gennemsnit pris
1 114 - 141,75 id#1; 2.496.000kr
2 141,75 - 169,5 id#8;id#6;id#10;id#3; 4.021.000kr
3 169,5 - 197,25 id#2;id#13;id#5;id#4;id#17;id#15;id#16;id#9; 5.196.000tkr
4 197,25 - 225 id#11;id#7;id#14;id#12; 2.496.000kr

 

barchart huspris vs boligareal

Sammenlignes med det tidligere scatterplot  (her) ses følgende:

  1. Grafen er nu mere simpel og overskuelig. Dette er sket på bekostning af at vi har poolet data i overordnede kategorier. Derved har vi filtreret en del af støjen fra, men samtidig har vi afskåret os fra at se en del af informationen vi havde i vores scatterplot.
  2. Grafen underbygger kun delvist at der er en vis sammenhæng mellem pris og boligareal. De største huse (197 - 225 m2) sælges gennemsnitligt billigere  end husene i den lavere kategori (169 - 197 m2). Der er altså stadig indikation af at andre faktorer som f.eks. beliggenhed eller udsigt har indflydelse på prisen.

Farepunkter
Når man laver et barchart på basis af datapunkter er der et antal spørgsmål man må overveje. Disse er:

1. Spørgsmål: Hvor mange kategorier skal jeg lave? Svar: Datasættets omfang skal afspejles i antallet af kategorier. Hvis der vælges for få kategorier går der for meget information tabt. Hvis der vælges for mange kategorier risikerer man at få for meget støj med (for få datapunkter i hver kategori). Et fornuftigt udgangspunkt er at tage kvadratroden af antallet af datapunkter. Dvs. har man 25 datapunkter kan man lave 5 kategorier (5*5=25). Har man 100 datapunkter kan man lave 10 kategorier (10*10=100). 

2. Spørgsmål: Hvor placerer jeg grænsen mellem kategorierne? Svar: Lad data bestemme. Med mindre der er helt åbenbare grunde til at køre med faste intervaller f.eks. 0-20-40-60-80-100, så kig på data. I ovenstående eksempel varierer boligarealet fra 114 til 225 m2. Dette er dermed de ydre grænser. Kategoriernes bredde er (225 - 114 ) / 4 = 27,75 (der er 4 kategorier). Det er meget sandsynligt at der ikke kommer lige mange datapunkter i hver gruppe - det gør ikke noget.

3. Spørgsmål: Hvordan beregner jeg "gennemsnit" i en kategori? Svar: Generelt ville jeg tage det aritmetisk gennemsnit. Dvs. for kategori  2 er gennemsnits huspris = (4.145.000 + 3.995.000 + 4.295.000 + 3.650.000) / 4 = 4.021.000 kr (afrundet til 1000kr). Der er alternativer, fx. at tage medianen (note 2).

Bonusinformation
Histogram. Huse til salg
Afslutningsvis vil jeg nævne et helt specielt barchart, nemlig histogrammet. Et histogram er en simpel optælling af emnerne i de forskellige kategorier, som vist på grafen. Jeg vil overlade til læseren at kontrollere at dette histogram stemmer med det oprindelige datasæt (øverst).

Noter

Note 1. Ordet gennemsnit skal tages lidt løst her. Se note 2.

Note 2.  Medianen er det midterste tal i en ordnet serie. F.eks. er medianen af 114,145,153 = 145 da dette er det midterste tal (definitionen på en median). Hvis der er et lige antal punkter tages gennemsnittet af de to midterste (medianen af 114,145,153,167 er (145+153) / 2 = 149). Medianer er i visse tilfælde at foretrække fordi de er mere robuste overfor datafejl: Medianen af (100,102,103,104,1005) er 103, selv om 1005 sandsynligvis er en fejl. Regnes med aritmetisk gennemsnit fås (100+102+103+104+1005)/5=282,8 hvilket hverken er fugl eller fisk.

 

Sorry, the comment form is closed at this time.