Datavisualisering - Piecharts

 Computer, Statistik  Comments Off on Datavisualisering - Piecharts
Feb 102013
 

I to foregående posts har jeg beskrevet hvorledes scatterplot og barchart anvendes til at visualisere sammenhænge mellem data. I denne post vil jeg beskrive Piechartet, der er ideelt til at vise procentvise fordelinger mellem data.

Lad os fortsætte med det oprindelige datasæt. Målet var at undersøge om der er en sammenhæng mellem boligareal og huspris. Med et piechart bevæger vi os nu væk fra dette oprindelige mål. Et piechart er ikke godt til at vise sammenhænge mellem forskellige data (boligareal og huspriser) men er derimod velegnet til at vise fordelinger af en enkelt variabel, f.eks. boligarealer i dette eksempel.

Datasæt huspriser

Vi inddelte tidligere de 17 datapunkter i 4 kategorier og beregner nu den procentvise fordeling i kategorierne. Det ses at data i histogrammet og piechartet har en del til fælles, faktisk er den procentvise fordeling i dette piechart beregnet direkte på baggrund af histogrammet vist tidligere.

Piechart. Pivottabel data

Piechart. Huse til salg

Konklusion.
Et piechart er enkelt at beregne og giver et hurtigt og effektivt overblik over relative forhold mellem data (%). Samtidig må vi også indse at vi har flyttet os længere væk fra vores oprindelige data (som vist på scatterplot). Dette er prisen for at abstrahere data.

Et andet eksempel hvor piecharts er rigtig gode er f.eks. visualisering af stemmeprocenter ved et valg. Her tabes der ikke meget information ved at omregne stemmetal til procent, faktisk er det netop stemmeprocenten, der er vigtig.

 

 

 

Datavisualisering - Barcharts

 Computer, Statistik  Comments Off on Datavisualisering - Barcharts
Feb 102013
 

I en foregående post om Scatterplots viste jeg en enkel teknik til at se om der er sammenhæng mellem data. I denne post ser vi på barcharts som en vej til at filtrere støj ud som oftest ses på et scatterplot. Hvis du bruger ca. 5 minutter på læsning af denne post vil du have tilegnet dig endnu et nyttigt redskab der kan anvendes til ganske mange ting – og forfine de resultater du har opnået ved anvendelse af scatterplots.

I et barchart samles datapunkter i kategorier og der regnes på gennemsnitsværdier. Derved vil "tilfældig støj" i data til en vis grad elimineres (+ går ud mod -) og trends eller sammenhænge kan nemmere ses. Der er dog visse farepunkter at tage vare på - dem behandler jeg senere i denne post. Lad os fortsætte med det oprindelige datasæt. Målet var at undersøge om der er en sammenhæng mellem boligareal og huspris.

Datasæt huspriser

Vi inddeler de 17 datapunkter i 4 kategorier og beregner gennemsnit(note 1) i kategorierne således

kategori range (m2) huse gennemsnit pris
1 114 - 141,75 id#1; 2.496.000kr
2 141,75 - 169,5 id#8;id#6;id#10;id#3; 4.021.000kr
3 169,5 - 197,25 id#2;id#13;id#5;id#4;id#17;id#15;id#16;id#9; 5.196.000tkr
4 197,25 - 225 id#11;id#7;id#14;id#12; 2.496.000kr

 

barchart huspris vs boligareal

Sammenlignes med det tidligere scatterplot  (her) ses følgende:

  1. Grafen er nu mere simpel og overskuelig. Dette er sket på bekostning af at vi har poolet data i overordnede kategorier. Derved har vi filtreret en del af støjen fra, men samtidig har vi afskåret os fra at se en del af informationen vi havde i vores scatterplot.
  2. Grafen underbygger kun delvist at der er en vis sammenhæng mellem pris og boligareal. De største huse (197 - 225 m2) sælges gennemsnitligt billigere  end husene i den lavere kategori (169 - 197 m2). Der er altså stadig indikation af at andre faktorer som f.eks. beliggenhed eller udsigt har indflydelse på prisen.

Farepunkter
Når man laver et barchart på basis af datapunkter er der et antal spørgsmål man må overveje. Disse er:

1. Spørgsmål: Hvor mange kategorier skal jeg lave? Svar: Datasættets omfang skal afspejles i antallet af kategorier. Hvis der vælges for få kategorier går der for meget information tabt. Hvis der vælges for mange kategorier risikerer man at få for meget støj med (for få datapunkter i hver kategori). Et fornuftigt udgangspunkt er at tage kvadratroden af antallet af datapunkter. Dvs. har man 25 datapunkter kan man lave 5 kategorier (5*5=25). Har man 100 datapunkter kan man lave 10 kategorier (10*10=100). 

2. Spørgsmål: Hvor placerer jeg grænsen mellem kategorierne? Svar: Lad data bestemme. Med mindre der er helt åbenbare grunde til at køre med faste intervaller f.eks. 0-20-40-60-80-100, så kig på data. I ovenstående eksempel varierer boligarealet fra 114 til 225 m2. Dette er dermed de ydre grænser. Kategoriernes bredde er (225 - 114 ) / 4 = 27,75 (der er 4 kategorier). Det er meget sandsynligt at der ikke kommer lige mange datapunkter i hver gruppe - det gør ikke noget.

3. Spørgsmål: Hvordan beregner jeg "gennemsnit" i en kategori? Svar: Generelt ville jeg tage det aritmetisk gennemsnit. Dvs. for kategori  2 er gennemsnits huspris = (4.145.000 + 3.995.000 + 4.295.000 + 3.650.000) / 4 = 4.021.000 kr (afrundet til 1000kr). Der er alternativer, fx. at tage medianen (note 2).

Bonusinformation
Histogram. Huse til salg
Afslutningsvis vil jeg nævne et helt specielt barchart, nemlig histogrammet. Et histogram er en simpel optælling af emnerne i de forskellige kategorier, som vist på grafen. Jeg vil overlade til læseren at kontrollere at dette histogram stemmer med det oprindelige datasæt (øverst).

Noter

Note 1. Ordet gennemsnit skal tages lidt løst her. Se note 2.

Note 2.  Medianen er det midterste tal i en ordnet serie. F.eks. er medianen af 114,145,153 = 145 da dette er det midterste tal (definitionen på en median). Hvis der er et lige antal punkter tages gennemsnittet af de to midterste (medianen af 114,145,153,167 er (145+153) / 2 = 149). Medianer er i visse tilfælde at foretrække fordi de er mere robuste overfor datafejl: Medianen af (100,102,103,104,1005) er 103, selv om 1005 sandsynligvis er en fejl. Regnes med aritmetisk gennemsnit fås (100+102+103+104+1005)/5=282,8 hvilket hverken er fugl eller fisk.

 

Datavisualisering - Scatterplots

 Computer, Statistik  Comments Off on Datavisualisering - Scatterplots
Feb 102013
 

Denne post er tænkt som første del til indføring i grundlæggende teknikker til at beskrive data. Målet er at give en basis for at kunne angribe større og mere interessante teknikker f.eks. indenfor området "Big Data". Hvis du bruger ca. 5 minutter på læsning af denne post vil du have tilegnet dig et nyttigt redskab der kan anvendes til ganske mange ting -  f.x. afvise åbenlyse fejlagtige påstande i medierne! Jeg benytter excel til at vise eksempler her, men teknikken er så simpel at du faktisk kan nøjes med et stykke ternet papir og en blyant. Så lad os begynde med et simpelt eksempel.

Jeg har lavet et udtræk af huse til salg i området Veddelev, Roskilde. Huspriserne varierer og jeg er interesseret i at vide hvorfor - specifikt om der er en sammenhæng mellem husets boligareal og dets salgspris. Desuden har jeg medtaget andre parametre der kan være interessant at undersøge:

Datasæt huspriser

Skærmbillede 2013-02-10 kl. 12.54.11
Et scatterplot er en simpel grafisk præsentation af et datasæt i to dimensioner - og y. Jeg var interesseret i at få svar på om der er en sammenhæng mellem boligarealet og husets pris. Et scatterplot for dette ser ud som vist til højre. Bemærk enkeltheden - ingen linier mellem datapunkter eller andet 'støj', bare datapunkter. Vi ser der er en vis trend i data, dvs. husprisen stiger med stigende boligareal. Der er derimod også nogle punkter der stikker markant ud fra trenden, fx. hus nr. 17 i tabellen øverst med en pris på 8,495 mio kr for 'kun' 183 kvm. Dette kan også ses i kvm-prisen på 46.420 kr/m2 der er 75% højere end gennemsnittet på 26.548 kr/m2. Der må derfor være andre faktorer der influerer på prisen (f.eks. beliggenhed eller udsigt.

Skærmbillede 2013-02-10 kl. 13.34.42Som et afsluttende eksempel lad os se om vi kan se en lignende sammenhæng mellem antallet af værelser og husprisen. Et scatterplot af husprisen vs. antallet af værelser som vist til højre giver ikke nogen umiddelbar indikation af at der skulle være en sammenhæng mellem antallet af værelser og husets pris. Jeg vil overlade det som en øvelse til dig, læser, at overbevise dig selv om at der ikke er nogen sammenhæng mellem grundarealet og husprisen, eller vej-nr og huspris.

Konklusion: Et scatterplot er et nyttigt redskab til hurtigt at give en idé om, hvorvidt der er en sammenhæng mellem  to observerede variable.

Refleksion: Tænk over hvilke teorier/påstande  du har hørt/læst i dag og spørg dig selv om der er data der kan understøtte dette eller evt. affeje det.