Datavisualisering - Piecharts

 Computer, Statistik  Comments Off on Datavisualisering - Piecharts
Feb 102013
 

I to foregående posts har jeg beskrevet hvorledes scatterplot og barchart anvendes til at visualisere sammenhænge mellem data. I denne post vil jeg beskrive Piechartet, der er ideelt til at vise procentvise fordelinger mellem data.

Lad os fortsætte med det oprindelige datasæt. Målet var at undersøge om der er en sammenhæng mellem boligareal og huspris. Med et piechart bevæger vi os nu væk fra dette oprindelige mål. Et piechart er ikke godt til at vise sammenhænge mellem forskellige data (boligareal og huspriser) men er derimod velegnet til at vise fordelinger af en enkelt variabel, f.eks. boligarealer i dette eksempel.

Datasæt huspriser

Vi inddelte tidligere de 17 datapunkter i 4 kategorier og beregner nu den procentvise fordeling i kategorierne. Det ses at data i histogrammet og piechartet har en del til fælles, faktisk er den procentvise fordeling i dette piechart beregnet direkte på baggrund af histogrammet vist tidligere.

Piechart. Pivottabel data

Piechart. Huse til salg

Konklusion.
Et piechart er enkelt at beregne og giver et hurtigt og effektivt overblik over relative forhold mellem data (%). Samtidig må vi også indse at vi har flyttet os længere væk fra vores oprindelige data (som vist på scatterplot). Dette er prisen for at abstrahere data.

Et andet eksempel hvor piecharts er rigtig gode er f.eks. visualisering af stemmeprocenter ved et valg. Her tabes der ikke meget information ved at omregne stemmetal til procent, faktisk er det netop stemmeprocenten, der er vigtig.

 

 

 

Datavisualisering - Scatterplots

 Computer, Statistik  Comments Off on Datavisualisering - Scatterplots
Feb 102013
 

Denne post er tænkt som første del til indføring i grundlæggende teknikker til at beskrive data. Målet er at give en basis for at kunne angribe større og mere interessante teknikker f.eks. indenfor området "Big Data". Hvis du bruger ca. 5 minutter på læsning af denne post vil du have tilegnet dig et nyttigt redskab der kan anvendes til ganske mange ting -  f.x. afvise åbenlyse fejlagtige påstande i medierne! Jeg benytter excel til at vise eksempler her, men teknikken er så simpel at du faktisk kan nøjes med et stykke ternet papir og en blyant. Så lad os begynde med et simpelt eksempel.

Jeg har lavet et udtræk af huse til salg i området Veddelev, Roskilde. Huspriserne varierer og jeg er interesseret i at vide hvorfor - specifikt om der er en sammenhæng mellem husets boligareal og dets salgspris. Desuden har jeg medtaget andre parametre der kan være interessant at undersøge:

Datasæt huspriser

Skærmbillede 2013-02-10 kl. 12.54.11
Et scatterplot er en simpel grafisk præsentation af et datasæt i to dimensioner - og y. Jeg var interesseret i at få svar på om der er en sammenhæng mellem boligarealet og husets pris. Et scatterplot for dette ser ud som vist til højre. Bemærk enkeltheden - ingen linier mellem datapunkter eller andet 'støj', bare datapunkter. Vi ser der er en vis trend i data, dvs. husprisen stiger med stigende boligareal. Der er derimod også nogle punkter der stikker markant ud fra trenden, fx. hus nr. 17 i tabellen øverst med en pris på 8,495 mio kr for 'kun' 183 kvm. Dette kan også ses i kvm-prisen på 46.420 kr/m2 der er 75% højere end gennemsnittet på 26.548 kr/m2. Der må derfor være andre faktorer der influerer på prisen (f.eks. beliggenhed eller udsigt.

Skærmbillede 2013-02-10 kl. 13.34.42Som et afsluttende eksempel lad os se om vi kan se en lignende sammenhæng mellem antallet af værelser og husprisen. Et scatterplot af husprisen vs. antallet af værelser som vist til højre giver ikke nogen umiddelbar indikation af at der skulle være en sammenhæng mellem antallet af værelser og husets pris. Jeg vil overlade det som en øvelse til dig, læser, at overbevise dig selv om at der ikke er nogen sammenhæng mellem grundarealet og husprisen, eller vej-nr og huspris.

Konklusion: Et scatterplot er et nyttigt redskab til hurtigt at give en idé om, hvorvidt der er en sammenhæng mellem  to observerede variable.

Refleksion: Tænk over hvilke teorier/påstande  du har hørt/læst i dag og spørg dig selv om der er data der kan understøtte dette eller evt. affeje det.