Datavisualisering - Scatterplots

 Computer, Statistik  Comments Off on Datavisualisering - Scatterplots
Feb 102013
 

Denne post er tænkt som første del til indføring i grundlæggende teknikker til at beskrive data. Målet er at give en basis for at kunne angribe større og mere interessante teknikker f.eks. indenfor området "Big Data". Hvis du bruger ca. 5 minutter på læsning af denne post vil du have tilegnet dig et nyttigt redskab der kan anvendes til ganske mange ting -  f.x. afvise åbenlyse fejlagtige påstande i medierne! Jeg benytter excel til at vise eksempler her, men teknikken er så simpel at du faktisk kan nøjes med et stykke ternet papir og en blyant. Så lad os begynde med et simpelt eksempel.

Jeg har lavet et udtræk af huse til salg i området Veddelev, Roskilde. Huspriserne varierer og jeg er interesseret i at vide hvorfor - specifikt om der er en sammenhæng mellem husets boligareal og dets salgspris. Desuden har jeg medtaget andre parametre der kan være interessant at undersøge:

Datasæt huspriser

Skærmbillede 2013-02-10 kl. 12.54.11
Et scatterplot er en simpel grafisk præsentation af et datasæt i to dimensioner - og y. Jeg var interesseret i at få svar på om der er en sammenhæng mellem boligarealet og husets pris. Et scatterplot for dette ser ud som vist til højre. Bemærk enkeltheden - ingen linier mellem datapunkter eller andet 'støj', bare datapunkter. Vi ser der er en vis trend i data, dvs. husprisen stiger med stigende boligareal. Der er derimod også nogle punkter der stikker markant ud fra trenden, fx. hus nr. 17 i tabellen øverst med en pris på 8,495 mio kr for 'kun' 183 kvm. Dette kan også ses i kvm-prisen på 46.420 kr/m2 der er 75% højere end gennemsnittet på 26.548 kr/m2. Der må derfor være andre faktorer der influerer på prisen (f.eks. beliggenhed eller udsigt.

Skærmbillede 2013-02-10 kl. 13.34.42Som et afsluttende eksempel lad os se om vi kan se en lignende sammenhæng mellem antallet af værelser og husprisen. Et scatterplot af husprisen vs. antallet af værelser som vist til højre giver ikke nogen umiddelbar indikation af at der skulle være en sammenhæng mellem antallet af værelser og husets pris. Jeg vil overlade det som en øvelse til dig, læser, at overbevise dig selv om at der ikke er nogen sammenhæng mellem grundarealet og husprisen, eller vej-nr og huspris.

Konklusion: Et scatterplot er et nyttigt redskab til hurtigt at give en idé om, hvorvidt der er en sammenhæng mellem  to observerede variable.

Refleksion: Tænk over hvilke teorier/påstande  du har hørt/læst i dag og spørg dig selv om der er data der kan understøtte dette eller evt. affeje det.