Correlatie tussen criminaliteit en verhuizers uit Utrecht

utrecht kaart

Criminaliteit vs. Verhuizers

Het lijkt zo logisch. In buurten waar veel criminaliteit voor komt, zijn mensen sneller geneigd om te verhuizen. Uiteraard hangt het verlangen naar verhuizen af van nog vele andere factoren, maar in de datawereld zijn we altijd op zoek naar correlaties. Zoals ik al eerder eens heb gezegd geeft een correlatie niet het hele verhaal maar een correlatie is zelden puur toeval. Daarom heb ik een klein onderzoekje gedaan naar verschillende buurten in Utrecht. Ik heb gekeken naar het aantal verhuizers en de hoeveelheid criminaliteit in verschillende buurten. Het begrip ‘hoeveelheid criminaliteit’ is natuurlijk vaag, er is veel ruimte voor interpretatie. Gelukkig hoef ik dat zelf niet te doen maar doet de bron van de open data dat voor mij, de buurtmonitor. Zij zien criminaliteit als volgt: autokraak, geweld, woninginbraken, winkeldiefstal, bedrijfsinbraak, pogingen tot inbraak, huiselijk geweld. Als ik goed geteld heb dan sommeren ze het aantal per onderdeel.
Om de twee parameters te kunnen vergelijken heb ik een paar voor de hand liggende trucjes toegepast. Allereerst heb ik beide parameters per 1000 inwoners berekend. Omdat de gemiddelde waarde van criminaliteit een stuk hoger ligt dan de waarde voor de vertrekkers, heb ik het gedeeld door het gemiddelde. Dit geeft gelijk een beter beeld van het verband tussen de twee begrippen. Je wilt namelijk bekijken of beiden afwijken van het gemiddelde. Vervolgens zette ik het naast elkaar in een grafiek en het volgende kwam eruit:

Dus even ter verduidelijking: wat je hier boven ziet, is het aantal verhuizingen (criminaliteit) per 1000 inwoners, gedeeld door het gemiddelde van het aantal verhuizingen (criminaliteit). Wat direct opvalt is dat het redelijk met elkaar overeenkomt. Dat zou betekenen dat er een verband tussen is. Toch zegt een afbeelding niet alles. Als data analyst wil je het natuurlijk zoveel mogelijk in cijfers uitdrukken, de afbeeldingen dienen alleen als ondersteuning. Hiermee komen we weer bij de correlatiecoƫfficiƫnt. Voor dit verband is het 0,806. Dit wordt gezien als een hoge correlatie (tussen 0,7 en 0,9). Toch moeten we voorzichtig zijn met correlaties. Het geeft natuurlijk geen oorzaak en gevolg relatie weer. Ik zou graag willen aantonen dat mensen verhuizen omdat er veel criminaliteit is, maar het kan bij wijze van spreken ook andersom zijn. Het klinkt natuurlijk onwaarschijnlijk maar dat is nou eenmaal de tekortkoming van een correlatie. Toch is er een duidelijk verband, en daarbij laten we het.
Hieronder kan je het ook per buurt bekijken. Ik heb de twee waarden uit de grafiek, per buurt, door elkaar gedeeld. Bij een hoge ‘correlatie’ zal dit getal rond 1 zitten. Dat betekent dan dat de twee parameters evenveel afwijken van het gemiddelde.

Leave a Comment

Your email address will not be published. Required fields are marked *

*