Meer inbraken in gemeenten met een hoge jeugdwerkloosheid? (visualisatie)

inbraken_jeugdwerkeloosheid

=================================
Paul is Masterstudent aan de TU Delft, faculteit Technische Natuurkunde. Hij werkt bij BigData.Company als Data Analyst en schrijft elke week een blog over interessante, handige of opmerkelijke data. Paul gebruikt voor de bewerking en visualisatie uitsluitend open source tools zoals Google Refine, Fusion Tables, GoogleMaps JSfiddle.
=================================

Je kent het wel: jongeren die dag en nacht op straat hangen. Zijn zij daadwerkelijk niets aan het doen of houden ze je in de gaten wanneer je het huis uit gaat? Ik neem aan dat ze werkloos zijn. Je zou denken dat waar veel jeugdwerkloosheid is, er veel wordt ingebroken.

De Data

Ik heb gekeken naar data uit 2010. Waarom 2010? Daar was de meest complete dataset van verkrijgbaar. Ik verdeel Nederland in gemeenten en vergelijk daar het percentage van de jongeren dat werkloos is met het aantal inbraken per 100 inwoners.

De Vergelijking
Ik verdeel het percentage jongeren dat werkloos is in drie verschillende groepen: groen is lage werkloosheid, blauw is matige werkloosheid en rood is relatief hoge werkloosheid. Binnen deze drie groepen zijn de hoeveelheden inbraken (per 100 inwoners) verdeeld in drie tinten: licht is laag, donker is hoog. In de legenda staat dit duidelijk afgebeeld. Je zou verwachten dat bij een lage jeugdwerkloosheid minder wordt ingebroken en andersom. Hieronder is de kaart van Nederland te zien met de data gevisualiseerd.

Legenda Hypothese?

We proberen zo min mogelijk interpretatie te geven van de kaart, we geven slechts weer. Er lijkt geen duidelijk verband te zijn tussen jeugdwerkloosheid en aantal inbraken. Het kan zo zijn dat er helemaal geen correlatie is. Het kan ook zo zijn dat de jeugd wel werkloos is, maar niet gek; ze breken niet in in hun eigen gemeente. Er kan ook een betere reden zijn dat die correlatie er niet is: om in een huis in te breken, is het fijn als er niemand thuis is. Wanneer zijn mensen thuis? Juist, wanneer ze werkloos zijn.

 

Wat zegt de statistiek?

Om uit de bovenstaande map een correlatie af te leiden is natuurlijk lastig. Een correlatiegrafiek is hiervoor beter geschikt. In ons geval zou je een positieve correlatie verwachten: hoe hoger de jeugdwerkloosheid, hoe hoger de inbraakcijfers. In de grafiek wordt wel duidelijk dat dit niet zo is.De punten lijken gewoon random in het figuur te vallen. De ultieme manier om een correlatie te bepalen is middels het correlatiecoëfficiënt. Even ter herinnering: -1 staat voor een perfecte negatieve correlatie, 0 voor géén correlatie, en 1 voor een perfecte positieve correlatie. In het geval van de jeugdwerkloosheid en het aantal inbraken blijkt het coëfficiënt 0.14 te zijn. Dit betekent dat er nagenoeg géén correlatie is.

Vervolg?

Tijdens zo’n onderzoek is het lastig om je te focussen op slechts 1 ding. Zeker als je merkt dat het onderzoek niet de uitkomst krijgt die je gehoopt had. Ze zeggen altijd: geen uitkomst is ook een uitkomst. Maar het is toch niet zo bevredigend als een positief resultaat. Tijdens een onderzoek kom je dan soms dingen tegen die je eigenlijk ook wel zou willen onderzoeken. Dan moet ik mijzelf dwingen om eerst het huidige onderzoek af te ronden. Wat mij dus opviel tijdens de analyses, was dat toen ik het aantal gemeenten, dat een bepaald aantal inbraken per 100 inwoners had, aan het tellen was, het een verdeling had die mij bekend voorkwam. In de grafiek hieronder zal het duidelijker worden.


Het ziet er uit als een Gaussische verdeling (sommigen zouden ook zeggen dat het een Beta-verdeling is). Het maakt echter niet uit hoe je het noemt. Wat belangrijker is, is dat er een duidelijk verloop van  waarden is. Wat interessant zou kunnen zijn voor een vervolgend onderzoek(je), is om te kijken of in andere jaren, of andere landen, eenzelfde verdeling te zien is. Zo ja, dan is er een kansverdeling te maken van hoeveel inbraken er verwacht kunnen worden in een stad met een bepaald aantal inwoners. Erg uitsluitend zal het niet zijn, maar niet minder interessant.

 

Details

  • Dataset: Politiedata, CBSdata,
  • Tools: Fusiontables, google maps, google refine

 

Leave a Comment

Your email address will not be published. Required fields are marked *

*