inbraken_jeugdwerkeloosheid

Meer inbraken in gemeenten met een hoge jeugdwerkloosheid? (visualisatie)

=================================
Paul is Masterstudent aan de TU Delft, faculteit Technische Natuurkunde. Hij werkt bij BigData.Company als Data Analyst en schrijft elke week een blog over interessante, handige of opmerkelijke data. Paul gebruikt voor de bewerking en visualisatie uitsluitend open source tools zoals Google Refine, Fusion Tables, GoogleMaps JSfiddle.
=================================

Je kent het wel: jongeren die dag en nacht op straat hangen. Zijn zij daadwerkelijk niets aan het doen of houden ze je in de gaten wanneer je het huis uit gaat? Ik neem aan dat ze werkloos zijn. Je zou denken dat waar veel jeugdwerkloosheid is, er veel wordt ingebroken.

De Data

Ik heb gekeken naar data uit 2010. Waarom 2010? Daar was de meest complete dataset van verkrijgbaar. Ik verdeel Nederland in gemeenten en vergelijk daar het percentage van de jongeren dat werkloos is met het aantal inbraken per 100 inwoners.

De Vergelijking
Ik verdeel het percentage jongeren dat werkloos is in drie verschillende groepen: groen is lage werkloosheid, blauw is matige werkloosheid en rood is relatief hoge werkloosheid. Binnen deze drie groepen zijn de hoeveelheden inbraken (per 100 inwoners) verdeeld in drie tinten: licht is laag, donker is hoog. In de legenda staat dit duidelijk afgebeeld. Je zou verwachten dat bij een lage jeugdwerkloosheid minder wordt ingebroken en andersom. Hieronder is de kaart van Nederland te zien met de data gevisualiseerd.

Legenda Hypothese?

We proberen zo min mogelijk interpretatie te geven van de kaart, we geven slechts weer. Er lijkt geen duidelijk verband te zijn tussen jeugdwerkloosheid en aantal inbraken. Het kan zo zijn dat er helemaal geen correlatie is. Het kan ook zo zijn dat de jeugd wel werkloos is, maar niet gek; ze breken niet in in hun eigen gemeente. Er kan ook een betere reden zijn dat die correlatie er niet is: om in een huis in te breken, is het fijn als er niemand thuis is. Wanneer zijn mensen thuis? Juist, wanneer ze werkloos zijn.

 

Wat zegt de statistiek?

Om uit de bovenstaande map een correlatie af te leiden is natuurlijk lastig. Een correlatiegrafiek is hiervoor beter geschikt. In ons geval zou je een positieve correlatie verwachten: hoe hoger de jeugdwerkloosheid, hoe hoger de inbraakcijfers. In de grafiek wordt wel duidelijk dat dit niet zo is.De punten lijken gewoon random in het figuur te vallen. De ultieme manier om een correlatie te bepalen is middels het correlatiecoëfficiënt. Even ter herinnering: -1 staat voor een perfecte negatieve correlatie, 0 voor géén correlatie, en 1 voor een perfecte positieve correlatie. In het geval van de jeugdwerkloosheid en het aantal inbraken blijkt het coëfficiënt 0.14 te zijn. Dit betekent dat er nagenoeg géén correlatie is.

Vervolg?

Tijdens zo’n onderzoek is het lastig om je te focussen op slechts 1 ding. Zeker als je merkt dat het onderzoek niet de uitkomst krijgt die je gehoopt had. Ze zeggen altijd: geen uitkomst is ook een uitkomst. Maar het is toch niet zo bevredigend als een positief resultaat. Tijdens een onderzoek kom je dan soms dingen tegen die je eigenlijk ook wel zou willen onderzoeken. Dan moet ik mijzelf dwingen om eerst het huidige onderzoek af te ronden. Wat mij dus opviel tijdens de analyses, was dat toen ik het aantal gemeenten, dat een bepaald aantal inbraken per 100 inwoners had, aan het tellen was, het een verdeling had die mij bekend voorkwam. In de grafiek hieronder zal het duidelijker worden.


Het ziet er uit als een Gaussische verdeling (sommigen zouden ook zeggen dat het een Beta-verdeling is). Het maakt echter niet uit hoe je het noemt. Wat belangrijker is, is dat er een duidelijk verloop van  waarden is. Wat interessant zou kunnen zijn voor een vervolgend onderzoek(je), is om te kijken of in andere jaren, of andere landen, eenzelfde verdeling te zien is. Zo ja, dan is er een kansverdeling te maken van hoeveel inbraken er verwacht kunnen worden in een stad met een bepaald aantal inwoners. Erg uitsluitend zal het niet zijn, maar niet minder interessant.

 

Details

  • Dataset: Politiedata, CBSdata,
  • Tools: Fusiontables, google maps, google refine

 

Science talk Julia Angwin

Video: ‘Is privacy becoming a luxury good?’

Een interessante lezing van Julia Angwin tijdens het ‘2014 Strata Conference + Hadoop World’ in New York City.

 

Tegenwoordig is het bijna onmogelijk om geen (persoonlijke) gegevens achter te laten. Bij alles wat we doen, genereren we data. Wanneer we bellen, sms’en, chatten, online shoppen of surfen op het internet. Het is een hele opgave geworden om online (volledig) anoniem te blijven. We worden in de gaten gehouden. En met de huidige technologie en beschikbare tools, is het voor iedereen mogelijk geworden om toezicht te houden.

 

Maar soms wil je bepaalde gegevens beschermen. Privacy is namelijk een belangrijk onderdeel in ons leven. Toch lijkt het met de komst van Big Data en de huidige technologie een steeds uitdagender goed te worden. Julia vertelt in de video hoeveel ze heeft geprobeerd om haar eigen privacy te beschermen. Ze roept vervolgens de volgende vraag op: ‘willen we in een maatschappij leven waar alleen de rijken in staat zijn om het toezicht dat overal aanwezig is, te ontwijken?’

 

TED talk Kenneth Cukier

Video: ‘Big Data is better data’ met Kenneth Cukier

Een interessant science talk van Kenneth Cukier over ‘Big data is better data’. Hierin bespreekt hij de toekomst van big data-gedreven technologie en design. Wat is de waarde van Big Data? Wat staat er te wachten op het gebied van machine learning en menselijke kennis?

 

Vooral het fragment van 7:30 t/m 11:24 is de moeite waard om te bekijken. Mocht je nog niet weten wat machine learning exact inhoudt.. Kenneth geeft in dit fragment hier een duidelijk voorbeeld van.

geld

Miljarden voor Big Data toepassingen

 

De Europese Unie trekt tussen 2016 en 2020 een half miljard euro uit voor Big Data. Goed nieuws voor Big Data bedrijven! Daarnaast investeren bedrijven als Atos, Sap en Siemens nog eens gezamenlijk 2 miljard euro. Het geld wordt gebruikt voor onderzoek naar Big Data en nieuwe toepassingen, zoals het kunnen voorspellen van ziektes.

 

Overheidsinstanties en bedrijven als onderwijsinstellingen kunnen een subsidieverzoek indienen. Big Data biedt ook mogelijkheden voor de werkgelegenheid. De EU verwacht namelijk dat Big Data 100.000 nieuwe banen zou kunnen opleveren.

 

Bron: www.emerce.nl

BigData word cloud

Big Data: Say what?

 

Big Data is booming. Deze term wordt steeds vaker gebruikt en de aandacht voor dit onderwerp groeit. Er wordt zelfs gesproken over een aankomende Big Data revolutie. De mogelijkheden van Big Data zijn eindeloos en de uitdagingen zijn groot. Het is een innovatiebron die helpt bij het tot stand komen van betere inzichten, interventies en besluitvormingen. Wij geloven dat deze technologie de wereld kan veranderen.

 

Vanuit deze gedachte hebben wij het bedrijf BigData.Company opgericht. Samen met verschillende partijen richten wij ons op mogelijke toepassingen van Big Data. Onze ambitie is om te laten zien hoe Big Data gebruikt kan worden om het leven van mensen en dagelijkse werkzaamheden te verbeteren.

 

Maar wat betekent Big Data precies? Hier is niet iedereen het over eens. In een artikel van Jenny Dutcher werden 40 ‘thought leaders’ uit verschillende branches gevraagd een definitie te geven van Big Data. Hieronder een selectie van de definities:

 

– Amy Escobar; Data Scientist, 2U Inc

“Big data is an opportunity to gain a more complex understanding of the relationships between different factors and to uncover previously undetected patterns in data.”

 

– Josh Ferguson; Chief Technology Officer, Mode Analytics
“Big data is the broad name given to challenges and opportunities we have as data about every aspect of our lives becomes available. It’s not just about data though; it also includes the people, processes, and analysis that turn data into meaning.”

 

– Joel Gurin; Author of Open Data Now
“Big data describes datasets that are so large, complex, or rapidly changing that they push the very limits of our analytical capability. […] the most important kinds of Big data – and perhaps the only ones worth the effort – are those that can have a big impact through what they tell us about society, public health, the economy, scientific research, or any number of other large-scale subjects.”

 

– Quentin Hardy; Deputy Tech Editor, The New York Times
“What’s “big” in big data isn’t necessarily the size of the databases, it’s the big number of data sources we have, as digital sensors and behavior trackers migrate across the world. As we triangulate information in more ways, we will discover hitherto unknown patterns in nature and society — and pattern-making is the wellspring of new art, science, and commerce.”

 

– Prakash Nanduri; Co-Founder, CEO and President, Paxata Inc.
“Big data is at the intersection of collecting, organizing, storing, and turning all of that raw data into truly meaningful information.”

 

– Mark van Rijmenam; CEO/Founder, BigData-Startups
“Big data is not all about volume, it is more about combining different data sets and to analyze it in real-time to get insights for your organization.”

 

Alle 40 definities zijn te lezen op de datascience@berkeley blog: [http://datascience.berkeley.edu/what-is-big-data/?imm_mid=0c31ec&cmp=em-strata-na-na-newsltr_20140917#JohnAkred]

dashboard

‘De wetten van shitty dashboards’

 

Sommige PM’s, designers en engineers maken zich schuldig aan het bouwen van shitty dashboards. Om ervoor te zorgen dat er minder tijd verspild wordt aan het bouwen en het kijken naar shitty dashboards, heeft Paul Cothenet een aantal wetten bedacht. Lees ze hieronder.

 

Wet #1: De meeste software dashboards zijn shitty

Shitty in de zin van saai, slecht ontworpen en zonder enige bruikbaarheid of wat dan ook. Geloof je het niet? Noem dan nu drie goede software dashboards.

Waarschijnlijk is het je niet gelukt. Toch zijn ze overal. Maar de meeste mensen kijken er niet naar, alsof ze er niet zijn. Daarom zijn de meeste software dashboards dus shitty. Niet alleen de software dashboards, maar ook bijvoorbeeld auto dashboards. Ze geven informatie weer die 99% van de tijd nutteloos is. Hoe vaak heb je het bijvoorbeeld nodig om het toerental te weten op een automaat auto? Kunnen ze dan niet beter iets nuttigs ervoor in de plaats zetten?

 

Wet #2: Als het ‘dashboard’ heet, is het waarschijnlijk shitty

De verzameling van data widgets dat ‘dashboard’ wordt genoemd, heeft waarschijnlijk als enige doel: er zijn en bewegen. Daarom zijn ze dus nutteloos. “Laten we een dashboard bouwen” staat dan ook gelijk aan “laten we een shitty dashboard bouwen”. Voorafgaand aan de shitty dashboards, is waarschijnlijk de gedachte ‘we hebben een dashboard nodig’ geweest. Vaak zijn ze gebouwd zonder de gebruikers in het achterhoofd, omdat het productteam een heleboel getallen heeft waarvan zij denken dat het nuttig zou kunnen zijn.

 

Wet #3: Als jij niet weet wat je van je dashboard moet halen, weten jouw gebruikers het ook niet

Jij hebt geen idee wat jouw gebruikers zullen beslissen op basis van de gegevens die jij hen toont. Op de een of andere manier denk je toch dat gebruikers het zullen weten. Dit is een klassieke misvatting. Jij bent juist degene die dagenlang tijd besteedt aan het product en de data. Als jij (als PM of designer) niet weet wat de data op de dashboards betekenen en wat ermee gedaan kan worden, dan weten jouw gebruikers het ook niet.

Dan wordt het een “laten we spaghetti tegen de muur gooien en kijken wat plakt” aanpak. Dit eindigt met een enorme puinhoop op de vloer.

 

Wet #4: Niet praten met gebruikers zal resulteren in een shitty dashboard

Deze wet lijkt op de vorige. Je weet niet of het dashboard bruikbaar zal zijn, maar je praat niet met gebruikers om erachter te komen. Of je laat het eventjes aan hun zien (met gegevens van iemand anders) en je geeft ze nooit de kans om erachter te komen wat ze in hemelsnaam ermee kunnen doen als je het aan ze zou geven.

(Je kan ‘dashboard’ vervangen voor ‘product’ en dan zou wet#4 nog steeds geldig zijn.)

 

Wet #5: Ik heb geen shitty control nodig

Deze is gelinkt aan wet #3. Aangezien je geen idee hebt wat iemand gaat doen met jouw dashboard, waarom dan niet nog meer controls toevoegen zodat de gebruiker het zelf kan uitzoeken? Een grappig gevolg hiervan is dat de gebruiker nog steeds geen idee heeft waar hij naar moet kijken. Daarnaast bied je nu opties aan die nog nuttelozer zijn.

Een voorbeeld is een sessieduur op uur niveau. “Mensen bleven op maandag om 04.53 uur langer op de site dan op 11.36 uur”. Ja dus?

Screen Shot 2014-11-04 at 12.47.47
Een andere reden waarom stomme controls worden toegevoegd, is omdat sommige gebruikers (meestal een data gozer) daar om hebben gevraagd. Tenzij je een product voor hem aan het bouwen bent, moet je niet naar de data gozer luisteren.

 

Wet #6: Omdat het nuttig was in een Powerpoint, betekent niet dat het nuttig is op een dashboard

Een andere misvatting is om te denken dat omdat sommige grafieken in een kwartaal Powerpoint nuttig is, het zinvol zou zijn om er elke dag naar te kijken. Verrassing: kwartaal cijfers veranderen niet zoveel van dag tot dag. Ook al is het nuttig, het is ook ongelooflijk saai.

 

Wet #7: Omdat het beweegt, betekent niet dat het niet shitty is

Een dashboard hel is wanneer het dagelijkse getallen bevat van de laatste 30 dagen. Bestaat er een applicatie waarbij dat tijdsbestek nuttig is? De meeste KPI’s (kritieke prestatie indicatoren), b.v. van het verkeer of omzet, zijn te vluchtig op een dagelijkse basis om nuttig te zijn. Toch is ‘laatste 30 dagen dagelijks’ de standaard optie.

De getallen zullen bewegen. Als gebruikers de volgende dag terugkomen, zal er een ander getal zijn. De beste scenario: niets. Want je weet niet wat je moet maken van dat dagelijks getal dat jou gegeven wordt. Ergste scenario: een slechte beslissing nemen met niet-statistisch significante gegevens. Niemand heeft bijna-realtime gegevens nodig, omdat ze niet bruikbaar zijn.

 

Wet #8: Je hebt waarschijnlijk geen dashboard nodig

Als je geen reden kan bedenken waarom gebruikers jouw dashboard zouden moeten gebruiken, dan heb je geen shitty dashboard nodig. Als jouw data alleen maandelijks gebruikt wordt, dan heb je waarschijnlijk ook geen dashboard nodig. Stuur in plaats daarvan aan het einde van de maand een e-mail met daarin de getallen. Natuurlijk kan je een shitty dashboard bouwen, maar ga niet vervolgens klagen dat niemand er naar kijkt.

 

Paul eindigt het artikel met een nuttige boodschap: “Er zijn al een heleboel shitty dashboards. Spaar alsjeblieft de planeet, creëer er niet nog meer.”