‘Vergelijk appels met appels’

Screen Shot 2015-03-04 at 16.08.38

 

Big Data gaat niet alleen om de enorme hoeveelheid data, maar ook om de variatie van data(bronnen). Er wordt steeds meer gebruik gemaakt van externe data: data die buiten de eigen organisatie afkomstig zijn. Er ontstaan nieuwe technieken om verschillende datasets aan elkaar te koppelen. De integratie van gestructureerde en ongestructureerde data nemen dan ook toe.

 

Er zijn bekende Big Data applicaties beschikbaar van grote organisaties. Denk hierbij aan zoekmachines, sociale netwerken, microblogs etc. Deze bedrijven hebben zelf meestal al enorme data archieven en veel van hun werk is voor datamining en kennisontwikkeling. Hun data wordt o.a. gebruikt om essentiële informatie te halen uit de verzameling van gegevens.

 

Voor grote organisaties is een flinke investering in data warehouses meestal een startpunt voor data analyse met betrekking tot de huidige praktijk. De kans bestaat dat bedrijven op een gegeven moment hun data op een andere manier gaan gebruiken dan waar ze oorspronkelijk voor bedoeld waren. Ze gaan steeds meer kijken naar hoe ze hun eigen gegevens kunnen integreren met die van anderen, om zo de koppelingen tussen interne en externe ongestructureerde data te verkennen.

 

Voor non-profitorganisaties, kleine bedrijven en andere instanties die willen profiteren van Big Data ligt het anders. Voor hen is het nog belangrijker om toegang te krijgen tot externe data. Maar hoe gaat dat in zijn werk?

 

De eerste stap is het binnenhalen van verschillende soorten data. Gegevens binnenhalen is lastig, zelfs binnen een warehouse. Daarbuiten en op het web is het dus nog moeilijker. Gebruikmaken van bestaande scrapingtools zou hierbij kunnen helpen. Hoe zorg je er vervolgens voor dat de verzamelde data zo worden geïntegreerd, dat het de vorm krijgt van een visualisatie of analyse? Allereerst zijn er een aantal problemen die je moet oplossen. De verzamelde datasets zijn in principe allemaal van een andere structuur. Ze zijn niet ontworpen om goed samen te werken. Zo zijn er verschillen in de opmaak en formaat (csv, xml, PDF documenten etc.). Om ‘appels met appels te vergelijken‘ moeten de data dus met elkaar kunnen communiceren. Maar hoe?

 

In het artikel van James Hendler (2014) [http://online.liebertpub.com/doi/pdf/10.1089/big.2014.0068] worden voorbeelden gegeven van de verschillende technieken die gebruikt worden om gestructureerde en ongestructureerde data te integreren. Deze moeten echter verder geanalyseerd worden voor diepere inzichten. Wel kunnen de technieken gebruikt worden om snel potentiële gegevens te screenen en snel potentiële correlaties te verkennen. Op dit moment is niet duidelijk welke manier of techniek het beste is. Dit moet dan ook verder onderzocht worden… We houden je op de hoogte!

Leave a Comment

Your email address will not be published. Required fields are marked *

*