dAta mining

 

 

Doctor Walter Kosters van de universiteit Leiden verzorgde op vrijdag 10 december 2010 een gastles onder het motto:

 

Data mining – Van boodschappenmandjes tot bio-informatica

 

De les werd bijgewoond door leerlingen uit V5 en V6. Het was overigens niet de eerste keer dat dr. Kosters een les verzorgde. Eerder al gaf hij een gastles over kunstmatige intelligentie.

 

Data mining werd heel actueel door de verspreiding van duizenden geheime stukken door Wikileaks. Wie gericht zou willen zoeken naar informatie in die enorme berg gegevens, ontkomt niet aan de principes die aan data mining ten grondslag liggen. Het is de onderzoeker erom te doen om patronen te vinden in grote hoeveelheden data. Om je weg daarin te vinden, heb je structuren nodig die naar de juiste info leiden. Erg belangrijk is ook de snelheid waarmee je de gevraagde info vindt. Data mining is onderdeel van een complex proces, dat KDD genoemd wordt: Knowlegde Discovery in Databases.

 

 

Beslissingsbomen zijn een belangrijk middel om je een weg door het oerwoud aan gegevens te banen. Als voorbeeld werd speeddaten gebruikt: wie weinig tijd heeft, moet beginnen met de beste vraag. Probleem is natuurlijk, wat een slimme eerste vraag is. Wiskundigen stellen in dit geval graag een zogenaamd gretig algoritme op. Je moet wel oppassen, want (net als bij speeddaten) kun je ook te gretig zijn.

 

Wat verder helpt bij data mining, is het opstellen van associatieregels. Bijvoorbeeld in de wereld van supermarkten is men geïnteresseerd in het koopgedrag van consumenten. Bestudering van kassabonnen levert verrassende resultaten op, waar de kruidenier zijn voordeel mee kan doen. Met name frequente combinaties kunnen voor marketeers belangrijk zijn. Immers, wie boter koopt, zal waarschijnlijk tevens brood kopen.

 

Grappig was dat dr. Kosters een moeilijke vraag stelde in dit verband en dat tot zijn verbazing een leerling heel vlot het juiste antwoord wist te geven. Daar had hij niet op gerekend.

 

 

 

 

 

Natuurlijk is het voor de Hema leuk om te weten welke taartsoorten in welk deel van het land populair zijn. Dat kan men via data mining achterhalen. Er schuilen echter ook ethische gevaren in data mining. Het verzamelen van allerlei gegevens kan onze privacy aantasten. Dit dienen we goed in de gaten te houden, aldus dr. Kosters, want we gaan er steeds meer mee te maken krijgen.

Klik hier voor info over andere gastlessen van de universiteit.

 


Alle materialen op deze website, foto's, teksten enzovoorts, zijn eigendom van CSG Willem de Zwijger en mogen niet zonder toestemming van belanghebbenden worden gebruikt, tenzij dit expliciet anders is aangegeven.