Via het platform Amsterdam Data Science zijn 600 wetenschappers en andere betrokkenen van de Universiteit van Amsterdam, de Vrije Universiteit, de Hogeschool van Amsterdam en het Centrum voor Wiskunde en Informatica met elkaar verbonden. Een groeiend aantal bedrijven en instellingen die sterk inzetten op Big Data, waaronder Elsevier, Qualcomm en Philips, heeft zich aan het netwerk verbonden. In totaal vormen op die manier zo’n 2500 mensen een ecosysteem dat zich richt op Big Data-kennis.
Big Data Amsterdam is een zoektocht van FD-journalist Job Woudt naar de werking van dit ecosysteem. En een zoektocht naar de betekenis van Big Data, waarbij het gaat om de verwerking van extreem grote hoeveelheden, snel verworven en uiterst diverse informatie. Op fd.nl publiceert hij de letterlijke verslagen van de gesprekken die hij voert met deelnemers aan het ecosysteem. Uiteindelijk zal dit leiden tot een artikel in weekendkatern FD Morgen.
Als lezer wordt u uitgenodigd om naar aanleiding van deze gespreksverslagen suggesties te doen, aanvullingen te maken en kritiek te leveren. Reageren kan hier.
Smeulders trapt het gesprek af met een korte toelichting op een opinie-artikel dat hij voor het FD heeft geschreven. Daarin pleit hij voor meer overheidsinvesteringen in ICT - en dan vooral fundamentele ICT-kennis. (https://fd.nl/opinie/1178619/ict-investering-essentieel-om-economische-groei-veilig-te-stellen)
'Er is in Nederland meer aandacht nodig voor de kern van ICT. Nederland ziet ICT vooral als handel. We zijn een handelsnatie in hart en nieren en we dachten altijd: ICT, dat kopen we gewoon in. Maar dan heb je de kern niet begrepen. Want de kern van ICT is de handel zelf. En data science vormt weer de kern van die ICT. Google heeft dit als eerste begrepen, het internationaal gemaakt, en ons daar allemaal mee geraakt.’
Qualcomm en de UvA
‘We hadden een spin-off bij de UvA (gedoeld wordt op Euvision). Om zo ver te komen was eerst een slag nodig met UvA Holding, het onderdeel in de organisatie die de aandelen van spin-offs beheert. We konden destijds alleen maar een spin-off beginnen met een meerderheidsbelang voor de UvA. Maar met 60% van de aandelen voor de universiteit heb je geen bedrijf. Dan is het een dienst van de Universiteit. Kijk hoe ze dat in Oxford en op Stanford hebben geregeld. Daar hebben ze dat goed begrepen: ze nemen een redelijk aandeel zeg tussen de 10-15%. De wetenschappelijke waarde is zelden de belangrijkste component in de waarde van een spin-off; reken op een factor 8 om het ook waarde te geven in het handelsverkeer.
Uiteindelijk accepteerde de UvA een minderheidsaandeel. De spin off heeft vier jaar bestaan. De UvA bracht een goede toevoeging. In de eerste drie jaar is de spin off gevoed door nieuwe kennis van de UvA. Na vijf jaar hadden we vijf klanten en was het bedrijf opgevallen. Daarna is het gekocht door Qualcomm, of eigenlijk Qualcomm Nederland, en heeft de UvA als mede-eigenaar daarvan kunnen profiteren.’
Onderzoekslab
Bij ICT-patenten geldt dat één patent ook helemaal niet interessant is
‘Het onderzoekslab dat we daarna samen met Qualcomm zijn begonnen, staat los van de deal. Een paar maanden na die transactie waren ze geïnteresseerd in nog meer onderzoek en meer onderzoeksresultaten.
De afspraak is dat wij onderzoek doen en dat zij aanspraak maken op intellectueel eigendom. Bij ICT-patenten geldt dat één patent ook helemaal niet interessant is. Je hebt een woud van patenten nodig. Langs een woud kun je niet komen, wel langs één boom.
Qualcomm is groot geworden met wifi op de mobiel. Het heeft begrepen dat er aan data niet valt te ontkomen. Die kennis voegen wij toe. Qualcomm is ook niet het enige bedrijf waar we mee samenwerken. Met Max Welling is een UvA-lab samen met een grote Duitse industriële partner in de maak. Het wordt in april geopend.
Er zijn kleine verschillen. Bij Qualcomm geldt dat ze willen toetreden tot kennis. Bij Bosch willen ze toetreden tot de wetenschappelijke wereld. Bij intellectueel eigendom is er een Duitse en een Amerikaanse benadering. De laatste is veel meer juridisch. Dat is voor de Amerikanen het startpunt. Maar uiteindelijk is het contract bijna hetzelfde. In beide gevallen, voor zoiets ongrijpbaars als wetenschap waar geen resultaat bij de start bekend is, is de relatie ook sterk gebaseerd op vertrouwen. Daar moet je van de start aan werken.’
Kennisopbouw en kennisdragers
‘Als je kijkt hoe de kennis over beelddata zich heeft ontwikkeld, dan zie je dat de computer pas in 2004 af en toe een plaatje van een koe kon herkennen. Daarmee wisten wij toen wel de internationale competitie voor het herkennen van plaatjes te winnen. En omdat het een open-innovatie competitie is moet je ook vertellen hoe je dat voor elkaar hebt gekregen.
Het ontwikkelen van geheel nieuwe mogelijkheden duurt altijd verschrikkelijk lang, maar het is dan ook fundamenteel nieuw. Het grootste deel van de (jonge) mensen die er aan werkt, stroomt hier in en gaat na 4 jaar ook weer weg, voor de helft naar bedrijven in Amsterdam of door naar onderzoek of bedrijven in het buitenland. De beste kern blijft. De universiteit krijgt van hen heel goed onderzoek. Dat is de waarde van het concentraat, die je ook niet zo maar vervangt door concentratie elders. Wij waren hier op dit onderwerp al tien jaar gericht met onderzoek bezig voor we aan een bedrijf dachten. Patenten zijn op die termijn nauwelijks relevant. Qualcomm denkt voor een industriële partij heel lang: wel drie tot vijf jaar. Universiteiten denken al snel in periodes van vijftien jaar. Maar uiteindelijk heeft iedere high-tech kennis nodig: TomTom zat een tijdje in computer vision, en Blippar. Ze gingen er in (en ook weer uit) maar dan komt het wel weer van elders.
De kennisopbouw gaat ook niet vanzelf. Als ze afstuderen is er nog geen echt niveau. Ja wel voor een data-analist bij ING, bijvoorbeeld. Maar voor wetenschappelijk onderzoek naar een computer die zelf kan kijken, dan heb je nog eens drie tot vier jaar nodig: dat van een (bijna) gepromoveerde aio (assistent in opleiding).
Samenwerken loont. Bij de beste publicaties staan er vaak vier namen boven
In de kern van elke microscopische ontwikkeling, zijn er niet meer dan veertig mensen wereldwijd die echt op dit kleine onderwerp zitten. Dat zijn de kennisdragers waaraan je toepassingen en productie kunt hangen. Zonder die kennis zijn die producten er niet. Hun kennis sijpelt naar onderen door.’
Qualcomm en vertrouwen
‘Bij Qualcomm wisten ze niet zo gek veel van beeld. Wij wel. En zij wilden er meer over weten. De essentie is dat er vertrouwen is met Qualcomm. Ik denk dat het daar om gaat. Het verkrijgen van voldoende patenten is slechts een tijdelijk betaalmiddel. En de echte waarde ervan kun je pas tien jaar later beoordelen. Aan de andere kant bieden zij ook boter bij de vis. Dat is anders dan bij de meeste Nederlandse bedrijven. Qualcomm geeft voor het onderzoekslab 1 miljoen euro per jaar, waarmee wij kunnen bouwen en zoeken. Het is heel wel mogelijk dat ze na die periode weer weg gaan. Maar je bouwt hierdoor wel aan een ecosysteem, aan al die mensen die met dit onderwerp bezig en bedrijvig zijn. In Nederland. Een miljoen per jaar krijg je elders niet zo maar.
We kunnen niet precies zeggen waar we momenteel mee bezig zijn. Er is informatie op de website. De rest is nog geheim. Maar het gaat bijvoorbeeld om één plaatje te vinden tussen een hele stapels foto's. Of neem een beeldenreeks van een rijdende auto. Kan de computer zelf die auto dan midden in het beeld houden. Of kun je een video samenvatten? Het is kennis die later zijn weg zal vinden totdat beeldherkenning zit op alle mobieltjes.’
Geheimhouding
‘Geheimhouding in dit ecosysteem is niet anders dan voorheen. Je hebt een idee waar je onderzoek naar doet. Aanvankelijk is daar niets geheims aan. Maar wanneer de publicatie nabij komt, is er een periode dat je er niets over vertelt aan de buitenwacht om te voorkomen dat zij dat publiceren. Vaak is die periode dat je anderen kunt bevruchten met jouw idee een periode van twee, drie maanden. Daarna is er een publicatie en is de kennis openbaar. Als er patenten bij komen kijken, werkt het precies hetzelfde. Na twee maanden vraag je een patent aan en dan kun je er na drie maanden ook weer open over praten.
Samenwerken loont. Bij de beste publicaties staan er vaak vier namen boven. Niet veel meer. Maar ook niet minder. Buiten die kring van vier zou je de ideeën ook niet zomaar delen voorafgaand aan de publicatie met andere universiteiten, tenzij de betrokkene essentiële meerwaarde heeft. Na publicatie deel je met iedereen die het horen wil. Als het tegenzit zijn dat er weer vier en als het meezit vierhonderd.’
Overheid, markt en waardenvrij onderzoek
‘Dat de overheid meer economische eigendom van publiek onderzoek wil hebben, is goed te begrijpen. Het gaat om belastinggeld. Maar dan wil ik de overheid ook om een serieuze hoeveelheid geld voor onderzoek kunnen vragen. En dat is nauwelijks het geval. Met alle respect, maar geld was nauwelijks niet in zicht de afgelopen vijftien jaar. En, economische waarde komt. Heb geduld, heel veel producten van nu drijven op onderzoek van gisteren voor een promille van de huidige omzet.
De mening over waardevrij onderzoek is in de loop van de jaren ook veranderd. En over welke waarden hebben we het dan eigenlijk? Wat is maatschappelijk waardenvrij? Is waardenvrij dat de conclusies van onderzoek niet beïnvloed worden door het belang van een bedrijf? Terecht. Is waardenvrij dat niemand ervoor mag betalen? Dat gaat helaas niet lukken. Is waardenvrij dat niemand de vruchten mag houden? Dat begrijp ik niet want ik ken geen onderzoek waarbij later gebruik verboden is.
En dan heb je ook nog de nutsvraag: wat levert dat onderzoek ons op? Met Qualcomm hebben we helemaal geen discussies over de richting van onderzoek. We doen ons eigen onderzoek en ze zouden niet anders willen. We kunnen de nutsvraag bij ons onderzoek ook helemaal niet beantwoorden. Bij Qualcomm zijn ze daarin veel professioneler dan veel Nederlandse bedrijven. Tot zeven jaar geleden stelden die altijd direct de nutsvraag voorop.
Ik zie twee omslagpunten in het denken over de nutsvraag in ICT-onderzoek, de iPhone en het autonome autorijden. De iPhone heeft laten zien dat hoogwaardige technologie opeens voor een ieder benaderbaar kan zijn. En autorijden hebben we het hele leven gezien als iets dat we zelf als volwassene konden leren, en moeizaam ook. Het moet dus wel knap en begerenswaard zijn als je dat kan. Een verworvenheid. Voor mijn vader was autorijden het summum van zijn welvaartsstaat. Nu blijkt dat een machine het ook kan. Dit raakt de diepste emotie van de mensheid: de vrijheid. De computer komt in je persoonlijk leven en gaat op je tenen staan.’
Big data, kennis-ecosystemen en deep learning
‘Naast big data en het scheppen van een kennis-ecosysteem is ‘deep learning’ het grote thema van deze tijd. Je hebt data over een begintoestand, data over een eindtoestand en evaluatiecriteria. Dan kun je diep leren toepassen. Neem bijvoorbeeld beelden bij radiologie aan het begin, en de bijpassende diagnose aan het eind, of zelfs de therapie aan het eind. Een evaluatiecriterium is hoe fout de diagnose is, of, als therapie als eindpunt is gekozen, hoe goed de patiënt is na afloop. Bij diep leren hoef je niet meer te weten en in programma’s te vangen wat er komt kijken bij het goed diagnosticeren. Gegeven al die data zoekt de machine het zelf uit.
Voor diep leren heb je heel veel data nodig. Vaak heb je niet genoeg data tot je beschikking om dit te doen slagen. Dan ga je op zoek naar algoritmes die minder data nodig hebben. Het gaat er hier om wie de beste leeralgoritmes kan ontwikkelen. Ze zijn weerbarstig, ze kunnen ontsporen als ze te weinig data hebben. Dan leren ze niets.’
Amsterdam Data Science
‘UvA en de VU hebben in de ICT-wetenschap de wind mee. We hebben een grote naamsreputatie. Bij de algemene universiteiten komt de strategie vooral bottom-up tot stand. Daarom zijn algemene universiteiten vaak radicaler in hun onderzoek. Dat heeft voordelen en nadelen. Het contact met de bestuurlijke top is beperkt. Ze zijn vooral faciliterend. Ook dat heeft voordelen en nadelen. Wel is het klimaat definitief veranderd. We zullen hier meer nieuwe spin-offs krijgen, die inzetten op data.
Amsterdam heeft de reputatie dat ze een interessante stad is. Het is een internetknooppunt ook, de uitgevers komen hier vandaan, in Hilversum zijn ze bij Beeld & Geluid bijvoorbeeld ook toonaangevend met dataverzameling. Je ziet het ook bij allerlei medische projecten. Booking.com heeft weliswaar Twentse wortels, maar is toch vooral een Amsterdams bedrijf. De bevolking is heel erg in voor digitale experimenten zoals de krant lezen, betalen, en iets kopen. Die reputatie is een asset, ook om te benutten voor het aantrekken van bedrijven.
Op de achtergrond speelt mee dat we een goed georganiseerd land zijn, dat zit ook in de volksaard. En we bieden juridische zekerheid, bij data niet onbelangrijk. Kijk hoe we omgaan met de digitalisering van de belastingaangifte. Stel je voor: een land waarin de overheid vooraf vertelt wat ze over je weten bij je belastingaangifte. Dat kon niemand zich toch voorstellen vijftien jaar geleden? De burger voelt zich hier toch superveilig? En de overheid kennelijk ook.
Amsterdam Data Science speelt daarin een belangrijke rol. Als je drie trekkers hebt die het met elkaar uithouden, dan werkt het opeens negen keer zo hard. We zullen dit Amsterdamse ecosysteem verder exploiteren. Waarom zouden we dat moeten exporteren naar Google of Facebook?’
UvA-hoogleraar Max Welling over de samenwerking met Tata Steel.