We zijn heel erg afhankelijk geworden van grote zoekmachines (Google, Bing, Yahoo, etc.) om informatie te vinden en het gigantische internet te navigeren. Verder krijgen we dagelijks tientallen suggesties van aanbevelingssystemen over nieuws, filmpjes, muziek en producten om te lezen, kijken, luisteren of kopen. Het is voor zowel gebruikers, als bedrijven die er geld mee verdienen, heel belangrijk dat deze systemen goed werken. Dit project is gebaseerd op het onderzoek van Harrie Oosterhuis naar een betere methode voor zoekmachines en aanbevelingssystemen. In het project maken leerlingen kennis met de werking van zoekmachines en aanbevelingssystemen, zonder gebruik te maken van een computer. Daarbij ontdekken ze antwoorden op de volgende vragen:
- Hoe weten zoekmachines naar welke van de miljarden webpagina's jij op zoek bent?
- Hoe doen ze dat binnen milliseconden?
- Hoe komt een aanbevelingssysteem erachter wat jij leuk vindt?
- Wanneer is dit makkelijk of moeilijk?
- Wat zijn de nadelen van deze grote systemen?
- En kunnen we eigenlijk wel zonder?
Het project in de klas
Het project ‘Zoekende computers’ bestaat uit een aantal activiteiten die in de klas zullen worden uitgevoerd en die inzicht geven over hoe internetzoekmachines en aanbevelingssystemen werken. Aanbevelingssystemen zijn de programma’s die ervoor zorgen dat je op websites en in apps als YouTube, Netflix en TikTok bepaalde suggesties krijgt voorgeschoteld.
Na een inleiding door Harrie Oosterhuis, maken leerlingen eerst kennis met zoekmachines. Niet door achter de computer te kruipen, maar door handmatig informatie te zoeken. Op deze manier ontdekken ze hoe moeilijk het is om, in een berg ongeordende informatie, de gewenste informatie te vinden. In een volgende stap zoeken leerlingen weer naar informatie, maar nu kunnen ze gebruik maken van indexen, iets dat zoekmachines ook gebruiken bij het zoeken naar informatie.
De volgende stap is het nabootsen van aanbevelingssystemen. Nadat de leerlingen het verschil tussen zoekmachines en aanbevelingssystemen is uitgelegd, gaan ze een aanbevelingssysteem nabootsen. Dit doen ze door bij elkaar te proberen een voorkeur vast te stellen op basis van eerdere keuzes, net zoals aanbevelingssystemen dat doen. Daarbij maken ze kennis met verschillende principes die computers ook gebruiken om aanbevelingen te maken.
Tussen de activiteiten door wordt steeds de parallel tussen de activiteiten en computers besproken en uitgelegd. Door op deze manier juist buiten de computer om kennis te maken met de principes waar de computer mee werkt, krijgen leerlingen inzicht in hoe processen in de computer werken.
Over het onderzoek van Harrie Oosterhuis
Zoekmachines en aanbevelingssystemen gebruiken ‘machine learning’ methoden om te leren van het gedrag van gebruikers, zodat ze zich automatisch aanpassen naar hun voorkeuren. In essentie werken deze zelflerende methodes als volgt: ze kijken naar hele grote datasets met heel veel voorbeelden van keuzes die gebruikers gemaakt hebben, en proberen hier patronen in te herkennen. Bijvoorbeeld, door te kijken naar welke series Netflix gebruikers hebben gekeken, en vervolgens te herkennen welke eigenschappen van de gebruiker en serie vaak samen gaan. Zo probeert het systeem te voorspellen of een serie en een gebruiker een goede match zijn. Hoe accurater deze voorspelling, hoe beter de aanbevelingen van de service zullen zijn.
De uitdaging voor het leren van gebruikersgedrag is dat dit wordt beïnvloed door heel veel factoren die niets met voorkeur te maken hebben. Er kunnen meerdere reden zijn dat iemand product X koopt en niet Y. Het kan zijn dat iemand daadwerkelijk een voorkeur heeft voor product X, maar het kan ook zijn dat product X vaker is aanbevolen of dat product Y zelfs helemaal niet is getoond. Vaak zegt gebruikersgedrag dus meer over welke aanbevelingen werden gedaan of wat voor zoekresultaten werden weergegeven (presentatie factoren), dan de werkelijke voorkeuren van gebruikers (effect van voorkeuren).
De onderzoeksrichting van Harrie Oosterhuis gaat over het scheiden van het effect van voorkeuren en van presentatie-factoren (dus de rol van aanbevelingen en zoekresultaten) op gebruikers. Hier waren twee aanpakken gebruikelijk: een frequentie-methode en een regressie-methode. De frequentie-methode kijkt naar hoeveel gebruikers op een item klikken. Vervolgens wordt op basis van diverse gegevens geschat hoeveel gebruikers hebben overwogen op het betreffende resultaat te klikken. Op basis daarvan wordt weer gekeken welk percentage gebruikers zou klikken als alle gebruikers het item zouden overwegen. Bijvoorbeeld, 12% van de gebruikers heeft op een zoekresultaat geklikt, maar omdat het onder aan de lijst staat denken we dat maar 40% het heeft overwogen. De frequentie-methode corrigeert voor de 60% missende gebruikers en schat in dat 30% van alle gebruikers een voorkeur heeft voor het resultaat (12% van 40% is 30%). De eigenschap-methode kijkt naar bepaalde eigenschappen van het resultaat, bijvoorbeeld hoeveel woorden van de zoekopdracht in het resultaat voorkomen, en schat op basis daarvan in hoe veel gebruikers gaan klikken. Harrie Oosterhuis heeft een manier bedacht die beide aanpakken combineert, door zowel naar de klikfrequentie als de eigenschappen van resultaten te kijken. Wat de nieuwe methode uniek maakt is dat het wiskundig onderbouwd is, waardoor bewezen kan worden dat de methode gegarandeerd het goede antwoord geeft als er genoeg data beschikbaar is (onder bepaalde aannames).
Doordat de nieuwe methode veel minder data nodig heeft dan de oude methodes, is deze ook goed te gebruiken door kleinere bedrijven die nog niet veel gebruikers hebben. Maar ook grote tech-bedrijven hebben er veel baat bij, zij kunnen zich sneller aanpassen naar gebruikersvoorkeuren, doordat ze veel efficiënter kunnen leren van hun klanten.