Een zogenoemd Large Language Model kan zich met minimale begeleiding omvormen tot een deskundige astronomie-assistent. Met slechts vijftien voorbeeldafbeeldingen en een eenvoudige reeks instructies leerde het Gemini-model van Google om veranderingen aan de nachthemel, zoals supernova's, oplichtende zwarte gaten of snel bewegende planetoïden, te onderscheiden van beeldfouten. De nauwkeurigheid die het taalmodel haalde was ongeveer 93 procent, wat vergelijkbaar is met eerder gebruikte AI-modellen die veel meer training vergen.
Cruciaal is dat het gebruikte AI-model ook een duidelijke uitleg gaf voor elke classificatie. Dat is belangrijk om AI-gedreven wetenschap transparanter en betrouwbaarder te maken. “Het is opvallend dat een handvol voorbeelden en duidelijke tekstinstructies zo'n nauwkeurigheid kunnen opleveren”, aldus Fiorenzo Stoppa, co-hoofdauteur van de Universiteit van Oxford (VK).
Zeldzame signalen in een universum vol ruis
Moderne telescopen scannen de hemel onophoudelijk en genereren elke nacht miljoenen waarschuwingen over mogelijke interessante veranderingen. Sommige daarvan zijn echte ontdekkingen, zoals exploderende sterren, maar de meeste zijn valse signalen, veroorzaakt door langskomende satellieten, kosmische straling of de telescoop zelf.
Traditioneel vertrouwen astronomen daarom op gespecialiseerde machine learning-modellen om deze gegevens te filteren. Deze systemen werken echter vaak als een ‘black box’ en geven een eenvoudig label ‘echt’ of ‘vals’ zonder aan te geven hoe ze aan dit resultaat komen. Wetenschappers moeten ofwel blindelings vertrouwen op de output, ofwel talloze uren besteden aan het handmatig verifiëren van duizenden kandidaten. Dat laatste wordt onmogelijk bij de volgende generatie telescopen die nog meer gegevens produceren, zoals het Vera C. Rubin Observatory in Chili.
Het onderzoeksteam wilde weten of een AI-model zoals Gemini – ontworpen om tekst en beelden samen te begrijpen – de nauwkeurigheid van gespecialiseerde modellen kan evenaren én kan uitleggen wat het ziet.
Het team gaf Gemini vijftien gelabelde voorbeelden van drie observatoria (ATLAS, MeerLICHT en Pan-STARRS). Elk voorbeeld bevatte een kleine afbeelding van een melding, een referentieafbeelding van hetzelfde stukje hemel en een afbeelding waarop de verandering te zien was, samen met een korte toelichting van een expert. Alleen op basis van deze paar voorbeelden en beknopte instructies classificeerde het model vervolgens 7200 nieuwe meldingen van de observatoria. Het gaf een label (echt of vals), een prioriteitsscore en een korte, leesbare beschrijving van zijn beslissing.