Brussels Digital Text Lab (B-TXT) bouwt eigen taalapplicaties
Taalwetenschappers die gebruikmaken van een supercomputer – nog niet zolang geleden keek je daar misschien raar van op. Maar intussen leven we in het AI-tijdperk, waarin populaire taalmodellen als ChatGPT de wereld op zijn kop hebben gezet. Sara Budts en Yoshi Malaise van het Brussels Digital Text Lab (B-TXT) doen er hun voordeel mee.
B-TXT is in mei 2025 opgericht om ondersteuning te bieden aan technisch minder onderlegde onderzoekers die met grote hoeveelheden taalmateriaal werken. Taalkundige Sara Budts en computerwetenschapper Yoshi Malaise ontwikkelen samen tools die vorsers uit de taal- en humane wetenschappen helpen om hun onderzoek uit te voeren. En dat doen ze bij voorkeur op de eigen infrastructuur van de universiteit. “Ten eerste omdat commercieel beschikbare varianten vaak niet volstaan,” legt Malaise uit. “Die zijn gemaakt om bijvoorbeeld rapporten samen te vatten of om facturen te herkennen en ervoor te zorgen dat ze op de juiste dienst terechtkomen. Met middeleeuwse teksten kunnen die zelden iets aanvangen. Daar bestaan wel commercieel beschikbare alternatieven voor, maar die zijn op zich al vrij duur en bovendien betaal je daarbij ook vaak voor het gebruik van de servers. Met de gigantische hoeveelheden datasets die nodig zijn voor veel onderzoeksprojecten wordt dat quasi onbetaalbaar. Dat is niet te verantwoorden als je zelf over krachtige en goed werkende servers beschikt.”
Kinderstemmen
“Veel onderzoekers werken met stemopnames en ook daar hebben mainstream tools het vaak erg moeilijk – denk maar aan opnames van kinderstemmen bijvoorbeeld,” vervolgt Budts. “Daar zijn die tools niet voor geoptimaliseerd – iets waar wij ons dan wel op kunnen toeleggen. In zulke gevallen is er nog een tweede goede reden om op lokale servers te werken. Als je met kinderen werkt, worden er doorgaans heel strenge afspraken gemaakt inzake privacy. Online applicaties waarbij je niet precies weet wat er met de ingevoerde data gaat gebeuren kun je in zo’n geval niet gebruiken.”
Budts en Malaise richten zich voornamelijk op onderzoekers uit faculteiten als pedagogie, sociale en politieke wetenschappen, geschiedenis en taal- en letterkunde – niet meteen richtingen die je met state-of-the-art computertechnologie associeert. Onterecht, vindt Budts. “De vakgroep geschiedenis heeft bijvoorbeeld net een zogenaamd citizen science-project afgerond waarbij gewone burgers grote hoeveelheden getuigenverslagen van de Brugse politie uit de achttiende en negentiende eeuw hebben getranscribeerd. Die zijn nu digitaal beschikbaar, waardoor wij die kunnen gebruiken om een open source model te bouwen dat quasi zelfstandig foto's van historische documenten kan digitaliseren. Daarmee kunnen ook andere onderzoekers of archiefinstellingen vervolgens hun eigen materiaal gemakkelijk toegankelijker maken. Dat zijn zaken waar de Tier1 supercomputer zijn nut kan bewijzen omdat die op heel korte tijd enorme hoeveelheden data – in ons geval teksten – kan verwerken. De applicaties die we op die manier ontwikkelen, draaien nu vaak op de Tier2 supercomputer, een wat ouder model dus.”
Voelen Budts en Malaise zich dan geen buitenbeentje binnen de gebruikers van de Tier1? “Ik heb het gevoel dat ze ons graag zien komen,” lacht Budts. “Onze aanwezigheid toont aan dat ook niet-technische onderzoeksgroepen nood hebben aan snelle rekenkracht – en in staat zijn om die efficiënt in te zetten.”
Sara Budts studeerde Taal- en Letterkunde aan de KULeuven, maar schreef haar masterthesis over Artificial Intelligence voor de UAntwerpen. Momenteel is ze postdoctoraatonderzoeker aan de VUB en werkt ze bij B-TXT, waar coördineren, adviseren en applicaties ontwikkelen tot haar takenpakket behoren.
Yoshi Malaise studeerde Computerwetenschappen aan de VUB en is verantwoordelijk voor de technisch ondersteuning: ervoor zorgen de apparatuur en applicaties goed draaien, maar bijvoorbeeld ook inschatten hoeveel rekenkracht er nodig is voor de ontwikkeling van de tools en de modellen die ze bij B-TXT voor ogen hebben.