Terug

Update SASTA-project

Wat is het SASTA-project?
SASTA is de afkorting van Semi Automatische Spontane Taal Analyse. Namens de VKL heeft een kleine werkgroep samen met Jan Odijk van Universiteit van Utrecht (UU) gewerkt aan de ontwikkeling van een automatisch ontleedprogramma van spontane taal. Dit programma is zowel geschikt voor het ontleden van afwijkende kindertaal als van afwijkende taal van volwassenen met afasie. In de werkgroep zitten Nina Blom, Elsbeth Boxum, Rob en Margo Zwitserlood en Barbara Wegener Sleeswijk. Daarnaast heeft een aantal klinisch linguïsten meegeholpen op afstand.

Waarom is het SASTA-project opgezet?
Jan Odijk, hoogleraar Spraak- en Taaltechnologie van de UU, heeft met zijn onderzoekers het GRETEL programma ontwikkeld waar de ‘Alpino parser’ onderdeel van is. Dit gratis beschikbare online programma was echter niet geschikt voor samples met afwijkende taal. Taalwetenschappers, klinisch linguïsten en logopedisten hebben behoefte aan een automatisch ontleedprogramma. Dergelijke programma’s bestaan al langer voor het Engels, maar niet voor het Nederlands. Waar in Nederland nog handmatig wordt ontleed, kan spontane taal in het Engels met het programma CLAN (KidEval) al automatisch ontleed worden. Voordelen van een automatisch ontleedprogramma zijn tijdswinst, het bevorderen van uniformiteit, kwaliteitsverbetering en minder analysefouten. Bijkomende mogelijkheden zijn: datagebruik voor wetenschappelijk onderzoek en makkelijker kennis delen tussen klinisch linguïsten, logopedisten en taalwetenschappers.

Wat is er tot nu toe gebeurd?
Om een goed werkend programma te ontwikkelen waren verschillende stappen nodig. De eerste stap bestond uit een keuze maken tussen verschillende spontane taalanalysen voor kindertaal. Er is gekozen voor TARSP en STAP. Voor volwassenen is er de ASTA.  Daarna heeft de werkgroep van elke analysemethode 5 samples bewerkt een aangeleverd als Word en Excel files. De programmeurs van de UU leerden het GRETEL programma hiermee de grammaticale complexiteit te analyseren volgens de verschillende analysemethoden. Daarna is eenzelfde hoeveelheid samples aangeleverd om te controleren of het programma goed werkt. Dit leverde allerlei fouten, vragen en discussiepunten op waar oplossingen voor werden gezocht. Die zijn weer verder verwerkt.

Weten anderen er ook al van?
Ondertussen zijn er verschillende presentaties en publicaties geweest over ons project. In het themanummer van het tijdschrift Dixit, december 2019, over Taal- en Spraaktechnologie en gezondheidszorg (https://notas.nl/dixit/magazines) staat een artikel over het SASTA-project van Jan Odijk en Rob Zwitserlood. Op de TOK-dag, 13 november 2019, presenteerde Jan een poster over het project en Jan en Rob presenteerden over SASTA tijdens de Grote Taaldag op 31 januari 2020.

Wat zijn de vervolgstappen?
De projectgroep zal binnenkort bekijken of de semi-automatische ontleedmethode voor de drie methodes even geschikt is. We gaan ook kijken hoe we tot een gebruiksvriendelijke versie kunnen komen.