Geen ontsnapping mogelijk dankzij spraak- en beeldherkenning


Computers hebben nog altijd grote moeite met feilloze automatische spraakherkenning. Onder meer een experiment op een Nederlands perron zorgt voor een doorbraak.

Computers weten nu ook wat boos zijn is.

Het menselijke oor is over het algemeen prima in staat om de stem van een gesprekspartner uit een brij van bijgeluiden te halen. Een computer kan dat nog niet zo goed. Vooral gesprekken van andere mensen zijn stoorzenders omdat een spraakherkenner ook die als spraak proberen te verwerken. Gevolg: abracadabra.

Dirkjan Krijnders promoveert vandaag op onderzoek naar spraakherkenning aan de Rijksuniversiteit Groningen (faculteit van wiskunde en natuurwetenschappen, afdeling Kunstmatige Intelligentie). Hij ontwikkelde een model voor computers om ‘hoofdspraak’ van ‘bijspraak’ te onderscheiden. In het model van Krijnders wordt geluid opgedeeld op basis van verschillende fysische processen, zo lezen we in het persbericht. ‘Elk proces wordt apart verwerkt en van elk proces wordt een aantal cruciale kenmerken vastgesteld. Op basis van deze kenmerken wordt vervolgens gezocht naar bekende voorbeelden die vergelijkbare kenmerken hebben. Zo kan de computer bepalen wat de bron is van welk geluid.’

Gesnapt!
Om de theorie te testen verzamelde Krijnders verschillende opnamen. Een opnamelocatie betrof een perron dat gewoon in gebruik was en waar vier acteurs diverse scènes speelden. Het ging onder meer om een normale begroeting en agressief gedrag van voetbalhooligans. Om bijvoorbeeld agressie automatisch te detecteren bleek de combinatie met een videodetectiesysteem van de Universiteit van Amsterdam (op basis van de hoeveelheid beweging in het beeld) tot de beste resultaten te leiden. Het aantal ‘goede’ alarmsignalen nam toe van 45 procent voor alleen geluid en 67 procent voor alleen video, tot 78 procent (zonder een toename van het aantal valse signaleringen).

Zo kun je agressie in trein of metro ook oplossen…

Het onderzoek van Krijnders valt onder het ToKeN-programma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek. ToKeN is een interdisciplinair onderzoekprogramma waarin cognitiewetenschap en informatica zich richten op fundamentele problemen van de interactie tussen een menselijke gebruiker en kennis- en informatiesystemen. Krijnders werkt inmiddels bij het onderzoeksinstituut INCAS3 als postdoc.

Beeld: Rickydavid

Follow Faqtman on Twitter