Ny teknologi fra Google: Software kan udvælge et enkelt talesignal i en hel folkemængde

  Af Mikkel Schramm

Google er på vej med en helt ny teknologi, der på afstand kan adskille tale fra støj, hvilket kan være en ”game changer” indenfor høreapparater

Google forskere har udviklet en ny teknologi, der kan isolere én talers stemme i en støjkakofoni. "Cocktail party effekten" - evnen til at dæmpe alle stemmer i en skare og fokusere på en enkelt persons stemme - kommer nemt til mennesker, men producenter af høreapparater har haft svært ved det.

Høreapparater hjælper HørNu’s medlemmer med at høre bedre, men gennem den statistik, som vi har til rådighed, kan vi se, at det scenarie, hvor høreapparatbrugere er mindst tilfredse med sine høreapparater, er netop til store selskaber, hvor der er meget støj fra mange personer der taler. Et scenarie, hvor såkaldt taleseparation, er en hård nød at knække. Men nu har Googles forskere indenfor AI (Artificiel Intelligence) måske en del af løsningen i form af, det som forskerne kalder en ”deep-learning audio-visual model”, som kan isolere tale fra en blanding af lyde. Google demonstrerer teknologien ved at lade to talere, der står ved siden af hinanden, tale højlydt samtidigt. Det virker ret overbevisende, men teknikken er ikke blevet bevist i en ”den virkelige verden”. Her på redaktionen har vi studeret en video, hvor de to talere anvender samme lydspor. Den globale IT formidler, ZDNet, har lagt en video på deres hjemmeside, og har du lyst til at se og høre det selv, så tjek deres video på nettet.

Forskerne nævner ikke Googles briller i deres dokumentation, men bemærker, at teknikken kan være til hjælp til høreapparatbrugere i scenarier, hvor der er flere talere til stede. Den kan også hjælpe ved videokonferencer og med forbedring og genkendelse af tale i videoer. Vi tror derfor, at den nye teknologi skal kombineres med Google Glasses, så man visuelt udpeger, hvem det er, man ønsker at høre. Nøglen til deres tale-separationsteknik er således at bruge visuelle signaler. Det kan eksempelvis være en persons mund, der taler, hvorefter brillerne matcher talerens mund med de lyde, han eller hun laver, og dermed får talesignalet identificeret og forstærket.

Inbar Mosseri og Oran Lang fra Google Research bekræfter vores antagelse: ”Alt hvad der kræves af brugeren er at vælge personens ansigt i den video, de vil høre. Det visuelle signal forbedrer ikke kun taleseparationskvaliteten betydeligt i tilfælde af blandet tale sammenlignet med taleseparation ved hjælp af lyd alene, som vi demonstrerer i vores forskning. Men i vores forsøg er signalet forbundet med adskilte, rene tale-signaler fra de synlige talere,” fortæller de to forskere. Googles forskere har også brugt teknikken til at slette baggrundsstøj fra en person, der taler på en støjende cafe, og hvis teknologien fungerer, vil det kunne producere en meget klarere lyd til høreapparatbrugere. Det ”brille-visuelle” høreapparat er sandsynligvis et stykke ude i fremtiden, men Googles anvendelse af teknikken til talegenkendelse giver håb om, at det bliver muligt.

For at skabe taleseparationsmodellen så forskerne tusindvis af talende videoklip på YouTube for at skabe "syntetiske cocktailpartier", og disse udgjorde grundlaget for udviklingen af data‘en til teknologien. Forskerne mener, at teknikken vil have en lang række muligheder, og de kigger i øjeblikket på, hvor det kan integreres i Google-produkter. Indenfor høreapparatbranchen er det interessant, da der længe har svirret rygter om, at Google ønsker at udvikle et decideret høreapparat. HørNu følger selvsagt udviklingen med spænding.

Tilføj en kommentar

Din e-mail adresse vil ikke blive offentliggjort. Krævede felter er markeret *

Seneste Nyheder