Google päivittää äänihaun takana olevaa tekniikkaa, jotta se olisi nopeampaa ja tarkempaa

Google on rakentanut uuden tekniikan äänenhaun tehostamiseksi, mikä yrityksen mukaan tekee siitä vielä nopeamman ja tarkemman. Uusi tekniikka käyttää Connectionist Temporal Classification (CTC) ja sekvenssierotteluharjoitustekniikoita. Vuonna 2012 Google siirtyi Gaussian Mixture Model (GMM): stä Deep Neural Networksiin (DNN), mikä antoi yritykselle mahdollisuuden arvioida paremmin, minkä äänen käyttäjä tuotti tuolloin, ja toimitti entistä paremman puheentunnistustarkkuuden.

Parannetut akustiset mallimme tukeutuvat toistuviin hermoverkkoihin (RNN). RNN: ien topologiassa on palautussilmukoita, joiden avulla ne voivat mallintaa ajallisia riippuvuuksia: kun käyttäjä puhuu / u / edellisessä esimerkissä, heidän nivellaitteisto tulee / j / ääni ja / m / ääni ennen. Kokeile sanoa se ääneen - "museo" - se virtaa luonnollisesti yhdellä hengityksellä, ja RNN: t voivat vangita sen. Tässä käytetty RNN-tyyppi on pitkä lyhytaikainen muisti (LSTM) RNN, joka muistisolujen ja hienostuneen porttimekanismin avulla muistaa tiedot paremmin kuin muut RNN: t. Tällaisten mallien käyttöönotto paransi jo tunnistimen laatua huomattavasti.

Google on tehnyt muutoksen tekniikkaan, ja sitä käytetään nyt tehostamaan äänihakuja Google-sovelluksessa sekä iOS: lla että Androidilla sekä sanelulle Android-laitteilla.

Lähde: Google Research Blog