Puheteknologian mahdollisuudet

nainen antaa äänikomennon älylaitteelle

Puheteknologian hyödyntäminen niin arki- kuin työelämässä yleistyy jatkuvasti. Kotona puhelinta voi ohjata äänellä soittamaan tietylle henkilölle, vaikkapa valoja voi ohjata puhekäskyin ja yhä useamman kodinkoneen kytkeytyessä verkkoon, puheteknologian käyttömahdollisuudet vain lisääntyvät - puhutaankin jo älykodeista. Puheentunnistus esimerkiksi komentotunnistuksen muodossa parantaa myös ohjelmien ja jopa arkiaskareiden saavutettavuutta, kun laitteita voi ohjailla puheella.

Puheentunnistuksessa kone tunnistaa puheen ja kääntää sen tekstiksi. Tällöin koneelle on opetettu tunnistettava kieli sääntöineen suurten ääni- ja tekstiaineistojen avulla. Suomea ja muita rikkaasti taipuvia kieliä pidetään tästä näkökulmasta haastavia, toisin kuin esimerkiksi englantia, jossa sanat eivät juuri taivu, jolloin niiden opettaminen koneelle on suoraviivaisempaa. Lingsoftin kehittämä kielen rakenneanalyysi ja siihen perustuva puheentunnistusratkaisu kuitenkin osoittavat, että suomi ja teknologia sopivat hyvin yhteen.

Puheentunnistusta varten koneelle opetetaan kieltä tietynlaisilla aineistoilla: esimerkiksi terveydenhuoltoon räätälöitävää puheentunnistusta opetetaan nimenomaan monipuolisilla terveydenhuoltomateriaaleilla, jotta kone oppii, mitkä sanan osat esiintyvät tyypillisesti missäkin yhteydessä. Tällainen erityistarpeisiin suunnattu puheentunnistus ei välttämättä toimi ihanteellisesti muilla erikoisaloilla, mutta omalla alallaan sen tulokset ovat erittäin tarkkoja.

Lingsoftin puheentunnistus pohjautuu omaan kielen rakenneanalyysiimme, jonka avulla koneelle voidaan opettaa kielen taivutus- ja sananmuodostussäännöt. Tällöin jokaista sanaa ei tarvitse opettaa koneelle erikseen, vaan kone oppii hahmottamaan sanan osat, sanojen rajat esimerkiksi yhdyssanoissa ja tunnistamaan sanat myös taipuneessa muodossa.

Puheentunnistus työn tukena

Puheentunnistusteknologia mahdollistaa esimerkiksi tekstittämisen hyvinkin tiukalla aikataululla. Tiedonvälityksen täytyy usein olla erittäin nopeaa ja samalla saavutettavaa, jolloin tekstitykset videomateriaaleihin ja tekstiversiot äänisisältöihin tulee saada tarjolle viipymättä. Esimerkiksi Ruotsin televisiolle SVT:lle tehty puheentunnistusmalli sääennusteita varten tuotti erinomaisia tuloksia ja mallin tuottama teksti oli virheettömämpää kuin ihmisen tuottama.

Puheentunnistusteknologioiden kehittämiselle on suuria tarpeita, sillä esimerkiksi suorien tv- ja nettilähetysten reaaliaikainen tekstittäminen on hyvin haastavaa. Livetekstitykseen ja samankaltaisiin haasteisiin vastaavat ratkaisut ovat merkittävä askel kohti saavutettavampaa maailmaa. Lingsoftilla kehitystyö on uutteraa ja reaaliaikaiset puheentunnistusratkaisut yhä lähempänä.

Puheentunnistus toimii tehokkaana muistin tukena, nopeuttaa tekstien tuottamista ja vapauttaa työaikaa muuhun. Esimerkiksi kokousmuistion puhtaaksi kirjoittamista nopeuttaa huimasti se, että puheentunnistusohjelma luo raakatekstin, joka vaatii vain viimeistelyä. Samalla kaikki osallistujat voivat osallistua kokoukseen täysipainoisesti. Puheentunnistusta hyödynnetään myös terveydenhuollossa sanelunpurussa.

Puheentunnistuksen avulla laajoistakin ääniaineistoista saadaan tekstimuotoista dataa, jota on helpompi käsitellä ja järjestellä. Tällöin tiedon löydettävyys paranee merkittävästi. Löydettävyysratkaisuilla voidaan parantaa tietoturvallisuutta, sillä arkaluontoiset ja suojattavat tiedot, vaikkapa henkilötiedot, löytyvät nopeammin ja ne voidaan anonymisoida tai poistaa tietosuojavaatimusten mukaisesti. Käyttöön tarvittava tietoon puolestaan voidaan liittää metadataa työskentelyä helpottamaan.