Digitalisaation kieli on rakenteista

Tuotamme valtavia määriä tietoa, jonka elinkaari jää usein lyhyeksi. Vaivalla tuotettu teksti siiloutuu eri järjestelmiin, eikä halutun tiedon löytäminen niistä ole helppoa. McKinseyn tutkimuksen mukaan jopa 19 % tietotyöläisten työajasta kuluukin tiedon etsimiseen.

Tiedon siiloutumisen lisäksi myös tiedon muoto tuottaa ongelmia: tuotamme tietoa enimmäkseen ihmissilmälle sopivassa muodossa, vapaana tekstinä. Rakenteistamattoman tiedon automaattinen käsittely on varsinkin suomen ja muiden rikkaasti taipuvien kielten kohdalla vaikeaa. Lingsoftin teknologian ansiosta on mahdollista Lingsoftin teknologian ansiosta haluttu viesti voidaan ilmaista vapaana tekstinä ja muuntaa se koneluettavaan muotoon kielen rakenneanalyysin avulla.   

Metatieto parantaa löydettävyyttä

Kielen digitalisointi ei tarkoita vain kynän vaihtamista näppäimistöön, vaan tekstejä tulee voida rakenteistaa ja rikastaa. Ei kuitenkaan riitä, että teksti jaetaan otsikoihin ja kappaleisiin, kuten esimerkiksi nykyisissä potilastietojärjestelmissä. Yksi mahdollisuus kielen digitalisointiin ja tiedon löydettävyyden parantamiseen on tekstien indeksointi, jossa dokumentteja rikastetaan yksityiskohtaisella metadatalla, tiedolla tiedosta. Olemme esimerkiksi analysoineet ja rikastaneet Varsinais-Suomen sairaanhoitopiirin kaiken sähköisen potilaskertomustiedon – yli 250 miljoonaa tekstiä – sana sanalta.

Tuloksena on, että hakukone löytää moninkertaisen määrän dokumentteja, jossa hakusana esiintyy taivutetussa muodossa tai osana yhdyssanaa. Hakutuloksia voidaan pisteyttää haluttujen kriteerien mukaan ja huomioida yksittäisten sanojen lisäksi kokonaisten tekstien samankaltaisuuksia. Samoin voidaan valita, mitä ei haluta löytää, jolloin liian yleiset ilmiöt eivät haittaa hakua.

Lähemmäs inhimillistä ymmärrystä

Kielellisen tiedon lisäksi indeksoinnissa sanoihin voidaan lisätä myös semanttisista tietoa, eli tietoa sanojen merkityksistä. Monet ratkaisuistamme hyödyntävät ontologioita, joissa on kuvattu käsitteiden välisiä suhteita koneluettavassa muodossa. Tietojenkäsittelytieteessä ontologiat pyrkivät mallintamaan maailmaa ihmisten kokemalla tavalla. Ontologioiden avulla onkin mahdollista nähdä sanatason taakse: ontologiassa tupakka on nautintoaine, joka liittyy nikotiiniin, joka on puolestaan kemiallinen yhdiste. Vastaavasti iPhone on älypuhelin, joka on matkapuhelin, joka on mobiililaite ja muiden käsitetasojen jälkeen lopulta eloton, fyysinen objekti. Tämä kaikki tieto on meille arkipäiväistä, mutta koneelle se on tavalla tai toisella opetettava.  

Julkisten Finto-ontologioiden avulla toteutettu asiasanoitus tekee tiedosta yhteensopivaa eri organisaatioiden ja yksilöiden välillä. Ontologioiden avulla on mahdollista asiasanoittaa jo kertyneitä suuria tekstiaineistoja, kuten kokonaisia arkistoja, nopeasti ja objektiivisesti. Asiasanoitus pidentää tiedon elinkaarta ja käytettävyyttä, kun yksittäiset dokumentit ovat helpommin löydettävissä. Samalla voidaan myös havaita eri käsitteiden ja ilmiöiden välisiä yhteyksiä ja suhteita. Semanttisen webin teknologiat ja niiden avulla linkitetty data tekevät tiedosta puolestaan maailmanlaajuisesti yhteensopivaa.

Arvoa asiakastarpeen mukaan

On vain määrittelykysymys, mitä muita ilmiöitä ja elementtejä voimme teksteistä löytää. Esimerkiksi EU:n tietosuoja-asetus (GDPR) teki ajankohtaiseksi nimien ja muiden tunnistetietojen etsimisen ja anonymisoinnin teksteistä, mikä onnistuu Lingsoftin ratkaisujen avulla. Asiakaspalautteesta voidaan puolestaan määritellä palautteen sävy tai aihepiiri, potilasdokumentaatiosta tunnistaa potilaalle tehdyt toimenpiteet ja keskustelupalstoilta seuloa loukkaavat viestit. Asiakkaan tarve ratkaisee sen, mitä teksteistä lähdetään analysoimaan ja mistä ratkaisun arvo syntyy.