- 13.10.2016

Microsoft Cognitive Services ja intranetin metadatanhallinta

Microsoft on jo vuosien ajan kehittänyt erilaisia keinoälysovelluksia ja tarjonnut osaa niistä myös ulkopuolisille kehittäjille erilaisten rajapintojen kautta. Olen itse seurannut erityisellä kiinnostuksella Project Oxfordia, joka sittemmin uudelleennimettiin Microsoft Cognitive Services -palveluksi.

Tämän vuoden Microsoft Ignite -tapahtumassa saimme kuulla Cognitive Servicesin olevan muun muassa Uberilla jo ihan tuotantokäytössä. Työkalupaletti täydentyy ja edistyy muutenkin aimo harppauksin – vain joitakin kuukausia sitten ainakin Twitteriä järisytti hämmentävän hyvin toimiva Caption Bot, joka perustuu kuvien sisällön, merkityksen ja kuvissa mahdollisesti esiintyvien ihmisten tunnetiloja. Kaiketi mainita voi Tay-botinkin, joka kävi Twitterissä keskusteluita ja omaksui varsin nopeasti asenteita ja fraaseja keskustelukumppaneiltaan – mikä ei ehkä ollut täysin toivottu mekanismi.

Vähemmälle huomiolle on jäänyt, kiistämättä huomattavasti vähemmän mediaseksikäs, mutta kaikessa hiljaisuudessa varsin pitkälle kehitetty Text Analysis -rajapinta. Rajapinnan kautta voidaan analysoida pitkiä tai lyhyempiä tekstejä tai tekstimassoja, ja saada tuloksena syötettyjen tekstien sävy (sentiment), avainsanat (key phrases), aiheet (topics) ja käytetty kieli (language). Tekstianalyysi ei toimintakenttänä ole läheskään yhtä räiskyvä tai pinnalla kuin vaikkapa asiakaspalvelua hoitavat botit, mutta senkin teknologian kehittyminen avaa uusia mahdollisuuksia organisaatioille toimialasta riippumatta.

Aiheiden parsiminen pitkistä teksteistä

Microsoft on kehittänyt tekstistä aiheita (topics) varsin hyvällä tarkkuudella parsivan sovelluksen, jolle voi syöttää varsin massiivisiakin tekstimääriä analysoitavaksi, ja paluupostina saa vastaukseksi Microsoftin näkemyksen mukaan tekstin olennaisimmat aihepiirit. Rajapinnan taustalla lienee ajatus useiden lyhyiden ja keskenään samankaltaisten tekstien yhteisten teemojen analysointi (esimerkiksi keskustelupalstan tekstit, tuote-arvostelut tai tietyllä tunnisteella varustetut twiitit), mutta sopivasti käytettynä rajapinta kelpaa myös avainsanojen hakemiseksi pitkistä tekstidokumenteista.

Tätä piti ihan kokeilla. Toimivia sovelluksia tai web-palveluita on vielä vähänlaisesti, joten otin iltasella näppäimistön kauniiseen käteen ja väsäsin asiakasohjelman, jolla voi syöttää palvelulle sopivasti muotoiltua dataa. Otin ensimmäisiksi kokeilun aiheiksi mainion e-bookimme, ja kyselin Microsoftilta, mitkä lienevät olennaisimpia teemoja materiaalisamme.

sime-image004

Vastaavat tulokset varsin tekniselle asennusmateriaalillemme:

sime-image005

Osumatarkkuus oli jo varsin kohtalainen, eikä analyysi suinkaan perustunut siihen, mitä sanoja materiaalissa olisi eniten, vaan myös lauseyhteys merkitsi.

Ei ole yksi eikä ensimmäinen asiakas, jolla dokumenttimassa on hurja, ja metadata puuttuu tai on vanhentunutta, ja sisällöntuottajia on hankala motivoida talkoisiin sisällön metadatojen päivittämisessä.

Testeissäni olennaisimmat tuotteiden nimet nousivat tuloksissa korkealle (mikä sopii hyvin esimerkiksi metadatan käyttöön).

Tuote, tästä vielä vähän kehittyessään, soveltuisi jo esimerkiksi massiivisessa migraatiossa verkkolevyiltä SharePointiin – alustava metadata voitaisiin lisätä lennosta koko dokumenttimassaan, ja säästää sisällöntuottajat työläältä, manuaaliselta metadatan lisäämiseltä. Azureen asennettuna sovellus voisi myös käydä SharePointissa jo olevaa dataa läpi vähitellen, jolloin työvaihetta ei suinkaan tarvitse ajoittaa migraation yhteyteen.

Mitä seuraavaksi?

Ihan ei olla vielä siinä tilanteessa, että ihan joka organisaation kannattaa laittaa propellihattuja pyörimään ja valjastaa Microsoftin rajapinta kirjoittamaan koko dokumenttimassan avainsanoja uusiksi. Koska palvelua ei alun perin ole kehitetty yritysten dokumenttisisällön tagittamiseen, sen osumatarkkuus jättää yhä toivomisen varaa – ja tietenkin dokumenttimassan käsittely koodissa, ja rajapinnan tarjoamien paluuarvojen käsittely esimerkiksi SharePointin päässä on yhä tehtävä melko manuaalisesti esimerkiksi Microsoftin mainiota OfficeDev.PnP -työkalukokoelmaa käyttäen.

Merkittäviä rajoitteitakin on: aiheiden tunnistus ei toimi suomeksi, ja tuskin hetkeen tulee toimimaankaan, joten suomalaisten näkökulmasta tämäkin teknologia on käytettävissä lähinnä englanninkielisen dokumenttimassan suhteen. Rajapinnan ilmaisen version rajoitteet ovat lisäksi vielä tuotantokäyttöön kelpaamattomat (datan käsittely on hidasta ja dokumenttien määrälle asetetut rajat matalahkot) ja maksullisten versioiden hinnat verraten suolaisia.

Automaattinen avainsanojen lisääminen ei liene Microsoftilla varsinaisesti SharePointin tai OneDriven työlistalla, mutta haun ja analytiikan tueksi taustalla tapahtuu varmasti jännittäviä asioita. Räätälöidyn ratkaisun rakentaminen (Microsoftin vastaavia odotellessa) toisaalta ei ole erityisen työlästä – toteutustapa tosin riippuu kovasti tarpeesta!

Microsoft on viime viikkoina julkistanut myös muutaman, tekoälyyn ja kognitioon perustuvan käytännön sovelluksen. Erityisen kiinnostavalta vaikuttaa uuden Dynamics 365 -palvelun integraatio käyttäjän sähköpostiin, joka osaa poimia myyjän sähköpostilaatikosta esimerkiksi tarjouspyynnöltä näyttäviä dokumentteja ja tarjota niitä automaattisesti lisättäväksi CRM:ään. Edellä mainitut rajoitukset huomioon ottaen ei toki vielä voine odottaa mitään kovin merkittävää osumatarkkuutta suomen kielen kanssa.

 

Lisätietoja:
myynti@meteoriitti.com
https://azure.microsoft.com/en-us/services/cognitive-services/
https://www.microsoft.com/en-us/dynamics/dynamics-365-first-look

 

Loppukevennyksenä aiheiden tunnistus toiseksi tärkeimmästä keksimästäni kirjallisesta materiaalista… Osa aiheista nousee hyvin esille!

sime-image006