Tekoäly auttaa uutistoimittajaa tehokkaan otsikon valinnassa ja etusivun optimoinnissa

Artikkelit

09.06.2020

VTT

Tekoäly auttaa, kun toimittaja valitsee jutulle otsikkoa ja paikkaa uutisvirrassa. Tähän tulokseen tulivat VTT:n asiantuntijat, jotka analysoivat lukijoiden käyttäytymistä sähköisessä mediassa ja loivat ennustamisen tueksi työkaluja. Otsikkokone on jo koekäytössä Kaleva Mediassa.

Suosituimmat jutut pongahtavat esiin verkkolehden kävijäseurannasta. Ne keräävät muita enemmän klikkauksia ja lukuaikaa, mutta miksi? Varmasti jokaisella toimittajalla ja toimituspäälliköllä on tähän tuntuma, mutta on silti vaikea ennustaa, miten jutun otsikko, kuva, aihe, laatu tai paikka vaikuttaa.

VTT:n tekoälyasiantuntijat valitsivat tutkimuskohteeksi otsikon ja ryhtyivät selvittämään, miten otsikon avulla voidaan ennustaa jutun suosiota. Mukaan työhön lähti Kaleva Media, joka julkaisee viittätoista paikallislehteä Pohjois-Suomessa. Kun uusi työkalu, Otsikkokone, valmistui, se pääsi kisaamaan Kalevan toimituksen kanssa.

Kisaan tai pikemminkin testiin otettiin 80 jo julkaistua uutisotsikkoa, ja ne jaettiin neljään luokkaan sen mukaan, miten ne olivat vaikuttaneet lukijoihin. Sama tehtävä annettiin viidelle toimittajalle sekä Otsikkokoneelle. Toimittajat saivat 20 otsikkoa oikeaan luokkaan, kun taas Otsikkokone onnistui 50 otsikon kohdalla.

”Pidän tätä rohkaisevana merkkinä siitä, että asiaa kannattaa ehdottomasti tutkia lisää. Nyt Otsikkokone on meillä koekäytössä eri lehtien toimituksissa. Otsikkokone on kiinnostava ensiaskel siihen, että toimittaja voi arvioida otsikkonsa toimivuutta jo ennen jutun julkaisua”, toteaa Kaleva Median dataliiketoiminnan johtaja Heidi Kananen.

Aiemmin julkaistut jutut opettivat Otsikkokonetta

Tutkijat loivat Otsikkokoneen perustan tutustumalla kansainvälisiin tutkimuksiin sekä haastattelemalla Kaleva Median toimittajia ja määrittelemällä heidän kanssaan, millainen on vaikuttava otsikko. Mittareiksi valittiin klikkausten määrä sekä aika, jonka lukija käytti jutun parissa. Näiden pohjalta määriteltiin neljä eri vaikuttavuusluokkaa: tehokas, tehoton, houkutteleva ja kiinnostava.

Houkutteleva otsikko kerää paljon klikkejä muttei lukuaikaa, kun taas kiinnostava pysäyttää vähäiset klikkaajat lukemaan. Tehokas otsikko puolestaan menestyy molemmilla mittareilla, tehoton ei kummallakaan.

Seuraavaksi tutkijat rakensivat Otsikkokoneen eli neuroverkkomallin, joka käyttää uudesta otsikosta laskettuja piirteitä, kuten sanojen ja erisnimien määriä sekä sanaluokkajakaumaa. Lisäksi Otsikkokone käyttää metatietoa, jolla tarkoitetaan muun muassa julkaisuaikaan ja -kanavaan liittyvää tietoa. Piirteiden, metatiedon ja varsinaisen otsikkotekstin perusteella Otsikkokone valitsee otsikon vaikuttavuusluokan, siis ennustaa otsikon vaikuttavuutta.

”Luokan valintaa varten olimme opettaneet Otsikkokonetta Kalevan aineistolla, joka sisälsi 7 000 otsikkoa ja joiden vaikutukset tunsimme jo verkkoanalytiikkatiedon pohjalta”, kertoo erikoistutkija Sari Järvinen VTT:ltä.

Hyvä malli osaa luonnollista kieltä – myös suomea

”Koneoppimisessa on kiehtovaa se, että mallit voivat tehdä asioita, jotka olisivat aivan liian monimutkaisia tai hitaita ihmisen laskettavaksi tai tehtäväksi. Mediatalot ovat päässeet jo pitkälle datan visualisoinnissa, ja varmasti seuraavan parin vuoden aikana näemme, miten sisällöntuotanto ja markkinointi kehittyvät koneoppimisen avulla. Tässä on ratkaisevaa, että mallit hallitsevat luonnollisen kielen”, Kaleva Median Kananen sanoo.

Otsikkokoneen perustana käytettiin yleistä BERT-neuroverkkomallia, jonka Turun yliopiston tutkimusryhmä oli opettanut käsittelemään suomen kieltä. Sen opetusaineisto oli vielä monta kertaa Kalevan aineistoa suurempi.

”BERT-mallin ansiosta Otsikkokone tunnisti tänä keväänä esimerkiksi sen, että koronavirus oli kiinnostava asia, vaikka olimme opettaneet koneen edellisen kevään aineistolla. Tämä selittyy sillä, että BERT-malli ymmärtää jossain määrin sanojen merkityksiä”, Järvinen sanoo.

Tämä neuvoverkkomalli pääsi Kalevan testiaineistolla noin 60 prosentin ennustustarkkuuteen, mutta Järvisen mukaan tarkkuutta voi vielä nostaa lisäämällä opetusaineiston määrää. Tosin ei loputtomasti.

”Esimerkiksi jutun paikka sivustolla vaikuttaa myös vahvasti jutun suosioon”, huomauttaa johtava tutkija Asta Bäck VTT:ltä. Hänen projektiryhmänsä perehtyi julkaisupaikkaan ja rakensi sille oman koneälymallinsa.

Paikkaa kannattaa optimoida julkaisun jälkeen

On helppo ennustaa, että juttu kuin juttu saa parhaiten huomiota uutissivuston yläreunassa. Tämä tieto ei kuitenkaan auta, kun halutaan varmistaa, että tietyt jutut saavat huomiota riittävän kauan ilman, että ne vievät kärkipaikan liian pitkäksi aikaa muilta.

”Kehitimme mallin, joka ennustaa, paljonko klikkauksia tietty juttu saa sivun eri paikoissa. Tämä onnistuu vasta, kun juttu on julkaistu, koska jo toteutuneet klikkaukset antavat parhaan suunnan tulevasta suosiosta”, Bäck kertoo.

Projektiryhmä opetti mallia aineistolla, johon esimerkkilehden etusivulta oli kerätty tietoa viiden minuutin välein. Aineisto sisälsi juttujen järjestyksen ja klikkausten määrät mittaushetkellä sekä juttujen ominaisuuksia, kuten iän, otsikon ja osaston.

”Tuli pian selväksi, että paikan merkitys jutun suosioon riippuu myös aihepiiristä. Esimerkkiaineistossamme politiikasta kiinnostuneet löysivät juttunsa mistä vain, kun taas viihdejuttujen suosio edellytti kärkipaikkaa.”