Mitä Naton StratComin Twitter-tutkimuksessa todella saatiin selville?

Naton strategisen viestinnän keskus – tuttavallisemmin StratCom – julkaisi viime viikolla raporttinsa suomalaisministereihin kohdistuvista Twitter-viesteistä.

StratCom on tieto- ja tutkimuskeskus, joka tukee Naton ja sen kumppaneiden valmiuksia strategisen viestinnän alalla. Keskus tuottaa vuosittain tutkimusraportteja mm. informaatiosodankäynnistä ja sosiaalisen median vaikutusoperaatioiden trendeistä. (Wikipedia)

Kiireisimmät ovat jo ehtineet leimata raportin tavalla jos toisellakin – ehkä sitä tarkemmin lukematta. Ehdin lopulta lukea raportin läpi ja kokoan sen tulokset tähän lyhyesti.

Kuva: Suomi-Twitterin klusterit tutkimuksen aineiston mukaan. Verkostokartassa vasemmalla on summittaisesti poliittinen vasemmisto ja oikealla oikeisto. Isoimmat pallukat ovat hallituksen ministereiden tunnuksia, vaikka nimet onkin poistettu kuvasta. Värit eivät kuvaa puolueita, vaan ne on verkostoanalyysin klustereille arvottuja.

Twitter-analyytikon näkemys tutkimuksen menetelmistä

Luin raporttia suurella mielenkiinnolla, koska teen itsekin sekä Twitter-bottien tunnistamista että Twitteriä koskevia verkostoanalyysejä. Tämän tyyppisten raporttien arvioiminen onkin ilman aihepiirin ja sen menetelmien tuntemista haastavaaa.

Raportissa kuvattu tutkimusprosessi ja menetelmät ovat hyvin vakuuttavia. Niiden suhteen en löytänyt kritisoitavaa. Ilokseni huomasin StratComin päätyneen esimerkiksi hyvin samankaltaiseen bottien ja trollien tunnistamisen keinoihin kuin mitä käytän itse Tweeps.net:in bottianalyysissä. Boteiksi määritellään tilit, jotka aineiston perusteella todistetusti ovat tehneet automatisoitua viestintää. StratComin tutkimus on tässä suhteessa tiukka: se ei esimerkiksi väitä boteiksi tilejä, joiden profiilitiedot ovat ”epäilyttäviä”, vaan botiksi määrittely edellyttää selvästi epäaitoa viestintää.

Osana analyysiä on tehty ns. vihapuheanalyysi, jolla tunnistettiin viestien loukkaavuus. StratCom ei ole tyytynyt kääntämään suomenkielisiä viestejä englanniksi ja käyttämään olemassa olevia työkalujaan, vaan se käytti Knuutilan et al (2019) tutkimuksesta saatua 2000 twiitin aineistoa kouluttaakseen neuroverkkoja hyödyntävän tekoälyn tunnistamaan häirinnän suomenkielestä. Tämä osoittaa tutkimuksen tekijöiltä kiitettävää paneutumista aiheeseen.

Knuutilan et al tutkimus tunnisti laajasti eri puolueiden poliitikkoihin kohdistuvaa vihapuhetta. Siksi sen aineiston käyttö StratComin analyysin tekoälyn koulutukseen on perusteltu valinta. Lukijan näkökulmasta ongelmana kuitenkin on, että tekoäly ei ole ulkopuolisten arvioitavissa, eikä koulutukseen käytettyä aineistoa ole saatavilla (tarkistin).

Datankeruu ja siitä tehty verkostoanalyysi on kuvattu raportissa tarkasti:

  • Aineisto on haettu tutkimusaikana Twitterin ohjelmistorajapinnasta (ilmeisesti vähintään viikottain johtuen Twitter-haun API:n aikarajoituksesta)
  • Aineisto on kerätty tutkimusaikana suomalaisministerien Twitterissä saamista vastauksista ja maininnoista
  • Aineiston pohjalta on tehty tavanomainen verkostoanalyysi eli ketkä viestivät kenelle, ja näin on laskettu käyttäjien välisten yhteyksien voimakkuudet
  • Edelleen verkostosta on tehty verkostoanalyysissä tyypillinen klusterianalyysi eli käyttäjistä on koostettu tilastollisilla menetelmillä ryhmiä perustuen heidän keskinäiseen läheisyyteensä verkostossa
  • Lisäksi verkostoanalyysissä on tehty tavanomainen aiheittainen tarkastelu ja – mikä on sen suurin ansio – verkostot sen mukaan, 1) mistä klustereista havaittiin eniten häiritsevää (abuse) viestintää muille käyttäjille sekä 2) miten verkostojen jäsenet jakaantuivat mm. nimellään ja nimettöminä esiintyviin käyttäjiin.

Raportti on kaiken kaikkiaan tiivis ja ammattitaitoisesti tehty. Lisäksi se sisältää kiitettävästi viittauksia muihin aihepiirin tutkimuksiin.

Kyseessä ei ole nopeasti, kevyin perustein tai menetelmin tehty tilastollinen selvitys, vaan sen tekijät ovat raportin perusteella tehneet huolellista työtä. Raportista ei löydy heikkoja osia, vaan se on tiivistä ja argumentaatioltaan johdonmukaista tekstiä. Toki joitakin asioita olisi voinut kuvata vielä syvällisemmin.

Mitä ja miten tutkittiin?

Tutkimusprosessi näyttää edenneen näin:

  1. Tutkimuksen tarkoituksena oli selvittää, kohdistuuko Suomen ministereihin koordinoitua epäaitoa (eli bottien tuottamaa) vaikuttamista ja häirintää.
  2. Tätä varten kerättiin aineisto ministereille tutkimusajankohtana (12.3.-27.7.2020) kohdistuvista Twitter-viesteistä.
  3. Tutkimuksen välituloksena havaittiin, että eniten häiritseviä viestejä kohdistui naisministereille.
  4. Tutkimuksen aineisto eli Twitter-viestit luokiteltiin aiheiden mukaan. Aineiston perusteella yhdeksi kategoriaksi muodostui seksistiset viestit.
  5. Tilastollisen aineiston yhteydessä tutkijat kävivät manuaalisesti läpi ministereille kohdistuvia häirintäviestejä.

Uutisissa mainittu naisiin kohdistuva häirintä ei ilmeisesti ollut tutkimuksen alussa aiheena, vaan se nousi esiin tulosten pohjalta.

Mitä tuloksia tutkimuksessa saatiin Suomi-Twitteristä?

Botteja oli vain 3 % käyttäjistä

Tutkimuksen alkuperäinen tarkoitus oli siis selvittää, käytetäänkö Twitterissä botteja eli automaattisesti viestejä lähettäviä tunnuksia vaikuttamaan Suomen politiikkaan. Katsotaan aluksi, mitä tuloksia tästä saatiin:

  • Analysoiduista (ministereille kohdistuvista) twiiteistä vain 3 % arvioitiin olevan bottitileiltä
  • Suurin osa twiiteistä oli joko omalla nimellään toimivilta henkilöiltä (50 %) tai anonyymeiltä tileiltä (45 %)
  • Suomen Twitter-keskustelut todettiin huomattavasti puhtaammaksi boteista kuin esimerkiksi Iso-Britanniassa ja Venäjällä
  • Tutkimuksen mukaan suomenkieli suojaa boteilta. Automatisoitua viestien lähetystä havaittiin pääasiassa englanniksi.

Häirintäviestien osuus ministereiden saamista viesteistä oli 7 %

Häirintäviestit tunnistettiin koulutetun tekoälyä hyödyntävän algoritmin avulla.

  • Analyysissä oli mukana n. 350 000 ministereille kohdistettua viestiä. Niistä todennäköisesti häirintäviestejä (engl. abuse, ”väärinkäyttöviestejä”) oli n. 25 000 eli 7 %.

Twitter-häirintää tekevät ovat ihmisiä, eivät botteja

  • Häirintäviesteistä 59 % lähetettiin anonyymisti ja 35 % omalla nimellä. Vain 2,5 % häirintäviesteistä arvioitiin bottien lähettämiksi.
  • Tutkimuksen mukaan Suomessa tapahtuvasta häirinnästä Twitterissä vastaa joukko yksityishenkilöitä, jotka toimivat itsenäisesti. Tässä ei havaittu merkkejä koordinoidusta eli minkään tahon johtamasta toiminnasta.
  • Häirintäviestejä lähettäviä tunnuksia oli seurantajaksona yhteensä 5426.
  • Häiriköiden Twitter-toimintaa kuvaa se, että jopa 95-100 % kaikista heidän twiiteistään on kohdistettu muille käyttäjille. Tällaisten tunnusten twiiteistä 14 % oli häirintäviestejä. Kaksi kolmasosaa näistä toimi anonyymisti.
  • Pieni osa häirintäviestejä lähettävistä oli todella aktiivisia. Esimerkiksi eräs tunnus lähetti 138 päivän aikana 520 viestiä, joista 199 oli häirintäviestejä (=38 %).

Tutkimuksessa löydettiin tietty ryhmä häirikkötunnuksia, jotka oli luotu vuonna 2020

  • Aineistossa oli yli 500 tunnusta, jotka viestivät ainoastaan @-merkinnän (mention/pingaus) avulla toisille käyttäjille, eli eivät tehneet Twitterissä mitään muuta kuten retwiitanneet, jakaneet linkkejä tms. Näistä 70 % oli anonyymejä.
  • Edellä mainituista tunnuksista 30 % oli luotu vuonna 2020. Ne muodostavat epäilyttävän ryhmän saman tyyppisiä tunnuksia, mutta niidenkään kesken ei havaittu koordinoitua toimintaa.

Häirintäviestit kohdistuivat pääasiassa oikeistosta vasemmistoon, mutta myös päinvastoin

Tutkimuksen verkostoanalyysissä tunnistettiin kaksi pääklusteria: ministerien Twitter-tunnusten ympärille muodostunut klusteri ja PS:n Halla-ahon Twitter-tunnuksen ympärille muodostunut klusteri.

  • Suora käännös raportista (s. 26): ”Suurin osa väärinkäytöksistä (engl. abuse) on keskittynyt oikeaan alakulmaan oikeanpuoleisen verkkoyhteisön keskuudessa. Tämä havainto ei ole yllättävä, koska Perussuomalaiset on tällä hetkellä osa Marinin vasemmistokeskustahallituksen oppositiota. Vasemmistolainen yhteisö tuotti pienen osuuden väärinkäyttöviestejä suurelta osin vastauksena hallituksen vastaisiin viesteihin.”
  • Tutkimuksessa havaittiin, että usein häirintäviestien kohteet eivät reagoineet viesteihin itse, vaan heitä puolustivat muut Twitter-käyttäjät.

Alla olevassa kuvaajassa poliittinen vasemmisto on vasemmalla ja PS oikealla/alhaalla. Kuvaajaan on merkitty punaisella häirintäviestien lähteet ja niiden verkosto:

Naisministerit saivat eniten häirintäviestejä

Tutkimuksen kohteena oli suomalaisministerien saamat eli yhteensä 19 ministerille kohdistetut viestit Twitterissä. Tutkimuksessa ei siis selvitetty esimerkiksi kaikkien kansanedustajien tai puoluejohtajien saamia häirintäviestejä, vaan ainoastaan tutkimuksen ajankohtana ministereinä olleiden saamia viestejä.

  • Pääministeri Marin sai eniten häirintäviestejä, jopa yli kolmanneksen kaikista havaituista (34%).
  • Toiseksi eniten häirintäviestejä sai sisäministeri Ohisalo (18 %).
  • Sen jälkeen eniten häirintäviestejä saivat Andersson (12%), Kulmuni (6%) ja Tuppurainen (4%).
  • Miesministeritkin saivat härintäviestejä: eniten Haavisto, sen jälkeen Harakka ja Lintilä. Eli tutkimuksessa ei selvitetty pelkästään naisministereille kohdistettuja häirintäviestejä.

Suhteellisesti eniten häirintäviestejä saivat Haavisto ja Tuppurainen (lisäys 23.3.)

  • Jos häirintäviestejä tarkastellaan määrien sijasta suhteellisesti, eli kuinka suuri osuus kunkin ministerin saamista viesteistä luokiteltiin häirintäviesteiksi, niin järjestys muuttuu.
  • Tällöin suhteellisesti eniten häirintäviestejä saivat Haavisto ja Tuppurainen (13,5 %). Haaviston kohdalla häirintäviestit liittyivät mm. Syyrian leireillä olevien suomalaisten kotiuttamisen tapaukseen ja Tuppuraisen kohdalla EU:n avustuspakettiin.
  • Seuraavaksi suhteellisesti eniten häirintäviestejä saivat Ohisalo (11 %), Marin (9 %) ja Henriksson.

Häirintäviestit liittyivät pääosin tiettyihin aiheisiin

Kuten sisällönanalyysiä sisältävissä tutkimuksissa on tapana, analyysissä pyrittiin muodostamaan tuloksista viestien aiheiden mukaisia kategorioita. Tutkimuksessa tunnistettiin seuraavat aiheet:

  • Hallinnon korruptio ja epäonnistuminen
  • Seksismi ja homofobia
  • Rasismi ja islamofobia
  • Hallinnon toiminta koronaviruksen kanssa
  • Koulutus (liittyen koronavirukseen)

Alla oleva kuva kertoo, mihin aiheisiin liittyvissä viesteissä havaittiin häirintää tutkimuksen tarkasteluaikana:

Yllä oleva kuvaaja kertoo siis viestien määrät, jotka liittyivät tiettyyn aiheeseen ja tunnistettiin analyysissä häirintäviesteiksi.

Tässä kuvassa näkyy häirintäviestien osuus kaikista viesteistä tarkastelujaksolla:

Naisministerit saivat usein seksististä häirintää

Naisministereihin kohdistuva sukupuoleen perustuva häirintä on nostettu monessa yhteydessä tutkimuksen tuloksista esiin. Tutkimusraporttia lukiessa somessa nähdyt reaktiot asian tiimoilta vaikuttavat jopa ylimitoitetuilta, sillä teema nousee kunnolla esiin vasta aivan lopussa tutkimuksen yhteenvedossa.

  • Tutkimuksessa mainittu naisministereille kohdistuva seksistinen häirintä tarkoittaa edellä kuvattua Sexism-aihealueen viestien määrää.
  • Tutkimuksessa ei sanota yksittäistä lukemaa, kuinka suuri osuus naisministereille kohdistetusta häirinnästä oli seksististä.
  • Raportista suoraan kännettynä (s. 50-51): ”Hämmästyttävä osa tästä väärinkäytöstä sisälsi sekä piilevää että avoimesti seksististä kieltä. — sukupuolista kieltä käytettiin kritisoimaan naisministerien suorituskykyä valtion virkamiehinä riippumatta aiheesta.”
  • Tutkimuksen johtopäätösten mukaan häirinnästä on vastuussa pääasissa yksityishenkilöt.

Yhteenvetoa

Lopuksi omaa yhteenvetoa tutkimuksesta:

  • Tutkimus on hyvin rajallinen. Aikarajaus on tyypillinen (muutama kk) ja aineiston keruu melko rajallinen: vain 19 käyttäjälle kohdistetut viestit. Viestimäärä (350 000 viestiä) on mielestäni laaja tarkalle tekstianalyysille, mutta melko pieni sosiaalisen median verkostoanalyysille.
  • Tämä on muistettava tutkimuksen raporttia lukiessa: se kertoo vain aineistostaan ja käytetyistä menetelmistä, eikä sen tuloksia voi yleistää muuhun. Kyse on pikemminkin tapaustutkimuksesta ja kyseisen ajanjakson dokumentoinnista.
  • Tutkimuksen ajanjakso oli poikkeuksellinen suomalaisessa politiikassa. Juuri tänä aikana korostui hallitukseen kohdistuva kritiikki etenkin koronaan liittyen.
  • Mielestäni olisi ollut yllättävää, jos pääministeri ei olisi ollut se, johon kohdistui eniten häirintää. Myös sitä voi pitää odotettuna, että hallituksen vasemmistopuolueiden puheenjohtaja-ministereille kohdistui suurin osuus oikeisto-opposition taholta tulevasta häirinnästä.
  • Raportin kirjoittajat eivät ota kantaa, pitävätkö he 7 %:n keskimääräistä häirintäviestien osuutta isona vai pienenä. Häirintäviestien osuutta tarkastellaan myös ministerikohtaisesti (kuva nro 8) ja tästä voi huomata, että noin kahdella kolmesta ministereistä häirintäviestien osuus oli tätä pienempi. Häirintäviestit näyttävät kohdentuneen sekä määrällisesti että suhteellisesti pääosin tietyille ministereille.
  • Monelle lukijalle tutkimus vahvistaa aineistolähtöisesti sen, mitä on voinut itse havaita Twitterissä maalis-heinäkuussa 2020, jos on seurannut Twitter-viestittelyä aktiivisesti.
  • Tutkimuksessa mainitaan useaan kertaan – ehkä lähes kymmenesti – etteivät tutkijat löytäneet Suomi-Twitteristä koordinoitua automatisoitua viestintää, ja että bottien osuus oli pienempi kuin aiemmin tutkituissa muissa maissa. Tämä oli raportissa useimmin toistettu tulos.
  • Tutkijoiden kiinnostava havainto oli, että pieni kielialue suojaa suomalaista Twitter-keskustelua boteilta, mutta samasta syystä Twitterin automaattinen häirintäsuodatus ei toimi täällä yhtä hyvin kuin englanninkielisissä twiiteissä.
  • Naisiin kohdistuva sukupuoleen perustuva häirintä oli tutkimuksen tuloksista esiin noussut aihe, mutta sen nostaminen raportoinnin kärjeksi on tekijöiden valinta. Määrällisesti mitattuna yleisin häirintään liittyvä aihe oli hallinnon epäonnistuminen.
  • Suomalaiskansallisena ilmiönä näyttäytyy se, että hallituksen politiikkaa vastustavat luovat Twitteriin anonyymejä tilejä, joiden suojista haukutaan ministereitä.
  • Kyseessä ei ole akateemisesti vertaisarvioitu tutkimus, vaan sen luotettavuus on StratComin arvovallan ja tutkimusraportin vakuuttavuuden varassa. Vaikka raportti on hyvin kirjoitettu, se ei tarjoa vastauksia kaikkiin lukijan kysymyksiin.
  • Tutkimus on samalla hyvä ajankohtaiskatsaus sosiaalisen median viestintää, botteja ja häirintää koskeviin tutkimuksiin. Lähdeluettelo on kattavampi kuin ehkä tämän tyyppiseltä tutkimuslaitoksen tiiviiltä raportilta yleensä odottaa.

4 vastausta artikkeliin “Mitä Naton StratComin Twitter-tutkimuksessa todella saatiin selville?

  1. ”Määrällisesti mitattuna yleisin häirintään liittyvä aihe oli hallinnon epäonnistuminen. ”
    Tästä saa kyllä sen käsityksen, että mikä tahansa hallinnon epäonnistumisten arvostelu on tulkittu häirinnäksi. Jotta tutkimuksen tulokset voisi ottaa todesta, olisi kriteereissä oltava selvä rajanveto perustellun kritiikin ja asiattoman häirinnän välillä. Sellaisia kriteerejä ei esitetä eikä aineistoa kerrota editoidun tällaisen rajanvedon perusteella.

    1. Somekommenttien perusteella monella muullakin on tullut erehdys tuossa kohtaa raporttia lukiessa.

      Tutkimuksessa on tehty kolme asiaa:
      1. analysoitu jokainen aineiston viesti tekoälyn perusteella joko todennäköisesti häirinnäksi tai ei-häirinnäksi
      2. loukiteltu aineiston viestit aiheitttain
      3. tehty edellisille ristiintaulukointi, jolloin saadaan tulokseksi se, minkä aiheiden viesteissä häirintää on havaittu eniten

      Eli aiheet ovat havaitun häirinnän konteksti, ei suoraan ”havaittua häirintää”.

      Ymmärrän hyvin, että tällainen voi aiheuttaa sekaannusta, jos ei ole raporttia lukiessa tarkkana.

  2. A, hienoa tutkimusta ja verkostoanalyysin hyödyntämistä (ei uniikkia, mutta suomilippu harvoin vilahtelee).
    B, hienoa tiivistystä, monille tarpeellista käännöstyötä myös, sillä ei tällaiset pumaskat toisella vieraalla kielellä jaksa kaikkia kiinnostaa, tuplaplussa siis.

Jätä kommentti