Joukkojen tyhmyyttä ja viisautta Twitterissä

Olen parin vuoden ajan analysoinut Twitteriä pintaa syvemmältä. Pintatasoon kuuluu esimerkiksi käyttäjämäärät, TOP-listat ja ohimenevät ilmiöt kuten hashtagit, keskustelunaiheet ja meemit. Niistä on helppo kertoa, mutta minua kiinnostaa enemmän pysyvät mekanismit ja lainalaisuudet, jotka selviävät vain syvempää penkomalla.

Yksi kiinnostavimmista kysymyksistä on seuraajamäärät. Niitä seuraavat niin käyttäjät itse kuin mediakin. Seuraajamäärät ovat suosion mittari, mutta seuraajien laadusta ne eivät kerro mitään. Kannattaako Twitterissä siis tavoitella määrää vai laatua, ja missä kohtaa laatu heikkenee määrän kasvaessa? Tätä lähdin selvittämään kaksi vuotta sitten. Nyt voin sanoa saaneeni riittävän varmoja vastauksia.

Heti alkuun lienee syytä huomauttaa, että kun puhun ”laaduttomista” tai ”huonoista” Twitter-seuraajista, kyse on laadusta pelkästään Twitter-lukujen perusteella. Ihmisenä jokainen tweettaaja on tietenkin saman arvoinen, eikä tämän perusteella pidä tehdä muita johtopäätöksiä. 😉

Miten mitata seuraajien laatua?

Jotta saatoin arvottaa niin yksittäisten käyttäjien kuin heidän seuraajiensa laatua, oli siihen ensiksi löydettävä pätevät mittarit. Päädyin käyttämään pääasiassa seuraavia tunnuslukuja:

  • Seuraajamäärä – tottakai – on yksittäisen käyttäjän kohdalla tärkein mittatikku.
  • Seuraajien seuraajamäärän keskiarvo (olkoon tämän lyhenne FFA) eli kuinka suosittuja seuraajat ovat muiden Twitter-käyttäjien keskuudessa. Tämä oli analyysini keskeisin tunnusluku arvotettaessa seuraajien laatua.
  • TFF-suhde (Twitter Follower-Friend Ratio) eli kuinka paljon käyttäjällä on seuraajia suhteessa siihen kuinka paljon hänellä on seurattavia. Lukema kertoo käyttäjän Twitterin käyttötavasta. Oman TFF-luvun voi laskea esimerkiksi täällä. Koska TFF-luvun suuruusluokkaan vaikuttaa eniten seuraajien määrä, sitä ei ole järkevää vertailla muiden kuin suunnilleen saman verran seuraajia omaavien käyttäjien välillä.
  • Seuraajien TFF-keskiarvo. Nämäkin laskin, mutta käyttöarvo tässä analyysissä osoittautui vähäiseksi.

Alkuvaiheessa v. 2012 käytin myös Klout– ja PeerIndex-pisteitä, mutta kyseisten palvelujen ohjelmistorajapintojen rajoitukset osoittautuivat ongelmalliseksi, jotta dataa olisi saanut kerättyä riittävästi luotettavan analyysin tekoon. Lisäksi sekä Klout että PeerIndex muuttuvat jatkuvasti, joten niiden pisteytysten merkitys on epämääräinen.

Myös Twitterin oma ohjelmistorajapinta on rajoituksineen haasteellinen, kun on esimerkiksi laskettava seuraajien seuraajamäärän keskiarvo silloin, kun käyttäjällä on useita tuhansia seuraajia.

Loppujen lopuksi luovuin yrityksestä kerätä Twitterin API:n kautta riittävän ison datamäärän ja käytin datana Hampus Brynolfin vuosi sitten suomalaisista Twitter-käyttäjistä mm. kielentunnistuksen perusteella keräämää ja avoimesti jakamaa tietokantaa. Näin sain valmiin datan riittävän tarkkarajaisesta / tiiviistä Twitter-käyttäjien verkostosta, jotta pystyin laskemaan tarvitsemani tunnusluvut.

Kun tutkitaan Twitterin käyttäjien keskuudessa vaikuttavia mekanismeja ja lainalaisuuksia, huomio on kiinnitettävä niihin käyttäjiin, jotka ovat käyttäneet palvelua riittävän pitkään ja aktiivisesti, jotta heidän toimintaansa on järkevää mitenkään analysoida. Analyysissä käytetyn datan on vastattava sitä kysymystä, mitä tutkitaan. Jos näin ei ole, datassa on liikaa sattumanvaraista ”kohinaa”, joka vääristää tuloksia ja peittää taakseen tutkittavat ilmiöt, kun datasta tehdään laskutoimituksia.

Kohinan poistamiseksi tein käyttämääni dataan seuraavan rajauksen:

  • Seuraajia, seurattavia ja twiittejä yli 50
  • Seuraajista tässä datassa edustettuna yli 10% (keskimäärin 61%)
  • (Lisäksi normaalia datan siivoamista selvästi muista poikkeavien arvojen vuoksi, jotka voisivat olla tulosta otannan suppeudesta.)

Näin rajattuna  Hampus Brynolfin keräämästä n. 63 600 Twitter-käyttäjän tietokannasta lopulliseen tarkasteluun valikoitui 5348 käyttäjää. On painotettava, että käyttämäni data ei ole tilastollinen satunnaisotanta, vaan tarkkaan rajattu joukko suomalaisia Twitter-käyttäjiä.

Tulokset

Analyysini tärkeimmät tulokset:

  • Mitä enemmän Twitter-käyttäjällä on seuraajia, sitä pienempi on näiden seuraajamäärän keskiarvo, eli sitä ”huonompia” seuraajat ovat ”laadultaan”. 
  • Ilmiö vaikuttaa voimakkaimmin niillä, joilla on seuraajia yli 500 (Pearsonin korrelaatiokerroin r=-0,36). Laadultaan parhaat seuraajat ovat käyttäjillä, joilla on seuraajia 100-150, mutta ilmiö vaikuttaa silti lähinnä negatiiviseen suuntaan, kun seuraajamäärä kasvaa.
  • Tarkasteltavan joukon seuraajien seuraajamäärän keskiarvo on 583. Niillä käyttäjillä, joilla seuraajia on yli 5000, on hyvä tulos päästä seuraajien seuraajamäärän keskiarvossa edes yli 250:n.
  • TFF-lukemien ja seuraajien seuraajamäärien keskiarvojen (FFA) väliset korrelaatiot kertovat, että mitä enemmän käyttäjällä on seuraajia suhteessa seurattavien määrään, sitä pienempi on hänen seuraajiensa keskimääräinen seuraajamäärä. Käytännössä suhteellisesti suosituimmilla käyttäjillä (verrattuna muihin saman verran seuraajia omaaviin käyttäjiin) seuraajien laatu alkaa heikkenemään jo silloin, kun puhutaan vain n. 100 seuraajasta.
  • Kun tutkin, mitkä seikat ovat yhteydessä suureen seuraajamäärään, vain käyttäjän omien seurattavien määrä (r=0,26) ja julkaistujen twiittien määrä (r=0,25) korreloivat sen kanssa. Seuraajia siis saa ennen muuta olemalla aktiivinen Twitterissä, mutta seuraajien laadun ratkaisee muut käyttäjään ja viestien sisältöihin liittyvät seikat.

Seuraajien määrän ja laadun (=FFA-lukema) välinen yhteys käy havainnollisesti esiin tästä hajontakuviosta; mentäessä oikealle päin seuraajien määrä kasvaa ja vastaavasti laatu heikkenee:

Twitter-seuraajien määrä vs. laatu

On huomionarvoista, että vertailussa mukana olleilla vähän seuratuilla (ts. vielä aloittelevilla) käyttäjillä on keskiarvoisesti parempia seuraajia kuin suosituimmilla käyttäjillä. Tämä mielestäni kumoaa sen mahdollisen selityksen, että tulokset johtuisivat vain siitä, että suurimmalla osalla Twitter-käyttäjistä on verrattain vähän seuraajia. Samasta pitää huolen myös tekemäni tiukka datan rajaus.

Tulokset voidaan kärjistää seuraavasti:

Suosittujen Twitter-käyttäjien seuraajilla ns. ”joukossa tyhmyys tiivistyy”.

Koska ilmiö on havaittavissa jo aloittelevien Twitter-käyttäjien kohdalla, niin sitä voidaan pitää yhtenä Twitterin peruslainalaisuutena. Luultavasti sama ”luonnonlaki” on havaittavissa monissa muissakin some-palveluissa.

Jos seuraajien laatua pidetään mittarina, niin useimmat suosituimmat Twitter-käyttäjät sijoittuvat laatulistojen viimeisiksi. (Tämä on kuitenkin osittain harhaanjohtavaa, koska suureen seuraajamäärään mahtuu myös paljon laadukkaita seuraajia.)

On helpompaa saada paljon huonoja seuraajia kuin paljon hyviä seuraajia.

Jos haluat löytää Twitteristä käyttäjiä, joilla on vaikutusvaltaa nimenomaan laadukkaisiin Twitter-käyttäjiin, älä katso käyttäjien seuraajamääriä vaan heidän seuraajiensa seuraajamäärien keskiarvoja.

Kollektiivinen älykkyys ei tämän perusteella varsinaisesti loista Twitterissä – ainakaan suosituimpien käyttäjien seuraajien keskuudessa.

On kiinnostavaa peilata, miten laadukkaita/laaduttomia seuraajia on suosituimmilla Twitter-käyttäjillä, ja mitä seuraajat kertovat ”johtajastaan”. Samaan aikaan pitää muistaa, että eri Twitter-käyttäjillä on erilaisia tavoitteita ja kohderyhmiä – mielestäni tämä näkyy hyvin tuloksissa.  Alla olevat listaukset tein vertailussa mukana olleista n. 100 suosituimmasta (=eniten seuraajia) käyttäjästä.

Tässä lista käyttäjistä, joilla on huomattavan laadukkaita seuraajia verrattuna muihin yhtä seurattuihin käyttäjiin:

Ja tässä vastaavasti listaa suosituimmista käyttäjistä, joiden seuraajat ovat huomattavan laaduttomia:

HUOM: Listaukset perustuvat noin vuosi sitten olleeseen tilanteeseen ja järjestys on silloisten seuraajamäärien mukaan. Lukujen laskemiseen käytetyt lähdetiedot ovat epätäydellisiä, joten näihin tulee suhtautua varauksella.

P.S. Muistutan vielä, että laadukkuus/laaduttomuus ei sisällä tässä mitään inhimillistä arvolatausta, vaan kyse on verkostoanalyysin näkökulmasta ja Twitterissä seuraajien määrää on totuttu pitämään laadun mittarina.

20 vastausta artikkeliin “Joukkojen tyhmyyttä ja viisautta Twitterissä

  1. Mielenkiintoinen työ, kiitos jakamisesta. Jälkimmäisellä listalla olevilla Twitter-toimijoilla on siis enemmän seurailijoita, jotka eivät itse vuorovaikuta Twitterissä vahvasti. Tulosta pitää ymmärtää vuorovaikutusnäkökulmasta. Näinkö? ”Laaduttomien” seuraajien käsite voi olla vähän tulenarka, tai ymmärrettävissä helposti väärin.

    1. Tuija, noin sen voi ymmärtää – tai sitten pelkästään niin, että seuraajille ei ole vielä ehtinyt kertyä paljon omia seuraajia. Laaduttomuudella tarkoitan tuossa vain sitä, että seuraajien seuraajamäärä keskiarvo on alhainen verrattuna muihin.

      Kuten Twitterissä tuli jo esiin, niin laadulla tarkoitetaan monia asioita – enimmäkseen muita kuin tässä kirjoituksessa tulee esiin. Tämähän ei ollut ns. laadullista vaan määrällistä ”seuraajien laadun” analyysia. Käytännössä ja arkikielessä mä pidän ”hyvälaatuisina” seuraajia, jotka ovat aktiivisia keskustelijoita ja käyttäytyvät Twitterissä ihimisiksi. Yleensä sitten otan itsekin seurantaan.

  2. TFF 0.70 tulee siis siitä kun seuraan 610 ja minua seuraa 429, se on %.
    Seeking knowledge oli ihan oikea nimitys minun twitteröinnille.

    Olen tietoisesti karsinut suomalaiset tavanomaiset jotka yrittää olla nokkelia ja kertoo kaikki samoja juttuja. Puolet onkin ulkomailta ja parhaiten toimii jonkun kurssin tai tapahtuman yhteydessä. On osoittautunut ihan käteväksi tiedotusvälineeksi kansainvälisesti.
    Laadukas käsitteenä on kyseenalainen kuten Tuijakin totesi.

    1. Kiitos kommentista.

      Pyrkimyksenä tässä oli löytää edes jonkinlaista ”tilastollista laatua” Twitteristä. Laadullisena tutkimuksena (siis ilman tilastollista analyysia) tulokset olisivat varmaankin erilaisia ja ainakin eri tavalla perusteltuja.

  3. Hei, hieno selvitys. Yksi kysymys ”FFA”-metriikastasi: eikö eniten seuratun seuraajilla ole lähtökohtaisesti vähemmän seuraajia? Seuraajamäärien jakaumat yleensä noudattavat power law:ta, ja näin paljon seuraajia omaavia on huomattavasti vähemmän kuin vähän seuraajia omaavia.

    1. Kyllä, lukumääräisesti, mutta jos jakaumat pysyvät saman ”muotoisina”, ei lukumäärän kasvu vaikuta keskiarvoihin.

      1. Tarkoitin, että kun otat tuon rajatun verkoston (Hampus Brynolfin tekemän) ja katsot sieltä eniten seuraajia olevan, ei tällä voi olla keskiarvoltaan kovinkaan korkeita seuraajamääriä. Esim. jos Mikael Jungnerin 31000 seuraajasta kymmenellä on yli 20000 seuraajaa ja keskimäärin vaikkapa 100 seuraajaa, tulee seuraajien seuraajien keskiarvosta auttamatta alhaisempi kuin sellaisella, jolla on itsellään 100 seuraajaa, ja yksi auto-follow Alf Rehn 22000 seuraajallaan.

      2. Totta, noinhan se menee, jos vähän seuratulla on vähintään yksi todella paljon seurattu seuraaja. Mutta kuten tuloksista näkyy, vaihtelu on suurta.

      3. Muotoilen toisin tämän kysymyksen muotoon: mikä olisi se tapaus, jossa eniten seuratulla olisi korkein FFA-arvo? Jos laitat seuraajamäärien jakauman näkyviin, veikkaan, että se muistuttaa muodoltaan tuota samaista seuraajamäärä/FFA-jakaumaa.

      4. Tuskinpa sellaista löytyy, kuten kuvasta näkyy ja kuten minunkin hypoteesini oli. Yksilöllistä vaihtelua on kuitenkin niin paljon, että suuremmalla otoksella löytyisi luultavasti esim. yli 250:n FFA:n käyttäjiä, joilla on yli 20 000 seuraajaa.

  4. Ikävää, että ärsyttävien ihmisoikeushippien takia tästäkin kirjoituksesta piti käyttää merkittävä osa sen vakuutteluun, että kaikki ovat kyllä saman arvoisia.

  5. Keskiarvo ei ole hyvä mittari, kun FFA-mittari muodostuu mittakaavattoman verkoston indegreestä: jos käyttäjällä on vain muutama seuraaja, niin yksikin suosittu seuraaja hajottaa arvot laajalle. Tämä on havaittavissa tuosta jakauma-kuvastasi. Jos taas käyttäjällä on suuri määrä seuraajia, valtaosa niistä tulee olemaan itse vähän seuraajia omaavia. Näin suositun käyttäjän FFA-arvo ei yksinkertaisesti voi nousta korkealle, sillä verkostosta ei löydy riittävästi tarpeeksi muita korkean seuraajamäärän omaavia käyttäjiä suosituimman FFA-arvoa nostamaan. Vaikka laajentaisimme otosta, niin suhteellisesti korkeimmat FFA-arvot eivät löytyisi suosituimmilta käyttäjiltä.

    Ainoa tapaus, jossa on mahdollista se, että suosituimmilla käyttäjillä on korkeimmat FFA-arvot, on että verkostoon ei tule uusia jäseniä (perusjoukkona ja otoksena kaikki Twitterin käyttäjät), kaikki käyttäjät jatkuvasti seuraavat uusia käyttäjiä ja seurattavia ei poisteta.

    1. Kiitos hyvistä täydentävistä kommenteista.

      FFA-arvoissa on kuitenkin isoja eroja suunnilleen yhtä paljon seuraajia omaavien käyttäjien välillä ja ne tuovat joka tapauksessa toisen näkökulman seuraajamäärillä.

      Osaatko ehdottaa tunnuslukua, joka ottaisi seuraajamäärät huomioon arvioitaessa seuraajien laatua jollain aspektilla?

      1. Perustin tuossa joku tovi sitten tilin, jossa seurasin kaikkia Twitterin ehdottamia suomalaisia käyttäjiä https://twitter.com/99cAnalyticsFIN/ . Tweettejä sillä on pyöreät nolla. Vaikka tilillä on vain 6 suomalaista seuraajaa, on tuon tilin seuraajien seuraajien lukumäärän keskiarvo 7333.

        Kysymykseesi seuraajien laadusta: yksittäistä, twitterin perustiedoista saatavaa lukua ei mielestäni löydy. Olet itsekin luetellut syitä siihen. Ja käytännön syy käyttäjien seuraajien seuraajien lukemiseen löytyy Twitterin rate limiteistä.

        Itse käyttäisin mieluummin seurantaa, jossa kerätään tietoa, kuinka moni näistä seuraajista oikeasti reagoi käyttäjän viesteihin esim. retweettamalla tai vastaamalla. Kutsutaan tätä vaikkapa Retweet Ratio/ Engagement Rate -metriikaksi. Kun seuraajien määrän kerrotaan tällä arvolla, voidaan saada todellisempi kuva toiminnallisista seuraajista. Jos hifistellä haluaa, voi tätä arvoa iteroida sen mukaan, mikä vastaava arvo käyttäjän seuraajilla on. Näin nopeasti mietittynä. Eigenvectoreihin pohjautuva kuitenkin, esim. Googlen Pagerank on tällainen.

      2. Juuri tuon takia rajasin tarkempaa käsittelyä niihin, joilla on vähintään 50 seuraajaa, seurattavaa ja tweettiä.

        Klout taitaa laskea pisteitä tuohon tapaan kuin ehdotit.

      3. Jos tuolla tililla olisi yhteensä 50 seuraajaa, ja niillä lopuilla 44 seuraajalla olisi jokaisella vain se 50 seuraajaa, olisi tilin FFA-arvo silti yli 900. Jos taas tili olisi kerännyt 5000 seuraajaa, joista 4996:la olisi 50 seuraajaa ja muut samat, olisi FFA-arvo vastaavasti alle 60.

  6. Päivitysilmoitus: Blogeja | Pearltrees

Jätä kommentti