Kirjoitus perustuu Sosiologia-lehden numerossa 1/2016 julkaistuun tutkimusartikkeliin.
Kansainväliseen lehteen lähettämäsi tutkimusartikkelin asiantuntijalausunnot saapuvat viimein. Artikkeli perustuu monijäsenisen työryhmän viikkokausia koodaamaan laajaan media-aineistoon, mielestäsi vaikuttavan kokoiseen otokseen sanomalehtien pääkirjoituksia usealta vuosikymmeneltä, joiden pohjalta analysoidaan poliittisten diskurssien muuttumista Suomessa. Ensimmäinen referee voivottelee aineiston vanhanaikaisuutta, epäkäytännöllistä käsittelytapaa ja epäilee sen luotettavuutta: ”miksi ihmeessä aineisto on ihmisten koodaama”? Toinen referee on vielä tylympi ja kyseenalaistaa koko otoksen: ”miksette analysoineet niitä kaikkia”?
Järkytyksestä toivuttuasi myös toisen tutkimusartikkelisi asiantuntijalausunnot saapuvat. Saman projektin rinnakkaisaineistoon perustuvassa artikkelissa on haastateltu viittäkymmentä politiikan asiantuntijaa, ja tämän aineiston temaattisen luennan perusteella esitetään ”aineistosta nouseva” tulkinta, että politiikan keskeisiä merkityssisältöjä on kolme, ja että suhtautumistapa niihin liittyy systemaattisesti siihen, millaisena asiantuntija näkee EU:n roolin. Asiantuntijat ovat kohtuullisen myötämielisiä, mutta yksi asettaa julkaisun edellytykseksi, että saa nähtäväkseen päätulkintaa tukevan aineiston laskennallisen mallinnuksen. Päätoimittajat yhtyvät vaatimukseen: ”aihemallianalyysi, joka voidaan julkaista lehden sähköisessä liitteessä, lisäisi huomattavasti tulkinnan vakuuttavuutta”.
Vielä joitain vuosia sitten edellä olevat esimerkit olisivat luultavasti vain kuvitteellisen sosiologimme korkealentoisia painajaisia, mutta nykyisin, tai ainakin lähitulevaisuudessa, kuvatun kaltaiset vaatimukset voivat olla todellisuutta. Vai voivatko? Sosiologia-lehden vuoden 2016 ensimmäisessä numerossa ilmestynyt artikkelimme ”Big datan” haaste ja uudet laskennalliset tekstiaineistojen analyysimenetelmät: esimerkkitapauksena aihemallianalyysi tasavallan presidenttien uudenvuodenpuheista 1935–2015 (Purhonen & Toikka 2016) on keskustelunavaus ja kutsu pohtimaan tätä kysymystä sekä laajemmin digitalisoitumisen, big datan ja uusien laskennallisten analyysimenetelmien merkitystä sosiologisen tutkimuksen kannalta.
* * *
Tarkastelumme lähtökohtana on näkemys, että huolimatta big data-keskustelua monesti luonnehtivasta hypestä ja liioittelusta tulee big datan haaste ja mahdollisuudet ottaa sosiologiassa kuitenkin vakavasti. Esittelemme artikkelissa big datan käsitteen ja ilmiön taustoja päätyen näkemykseen, jonka mukaan big datassa ei ole kysymys vain kirjaimellisesti suurikokoisista tutkimusaineistoista vaan kokonaisesta uudenlaisesta sosiaalisen todellisuuden tarkastelutavasta. Avainasemaan tuossa tarkastelutavassa nousevat tietojenkäsittelytieteessä ja etenkin sen keinoälyn ja koneoppimisen alahaaroissa viime aikoina kehitetyt laskennalliset menetelmät, jotka ovat viime vuosiin saakka olleet heikosti jos lainkaan yhteiskuntatieteilijöiden hyödyntämiä. Katsomme, että etenkin erilaisten tekstiaineistojen uudet laskennalliset analyysimenetelmät ovat hyvin kiinnostavia ja potentiaalisia sosiologisen tutkimuksen kannalta. Esimerkkinä näistä tarkastelemme artikkelissa lähemmin aihemalleja (topic models), jotka kuuluvat ”ohjaamattomien” (unsupervised) tekstinlouhintamenetelmien joukkoon. Aihemallit soveltuvat ensisijaisesti hyvin suurten tekstikorpusten perustavien merkitysrakenteiden tiivistämiseen, mutta osoitamme artikkelissa Suomen presidenttien kaikki uudenvuodenpuheet Svinhufvudista Niinistöön sisältävää aineistoa koskevalla esimerkkisovelluksella, että menetelmää voidaan hyödyntää melko rajattujenkin tekstiaineistojen analysoimisessa.
Artikkelimme pääajatuksen voi tiivistää siten, että big data ja sen mukanaan tuomat uudet laskennalliset tekstiaineistojen analyysimenetelmät, kuten aihemallit, samanaikaisesti merkitsevät ja eivät merkitse vallankumousta yhteiskuntatieteellisen tutkimuksen kannalta. Vallankumouksellista on uusien menetelmien mahdollistama aineiston suuri koko, laskennallisten ja kvalitatiivisten menetelmien välisen suhteen muutos sekä tekstiaineistojen analysoinnin läpinäkyvyys ja toistettavuus. Sellaista vallankumousta, jossa koneelliset menetelmät kokonaan korvaavat perinteiset sosiologiset analyysitavat, aineistot ja teoriat, tuskin kuitenkaan on tapahtumassa.
Uudet menetelmät haastavat vanhat, mutta eivät korvaa niitä vaan täydentävät ja muokkaavat menetelmien sovellusta ja muuttavat menetelmien välistä työnjakoa. Big datan ja uusien laskennallisten menetelmien ei tulisikaan kiinnostaa ensisijaisesti (tai ainakaan vain) perinteisiä kvantitatiivisia menetelmiä käyttäviä tutkijoita, sillä uudet tekstiaineistojen analyysimenetelmät murtavat konventionaalisen jaon ”kvalitatiivisten” ja ”kvantitatiivisten” tarkastelutapojen välillä. Laskennalliset menetelmät eivät selvästikään korvaa perinteiseen lähilukemiseen perustuvia tulkintoja, vaan kaikkein suurin potentiaali voi olla tutkimuksissa, jotka yhdistelevät kumpaakin analyysitapaa ja panevat ne vuorovaikutukseen toistensa kanssa.
Aihemallien kaltaisten laskennallisten menetelmien avulla voidaan kartoittaa suurten tekstikorpusten perustavia merkitysrakenteita eräänlaisesta lintuperspektiivistä, josta tuloksena on abstrahoitu kartta. Tuon lintunäkökulman mukaisen kartan informoima kvalitatiivinen lähilukeminen tekee mahdolliseksi, ei vain kartan rakenteiden illustroimisen, vaan myös noiden rakenteiden tarkemman merkityksen syventämisen. Parhaimmillaan tämä voi johtaa tulkintojen vastavuoroisen validoinnin hyvän kehään.
* * *
Voi sanoa, että tyypillinen ”big data -tutkimus” on ollut sosiologisesta näkökulmasta vielä toistaiseksi teoreettisesti sangen ohutta. Suuri haaste ja seuraava askel onkin, että uusia laskennallisia menetelmiä ja big dataa ryhdytään käyttämään yhtä lailla ja samassa mielessä teoreettisesti motivoiduissa tutkimusasetelmissa ja samoja käsitteellisiä viitekehyksiä käyttäen kuin muutakin sosiologista tutkimusta. Haasteena on siis – kenties paradoksaalisesti – big data -lähestymistapojen käytön ”normalisoiminen” ja hyödyntäminen sosiologien menetelmällisen työkalupakin uutena mutta luontevana ja arkisena välineenä, jolla on oma tehtävänsä. Big data on riisuttava turhasta mystiikasta ja sosiologien on yksinkertaisesti otettava uudet menetelmät ja aineistot käyttöön.
Paljon on ehtinyt tapahtua jo artikkelimme kirjoittamisen jälkeen. Keskustelu big datasta on jatkunut ja kiihtynyt entisestään saaden uusia sävyjä (ks. esim. Big Data & Societyn tuore erikoisnumero, joka sisältää toista tusinaa painavaa puheenvuoroa monelta tunnetulta nykysosiologilta; Mohr et al. 2015). Myös Suomessa keskustelu digitaalisista ihmistieteistä on jatkunut ja syventynyt (ks. esim. Sinnemäki & Tolonen 2015; Tolonen & Lahti 2015), mihin liittyen myös Suomen Akatemian digitaalisten ihmistieteiden akatemiaohjelma (2016–2019) on käynnistynyt. Yksi esimerkki Akatemian rahoittamista hankkeista on Helsingin yliopistossa koordinoitava tutkimuskonsortio ”Citizen Mindscapes” (ks. Lagus et al. 2015), joka on erityisen kiinnostava myös sosiologisen tutkimuksen kannalta. ”Kansalaisten mielentiloja” luotaamaan pyrkivä hanke, taustallaan samanniminen tutkijaverkosto yhteistyössä Aller Median kanssa, on tuonut Suomen suurimman keskustelupalstan, Suomi24:n, viesteihin perustuvan valtavan tekstikorpuksen tutkijoiden analysoitavaksi, jossa riittää pureskeltavaa ja mahdollisuuksia yllin kyllin myös sosiologeille. Jopa Helsingin Sanomien tiedesivut nostivat ”suuraineistojen” tulemisen kotimaisiin yhteiskuntatieteisiin yhdeksi vuoden 2016 tieteen trendeistä (Merimaa 2016).
Kokonaan oma lukunsa – ja teema, jota vain kapeasti sivuamme artikkelissamme, mutta joka ansaitsisi kokonaan oman erillisen pohdintansa – on se, mitä big data ja uudet laskennalliset menetelmät konkreettisesti ottaen tarkoittavat sosiologian ammattitaidon ja opettamisen kannalta. Toistaiseksi äärimmäisen harva sosiologi on menetelmällisesti kompetentti yksinään toteuttamaan koneoppimisen kulttuuriin perustuvia laskennallisia analyysejä. Tämän vuoksi, ja koska tähän ei ole realistista odottaa muutosta ainakaan lyhyellä aikavälillä, sosiologien on välttämätöntä tehdä yhteistyötä muiden, laskennallisesti edistyneiden tieteenalojen edustajien kanssa (ennen muuta tietojenkäsittelytieteen). Ilman yhteistyötä sosiologia uhkaa jäädä uusien menetelmien ja tutkimusmahdollisuuksien junasta. Sosiologian opiskelijoiden – ja yhä oppimishaluisten kokeneempienkin sosiologien – kannalta peli on kuitenkin selvä. Ohjelmointi-, koodaus- ja laskennallisten menetelmien käyttötaidot eivät ole toki jatkossakaan aivan pakollisia taitoja, mutta mitä paremmin ja monipuolisemmin näitä taitoja omaa, sitä suurempi etu se on jo nyt ja lähitulevaisuudessa paitsi akateemisen tutkimustyön myös laajemmin työmarkkinoiden toiveiden ja vaatimusten kannalta. Vastaavasti yksiköiden ja tutkinto-ohjelmien kansallisessa ja kansainvälisessä kilpailussa menestystä voi povata niille, jotka onnistuvat organisoimaan systemaattista ja korkealaatuista opetusta näistä uusista menetelmätaidoista.
Semi Purhonen & Arvo Toikka
Lähteet
Merimaa, Juha. 2016. ”Tulossa 2016: hypernopeaa putkipostia ja raskasta seuraa Higgsille: Tiedetoimitus ennustaa kahdeksan uutista alkavalle vuodelle.” Helsingin Sanomat (Tiede), 6.1.2016. (http://www.hs.fi/tiede/a1451969970564?jako=00a2bf23ec53bf4c2c2e2674a5b3430c&ref=og-url)
Lagus, Krista, Mika Pantzar & Minna Ruckenstein. 2015. ”Keskustelun tunneaallot – Suomi24-hanke.” Tieteessä tapahtuu 33:6, 39–41. (http://ojs.tsv.fi/index.php/tt/article/view/53327/16597)
Mohr, John W., Ronald L. Breiger & Robin Wagner-Pacifici. 2015. toim. ”Assumptions of Sociality: A Colloquium of Social and Cultural Scientists.” Big Data & Society 2:2 (Special Issue). (http://bds.sagepub.com/content/colloquium-assumptions-sociality)
Purhonen, Semi & Arho Toikka. 2016. ”’Big datan’ haaste ja uudet laskennalliset tekstiaineistojen analyysimenetelmät: esimerkkitapauksena aihemallianalyysi tasavallan presidenttien uudenvuodenpuheista 1935–2015”. Sosiologia 53:1, 00–00.
Sinnemäki, Kaius & Mikko Tolonen. 2015. ”Digitaaliset ihmistieteet tutkimuskartalle.” Tieteessä tapahtuu 33:4, 29–32. (http://ojs.tsv.fi/index.php/tt/article/view/51172/15619)
Tolonen, Mikko & Leo Lahti. 2015. ”Aatehistoria ja digitaalisten aineistojen mahdollisuudet.” Ennen ja nyt: historian tietosanomat 2. (http://www.ennenjanyt.net/2015/08/aatehistoria-ja-digitaalisten-aineistojen-mahdollisuudet)