Datan avaus: soRvi- avoimen datan työkalupakki R-kielelle
Kuvaile minkälaisesta datasta (työkalu) on kyse?
Suomalaiseen yhteiskuntaan liittyvien koti- ja ulkomaisten, julkisesti saatavien aineistojen määrä on voimakkaassa kasvussa. Talouteen ja yhteiskuntaan, säähän, liikenteeseen, koulutukseen ja muihin alueisiin liittyvissä avoimen datan hankkeissa ainestoja on alettu avaamaan julkishallinnon toimesta Suomessa ja muualla. Aineistojen pöyhintä voi avata uusia näkökulmia ja avoimuus mahdollistaa yhdistämisen toisiin tietolähteisiin, jolloin voidaan vastata kysymyksiin joihin yksittäisillä aineistoilla ei päästä käsiksi. Laaja saatavuus ja käyttö on omiaan nostamaan yhteisten tietovarantojemme arvoa.
Laskennallisten työkalujen saatavuus ja kehitettyjen ratkaisujen hajanaisuus on osoittautunut keskeiseksi pullonkaulaksi avointen datojen laajemmalle saatavuudelle ja käytölle erityisesti kotimaisten tarpeiden osalta. Avointen aineistojen lisäksi tarvitaan vuorovaikutteista laskentaympäristöä, jossa aineistot voi sujuvasti yhdistää tehokkaisiin analyysimenetelmiin. Avoimen lähdekoodin sorvi-paketti R-kielelle pyrkii paikkaamaan tätä puutetta tarjoamalla keskitetyn kokoelman yleiskäyttöisiä välineitä avointen rajapintojen kautta saatavilla olevien julkisten tietoaineistojen automatisoituun hakuun, putsaamiseen, yhdistelyyn, louhintaan ja visualisointiin.
Miksi julkaistu data (työkalu) on kiinnostava ja mitä sillä voisi tehdä?
Avoimen lähdekoodin laskentaympäristönä R sopii täydellisesti avointen aineistojen analysointiin. R-kieltä käytetään laajalti tutkimus- ja yritysmaailmassa. Viime aikoina sen käyttö on yleistynyt myös datajournalismissa. Valmiit hakurutiinit sujuvoittavat data-analyysia merkittävästi ja madaltavat kansalaisten, toimittajien, ja eri alojen asiantuntijoiden kynnystä tarttua aineistolähtöisiin kysymyksenasetteluihin. Työkalupakista on hyötyä esimerkiksi seuraaville kohderyhmille:
Data-analyytikot: Sorvi-paketti tarjoaa valmiit työkalut aineistohakuihin yleisimpien rajapintojen (tällä hetkellä mm. JSON, XML, PC-axis) kautta, mikä poistaa tärkeän käytännöllisen pullonkaulan datan saatavuudessa. Keskitetty kokoelma työkaluja aineistojen hakuun ja esikäsittelyyn laskentaympäristössä ilman turhia välivaiheita nopeuttaa varsinaiseen analysointivaiheeseen pääsyä.
Toimittajat (datajournalismi): R:n opettelukynnys on suhteellisen matala. Louhos-blogin käytännön esimerkit antavat uusia data-analyyttisiä valmiuksia artikkelien kirjoittamisen tueksi.
Visualisoijat (datan esikäsittely, nopeat koevisualisoinnit, eksploratiivinen data-analyysi): Visualisoinnin asiantuntijat hyötyvät paketin tarjoamasta yhdistelmästä eksploratiiviseen analyysiin sopivia visualisointimenetelmiä.
Opiskelijat (opinnäytetyöt, tilastolukutaito, analyyttiset valmiudet) Sorvi-paketti tarjoaa koulujen, oppilaitosten ja yliopistojen opiskelijoille välineitä Suomalaisen yhteiskunnan tutkimiseen eri näkökulmista avoimiin datoihin perustuen. Samalla opiskelijat saavat yleisiä valmiuksia aineistokriittisyyteen ja data-analyysiin perusteisiin, joiden merkitys on jatkuvassa kasvussa yhteiskunnan eri alueilla.
Tutkijat (Suomalaisen yhteiskunnan ja data-analyysin tutkimus) Suomalaiseen yhteiskuntaan liittyvien koti- ja ulkomaisten, julkisesti saatavien aineistojen hyödyntämisellä on lisääntyvä merkitys eri tutkimusaloilla. Sorvi-paketti tarjoaa keskitetyn kokoelman laskennallisia välineitä Suomea koskevien aineistojen hakuun ja analysointiin täydentäen vakiintuneiden tutkimusalojen menetelmäpohjaa; yleiskäyttöisyytensä ansiosta sorvi tukee erityisesti uusia tieteidenvälisiä avauksia, joissa aineistojen yhdistely useista lähteistä uusilla menetelmillä on avainasemassa.
Miten data (työkalut) on avattu?
Sorvi-paketti poistaa aineistojen saatavuuteen liittyvän keskeisen pullonkaulan tarjoamalla kattavan kokoelman laskennallisia välineitä avoimen datan hakuun, putsaamiseen, analysointiin, yhdistelyyn ja visualisointiin. Välineitä on jo tarjolla mm. Maanmittauslaitoksen ja Googlen kartta-aineistoille, sekä Tilastokeskuksen ja Oikotien tilastoaineistoille. Paketti on aktiivisessa kehitysvaiheessa, ja uusia menetelmiä lisätään jatkuvasti. Aineistojen automatisoitu haku ja esikäsittely suoraan R:n ammattimaisen tehokkaaseen ja vuorovaikutteiseen laskentaympäristöön mahdollistaa eri lähteistä saatavien aineistojen yhdistelyn ja uusimpien menetelmien soveltamisen aineistojen tulkintaan ilman työläitä välivaiheita. R-kielen kautta saatavilla on välittömästi tuhansia ammattimaisesti toteutettuja, dataintensiivisen tutkimuksen ja eksploratiivisen analyysin tarpeisiin suunnattuja analyysimenetelmiä, joista esimerkkeinä mainittakoon pääkomponentti- ja faktorianalyysi, itseorganisoituvat kartat, klusterointi- ja luokittelualgoritmit, korrelaatio- ja regressioanalyysi, aikasarjamallit ja kattavat visualisointikirjastot. Tätä kirjoa täydennetään nyt erityisesti suomalaisen käyttäjäkunnan tarpeisiin vastaavalla avoimen datan työkalupakilla.
Laskennallisten työkalujen lisäksi paketti tarjoaa keskeisimpiä aineistoja valmiiksi esikäsitelynä. Esimerkiksi Maanmittauslaitoksen aineistot on lisensoitu sallivasti, mutta niiden haku Maanmittauslaitoksen sivuilta vaatii erillistä sisään kirjautumista, manuaalista tallennusta ja esikäsittelyä, ja perehtymistä aineiston esitysmuotoihin, mikä nostaa aineistojen käyttökynnystä. Sorvi-paketti ratkaisee haasteen tarjoamalla Maanmittauslaitoksen karttatiedostot sekä muita aineistoja valmiiksi esikäsitellyssä muodossa, jolloin käyttäjät voivat keskittyä täysipainoisemmin varsinaisiin analyysivaiheisiin.
Tiivissä kehitysvaiheessa oleva avoimen datan työkalupakki on toteutettu suomenkielisenä avoimen lähdekoodin projektina, jotta se palvelisi mahdollisimman laajasti suomalaista yleisöä. Avoin lähdekoodi mahdollistaa analyysien toistettavuuden ja läpinäkyvyyden, josta mainiona esimerkkinä toimii sorvi-projektiin ohessa ylläpidettävä Louhos-blogi, josta löytyy mm. HS Open 3:ssa tehty karttavisualisointi pääkaupunkiseudun lukioiden ylioppilaskirjoitusten sijoituksista yhdistettynä asuntojen hintoihin eri alueilla ja Suomen kattavia visualisointeja Tilastokeskuksen aineistoilla. Paketin taustahenkilöillä on kattavaa kokemusta dataintensiivisestä tutkimuksesta ja laskennallisesta menetelmäkehityksestä, mikä tarjoaavahvan pohjan projektin jatkokehitykselle. Uudet ehdotukset ja tekijät ovat tervetulleita, ja yleisö onkin jo Louhos-blogin kautta saatu aktiivisesti mukaan paketin kehittämiseen.
Linkki dataan (työkaluun)
- Sorvi-työkalupakki avoimelle Suomi-datalle löytyy osoitteesta: http://sorvi.r-forge.r-project.org/
- Yksityiskohtaisia käyttöesimerkkejä Louhos-blogissa: http://louhos.wordpress.com/
- Projektin IRC-kanava reaaliaikaiselle keskustelulle: !louhos@IRCnet
Tekijät
Juuso Parkkinen, Leo Lahti