Louhoksen Datawiki avattu

Louhos

Tieteelliset analyysiympäristöt tarjoavat joustavia ja tehokkaita välineitä avoimen datan käsittelyyn. R-kielen ja Pythonin kaltaisten analyysiympäristöjen kautta on saatavilla kaikkein monipuolisimmat tutkimusvälineet datan vuorovaikutteiseen pöyhimiseen, ja lähdekoodin myötä analyysit ovat läpinäkyviä, toistettavissa alusta loppuun ja edelleen muokattavissa. Tarkoitukseen luotujen kirjastojen myötä tarjolla on sujuvia välineitä aineistojen hakuun, putsaamiseen, analysointiin, eksplorointiin, yhdistelyyn, tilastolliseen testaukseen, visualisointiin, ja muihin jokapäiväisiin perusrutiineihin.

Laskentakielten oppimiskynnys on kuitenkin koettu korkeaksi, ja lisäksi tieto kotimaisista avoimen datan lähteistä on ollut hajanaista hidastaen avoimen datan ja modernin laskennan kohtaamista.

Louhoksen Datawiki paikkaa nyt tämän puutteen tarjoamalla yksityiskohtaisia esimerkkejä kotimaisen avoimen datan käsittelyyn moderneilla laskentakielillä sekä kehittäjäyhteisön aktiivisen tuen. Kotimaisen avoimen datan tarpeisiin suunnattu opas helpottaa sekä laskentakielten omaksumista että yhteiskunnan avointen datavirtojen saatavuutta, kun perusesimerkit aineistojen algoritmiseen hakuun ja käsittelyyn ovat helposti saatavilla. Näin Datawiki palvelee myös niitä, joille tieteelliset laskentaympäristöt ovat ennestään tuttuja.

Datawikin painopiste on keskeisimmissä kotimaisissa avoimen tiedon lähteissä, joiden käsittelyyn on saatavilla valmiita välineitä. Datawiki tarjoaa tällä hetkellä esimerkkejä noin 20 keskeisen tietolähteen ja tuhansien yksittäisten aineistojen käsittelyyn. Nykyinen ohjeistus keskittyy R-kieleen, joka on yksi suosituimmista avoimen lähdekoodin analyysiympäristöistä, mutta oppaan laajentaminen muihin ympäristöihin on suunnitteilla. Wiki-sivustoa kartutetaan jatkuvasti, ja käyttäjät voivat osallistua oppaan täydentämiseen. Uudet kehittäjät ja kontribuutiot ovat erittäin tervetulleita.

Datawiki on mukana myös tämän vuoden Apps4Finland-kisan Dataopas-sarjassa. Yleisöäänestys on käynnissä 30.11.2012 klo 17 asti.

Kategoria(t): koneoppiminen, R, sorvi, tiedonlouhinta | Avainsanat: , , | Kommentoi

Kunnallisvaaliehdokkaiden aktiivisuus sosiaalisessa mediassa: puolueiden vertailua

Datavaalit-hanke on kerännyt runsaasti aineistoa kunnallisvaaliehdokkaista ja puolueista. Sivustolla ylläpidetään esimerkiksi sosiaalisen median aggregaattia, johon kerätään tietoja ehdokkaiden aktiivisuudesta mm. Facebookissa ja Twitterissä.

Teimme muutamia esimerkkejä ehdokasaineistojen käsittelystä R-kielellä. Esimerkit hakevat dataa Oikeusministeriön, Tilastokeskuksen, Maanmittauslaitoksen ja Datavaalit-sivuston palvelimilta ja vertailevat ehdokkaiden aktiivisuutta sosiaalisessa mediassa puolueiden välillä, ja ne voidaan toistaa alusta loppuun automatisoidusti mukana tulevalla lähdekoodilla.

Visualisoinnit lähdekoodeineen löydät Louhoksen Datawikistä ja Githubin takomo-reposta. Materiaaliin on tulossa myöhemmin täydennystä.

Kategoria(t): R, sorvi, tiedonlouhinta, uutinen, visualisointi | Avainsanat: , , , | 2 kommenttia

Kunnallisvaalien vertailukelpoiset ehdokasdatat CSV-taulukkoina: 2004 / 2008 / 2012

Vuoden 2012 kunnallisvaaliehdokkaiden vertailu aiempien kunnallisvaalien ehdokastietoihin on nyt ajankohtainen aihe. Ensimmäisiä vertailuja on julkaistu muun muassa Jyväskylän ylioppilaslehdessä ja Helsingin vaalipiirille on laadittu alustava puolueloikkaritaulukko.

Käyttövalmiissa muodossa olevien aineistojen puute kunnallisvaaleista 2004-2008 on kuitenkin jälleen osoittautunut merkittäväksi pullonkaulaksi koko maan kattaville vertailuille sen jälkeen, kun julkaisimme edellisessä blogipostauksessa OM:n koneluettavista raakadatoista koostetun käyttövalmiin CSV-tiedoston 2012 kunnallisvaalien ehdokasdatasta.

Datavaalit työstää keskitettyä tietokantaa vaalidatan tarjoilulle helppokäyttöisessä muodossa, mutta työn edetessä julkaisemme alustavaa dataa käyttövalmiina CSV-taulukkoina Linus Torvaldsin tunnetuksi tekemää ”release early – release often”-taktiikkaa noudattaen. Nyt vuorossa vertailukelpoiset 2004-2012 ehdokasdatat.

Lataa kunnallisvaalien ehdokasdata 2004-2012

Taulukot on laadittu mahdollisimman vertailukelpoisiksi siten, että informaatiota ei katoa. Aineistot löytyvät nyt GitHub-sivuilta ja Datavaalit-palvelimelta.

Vuosien 2004-2008 aineistot on esitetty äänestysalueen tarkkuudella, lisäksi saatavilla on kuntatason yhteenvedot pienempinä erillistaulukoina. Vuoden 2012 osalta aineistot ovat kuntatasolla. Vuoden 2012 osalta mukana on joitakin lisätietokenttiä, lisäksi osa vuoden 2004-2008 kentistä puuttuu vuoden 2012 aineistoista. Yhteisten kenttien nimet ovat suoraan vertailukelpoisia taulukkojen välillä. Esikäsittely on tehty läpinäkyvästi alla linkatulla lähdekoodilla. Emme takaa aineiston virheettömyyttä. Pyydämme raportoimaan mahdollisista puutteista. Ehdokasaineistojen vertailuja edistäisi entisestään, mikäli OM yksilöisi ehdokkaat uniikilla tunnuksella; samassakin kunnassa voi olla ehdolla saman nimisiä ehdokkaita.

Aineistolähteet ja lähdekoodi

Aineistot on haettu Oikeusministeriön palvelimelta (2012; (C) OM 2012) ja Tilastokeskukselta (2004/2008, (C) Tilastokeskus 2012). Kuntakoodimuunnoksissa on lisäksi hyödynnetty Maanmittauslaitoksen aineistoja ((C) MML 2011-2012). Yhtenäistimme esim. kenttien nimiä taulukoiden välillä, lisäsimme selkokielisiä kenttiä koodinimien oheen, eriytimme etu- ja sukunimet, kunnat ja äänestysaluenimet omiin kenttiinsä ja järjestimme taulukkojen yhteiset kentät samaan järjestykseen. Lähdekoodi esikäsittelyyn on tehty sorvi-paketin kehitysversiolla 0.1.92 käyttäen alla olevaa lähdekoodia. Mahdolliset päivitykset alla olevaan lähdekoodiin tehdään suoraan takomo-repoon.

Kategoria(t): R, sorvi | Avainsanat: , , , , | 20 kommenttia

Datavaalit: Oikeusministeriön vaalidatat sorvattu auki

Oikeusministeriö julkaisi eilen illalla (to 27.1.2012) koko maan kattavat tiedot kunnallisvaalien ehdokkaista ja puolueista. Mukana vuoden 2012 kunnallisvaaleissa on kaikkiaan 36305 ehdokasta. Yhdistelemällä aineistoa esimerkiksi viime kunnallis- ja eduskuntavaalien tuloksiin sekä kuntatason indikaattoreihin voidaan tuoda esiin uusia näkökulmia suomalaiseen kunnallispolitiikkaan.

Datavaalit edistää helppokäyttöisen vaalidatan saatavuutta

Louhos ja sorvi ovat aktiivisesti mukana viikko sitten Open Knowledge-festivaaleilla lanseeratussa Datavaalit-hankkeessa, jonka tavoitteena on tukea vaalidatan avaamista ja laajaa hyödyntämistä. Helppokäyttöisessä muodossa olevan päätöksentekodatan heikko saatavuus on keskeinen pullonkaula yhteiskunnallisesti vaikuttavassa datajournalismissa sekä läpinäkyvyyttä edistävien verkkopalveluiden yleistymisessä. Datavaalit-hanke kokoaa tietoja ehdokkaista, puolueista ja vaaleista kaikkien ulottuville. Datavaalit on sitoutumaton ja yhteisövetoinen hanke, jonka käynnistymistä Suomen itsenäisyyden juhlarahasto Sitra on tukenut Uusi Demokratia -kiihdytysrahoituksella.

R-kieliset rutiinit vaalidatan putsaamiseksi

Oikeusministeriön julkaisema vaalidata on sellaisenaan hankalasti käytettävää, koska aineisto on jaettu useisiin erillisiin tiedostoihin, kenttien otsikot puuttuvat, ja tiedostojen sisältö vaatii putsaamista. Edistääksemme vaalidatan mahdollisimman laajaa ja sujuvaa hyödyntämistä loimme sorviin hakurutiinit, jolla koko aineiston voi hakea helposti R-ympäristöön ilman hankalia esikäsittelyvaiheita. Rutiinit lukevat vaalipiirikohtaiset taulut, yhdistävät ne koko maan kattavaksi yhtenäiseksi taulukoksi, ja lisäävät sarakeotsikot sekä selkokieliset nimet koodinimellä ilmoitettujen kenttien oheen. Hakurutiinit löytyvät sorvi-paketin develop-haaran versiosta 0.1.88, ja esimerkkikoodi niiden käyttöön on Louhoksen takomo-repossa.

Lataa siistitty vaalidata-CSV

Tuloksena on kaksi selkeää koko maan kattavaa vaalidata-taulukkoa, yksi ehdokkaille ja toinen puolueille. Päätimme pistää ensimmäiset CSV-muotoiset datat jakoon datavaalit.fi-palvelimelle samalla, kun sivuston kattavampi ja helppokäyttöinen tietokantaratkaisu on työn alla. Voit ladata CSV-tiedostot (tai tiiviimmät gzipatut versiot) seuraavista linkeistä:

  • Ehdokasdata: CSV
  • Puoluedata: CSV

Välineet Oikeusministeriön tarjoaman vaalidatan siistimiseksi helppokäyttöiseen muotoon ovat vielä kehitysvaiheessa, emmekä takaa aineistojen virheettömyyttä. Ilmoitukset mahdollisista puutteista ovat erittäin tervetulleita. Ilmoitamme päivityksistä tässä blogissa ja datavaalit.fi-sivustolla.

Kehitysehdotukset Oikeusministeriölle

Oikeusministeriölle kiitokset aineistojen julkaisemisesta. Hyvää palvelua kansalaisten suuntaan olisi tarjota taulukot jatkossa suoraan selkokielisessä muodossa, jonka koneluettavuus säilyy. Ehdotamme OM:lle tuleviin versioihin seuraavia parannuksia, jotka on mahdollista lisätä nopeasti ja automatisoidusti, ja jotka edistäisivät aineiston käytettävyyttä merkittävästi:

  1. Aineistot tulisi tarjota vaalipiirikohtaisten taulukoiden sijasta tai lisäksi koko maan kattavana kokoomataulukkona
  2. Sukupuolen, kunnan, vaalipiirin ja vaalityypin osalta koostetaulukkoon tulisi lisätä tietokantakoodin ohelle myös selkokieliset nimet
  3. CSV-tiedostoista tulisi tarjota versio, jonka kentät on otsikoitu valmiiksi. Kenttien tulkitsemiseen tarvittaviin PDF-muotoisiin kuvaustietoihin ei löydy linkkiä tiedostojen jakelusivulta; tiedostojen tulkinta vaatii nyt erillisten kuvaustiedostojen löytämistä ja kenttien otsikkotietojen lisäämistä käsin. Tämä vie aikaa ja sisältää mahdollisuuden virhetulkintoihin.
  4. Tiedostojen jakelusivulta löytyvät PDF-yhteenvetotaulukot ehdokkaista ja puoleistavoisi tarjota jakoon myös CSV-muodossa, jolloin niitä voisi tulkita suoraan koneellisesti.
  5. Olisi tärkeää lisensoida aineistot avoimesti, esimerkiksi CC0-lisenssillä. Tämä takaisi selkeät juridiset pelisäännöt aineistojen jatkokäytölle ja edistäisi niitten vapaata käyttöä.
Kategoria(t): R, sorvi, uutinen | Avainsanat: | 14 kommenttia

Suomen CO2-päästöt 1990-2008

Louhos osallistui Open Knowledge Festivalin yhteydessä järjestettyyn HSOpen-hackathoniin, jonka teemana oli pöyhiä Maailmanpankin avoimia datoja. Maailmanpankin aineistot sisältävät huomattavan määrän tilastotietoa eri maiden sosioekonomisesta tilanteesta. Hans Roslingin esitelmän kannustamana visualisoimme Suomen hiilidioksidipäästöt vuosilta 1990-2008. Esimerkkikoodi tämän analyysin toistamiseksi R-laskentakielellä löytyy alta.

 

PÄIVITYS 6.1.2013: Blogin R-skriptejä ylläpidetään jatkossa Githubissa. Tämän artikkelin koodit löytyvät täältä.

Kategoria(t): R, tiedonlouhinta, visualisointi | Avainsanat: , | Kommentoi

YLE/MOT yritystukidatan R-hakurutiinit

YLE:n MOT-ohjelman yhteydessä julkaistiin eilen (maanantaina 10.9.2012) avoimesti lisensoituna kattava kooste suomessa toimivien yritysten saamista tukirahoista pisimmillään yli 15 vuoden ajalta. Aineisto kattaa Tekes-tukien osalta vuodet 1997 – 2012 ja listaa yritystukia yhteensä yli 5 miljardin euron edestä. Tärkeimpien yritystukien osalta mukana on vertailukelpoinen aikasarja 12 vuodelta. Sivuston mukaan aineistoon on koottuna valtaosa Työ- ja elinkeinoministeriön, Liikenneministeriön ja Maa- ja metsätalousministeriön jakamista suorista yritystuista.

Yritystukia käsittelevä aineisto on erittäin kiintoisa, joten päätimme saman tien lisätä sorviin hakurutiinit, joilla datan saa sujuvasti vedettyä MOT:n sivuilta suoraan R-laskentaympäristöön nopeuttaen analyysivaiheeseen pääsyä ja madaltaen ainakin R-osaajien kynnystä yritystukien penkomiseen.

Louhoksen päätavoitteena on julkaista joustavia laskennallisia välineitä avoimen yhteiskunnallisen datan hakuun ja käsittelyyn. Saadaksemme MOT:n yritystukiaineiston R-hakurutiinit nyt pikavauhdilla vapaaseen jakeluun ja muidenkin pöyhittäväksi, teimme tähän blogipostaukseen vain lyhyen ja esimerkinomaisen analyysin. Alla esitetty lähdekoodi hakee CSV-muotoisen yritystukidatan, esikäsittelee sen yhteensopivaan muotoon Maanmittauslaitoksen kartta-aineistojen kanssa, ja lopulta esittää Suomen kartalla kunkin maakunnan saaman tuen verrattuna vähiten tukia saaneeseen maakuntaan (ks. kuva). Eniten tukia on mennyt Uudellemaalle, lähes 300-kertaisesti vähiten saaneeseen Ahvenanmaahan verrattuna (464087 euroa).

Esimerkissämme ei ole huomioitu eroja esimerkiksi siinä, moneltako vuodelta tukitietoja oli saatavilla kullekin maakunnalle, tai sitä paljonko kyseisessä maakunnassa on yritystoimintaa. Näillä seikoilla voi olla merkittävä vaikutus tulosten tulkintaan. Aineistossa on lisäksi saatavilla tarkempaa maakunta-, toimiala- ja yrityskohtaista tietoa tukirahoista 10-15 vuoden aikasarjana. Kiintoisaa olisi katsoa sitäkin, miten yritystuet vertautuvat kuntatason taloudellisiin ja sosioekonomisiin indikaattoreihin, joita on myöskin sorvin kautta saatavilla Tilastokeskukselta.

MOT-sivuston kautta oli saatavilla lisäksi Excel-muotoisia taulukoita. Jos joku ehtii tekemään sorviin importtereita näille esim. gdata paketin read.xls-funktion avulla, niin otamme mielellämme kontribuutioita vastaan. Hatunnosto YLElle ja MOT-ohjelmalle aineistojen avaamisesta vapaaseen käyttöön. Jos jotakin voisi parantaa, niin aineistot ja niiden dokumentaatio olisi hyvä jakaa Word/Excel-tiedostojen sijasta tai lisäksi avoimen standardin mukaisina, esim. CSV-tiedostoina, edistäen niiden koneluettavuutta.

Alkuun päästäkseksi asenna sorvi, ja kokeile alla olevaa lähdekoodia yritystukidatan hakemiseen. Sorvin uusimman version asennusohjeet löydät täältä. Vaihtoehtoisesti voit forkata koodin Louhoksen takomo-reposta, jonne myös mahdolliset myöhemmät päivitykset tullaan tekemään. Koodailemisiin!

Muokattu 7.4.2013 Esimerkkikoodit löytyvät nyt Louhoksen takomo-reposta

Kategoria(t): R, sorvi, tiedonlouhinta, visualisointi | Avainsanat: , | Kommentoi

Louhos-hack syyskuun Open Knowledge-Festivaalilla – tervetuloa mukaan

Syyskuussa Helsingissä järjestettävä kansainvälinen Open Knowledge Festival kokoaa yhteen avoimen tiedon aktiiveja ympäri maailmaa. Tapahtumassa on 170 erilaista luentoa ja työpajaa liittyen avoimen tiedon hankkeisiin tieteessä, koulutuksessa, kulttuurissa, demokratiassa, journalismissa ja monilla muilla alueilla.

Louhos on mukana järjestämässä tiedehackathonia Open Research and Education Hackdayn yhteydessä tiistaina 18.9. Maksuton tapahtuma tarjoaa mahdollisuuden päästä kertarysäyksellä mukaan kehittämään ja soveltamaan avoimen lähdekoodin tutkimusvälineitä avoimelle datalle ja tutustumaan muihin vastaaviin hankkeisiin eri maista. Toivotamme kaikki aiheesta kiinnostuneet lämpimästi tervetulleiksi. Osallistujamäärä on rajattu, ja paikat täytetään ilmoittautumisjärjestyksessä. Ilmoittautumislomakkeen ja lisätietoja löydät OKFestin sivuilta.

Kategoria(t): R, sorvi, tiedonlouhinta, uutinen | Avainsanat: , | Kommentoi