Datavaalit osa 1 – vaali- ja kuntadatan kokoaminen ja paketointi

Datavaalit Syksyn kunnallisvaalien yhteydessä on mahdollisuus kokeilla vaaleihin ja päätöksentekoon liittyvän tiedonlouhinnan mahdollisuuksia ja tuoda esiin kehityskohteita päätöksentekoon kytkeytyvien tietoaineistojen saatavuuden ja yhteiskunnan läpinäkyvyyden lisäämiseksi. Aiheen tiimoilta on käynnistynyt ruohonjuuritason Datavaalit-tempaus, jossa eri toimijat keräävät, pöyhivät, ja julkaisevat vaaleihin liittyvää dataa ja sen pohjalta tehtäviä havaintoja. Datavaalit-tempauksella ei ole muodollista organisaatiota, vaan aiheesta kiinnostuneet ovat tervetulleita liittymään mukaan itselleen sopivalla tavalla. Ideoita ja tietolähteitä on koottuna täällä. Jos aihepiiri kiinnostaa, nyt on hyvä aika hypätä kelkkaan. Louhos-tiimimme on mukana Datavaalit-tempauksessa kehittämällä yhteisövetoista soRvi-ohjelmakirjastoa yhteiskunnan tietovirtojen seulontaan.

Vaalitilastojen kokoaminen Aloitimme kunnallisvaaleihin valmistautumisen keräämällä Helsingin Sanomien pyynnöstä kattavan paketin kuntatason sosioekonomista dataa ja aiempiin vaaleihin liittyviä tilastoja valmiiksi esikäsitellyssä taulukkomuodossa yhdistämällä Tilastokeskuksen ja Maanmittauslaitoksen avoimia kuntatason aineistoja. Data sisältää kuntatason tietoja väestöstä, koulutuksesta, työttömyydestä, ja muista indikaattoreista yhdistettynä kunnallisvaalien tuloksiin vuosilta 2000, 2004 ja 20008 sekä eduskuntavaalien tuloksiin vuosilta 2007 ja 2011. Aineistoja hyödynnetään mm. maanantain 21.5.2012 HS Open-tapahtumassa, jossa koodaajien, graafikoiden ja toimittajien muodostamat tiimit pöyhivät tätä ja muita kunnallisvaaleihin liittyviä datoja. Jäämme mielenkiinnolla odottamaan, mitä tapahtuman osallistujat löytävät näiden tietoaineistojen kätköistä.

Hakurutiinit soRviin Esikäsitellyt kuntatason tietoaineistot ovat ladattavissa yllä olevan linkin kautta HS:n palvelimelta, mutta tämän blogipostauksen lopussa olevalla soRvi-kirjastoon pohjautuvalla koodilla niiden automaattinen luku onnistuu myös suoraan alkuperäislähteistä. Koodissa käytetyt hakurutiinit ovat toistaiseksi saatavilla vain soRvin GitHub-kehitysversion kautta. Tiedot on nyt koostettu kaksiulotteisiksi taulukoiksi, sillä näiden käsittely ja yhdistely muihin tietoihin onnistuu helposti tavanomaisilla taulukko-ohjelmilla. Haittana on, että taulukon metatietoja joudutaan kokoamaan tekstimuotoon otsikkoriville. Automatisoidun analyysin kannalta moniulotteiset taulukot ja tietokantapohjaiset esitysmuodot olisivat optimaalisempia. Pyrimme jatkossa kehittämään soRvi-kirjastoa myös tältä osin ja uudet ehdotukset ja kontribuutiot ovat tervetulleita.

Ongelmia Tilastokeskuksen aineistoilla Aineistoja kootessamme havaitsimme, että Tilastokeskuksen avointen aineistojen luku vaatii pelkästään Windowsilla toimivaa ja suljetusti lisensoitua PX-Edit-ohjelmaa. Tämä muodostaa merkittävän pullonkaulan Tilastokeskuksen avointen aineistojen automatisoidulle saatavuudelle ja käytölle: 2621 avoimesta datataulukosta vain 29% (761 tiedostoa) oli automatisoidusti luettavissa verkon yli R-kielen valmiilla hakurutiineilla. Toistaiseksi PX-Edit näyttää olevan ainoa loppuun viilattu ohjelma Tilastokeskuksen käyttämän dataformaatin lukuun, mutta ohjelma toimii vain Windowsilla, sen käyttöä verkon yli ei saa kohtuullisella työmäärällä automatisoitua, ja lisenssiehdot hankaloittavat vaihtoehtoisten lukurutiinien tuottamista. Toivommekin Tilastokeskuksen jakavan avoimet aineistonsa jatkossa myös XML-tiedostoina tai muussa standardimuodossa, jolloin niiden luku ja automatisoitu yhdistely muihin tietoaineistoihin sujuvoituisi merkittävässä määrin kasvattaen entisestään tämän laadukkaan datakokoelman merkitystä ja arvoa.

Alla vielä lähdekoodi, jolla Tilastokeskuksen vaali- ja kunta-aineistojen haku ja yhdistely alkuperäislähteistä onnistuu soRvin kehitysversiolla >0.1.70.

Muokattu 7.4.2013 Esimerkkikoodit löytyvät nyt Louhoksen takomo-reposta

Tietoja antagomir

http://www.iki.fi/Leo.Lahti
This entry was posted in paikkatieto, R, tiedonlouhinta, uutinen and tagged , , , . Bookmark the permalink.

6 vastausta artikkeliin: Datavaalit osa 1 – vaali- ja kuntadatan kokoaminen ja paketointi

  1. PC-Axis -tiedostoja voi myös lukea ja muuntaa PC-Axis ohjelmalla:
    http://tilastokeskus.fi/tup/pcaxis/index.html

    • antagomir sanoo:

      Kiitos vinkistä. PC-Axisin kanssa taitaa olla samat ongelmat kuin PX-Editissä, eli sidottu yksittäiseen suljettuun käyttöjärjestelmään ja lisenssi ei salli vapaata muokkausta esim. toisiin järjestelmiin sopivaksi.

      • Kyllä se taitaa Wine:ssä toimia.

        PX-Editin porttaaminen muihin käyttöjärjestelmiin taitaa olla mahdotonta koska APL-osaajia ei tähän työhön kertakaikkiaan löydy!

  2. Testaamme XML-pojaista XDF-tiedostomuotoa (NASA/Tilastokeskus):
    http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv

    Tiedostomuodon kuvaus:
    http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html

    HUOM! TÄTÄ EI AKTIIVISESTI VIELÄ PÄIVITETÄ!
    Olisin kiitollinen jos kommentoisitte tätä tiedostomuotoa …

  3. antagomir sanoo:

    Erinomaista, kiitokset Hans & Tilastokeskus! Koitamme ehdottomasti löytää tämän tsekkaamiseen aikaa heti kun mahdollista, proggis pyörii kuitenkin vapaaehtoisvoimin joten en voi suoralta kädeltä pistää takeita aikataulun suhteen. Vapaaehtoiset testaajat ilmoittautukoon: http://louhos.github.com/contact.html

  4. Paluuviite: datajournalismi.fi – Datavaalit häkseröintisunnuntai

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s