Datavaalit: Oikeusministeriön vaalidatat sorvattu auki

Oikeusministeriö julkaisi eilen illalla (to 27.1.2012) koko maan kattavat tiedot kunnallisvaalien ehdokkaista ja puolueista. Mukana vuoden 2012 kunnallisvaaleissa on kaikkiaan 36305 ehdokasta. Yhdistelemällä aineistoa esimerkiksi viime kunnallis- ja eduskuntavaalien tuloksiin sekä kuntatason indikaattoreihin voidaan tuoda esiin uusia näkökulmia suomalaiseen kunnallispolitiikkaan.

Datavaalit edistää helppokäyttöisen vaalidatan saatavuutta

Louhos ja sorvi ovat aktiivisesti mukana viikko sitten Open Knowledge-festivaaleilla lanseeratussa Datavaalit-hankkeessa, jonka tavoitteena on tukea vaalidatan avaamista ja laajaa hyödyntämistä. Helppokäyttöisessä muodossa olevan päätöksentekodatan heikko saatavuus on keskeinen pullonkaula yhteiskunnallisesti vaikuttavassa datajournalismissa sekä läpinäkyvyyttä edistävien verkkopalveluiden yleistymisessä. Datavaalit-hanke kokoaa tietoja ehdokkaista, puolueista ja vaaleista kaikkien ulottuville. Datavaalit on sitoutumaton ja yhteisövetoinen hanke, jonka käynnistymistä Suomen itsenäisyyden juhlarahasto Sitra on tukenut Uusi Demokratia -kiihdytysrahoituksella.

R-kieliset rutiinit vaalidatan putsaamiseksi

Oikeusministeriön julkaisema vaalidata on sellaisenaan hankalasti käytettävää, koska aineisto on jaettu useisiin erillisiin tiedostoihin, kenttien otsikot puuttuvat, ja tiedostojen sisältö vaatii putsaamista. Edistääksemme vaalidatan mahdollisimman laajaa ja sujuvaa hyödyntämistä loimme sorviin hakurutiinit, jolla koko aineiston voi hakea helposti R-ympäristöön ilman hankalia esikäsittelyvaiheita. Rutiinit lukevat vaalipiirikohtaiset taulut, yhdistävät ne koko maan kattavaksi yhtenäiseksi taulukoksi, ja lisäävät sarakeotsikot sekä selkokieliset nimet koodinimellä ilmoitettujen kenttien oheen. Hakurutiinit löytyvät sorvi-paketin develop-haaran versiosta 0.1.88, ja esimerkkikoodi niiden käyttöön on Louhoksen takomo-repossa.

Lataa siistitty vaalidata-CSV

Tuloksena on kaksi selkeää koko maan kattavaa vaalidata-taulukkoa, yksi ehdokkaille ja toinen puolueille. Päätimme pistää ensimmäiset CSV-muotoiset datat jakoon datavaalit.fi-palvelimelle samalla, kun sivuston kattavampi ja helppokäyttöinen tietokantaratkaisu on työn alla. Voit ladata CSV-tiedostot (tai tiiviimmät gzipatut versiot) seuraavista linkeistä:

  • Ehdokasdata: CSV
  • Puoluedata: CSV

Välineet Oikeusministeriön tarjoaman vaalidatan siistimiseksi helppokäyttöiseen muotoon ovat vielä kehitysvaiheessa, emmekä takaa aineistojen virheettömyyttä. Ilmoitukset mahdollisista puutteista ovat erittäin tervetulleita. Ilmoitamme päivityksistä tässä blogissa ja datavaalit.fi-sivustolla.

Kehitysehdotukset Oikeusministeriölle

Oikeusministeriölle kiitokset aineistojen julkaisemisesta. Hyvää palvelua kansalaisten suuntaan olisi tarjota taulukot jatkossa suoraan selkokielisessä muodossa, jonka koneluettavuus säilyy. Ehdotamme OM:lle tuleviin versioihin seuraavia parannuksia, jotka on mahdollista lisätä nopeasti ja automatisoidusti, ja jotka edistäisivät aineiston käytettävyyttä merkittävästi:

  1. Aineistot tulisi tarjota vaalipiirikohtaisten taulukoiden sijasta tai lisäksi koko maan kattavana kokoomataulukkona
  2. Sukupuolen, kunnan, vaalipiirin ja vaalityypin osalta koostetaulukkoon tulisi lisätä tietokantakoodin ohelle myös selkokieliset nimet
  3. CSV-tiedostoista tulisi tarjota versio, jonka kentät on otsikoitu valmiiksi. Kenttien tulkitsemiseen tarvittaviin PDF-muotoisiin kuvaustietoihin ei löydy linkkiä tiedostojen jakelusivulta; tiedostojen tulkinta vaatii nyt erillisten kuvaustiedostojen löytämistä ja kenttien otsikkotietojen lisäämistä käsin. Tämä vie aikaa ja sisältää mahdollisuuden virhetulkintoihin.
  4. Tiedostojen jakelusivulta löytyvät PDF-yhteenvetotaulukot ehdokkaista ja puoleistavoisi tarjota jakoon myös CSV-muodossa, jolloin niitä voisi tulkita suoraan koneellisesti.
  5. Olisi tärkeää lisensoida aineistot avoimesti, esimerkiksi CC0-lisenssillä. Tämä takaisi selkeät juridiset pelisäännöt aineistojen jatkokäytölle ja edistäisi niitten vapaata käyttöä.
About these ads

About antagomir

http://www.iki.fi/Leo.Lahti
This entry was posted in R, sorvi, uutinen and tagged . Bookmark the permalink.

14 vastausta artikkeliin Datavaalit: Oikeusministeriön vaalidatat sorvattu auki

  1. Antti Poikola sanoo:

    Mahtavaa työtä! Käyttökynnyksen madaltamiseksi, voisi kyllä julkaista noi CSV:t ihan sellaisenaan (ei ole kuitenkaan, kuin 5 megaisia), silloin voisi esim. Google Refineen uploadata suoraan linkittämällä tiedostoon tällä sivulla.

  2. Antti Ahola sanoo:

    Mahtavaa! Komppaan tuota pelkkänä csv:nä julkaisemista.

  3. semmosta pientä vielä, että otsikko ehkä vähän johtaa harhaan… tämä on ehdokasdataa, tulosdata vasta vaalien jälkeen sitten ;)

    • antagomir sanoo:

      Tjoo totta.. :) Tulosdata on lupa julkistaa vasta vaalien jälkeen. No mutta ne tulee ilmeisesti samojen tiedostojen lisäkentiksi, ja näiden lukurutiiniten pitäis purra valmiiksi niihinkin. Eli sitte ku sitä äänten laskentadataa alkaa pukkaamaan luvatuilla viiden minuutin päivityksillä niin voi pistää nämäkin skriptit pyörimään reaaliajassa tuloslaskentaa seuratessa. Ehkä tuota otsikkoa vois kuitenkin tarkentaa tältä osin.

      • antagomir sanoo:

        Postauksen URL näyttää muuttuvan jos otsikkoa vaihtaa, joten pidetään samana ku on jo linkattu moneen paikkaan. Totuudenmukaisempi otsikko olis esim. ”Oikeusministeriön vaalidatat sorvattu auki”

  4. Ja ehdokasdata CSV -filun sarakeotsikoinnissa on vikaa, sarake P pitäisi olla kai alueen nimi ruotsiksi…

  5. WordPressiss on automaattinen URL -uudelleenohjaus, eli vaikka otsikkoa ja URL:iua muuttaa, niin vanhankin pitäisi toimia.

  6. Päivitysilmoitus: JYVÄSKYLÄN YLIOPPILASLEHTI » Valtakunnallinen ehdokasdata tarjolla tässä

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s