Oikeusministeriö julkaisi eilen illalla (to 27.1.2012) koko maan kattavat tiedot kunnallisvaalien ehdokkaista ja puolueista. Mukana vuoden 2012 kunnallisvaaleissa on kaikkiaan 36305 ehdokasta. Yhdistelemällä aineistoa esimerkiksi viime kunnallis- ja eduskuntavaalien tuloksiin sekä kuntatason indikaattoreihin voidaan tuoda esiin uusia näkökulmia suomalaiseen kunnallispolitiikkaan.
Datavaalit edistää helppokäyttöisen vaalidatan saatavuutta
Louhos ja sorvi ovat aktiivisesti mukana viikko sitten Open Knowledge-festivaaleilla lanseeratussa Datavaalit-hankkeessa, jonka tavoitteena on tukea vaalidatan avaamista ja laajaa hyödyntämistä. Helppokäyttöisessä muodossa olevan päätöksentekodatan heikko saatavuus on keskeinen pullonkaula yhteiskunnallisesti vaikuttavassa datajournalismissa sekä läpinäkyvyyttä edistävien verkkopalveluiden yleistymisessä. Datavaalit-hanke kokoaa tietoja ehdokkaista, puolueista ja vaaleista kaikkien ulottuville. Datavaalit on sitoutumaton ja yhteisövetoinen hanke, jonka käynnistymistä Suomen itsenäisyyden juhlarahasto Sitra on tukenut Uusi Demokratia -kiihdytysrahoituksella.
R-kieliset rutiinit vaalidatan putsaamiseksi
Oikeusministeriön julkaisema vaalidata on sellaisenaan hankalasti käytettävää, koska aineisto on jaettu useisiin erillisiin tiedostoihin, kenttien otsikot puuttuvat, ja tiedostojen sisältö vaatii putsaamista. Edistääksemme vaalidatan mahdollisimman laajaa ja sujuvaa hyödyntämistä loimme sorviin hakurutiinit, jolla koko aineiston voi hakea helposti R-ympäristöön ilman hankalia esikäsittelyvaiheita. Rutiinit lukevat vaalipiirikohtaiset taulut, yhdistävät ne koko maan kattavaksi yhtenäiseksi taulukoksi, ja lisäävät sarakeotsikot sekä selkokieliset nimet koodinimellä ilmoitettujen kenttien oheen. Hakurutiinit löytyvät sorvi-paketin develop-haaran versiosta 0.1.88, ja esimerkkikoodi niiden käyttöön on Louhoksen takomo-repossa.
Lataa siistitty vaalidata-CSV
Tuloksena on kaksi selkeää koko maan kattavaa vaalidata-taulukkoa, yksi ehdokkaille ja toinen puolueille. Päätimme pistää ensimmäiset CSV-muotoiset datat jakoon datavaalit.fi-palvelimelle samalla, kun sivuston kattavampi ja helppokäyttöinen tietokantaratkaisu on työn alla. Voit ladata CSV-tiedostot (tai tiiviimmät gzipatut versiot) seuraavista linkeistä:
Välineet Oikeusministeriön tarjoaman vaalidatan siistimiseksi helppokäyttöiseen muotoon ovat vielä kehitysvaiheessa, emmekä takaa aineistojen virheettömyyttä. Ilmoitukset mahdollisista puutteista ovat erittäin tervetulleita. Ilmoitamme päivityksistä tässä blogissa ja datavaalit.fi-sivustolla.
Kehitysehdotukset Oikeusministeriölle
Oikeusministeriölle kiitokset aineistojen julkaisemisesta. Hyvää palvelua kansalaisten suuntaan olisi tarjota taulukot jatkossa suoraan selkokielisessä muodossa, jonka koneluettavuus säilyy. Ehdotamme OM:lle tuleviin versioihin seuraavia parannuksia, jotka on mahdollista lisätä nopeasti ja automatisoidusti, ja jotka edistäisivät aineiston käytettävyyttä merkittävästi:
- Aineistot tulisi tarjota vaalipiirikohtaisten taulukoiden sijasta tai lisäksi koko maan kattavana kokoomataulukkona
- Sukupuolen, kunnan, vaalipiirin ja vaalityypin osalta koostetaulukkoon tulisi lisätä tietokantakoodin ohelle myös selkokieliset nimet
- CSV-tiedostoista tulisi tarjota versio, jonka kentät on otsikoitu valmiiksi. Kenttien tulkitsemiseen tarvittaviin PDF-muotoisiin kuvaustietoihin ei löydy linkkiä tiedostojen jakelusivulta; tiedostojen tulkinta vaatii nyt erillisten kuvaustiedostojen löytämistä ja kenttien otsikkotietojen lisäämistä käsin. Tämä vie aikaa ja sisältää mahdollisuuden virhetulkintoihin.
- Tiedostojen jakelusivulta löytyvät PDF-yhteenvetotaulukot ehdokkaista ja puoleistavoisi tarjota jakoon myös CSV-muodossa, jolloin niitä voisi tulkita suoraan koneellisesti.
- Olisi tärkeää lisensoida aineistot avoimesti, esimerkiksi CC0-lisenssillä. Tämä takaisi selkeät juridiset pelisäännöt aineistojen jatkokäytölle ja edistäisi niitten vapaata käyttöä.
Mahtavaa työtä! Käyttökynnyksen madaltamiseksi, voisi kyllä julkaista noi CSV:t ihan sellaisenaan (ei ole kuitenkaan, kuin 5 megaisia), silloin voisi esim. Google Refineen uploadata suoraan linkittämällä tiedostoon tällä sivulla.
Kiitos ehdotuksesta – lisäsin nyt myös nuo pakkaamattomat CSV:t saataville. Ks. yllä.
Mahtavaa! Komppaan tuota pelkkänä csv:nä julkaisemista.
semmosta pientä vielä, että otsikko ehkä vähän johtaa harhaan… tämä on ehdokasdataa, tulosdata vasta vaalien jälkeen sitten
Tjoo totta..
Tulosdata on lupa julkistaa vasta vaalien jälkeen. No mutta ne tulee ilmeisesti samojen tiedostojen lisäkentiksi, ja näiden lukurutiiniten pitäis purra valmiiksi niihinkin. Eli sitte ku sitä äänten laskentadataa alkaa pukkaamaan luvatuilla viiden minuutin päivityksillä niin voi pistää nämäkin skriptit pyörimään reaaliajassa tuloslaskentaa seuratessa. Ehkä tuota otsikkoa vois kuitenkin tarkentaa tältä osin.
Postauksen URL näyttää muuttuvan jos otsikkoa vaihtaa, joten pidetään samana ku on jo linkattu moneen paikkaan. Totuudenmukaisempi otsikko olis esim. “Oikeusministeriön vaalidatat sorvattu auki”
Ja ehdokasdata CSV -filun sarakeotsikoinnissa on vikaa, sarake P pitäisi olla kai alueen nimi ruotsiksi…
eiku, se meneekin niin, että kaikki sarakeotsikot heittävät yhdellä, koska indeksisarakkeella ei ole otsikkoa
Hiukan ikävämpää bugia CSV-filussa on Oulun vaalipiirin kohdalla, siellä puuttuu indeksisarakkeen tietoa ja sarakkeet eivät Oulun kohdalla osu yksiin ylempien kanssa.
Kiitti palautteesta. Tämä tosiaan hankaloittaa käyttöä. Korjasin asian, ja lisäsin indeksisarakkeelle otsikon. Korvasin alkuperäiset tiedostot viilatuilla.
Oulukin on nyt fiksattu,
WordPressiss on automaattinen URL -uudelleenohjaus, eli vaikka otsikkoa ja URL:iua muuttaa, niin vanhankin pitäisi toimia.
Kappas joo. Muutin nyt otsikon, URL ei tainnut tämän johdosta kuitenkaan edes vaihtua.
Päivitysilmoitus: JYVÄSKYLÄN YLIOPPILASLEHTI » Valtakunnallinen ehdokasdata tarjolla tässä