Vuoden 2012 kunnallisvaaliehdokkaiden vertailu aiempien kunnallisvaalien ehdokastietoihin on nyt ajankohtainen aihe. Ensimmäisiä vertailuja on julkaistu muun muassa Jyväskylän ylioppilaslehdessä ja Helsingin vaalipiirille on laadittu alustava puolueloikkaritaulukko.
Käyttövalmiissa muodossa olevien aineistojen puute kunnallisvaaleista 2004-2008 on kuitenkin jälleen osoittautunut merkittäväksi pullonkaulaksi koko maan kattaville vertailuille sen jälkeen, kun julkaisimme edellisessä blogipostauksessa OM:n koneluettavista raakadatoista koostetun käyttövalmiin CSV-tiedoston 2012 kunnallisvaalien ehdokasdatasta.
Datavaalit työstää keskitettyä tietokantaa vaalidatan tarjoilulle helppokäyttöisessä muodossa, mutta työn edetessä julkaisemme alustavaa dataa käyttövalmiina CSV-taulukkoina Linus Torvaldsin tunnetuksi tekemää “release early – release often”-taktiikkaa noudattaen. Nyt vuorossa vertailukelpoiset 2004-2012 ehdokasdatat.
Lataa kunnallisvaalien ehdokasdata 2004-2012
Taulukot on laadittu mahdollisimman vertailukelpoisiksi siten, että informaatiota ei katoa. Aineistot löytyvät nyt GitHub-sivuilta ja Datavaalit-palvelimelta.
Vuosien 2004-2008 aineistot on esitetty äänestysalueen tarkkuudella, lisäksi saatavilla on kuntatason yhteenvedot pienempinä erillistaulukoina. Vuoden 2012 osalta aineistot ovat kuntatasolla. Vuoden 2012 osalta mukana on joitakin lisätietokenttiä, lisäksi osa vuoden 2004-2008 kentistä puuttuu vuoden 2012 aineistoista. Yhteisten kenttien nimet ovat suoraan vertailukelpoisia taulukkojen välillä. Esikäsittely on tehty läpinäkyvästi alla linkatulla lähdekoodilla. Emme takaa aineiston virheettömyyttä. Pyydämme raportoimaan mahdollisista puutteista. Ehdokasaineistojen vertailuja edistäisi entisestään, mikäli OM yksilöisi ehdokkaat uniikilla tunnuksella; samassakin kunnassa voi olla ehdolla saman nimisiä ehdokkaita.
Aineistolähteet ja lähdekoodi
Aineistot on haettu Oikeusministeriön palvelimelta (2012; (C) OM 2012) ja Tilastokeskukselta (2004/2008, (C) Tilastokeskus 2012). Kuntakoodimuunnoksissa on lisäksi hyödynnetty Maanmittauslaitoksen aineistoja ((C) MML 2011-2012). Yhtenäistimme esim. kenttien nimiä taulukoiden välillä, lisäsimme selkokielisiä kenttiä koodinimien oheen, eriytimme etu- ja sukunimet, kunnat ja äänestysaluenimet omiin kenttiinsä ja järjestimme taulukkojen yhteiset kentät samaan järjestykseen. Lähdekoodi esikäsittelyyn on tehty sorvi-paketin kehitysversiolla 0.1.92 käyttäen alla olevaa lähdekoodia. Mahdolliset päivitykset alla olevaan lähdekoodiin tehdään suoraan takomo-repoon.

puolueloikkaritalukko osoitteessa: http://bit.ly/hki_loikanneet (blogin linkki johtaa Datavaalit facebookryhmään, jonka keskustelut näkyvät vain ryhmän jäsenille, mutta ryhmään saa toki liittyä)
Hyvää työtä taas kerran Louhos! Edellisen kerran pyysin tosiaan CSV-filuja jakoon myös, koska ehdokasluettelon koko ei ole niin järin suuri, nyt jaossa olevat 2004 ja 2008 CSV-datat voivat o kokonsa puolesta yllättää, joten voisi vaittaa tiedoston koon sulkeisiin:
2004 (107 Mb)
2008 (122 Mb)
Tnx, hyvä pointti. Lisätty.
Taulukot ovat kattavia, mutta samalla tavis excelin pyörittäjälle vähän pelottavan kokoisia
Ensivilkaisulla poimin esim. vuoden 2008 kaikki äänestysalueet, niitä 2473 kappaletta (332 kuntaa) https://dl.dropbox.com/u/2949803/datavaalit/2008_aanestysalueet.xlsx
2008 datasta löytyy tällaiset hieman omituiset nimet:
´idik Heidi / PS / Teuva
‚inar Mila / SIT / Kouvola
Olisikohan jotain merkistöhäikkää?
Molemmat näyttää löytyvän Tilastokeskuksen alkuperäisestä datasta, eli jos virhettä on, niin se on jo siellä päässä: http://pxweb2.stat.fi/database/StatFin/vaa/kvaa/2008_04/2008_04_fi.asp
http://192.49.229.35/K2008/s/ehd_listat/teuva.html#perussuomalaisetr.p.
74 Üidik, Heidi, postityöntekijä
http://192.49.229.35/K2008/s/ehd_listat/kouvola.html#kouvolanseudunsitoutumattomien
443 Çinar, Mila, suurtalouskokki
Ja kuriositeettina vielä, että suurtalouskokki Mila Çinar on ehdolla 2012. Teuvalainen Heidi Üidik ei ole ehdolla, mutta likö sukua tämä Teuvalainen Aimar Üidik, joka on ehdolla.
Korjasin nämäkin nyt uusimpiin CSV-versioihin 2008 tietoihin.
Äänimäärät on taulukossa äänestysalueittain, mutta mukana on myös ehdokkaan koko kunnasta saamat äänet esim. “Helsinki / Kunta yhteensä”, tämä vähän hankaloittaa käsittelyä. Kunta yhteensä datan voisi erotella omaksi taulukokseen.
Tarkalleen ottaen “Kunta yhteensä” ei myöskään ole äänestysalue.
Nyt ei pysty mm. suoraan sorttaamaan Exceliä niin, että “Kunta yhteensä” jutut menisivät vaikka loppuun tai yhteen nippuun.
Peruutan edellisen sorttausjutun, huomasin, että siellä on sarake “Alue” erikseen, jossa on “Kunta yhteensä” omanaan ja sen perusteella voi sortata.
Joo tämä oli yksi näistä mahdollisista parannusideoista. Jos näyttää siltä, että erillistä kuntataulukkoa kaivataan enemmänkin, niin voidaan lisätä jakoon. Muuten pitäisin yksinkertaisuuden vuoksi kiinni yhdestä kattavasta taulusta jota voi filtteröidä. Mutta karsitun kuntataulun saa nopeasti jakoon, eli pistäkää viestiä jos tarvetta ilmenee,
Vahvistan nyt, että kuntatasolla olevalla koko maan 2008 ja 2004 tuloslistauksille on tarvetta, koska tuo äänestysaluetasolle on niin iso, ettei se oikein pyöri Excelissä, vaikka mulla on ihan suht nopea kone ja 8 gigaa muistia.
Tämä siis journalistikäyttöön
OK, pienemmät kuntatason taulut lisätty 2004/2008. Ks. yllä.
Päivitysilmoitus: datajournalismi.fi – Datavaalit häkseröintisunnuntai
Nyt “Ehdokas” -sarakkeessa esim.
Kuitunen Rauno / KOK / Ylitornio
Olisi parempi, jos:
Kuitunen Rauno/KOK/Ylitornio
Silloin voi Excelissä splitata pelkällä “/” eikä tule ylimääräisiä välejä mukaan
Ok, tämä muoto on nyt otettu käyttöön uusimmssa versioissa CSV-fileistä (joihin linkit yllä). En tosin tiedä, miksi noita Ehdokas-kenttiä tahtoisi kukaan splitata, kun samat tiedot löytyy samasta taulukosta jo valmiiksi erilleen poimittuinakin (kentistä Etunimi, Sukunimi, Puolue_lyhenne_fi, Kunta).
Olisiko mitään mahdollisuuksia ajaa R-scriptiä niin, että saisi 2012 -tulosdatatkin tilastokeskukselta tuohon samanmuotoiseen paketointiin?
Päivitimme nyt GetElectedCandidates-funktion sorvin uusimpaan versioon 0.2.17. Uudella versiolla saa haetuksi Tilastokeskukselta 2012 kunnallisvaalien ehdokkaat ja äänimäärät äänestysalueittain joka äänipiirille. sorvin voi päivittää R:stä komentosarjalla library(devtools); install_github(repo = “sorvi”, username = “louhos”); lisäohjeita louhos.github.com/sorvi/asennus.html
Ratkaisiko tämä alkuperäisen tarpeen?
Ongelma oli, että Tilastokeskuksen urlit muuttuu aina kun datasta tulee uusi versio, ja nämä urlit on kovakoodattuna sorvin hakurutiineihin, eli olivat vanhentuneet. Piirien 6 ja 9 kohdalla on vielä jokin lukuongelma – ratkaisuehdotuksia otetaan vastaan ja voidaan liittää hakurutiineihin. Jos tarvitaan helppoa pääsyä R:n kautta muihin esikäsittelyä vaativiin statfi-ainstoihin, niin ehdotuksia otetaan vastaan ja voidaan harkita tehtäväksi kysynnän mukaan.
Ja täysi hakuskripti 2004-2012 kunnallisvaaliaineistoille löytyy takomosta: https://github.com/louhos/takomo/blob/master/datavaalit/MunicipalElectionData.R