Kunnallisvaalien vertailukelpoiset ehdokasdatat CSV-taulukkoina: 2004 / 2008 / 2012

Vuoden 2012 kunnallisvaaliehdokkaiden vertailu aiempien kunnallisvaalien ehdokastietoihin on nyt ajankohtainen aihe. Ensimmäisiä vertailuja on julkaistu muun muassa Jyväskylän ylioppilaslehdessä ja Helsingin vaalipiirille on laadittu alustava puolueloikkaritaulukko.

Käyttövalmiissa muodossa olevien aineistojen puute kunnallisvaaleista 2004-2008 on kuitenkin jälleen osoittautunut merkittäväksi pullonkaulaksi koko maan kattaville vertailuille sen jälkeen, kun julkaisimme edellisessä blogipostauksessa OM:n koneluettavista raakadatoista koostetun käyttövalmiin CSV-tiedoston 2012 kunnallisvaalien ehdokasdatasta.

Datavaalit työstää keskitettyä tietokantaa vaalidatan tarjoilulle helppokäyttöisessä muodossa, mutta työn edetessä julkaisemme alustavaa dataa käyttövalmiina CSV-taulukkoina Linus Torvaldsin tunnetuksi tekemää ”release early – release often”-taktiikkaa noudattaen. Nyt vuorossa vertailukelpoiset 2004-2012 ehdokasdatat.

Lataa kunnallisvaalien ehdokasdata 2004-2012

Taulukot on laadittu mahdollisimman vertailukelpoisiksi siten, että informaatiota ei katoa. Aineistot löytyvät nyt GitHub-sivuilta ja Datavaalit-palvelimelta.

Vuosien 2004-2008 aineistot on esitetty äänestysalueen tarkkuudella, lisäksi saatavilla on kuntatason yhteenvedot pienempinä erillistaulukoina. Vuoden 2012 osalta aineistot ovat kuntatasolla. Vuoden 2012 osalta mukana on joitakin lisätietokenttiä, lisäksi osa vuoden 2004-2008 kentistä puuttuu vuoden 2012 aineistoista. Yhteisten kenttien nimet ovat suoraan vertailukelpoisia taulukkojen välillä. Esikäsittely on tehty läpinäkyvästi alla linkatulla lähdekoodilla. Emme takaa aineiston virheettömyyttä. Pyydämme raportoimaan mahdollisista puutteista. Ehdokasaineistojen vertailuja edistäisi entisestään, mikäli OM yksilöisi ehdokkaat uniikilla tunnuksella; samassakin kunnassa voi olla ehdolla saman nimisiä ehdokkaita.

Aineistolähteet ja lähdekoodi

Aineistot on haettu Oikeusministeriön palvelimelta (2012; (C) OM 2012) ja Tilastokeskukselta (2004/2008, (C) Tilastokeskus 2012). Kuntakoodimuunnoksissa on lisäksi hyödynnetty Maanmittauslaitoksen aineistoja ((C) MML 2011-2012). Yhtenäistimme esim. kenttien nimiä taulukoiden välillä, lisäsimme selkokielisiä kenttiä koodinimien oheen, eriytimme etu- ja sukunimet, kunnat ja äänestysaluenimet omiin kenttiinsä ja järjestimme taulukkojen yhteiset kentät samaan järjestykseen. Lähdekoodi esikäsittelyyn on tehty sorvi-paketin kehitysversiolla 0.1.92 käyttäen alla olevaa lähdekoodia. Mahdolliset päivitykset alla olevaan lähdekoodiin tehdään suoraan takomo-repoon.

About these ads

Tietoja antagomir

http://www.iki.fi/Leo.Lahti
This entry was posted in R, sorvi and tagged , , , , . Bookmark the permalink.

20 vastausta artikkeliin Kunnallisvaalien vertailukelpoiset ehdokasdatat CSV-taulukkoina: 2004 / 2008 / 2012

  1. puolueloikkaritalukko osoitteessa: http://bit.ly/hki_loikanneet (blogin linkki johtaa Datavaalit facebookryhmään, jonka keskustelut näkyvät vain ryhmän jäsenille, mutta ryhmään saa toki liittyä)

  2. Hyvää työtä taas kerran Louhos! Edellisen kerran pyysin tosiaan CSV-filuja jakoon myös, koska ehdokasluettelon koko ei ole niin järin suuri, nyt jaossa olevat 2004 ja 2008 CSV-datat voivat o kokonsa puolesta yllättää, joten voisi vaittaa tiedoston koon sulkeisiin:

    2004 (107 Mb)
    2008 (122 Mb)

  3. Taulukot ovat kattavia, mutta samalla tavis excelin pyörittäjälle vähän pelottavan kokoisia :)

    Ensivilkaisulla poimin esim. vuoden 2008 kaikki äänestysalueet, niitä 2473 kappaletta (332 kuntaa) https://dl.dropbox.com/u/2949803/datavaalit/2008_aanestysalueet.xlsx

  4. 2008 datasta löytyy tällaiset hieman omituiset nimet:

    ´idik Heidi / PS / Teuva
    ‚inar Mila / SIT / Kouvola

    Olisikohan jotain merkistöhäikkää?

  5. Äänimäärät on taulukossa äänestysalueittain, mutta mukana on myös ehdokkaan koko kunnasta saamat äänet esim. ”Helsinki / Kunta yhteensä”, tämä vähän hankaloittaa käsittelyä. Kunta yhteensä datan voisi erotella omaksi taulukokseen.

    Tarkalleen ottaen ”Kunta yhteensä” ei myöskään ole äänestysalue.

    Nyt ei pysty mm. suoraan sorttaamaan Exceliä niin, että ”Kunta yhteensä” jutut menisivät vaikka loppuun tai yhteen nippuun.

    • Peruutan edellisen sorttausjutun, huomasin, että siellä on sarake ”Alue” erikseen, jossa on ”Kunta yhteensä” omanaan ja sen perusteella voi sortata.

      • antagomir sanoo:

        Joo tämä oli yksi näistä mahdollisista parannusideoista. Jos näyttää siltä, että erillistä kuntataulukkoa kaivataan enemmänkin, niin voidaan lisätä jakoon. Muuten pitäisin yksinkertaisuuden vuoksi kiinni yhdestä kattavasta taulusta jota voi filtteröidä. Mutta karsitun kuntataulun saa nopeasti jakoon, eli pistäkää viestiä jos tarvetta ilmenee,

      • Vahvistan nyt, että kuntatasolla olevalla koko maan 2008 ja 2004 tuloslistauksille on tarvetta, koska tuo äänestysaluetasolle on niin iso, ettei se oikein pyöri Excelissä, vaikka mulla on ihan suht nopea kone ja 8 gigaa muistia.

        Tämä siis journalistikäyttöön :)

      • antagomir sanoo:

        OK, pienemmät kuntatason taulut lisätty 2004/2008. Ks. yllä.

  6. Päivitysilmoitus: datajournalismi.fi – Datavaalit häkseröintisunnuntai

  7. Nyt ”Ehdokas” -sarakkeessa esim.
    Kuitunen Rauno / KOK / Ylitornio

    Olisi parempi, jos:
    Kuitunen Rauno/KOK/Ylitornio

    Silloin voi Excelissä splitata pelkällä ”/” eikä tule ylimääräisiä välejä mukaan

    • antagomir sanoo:

      Ok, tämä muoto on nyt otettu käyttöön uusimmssa versioissa CSV-fileistä (joihin linkit yllä). En tosin tiedä, miksi noita Ehdokas-kenttiä tahtoisi kukaan splitata, kun samat tiedot löytyy samasta taulukosta jo valmiiksi erilleen poimittuinakin (kentistä Etunimi, Sukunimi, Puolue_lyhenne_fi, Kunta).

  8. Olisiko mitään mahdollisuuksia ajaa R-scriptiä niin, että saisi 2012 -tulosdatatkin tilastokeskukselta tuohon samanmuotoiseen paketointiin?

    • antagomir sanoo:

      Päivitimme nyt GetElectedCandidates-funktion sorvin uusimpaan versioon 0.2.17. Uudella versiolla saa haetuksi Tilastokeskukselta 2012 kunnallisvaalien ehdokkaat ja äänimäärät äänestysalueittain joka äänipiirille. sorvin voi päivittää R:stä komentosarjalla library(devtools); install_github(repo = ”sorvi”, username = ”louhos”); lisäohjeita louhos.github.com/sorvi/asennus.html

      Ratkaisiko tämä alkuperäisen tarpeen?

      Ongelma oli, että Tilastokeskuksen urlit muuttuu aina kun datasta tulee uusi versio, ja nämä urlit on kovakoodattuna sorvin hakurutiineihin, eli olivat vanhentuneet. Piirien 6 ja 9 kohdalla on vielä jokin lukuongelma – ratkaisuehdotuksia otetaan vastaan ja voidaan liittää hakurutiineihin. Jos tarvitaan helppoa pääsyä R:n kautta muihin esikäsittelyä vaativiin statfi-ainstoihin, niin ehdotuksia otetaan vastaan ja voidaan harkita tehtäväksi kysynnän mukaan.

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s