Kenestä seuraava presidentti? – Ennusta itse HS:n vaalikonedatan avulla.

HS julkaisi äskettäin presidentinvaalikoneen käyttäjien vastausaineistot avoimen rajapinnan kautta. Aineistoon pääsee käsiksi HS:ltä anottavalla henkilökohtaisella API-avaimella. Tarkemmat ohjeet löytyvät HS:n blogipostista.

Vaalikonedatasta tekee erityisen mielenkiintoisen se, että siinä on presidenttiehdokkaiden lisäksi mukana rutkasti (tätä kirjoitettaessa >200 000) äänestäjien vastauksia ja taustatietoa vastaajien tulotasosta, puoluekannasta, iästä, sukupuolesta, asuinpaikasta ja muista muuttujista. Yksittäisten käyttäjien tietoja ei julkaista. Lähdekoodi aineiston hakuun löytyy tämän postauksen lopusta, ja edellyttää HS:lta saatavaa API-avainta. Vastaajien taustajakauma on tiivistetty seuraavassa kuvassa.

Vaalikoneen vastaajien taustatiedot.

Data mahdollistaa esimerkiksi vastausten tarkastelun puoluekohtaisesti. Näin laajan aineiston tilastollinen voima mahdollistaa myös yksityiskohtaisemmat analyysit. Julkaisemme nyt ensi alkuun R-koodit aineiston noutoon ja perusvisualisointeihin, jotta aineiston pöyhimisestä kiinnostuneet pääsevät nopeammin käsiksi itse analyysi- ja visualisointipuuhiin. Rajapinnan käyttö tapahtuu soRvin funktion GetPresidentti2012 avulla.

Koodin alusta löytyy esimerkit Presidentti2012 API:n käyttöön. Sen jälkeen haetaan käyttäjien 14.1.2012 mennessä syöttämät vastaukset ja muokataan data helpommin analysoitavaan muotoon. Lopussa on visualisointiesimerkkejä; seuraavassa kuvassa on esimerkiksi näytetään tietyn kysymyksen puoluekohtainen vastausjakauma.

Puoluekohtaiset vastausprosentit kysymykselle 12.

Analyysin helpottamiseksi on suodatettu pois ne vastaajat jotka eivät ole vastanneet kaikkiin 25 kysymykseen ja poistettu ainoa monivalintakysymys.

Data sisältää vaalikoneen laskeman ykkösehdokkaan kullekin vastaajalle. Vaalikoneen ennusteiden tarkka toistaminen ei onnistu, sillä datassa ei ole mukana käyttäjien painotuksia eri kysymyksille, eikä tarkkaa laskukaavaa vastausten pisteyttämiselle tai käyttäjien itsensä valitsemille suosikkiehdokkaille ole tiedossa. Näiden tietojen lisääminen APIin lisäisi sen käyttöarvoa entisestään.

Tämä blogipostaus on osa itseorganisoituvaa Datavaalit2012-hanketta, jonka tavoitteena on koota vaalidatan ympärillä tapahtuvaa aktiviteettia yhteen. Lisätietoa hankkeesta löytyy esim. Opasnet-sivustolta. Vaalidatan parissa puuhaavat tahot ovat tervetulleita osallistumaan aiheen edistämiseen osana tätä hanketta. Bloggaamme aiheesta lisää hieman tuonnempana.

PÄIVITYS 6.1.2012: Tässä vielä linkki kaikkien kysymysten visualisointiin.

PÄIVITYS 6.1.2013: Blogin R-skriptejä ylläpidetään jatkossa Githubissa. Tämän artikkelin koodit löytyvät täältä.

This entry was posted in R, sorvi, tiedonlouhinta, visualisointi and tagged , , , . Bookmark the permalink.

3 vastausta artikkeliin: Kenestä seuraava presidentti? – Ennusta itse HS:n vaalikonedatan avulla.

  1. ouzo sanoo:

    Skriptissä oli pari pientä bugia jotka sotkivat datan lataamisen, mutta bugit on nyt korjattu. Pahoittelut mahdollisista ongelmista, versionhallinta petti skriptiä päivittäessä. Skripti toimii nyt ainakin mulla oikein, mutta pistäkää viestiä jos ongelmia edelleen esiintyy!

  2. Esa Mäkinen sanoo:

    Tämä on erittäin hieno ja erittäin hyvä lisäosa. Kerrassaan mahtavaa että olette tehneet sen!

    Käyttäjien supsikkiehdokkaat pitää saada kunnallisvaaleihin mukaan. Olette täysin oikeassa, että se on puute.

    Esa Mäkinen, HS

  3. Paluuviite: Helsingin Sanomien avoin vaalikonedata: osa2 | Louhos

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s