R-hakurutiinit THL:n SOTKAnet-tietokantaan lisätty sorviin

Valmiit R-hakurutiinit Terveyden ja hyvinvoinnin laitoksen (THL) ylläpitämän SOTKAnet-tietokannan hyvinvointi-indikaattoridataan on nyt lisätty sorviin Louhoksen ja Opasnetin yhteistyönä. Lue lisää aiheesta Helsinki Region Infosharen visualisointiblogista!

Kategoria(t): Uncategorized | Jätä kommentti

Kunnallisvaalit sosiaalisessa mediassa

datavaalit_logo_final

Datavaalit-sivustolla ylläpidettävään sosiaalisen median aggregaattiin on tätä kirjoitettaessa kasautunut dataa 987 ehdokkaan Twitter-syötteestä ja 2553 ehdokkaan Facebook-sivulta yhteensä 419975 päivitystä. Profiilien osoitteet on poimittu Ylen vaalikoneesta sekä ehdokkaiden omien ilmoitusten perusteella. Esimerkeissä käytetty data on saatavilla CSV-dumppina GitHubin avoindata-repositoryn kautta. Yksityiskohtaisempaa dataa on saatavilla Datavaalit-sivuston rajapinnan kautta.

Poimimme muutamia esimerkkejä aineiston sisällöstä syksyn 2012 kunnallisvaaleihin liittyen. Esimerkit lähdekoodeineen löytyvät kokonaisuudessaan Louhoksen Datawikistä.

Sosiaalisen median päivitystiheydet aikasarjana

Syksyn 2012 kunnallisvaalien aikana puolueitten ehdokkaat päivittivät statuksiaan tavanomaista ahkerammin.

datavaalit-8

Aktiivisimmat statuspäivittäjät

Osa ehdokkaista jyrää sosiaalisessa mediassa ihan huolella.

some2

Miehet twiittailee, naiset ahkerampia Facebookin käyttäjiä?

Vertailussa ei ole huomioitu yksittäisten massatwiittajien vaikutusta tuloksiin.

some5

Puolueiden aktiivisuus sosiaalisessa mediassa

Suuret puolueet näkyvät paljon myös sosiaalisessa mediassa, koska ehdokkaitakin on enemmän. Datawikistä löytyy tämän lisäksi edustajaa kohden normalisoidut päivitystiheydet.

some4

Kategoria(t): Uncategorized | Jätä kommentti

Eduskunnan äänestysten hakurutiinit R-kielelle

Eduskunnan äänestysdatan sujuva saatavuus mahdollistaa eduskunnassa tehtävien päätösten automaattisen seurannan ja edistää läpinäkyvyyttä. Mikko Heikkisen aiemmin julkaisema biomi.orgin eduskunta-APIn kautta on saatavilla osa eduskunnan äänestysdatoista.

Lisäsimme nyt R-kieliset hakurutiinit eduskunnan äänestysdatalle sorviin osana Datavaalit-hanketta. Näiden avulla löytyvät kaikki biomi.org-rajapinnan kautta saatavilla olevat eduskunnan äänestystiedot sekä äänestys- että edustajakohtaisesti. Yksityiskohtaisia hakuesimerkkejä löydät Louhoksen Datawikistä.

Ääkkösten ja muiden erikoismerkkien käsittely on vielä osin ratkaisematta; pull requestejä otetaan vastaan. Toinen, vakavampi ongelma liittyy eduskunnan äänestysdatan tämä hetkiseen saatavuuteen: eduskunnan äänestysdata on saatavilla koneluettavassa muodossa vain biomi.orgin kautta, jonka nykyinen päivitystiheys ei salli äänestysten reaaliaikaista seurantaa. Äänestysdatan jakaminen koneluettavassa muodossa suoraan eduskunnan palvelimilta edistäisi päätöksenteon seurantaa ja läpinäkyvyyttä ja olisi hyvää palvelua kansalaisten suuntaan – tältä osin heitämme pallon eduskunnalle.

Kategoria(t): R, sorvi, tiedonlouhinta | Avainsanat: , , | 7 kommenttia

Louhoksen Datawiki avattu

Louhos

Tieteelliset analyysiympäristöt tarjoavat joustavia ja tehokkaita välineitä avoimen datan käsittelyyn. R-kielen ja Pythonin kaltaisten analyysiympäristöjen kautta on saatavilla kaikkein monipuolisimmat tutkimusvälineet datan vuorovaikutteiseen pöyhimiseen, ja lähdekoodin myötä analyysit ovat läpinäkyviä, toistettavissa alusta loppuun ja edelleen muokattavissa. Tarkoitukseen luotujen kirjastojen myötä tarjolla on sujuvia välineitä aineistojen hakuun, putsaamiseen, analysointiin, eksplorointiin, yhdistelyyn, tilastolliseen testaukseen, visualisointiin, ja muihin jokapäiväisiin perusrutiineihin.

Laskentakielten oppimiskynnys on kuitenkin koettu korkeaksi, ja lisäksi tieto kotimaisista avoimen datan lähteistä on ollut hajanaista hidastaen avoimen datan ja modernin laskennan kohtaamista.

Louhoksen Datawiki paikkaa nyt tämän puutteen tarjoamalla yksityiskohtaisia esimerkkejä kotimaisen avoimen datan käsittelyyn moderneilla laskentakielillä sekä kehittäjäyhteisön aktiivisen tuen. Kotimaisen avoimen datan tarpeisiin suunnattu opas helpottaa sekä laskentakielten omaksumista että yhteiskunnan avointen datavirtojen saatavuutta, kun perusesimerkit aineistojen algoritmiseen hakuun ja käsittelyyn ovat helposti saatavilla. Näin Datawiki palvelee myös niitä, joille tieteelliset laskentaympäristöt ovat ennestään tuttuja.

Datawikin painopiste on keskeisimmissä kotimaisissa avoimen tiedon lähteissä, joiden käsittelyyn on saatavilla valmiita välineitä. Datawiki tarjoaa tällä hetkellä esimerkkejä noin 20 keskeisen tietolähteen ja tuhansien yksittäisten aineistojen käsittelyyn. Nykyinen ohjeistus keskittyy R-kieleen, joka on yksi suosituimmista avoimen lähdekoodin analyysiympäristöistä, mutta oppaan laajentaminen muihin ympäristöihin on suunnitteilla. Wiki-sivustoa kartutetaan jatkuvasti, ja käyttäjät voivat osallistua oppaan täydentämiseen. Uudet kehittäjät ja kontribuutiot ovat erittäin tervetulleita.

Datawiki on mukana myös tämän vuoden Apps4Finland-kisan Dataopas-sarjassa. Yleisöäänestys on käynnissä 30.11.2012 klo 17 asti.

Kategoria(t): koneoppiminen, R, sorvi, tiedonlouhinta | Avainsanat: , , | Jätä kommentti

Kunnallisvaaliehdokkaiden aktiivisuus sosiaalisessa mediassa: puolueiden vertailua

Datavaalit-hanke on kerännyt runsaasti aineistoa kunnallisvaaliehdokkaista ja puolueista. Sivustolla ylläpidetään esimerkiksi sosiaalisen median aggregaattia, johon kerätään tietoja ehdokkaiden aktiivisuudesta mm. Facebookissa ja Twitterissä.

Teimme muutamia esimerkkejä ehdokasaineistojen käsittelystä R-kielellä. Esimerkit hakevat dataa Oikeusministeriön, Tilastokeskuksen, Maanmittauslaitoksen ja Datavaalit-sivuston palvelimilta ja vertailevat ehdokkaiden aktiivisuutta sosiaalisessa mediassa puolueiden välillä, ja ne voidaan toistaa alusta loppuun automatisoidusti mukana tulevalla lähdekoodilla.

Visualisoinnit lähdekoodeineen löydät Louhoksen Datawikistä ja Githubin takomo-reposta. Materiaaliin on tulossa myöhemmin täydennystä.

Kategoria(t): R, sorvi, tiedonlouhinta, uutinen, visualisointi | Avainsanat: , , , | 2 kommenttia

Kunnallisvaalien vertailukelpoiset ehdokasdatat CSV-taulukkoina: 2004 / 2008 / 2012

Vuoden 2012 kunnallisvaaliehdokkaiden vertailu aiempien kunnallisvaalien ehdokastietoihin on nyt ajankohtainen aihe. Ensimmäisiä vertailuja on julkaistu muun muassa Jyväskylän ylioppilaslehdessä ja Helsingin vaalipiirille on laadittu alustava puolueloikkaritaulukko.

Käyttövalmiissa muodossa olevien aineistojen puute kunnallisvaaleista 2004-2008 on kuitenkin jälleen osoittautunut merkittäväksi pullonkaulaksi koko maan kattaville vertailuille sen jälkeen, kun julkaisimme edellisessä blogipostauksessa OM:n koneluettavista raakadatoista koostetun käyttövalmiin CSV-tiedoston 2012 kunnallisvaalien ehdokasdatasta.

Datavaalit työstää keskitettyä tietokantaa vaalidatan tarjoilulle helppokäyttöisessä muodossa, mutta työn edetessä julkaisemme alustavaa dataa käyttövalmiina CSV-taulukkoina Linus Torvaldsin tunnetuksi tekemää “release early – release often”-taktiikkaa noudattaen. Nyt vuorossa vertailukelpoiset 2004-2012 ehdokasdatat.

Lataa kunnallisvaalien ehdokasdata 2004-2012

Taulukot on laadittu mahdollisimman vertailukelpoisiksi siten, että informaatiota ei katoa. Aineistot löytyvät nyt GitHub-sivuilta ja Datavaalit-palvelimelta.

Vuosien 2004-2008 aineistot on esitetty äänestysalueen tarkkuudella, lisäksi saatavilla on kuntatason yhteenvedot pienempinä erillistaulukoina. Vuoden 2012 osalta aineistot ovat kuntatasolla. Vuoden 2012 osalta mukana on joitakin lisätietokenttiä, lisäksi osa vuoden 2004-2008 kentistä puuttuu vuoden 2012 aineistoista. Yhteisten kenttien nimet ovat suoraan vertailukelpoisia taulukkojen välillä. Esikäsittely on tehty läpinäkyvästi alla linkatulla lähdekoodilla. Emme takaa aineiston virheettömyyttä. Pyydämme raportoimaan mahdollisista puutteista. Ehdokasaineistojen vertailuja edistäisi entisestään, mikäli OM yksilöisi ehdokkaat uniikilla tunnuksella; samassakin kunnassa voi olla ehdolla saman nimisiä ehdokkaita.

Aineistolähteet ja lähdekoodi

Aineistot on haettu Oikeusministeriön palvelimelta (2012; (C) OM 2012) ja Tilastokeskukselta (2004/2008, (C) Tilastokeskus 2012). Kuntakoodimuunnoksissa on lisäksi hyödynnetty Maanmittauslaitoksen aineistoja ((C) MML 2011-2012). Yhtenäistimme esim. kenttien nimiä taulukoiden välillä, lisäsimme selkokielisiä kenttiä koodinimien oheen, eriytimme etu- ja sukunimet, kunnat ja äänestysaluenimet omiin kenttiinsä ja järjestimme taulukkojen yhteiset kentät samaan järjestykseen. Lähdekoodi esikäsittelyyn on tehty sorvi-paketin kehitysversiolla 0.1.92 käyttäen alla olevaa lähdekoodia. Mahdolliset päivitykset alla olevaan lähdekoodiin tehdään suoraan takomo-repoon.

Kategoria(t): R, sorvi | Avainsanat: , , , , | 20 kommenttia

Datavaalit: Oikeusministeriön vaalidatat sorvattu auki

Oikeusministeriö julkaisi eilen illalla (to 27.1.2012) koko maan kattavat tiedot kunnallisvaalien ehdokkaista ja puolueista. Mukana vuoden 2012 kunnallisvaaleissa on kaikkiaan 36305 ehdokasta. Yhdistelemällä aineistoa esimerkiksi viime kunnallis- ja eduskuntavaalien tuloksiin sekä kuntatason indikaattoreihin voidaan tuoda esiin uusia näkökulmia suomalaiseen kunnallispolitiikkaan.

Datavaalit edistää helppokäyttöisen vaalidatan saatavuutta

Louhos ja sorvi ovat aktiivisesti mukana viikko sitten Open Knowledge-festivaaleilla lanseeratussa Datavaalit-hankkeessa, jonka tavoitteena on tukea vaalidatan avaamista ja laajaa hyödyntämistä. Helppokäyttöisessä muodossa olevan päätöksentekodatan heikko saatavuus on keskeinen pullonkaula yhteiskunnallisesti vaikuttavassa datajournalismissa sekä läpinäkyvyyttä edistävien verkkopalveluiden yleistymisessä. Datavaalit-hanke kokoaa tietoja ehdokkaista, puolueista ja vaaleista kaikkien ulottuville. Datavaalit on sitoutumaton ja yhteisövetoinen hanke, jonka käynnistymistä Suomen itsenäisyyden juhlarahasto Sitra on tukenut Uusi Demokratia -kiihdytysrahoituksella.

R-kieliset rutiinit vaalidatan putsaamiseksi

Oikeusministeriön julkaisema vaalidata on sellaisenaan hankalasti käytettävää, koska aineisto on jaettu useisiin erillisiin tiedostoihin, kenttien otsikot puuttuvat, ja tiedostojen sisältö vaatii putsaamista. Edistääksemme vaalidatan mahdollisimman laajaa ja sujuvaa hyödyntämistä loimme sorviin hakurutiinit, jolla koko aineiston voi hakea helposti R-ympäristöön ilman hankalia esikäsittelyvaiheita. Rutiinit lukevat vaalipiirikohtaiset taulut, yhdistävät ne koko maan kattavaksi yhtenäiseksi taulukoksi, ja lisäävät sarakeotsikot sekä selkokieliset nimet koodinimellä ilmoitettujen kenttien oheen. Hakurutiinit löytyvät sorvi-paketin develop-haaran versiosta 0.1.88, ja esimerkkikoodi niiden käyttöön on Louhoksen takomo-repossa.

Lataa siistitty vaalidata-CSV

Tuloksena on kaksi selkeää koko maan kattavaa vaalidata-taulukkoa, yksi ehdokkaille ja toinen puolueille. Päätimme pistää ensimmäiset CSV-muotoiset datat jakoon datavaalit.fi-palvelimelle samalla, kun sivuston kattavampi ja helppokäyttöinen tietokantaratkaisu on työn alla. Voit ladata CSV-tiedostot (tai tiiviimmät gzipatut versiot) seuraavista linkeistä:

  • Ehdokasdata: CSV
  • Puoluedata: CSV

Välineet Oikeusministeriön tarjoaman vaalidatan siistimiseksi helppokäyttöiseen muotoon ovat vielä kehitysvaiheessa, emmekä takaa aineistojen virheettömyyttä. Ilmoitukset mahdollisista puutteista ovat erittäin tervetulleita. Ilmoitamme päivityksistä tässä blogissa ja datavaalit.fi-sivustolla.

Kehitysehdotukset Oikeusministeriölle

Oikeusministeriölle kiitokset aineistojen julkaisemisesta. Hyvää palvelua kansalaisten suuntaan olisi tarjota taulukot jatkossa suoraan selkokielisessä muodossa, jonka koneluettavuus säilyy. Ehdotamme OM:lle tuleviin versioihin seuraavia parannuksia, jotka on mahdollista lisätä nopeasti ja automatisoidusti, ja jotka edistäisivät aineiston käytettävyyttä merkittävästi:

  1. Aineistot tulisi tarjota vaalipiirikohtaisten taulukoiden sijasta tai lisäksi koko maan kattavana kokoomataulukkona
  2. Sukupuolen, kunnan, vaalipiirin ja vaalityypin osalta koostetaulukkoon tulisi lisätä tietokantakoodin ohelle myös selkokieliset nimet
  3. CSV-tiedostoista tulisi tarjota versio, jonka kentät on otsikoitu valmiiksi. Kenttien tulkitsemiseen tarvittaviin PDF-muotoisiin kuvaustietoihin ei löydy linkkiä tiedostojen jakelusivulta; tiedostojen tulkinta vaatii nyt erillisten kuvaustiedostojen löytämistä ja kenttien otsikkotietojen lisäämistä käsin. Tämä vie aikaa ja sisältää mahdollisuuden virhetulkintoihin.
  4. Tiedostojen jakelusivulta löytyvät PDF-yhteenvetotaulukot ehdokkaista ja puoleistavoisi tarjota jakoon myös CSV-muodossa, jolloin niitä voisi tulkita suoraan koneellisesti.
  5. Olisi tärkeää lisensoida aineistot avoimesti, esimerkiksi CC0-lisenssillä. Tämä takaisi selkeät juridiset pelisäännöt aineistojen jatkokäytölle ja edistäisi niitten vapaata käyttöä.
Kategoria(t): R, sorvi, uutinen | Avainsanat: | 14 kommenttia