YLE/MOT yritystukidatan R-hakurutiinit

YLE:n MOT-ohjelman yhteydessä julkaistiin eilen (maanantaina 10.9.2012) avoimesti lisensoituna kattava kooste suomessa toimivien yritysten saamista tukirahoista pisimmillään yli 15 vuoden ajalta. Aineisto kattaa Tekes-tukien osalta vuodet 1997 – 2012 ja listaa yritystukia yhteensä yli 5 miljardin euron edestä. Tärkeimpien yritystukien osalta mukana on vertailukelpoinen aikasarja 12 vuodelta. Sivuston mukaan aineistoon on koottuna valtaosa Työ- ja elinkeinoministeriön, Liikenneministeriön ja Maa- ja metsätalousministeriön jakamista suorista yritystuista.

Yritystukia käsittelevä aineisto on erittäin kiintoisa, joten päätimme saman tien lisätä sorviin hakurutiinit, joilla datan saa sujuvasti vedettyä MOT:n sivuilta suoraan R-laskentaympäristöön nopeuttaen analyysivaiheeseen pääsyä ja madaltaen ainakin R-osaajien kynnystä yritystukien penkomiseen.

Louhoksen päätavoitteena on julkaista joustavia laskennallisia välineitä avoimen yhteiskunnallisen datan hakuun ja käsittelyyn. Saadaksemme MOT:n yritystukiaineiston R-hakurutiinit nyt pikavauhdilla vapaaseen jakeluun ja muidenkin pöyhittäväksi, teimme tähän blogipostaukseen vain lyhyen ja esimerkinomaisen analyysin. Alla esitetty lähdekoodi hakee CSV-muotoisen yritystukidatan, esikäsittelee sen yhteensopivaan muotoon Maanmittauslaitoksen kartta-aineistojen kanssa, ja lopulta esittää Suomen kartalla kunkin maakunnan saaman tuen verrattuna vähiten tukia saaneeseen maakuntaan (ks. kuva). Eniten tukia on mennyt Uudellemaalle, lähes 300-kertaisesti vähiten saaneeseen Ahvenanmaahan verrattuna (464087 euroa).

Esimerkissämme ei ole huomioitu eroja esimerkiksi siinä, moneltako vuodelta tukitietoja oli saatavilla kullekin maakunnalle, tai sitä paljonko kyseisessä maakunnassa on yritystoimintaa. Näillä seikoilla voi olla merkittävä vaikutus tulosten tulkintaan. Aineistossa on lisäksi saatavilla tarkempaa maakunta-, toimiala- ja yrityskohtaista tietoa tukirahoista 10-15 vuoden aikasarjana. Kiintoisaa olisi katsoa sitäkin, miten yritystuet vertautuvat kuntatason taloudellisiin ja sosioekonomisiin indikaattoreihin, joita on myöskin sorvin kautta saatavilla Tilastokeskukselta.

MOT-sivuston kautta oli saatavilla lisäksi Excel-muotoisia taulukoita. Jos joku ehtii tekemään sorviin importtereita näille esim. gdata paketin read.xls-funktion avulla, niin otamme mielellämme kontribuutioita vastaan. Hatunnosto YLElle ja MOT-ohjelmalle aineistojen avaamisesta vapaaseen käyttöön. Jos jotakin voisi parantaa, niin aineistot ja niiden dokumentaatio olisi hyvä jakaa Word/Excel-tiedostojen sijasta tai lisäksi avoimen standardin mukaisina, esim. CSV-tiedostoina, edistäen niiden koneluettavuutta.

Alkuun päästäkseksi asenna sorvi, ja kokeile alla olevaa lähdekoodia yritystukidatan hakemiseen. Sorvin uusimman version asennusohjeet löydät täältä. Vaihtoehtoisesti voit forkata koodin Louhoksen takomo-reposta, jonne myös mahdolliset myöhemmät päivitykset tullaan tekemään. Koodailemisiin!

Muokattu 7.4.2013 Esimerkkikoodit löytyvät nyt Louhoksen takomo-reposta

About these ads

About antagomir

http://www.iki.fi/Leo.Lahti
This entry was posted in R, sorvi, tiedonlouhinta, visualisointi and tagged , . Bookmark the permalink.

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s