Joulupähkinä #8 – Pysyykö julkiset tilastot hallussa?

Joulupähkinä #8 on Tilastokeskuksen virallisten tilastojen analysointia Power BI:llä. Jos et vielä ole kertaakaan kokeillut, niin kannattaa! Tilastokeskus ja muut viranomaistahot tekevät tosi paljon tutkimusta, joka julkaistaan avoimena datana. Tämä data on helppo hyödyntää Power BI:ssä tai Excelissä. Päivän tehtävänä on selvittää oman ammattiluokituksesi ansiorakenne Suomessa.

Tilastokeskus tilastoi keskimääräisiä kuukausipalkkoja ammattiluokittain ja ikärakenteen, sekä sukupuolen perusteella.

Minä olen 38-vuotias, Tieto- ja viestintäteknologian erityisasiantuntija, joten tilastojen mukaan säännöllisen työajan mediaanipalkka on minun tehtävissä 4257 euroa/kk. Haluan sinun tutkivan myös dataa ja kertovan vastauksessa minulle Tilastokeskuksen ilmoittaman mediaani ja keskiansion toimessasi. Voit myös katsoa 9. desiiliä, joka on siis se ylin 10% henkilöistä, paljonko he ansaitsevat siinä alarajalla.

Tehtävä onnistuu menemällä osoitteeseen http://q4.fi Valitsemalla sieltä oheisen kuvan mukainen taulukko:

Eli tuo 124q.

Sen jälkeen kaikki raksit päälle ja generoi PowerQuery.

Eli kaikki raksit jokaiseen dimensioon, lopuksi generate power query ja avot. Sulla on Power Query liitettäväksi omaan Power BI raporttiisi ja voit luoda siitä raportin.

Minä suosin sitä, että teen “unpivot columns” noille arvo-kolumneille, koska silloin saa mukavammin slicerin josta voi valita mitä suuretta haluaa käyttää, mutta onnistuu se ilmankin (ne on vain silloin omissa kolumneissaan). Muista että noi on lukuja, joten sun tulee osittaa aina visualisointi sille alimmalle tasolle, kun kaikkia lukuja ei voi mitenkään laskea yhteen tai ottaa keskiarvoa tms.

Myöskin numero-kolumnit sun tulee tunnistaa itse ja merkitä ne numeroiksi.

Palauta siis oman tilastojen mukaisen keskipalkkasi ja mediaanipalkkasi, ei tartte mainita ammattiryhmää tai ikää, koska tärkeintä on oppia käyttämään tätä, ei kerätä taustatietoja.

Palautuksen voit tehdä tästä.

Joulupähkinä #7 ratkaisu

Ihan huippua, ratkaisuja oli kolmea erilaista. Yhtä en kerro, koska opin itse sen aikaisemmin syksyllä ja se on varattu yhteen sql-pähkinään muutaman päivän päästä 🙂

Mutta ensiksi se, miten minä olen ongelman käytännössä aina ratkaissut:

CREATE VIEW uusinakyma AS SELECT TOP 9999999 * from dbo.FactInternetSales Order by OrderDateKey – eli otetaan joku iso luku ja sen avulla voi sit tehdä topin. Tuon ongelma on se, että teoriassa se voi katkaista tulosjoukon. Tietty aina voi laittaa isomman luvun ja sitä kautta tuo on lähinnä teoreettinen ongelma.

Mutta nyt se, minkä minä opin ihan uutena: create view [jouluviews].[nakyma] as select * from dbo.FactInternetSales order by OrderDateKey offset 0 rows – Tuo uusi offset lauserakenne! Oon varmaan liian vanha kun tuo ei oo tullut mieleen… Ihan täydellistä, ei pelkoa siitä onko top-liian pieni, ei pelkoa että top-huijaa kyselymoottoria luulemaan tulosjoukkoa liian isoksi… vaan just oikein. Kiitos tästä!

Ja se kolmas oli yhtä hyvä kuin tuo offset, mutta koska se on tulossa sql-kyselypulmaan parin päivän päästä en sitä tässä paljasta.