# <u>Terveysongelmien jakautuminen muuttuvassa maailmassa</u>

*The Global Burden of Disease* on suuri maailmanlaajuinen tutkimus, jossa tutkittiin kuolleisuutta ja sairauksia arvioimalla erilaisia syitä ja ja riskitekijöitä. Tutkimuksen tulokset julkaistiin lääketieteen *The Lancet* -huippulehdessä vuonna 2021. Tähän datasettiin on kerätty tiedot eri riskitekijöiden mahdollisesti aiheuttamista kuolemista muutaman viimeisen vuosikymmenen ajalta.

Ilmanlaadulla on suuri vaikutus ihmisten terveyteen, ja ilmanlaatua voidaankin tarkastella erikseen myös ulkoilman sekä sisäilman osalta. On yleistä, että etenkin matalamman tulotason maissa ruuanlaitossa ja lämmityksessä käytetään kiinteitä polttoaineita, kuten satojätteitä, lantaa, puuta ja hiiltä, joiden polttaminen synnyttää aerosolipäästöjä ja siten heikentää sisäilmanlaatua. Näitä kiinteitä polttoaineita käytetään, koska parempia vaihtoehtoja joko ei ole saatavilla tai ne ovat liian kalliita.

Alkuperäiseen aineistoon pääsee kirjautumalla sivulle [https://vizhub.healthdata.org/gbd-results/](https://vizhub.healthdata.org/gbd-results/), mutta aineistoja saa myös visualisoitua näppärästi Our World in Data -sivuston kautta osoitteessa [https://ourworldindata.org/grapher/number-of-deaths-by-risk-factor](https://ourworldindata.org/grapher/number-of-deaths-by-risk-factor). 

Tämän harjoitteen kannalta lähdemme kuitenkin kokeilemaan vähän omakätisemmin aineiston käsittelyä.

### 1. Työkalut

In [None]:
# Aja tämä solu ensin.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 2. Aineisto

Alla oleva GBD-aineisto kattaa noin vuodet 1990-2019. 

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/opendata-education/Tyopajat/main/materiaali/data/number-of-deaths-by-risk-factor.csv')

In [None]:
# Vilkaistaan yleisesti materiaalin muotoa.
data

Huomaamme, että aineistossa on tuhansia rivejä ja enemmän sarakkeita kuin mahtuu helposti näkyviin. Kaivetaan niiden sisällöt esiin helpommin luettaviksi listoiksi.

In [None]:
# Luetellaan uniikit alueet, jotka Entity-sarake sisältää.
data["Entity"].unique()

In [None]:
# Samaten listataan kaikki sarakkeiden nimet, jotta tiedämme mitä alamme kutsumaan.
data.columns

### 3. Analyysi

Nyt tiedämme alustavasti, mitä maita ja suureita tarkastelemamme aineisto sisältää. Tältä pohjalta pystymme rajaamaan käsittelemäämme tietoa relevantteihin palasiin kulloisenkin mielenkiinnonkohteemme mukaan.

In [None]:
# Valitaan yksittäinen alue uudeksi muuttujaksi. Voit vaihtaa aluetta vapaasti.
# Tämän harjoituksen monet muut solut nojaavat tässä tehtyyn valintaan.
valinta = data.query('Entity == "European Region (WHO)"')

# Tässä korjataan alkuperäiset rivi-indeksit pois ihan vain estetiikan nimissä.
valinta = valinta.reset_index(drop = True)

In [None]:
valinta

Yksinkertaisimmillaan haluaisimme jonkin kiinnostavan suureen kuvaajaksi. Otetaan yksi sarake tietoa ja kuvataan se aika-akselin kanssa.

In [None]:
plt.plot(valinta["Year"], valinta["Alcohol use"])
plt.show()

Hyvässä kuvaajassa on toki selitteet mukana, eli lisätään vähän tarkkuutta.

In [None]:
# Asetetaan mittasuhteet.
plt.figure(figsize = (10,5))

# Piirretään käyrät.
plt.plot(valinta["Year"], valinta["Alcohol use"], label = "Alkoholi", color = "green")

# Määritetään selitteet.
plt.title("Alkoholinkäytön aiheuttamat kuolemat valitulla alueella \n", fontsize = 20)
plt.ylabel("Kuolleet (n)", fontsize = 15)
plt.xlabel("\n Vuosi", fontsize = 15)
plt.legend(fontsize = 15)

# Näytetään tuotos.
plt.show()

Meidän ei toki tarvitse rajoittua yhteen suureeseen, vaan voimme piirtää niitä useampia rinnakkain samaan kuvaan. Voimme samalla huomata tehokkaan tietojenkäsittelijän olevan hieman laiska, eli kirjoittavan koodiaan sellaisella tavalla jossa muutettavia nimiä tarvitsee muuttaa vain yhdessä kohtaa. Kirjoittamalla suureisiin eri sarakeotsikoiden nimiä voit helposti vaihtaa kuvaajan sisältöä.

In [None]:
# Valitaan tarkasteltavat suureet
suure1 = "Outdoor air pollution"
suure2 = "Household air pollution from solid fuels"
suure3 = "Air pollution (indoor and outdoor)"

a = valinta[suure1]
b = valinta[suure2]
c = valinta[suure3]
aika = valinta["Year"]

# Mittasuhteet.
plt.figure(figsize = (10,5))

# Piirrellään kuvaajia.
plt.plot(aika, a, label = suure1)
plt.plot(aika, b, label = suure2)
plt.plot(aika, c, label = suure3)

# Määritetään selitteet.
plt.title("Eri syistä seuranneet kuolemat valitulla alueella \n", fontsize = 20)
plt.ylabel("Kuolleet (n)", fontsize = 15)
plt.xlabel("\n Vuosi", fontsize = 15)
plt.legend(fontsize = 15)

plt.legend()
plt.show()

Kuvaajan ohella saattaisimme haluta tarkastella yksittäisen vuoden tietoja helpommin luettavassa muodossa. Tätä varten jatkamme aineiston paloittelua ehtolauseilla, kuten vuosiluvun vastaavuudella.

In [None]:
# Vaihda tästä haluamasi vuosiluku.
vuosi = 1990

tiedot = valinta.query('Year == @vuosi')
tiedot

Yllä näkyvä rivi on yhä dataframe-muodossa. Repäistään rivi irti luettavaksi hieman yksinkertaisempana oliona.

In [None]:
# Otetaan halutulla rivillä olleet tiedot, nyt vain neljännestä sarakkeesta eteenpäin.
rivi = tiedot.iloc[0][3:]
print(rivi)

Ylläoleva tuotos on sinänsä selkeä, mutta jos meillä olisi vaikkapa tuhat tarkempaa saraketta, meidän pitäisi silti järjestellä asioita uudelleen. Laitetaan tiedot suuruusjärjestykseen.

In [None]:
jarjestys = rivi.sort_values(ascending=False)
print(jarjestys)

Erinomaista, olemme nyt siis saaneet listattua tietyn valitsemamme alueen tietyn vuoden tärkeimmät kuolemaan johtaneet riskitekijät. Mutta entä jos pyrkisimme automatisoimaan tällaista maksimiarvon etsimistä vielä hieman? Voisimme laittaa tietokoneen ilmoittamaan meille esimerkiksi seuraavaa:

In [None]:
print(f"Vuoden {vuosi} suurin vaikutus oli {str(rivi.max())}, kohdassa '{str(rivi.idxmax())}'.")

Luvut saattavat olla myös joskus helpommin hahmotettavissa toisella tavoin kuvattuina.

In [None]:
plt.figure(figsize = (15,5))
ax = jarjestys.plot.barh()
ax.bar_label(ax.containers[0], padding = 3)
plt.title(f"Kuolemaan johtaneet riskitekijät valitulla alueella {vuosi} \n", fontsize = 20)
plt.xlabel("\n Kuolleisuus (miljoonaa ihmistä)", fontsize = (15))
plt.show()

# Tee itse!

Voit vapaasti vaihdella ylläolevia alue- tai riskitekijäsarakevalintojen nimiä ja ajaa koodia uudelleen. Tai voit kirjoittaa omaa koodiasi, joko tähän alle tai lisäilemällä soluja halusi mukaan pitkin matkaa. Alla on muutamia kiinnostavia mahdollisuuksia tutkiskeltaviksi:

- Vertaile yksittäisen valtion tuloksia omaan maanosaansa (Suomi vs. Eurooppa, Angola vs. Afrikka jne.).
- Vertaile taloudellisesti kehittyneitä valtioita köyhempiin valtioihin (Saksa vs. Zimbabwe, Yhdysvallat vs. Intia jne.).
- Vertaile ilmastoltaan erilaisten alueiden kärkitekijöitä toisiinsa (Norja vs. Irak).
- Tutki miten yksittäisen valtion riskitekijöiden kehitys on kulkenut 30 vuoden aikana.

In [None]:
# Koodaile tähän. Lisää soluja saa plusnapista tai b-näppäimellä kun et ole aktiivisen solun sisällä.