# CMS ja avoin data

CERNissä tuotetaan valtavat määrät dataa jatkuvasti. Compact Muon Solenoid (eli CMS) -koe on julkaissut omaansa avoimeen jakoon hirvittäviä määriä vuodesta 2014 lähtien ja seuraavan vuosikymmenen mittaan laitetaan loputkin. Vuoden 2023 aikana lähes kaikki ensimmäisten LHC-ajojen aikaiset havainnot löytyvät CERNin avoimen datan portaalista (https://opendata.cern.ch/).

Tutustutaan tässä harjoitteessa tapoihin, joilla voidaan tarkastella mitä näistä mittauksista voitaisiin selvittää. Tämä tarjoaa opiskelijoille mainion tilaisuuden puuhastella autenttisen huippututkimuksen aineistojen parissa.

### 1. Käytetty data

In [None]:
# Olen koodisolu! Risuaidalla merkattu rivi on kommentti, joka tekee koodista ihmiselle luettavampaa.
# Aja tämä solu ensin, jotta python tietää mitä sillä ollaan tekemässä (eli haetaan sopivat paketit).

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm


In [None]:
# Avataan muutaman törmäytyksen tapahtumat.

kaksoismyonit = pd.read_csv('https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/Dimuon_DoubleMu.csv')
jpsi = pd.read_csv('https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/Jpsimumu_Run2011A.csv')

In [None]:
# Tarkastellaan miltä data näyttää. Voit kokeilla myös jpsi.head(), laittaa sulkuihin numeron jne.

kaksoismyonit.head()

In [None]:
# Katsotaan paljonko tapahtumia näissä seteissä on.

print (len(kaksoismyonit))
print (len(jpsi))

### 2. Invariantti massa

Invariantti massa on matemaattinen suure, jonka avulla voidaan selvittää millaisen hiukkasen hajoamisesta törmäyksessä havaitut hiukkaset liikemäärineen ja energioineen syntyivät. Sillä on suuri merkitys hiukkastutkimuksessa, jossa monesti etsitään tietyille massoille ennustettujen hiukkasten piikkejä havainnoista.

Histogrammi on voimakas työkalu tällaiseen tarkoitukseen.

In [None]:
# Suoritetaan histogrammin piirtäminen:

fig = plt.figure(figsize = (15, 10))
plt.hist(kaksoismyonit.M, bins = 100)

# Näillä riveillä ainoastaan määritellään otsikko sekä akseleiden tekstit.

plt.xlabel('Invariantti massa [GeV/c²]', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('Kahden myonin invariantin massan histogrammi \n', fontsize = 15) # \n luo uuden rivin otsikon muotoilua varten

# Tehdään kuvaaja näkyväksi.

plt.show()

Signaalista nähdään monia asioita, mutta tarkastellaan yhtä kiinnostavaa huippua 80-100 GeVin kieppeillä rajaamalla kuvaajaa.

In [None]:
# Suoritetaan histogrammin piirtäminen:

fig = plt.figure(figsize = (15, 10))
plt.hist(kaksoismyonit.M, bins = 300, range = (80,100))

# Näillä riveillä ainoastaan määritellään otsikko sekä akseleiden tekstit.

plt.xlabel('Invariantti massa [GeV/c²]', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('Kahden myonin invariantin massan histogrammi \n', fontsize = 15) # \n luo uuden rivin otsikon muotoilua varten

# Tehdään kuvaaja näkyväksi.

plt.show()

Tästä nähdään, että piikki sijoittuu noin 91 GeVin hujakoille, eli myonien taustalta löytynee Z-bosoni.

In [None]:
# Suoritetaan histogrammin piirtäminen myös J/psille.

fig = plt.figure(figsize = (15, 10))
plt.hist(jpsi.M, bins = 300)

# Näillä riveillä ainoastaan määritellään otsikko sekä akseleiden tekstit.

plt.xlabel('Invariantti massa [GeV/c²]', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('J/$\psi$:n metsästys \n', fontsize = 15) # \n luo uuden rivin otsikon muotoilua varten

# Tehdään kuvaaja näkyväksi.

plt.show()

In [None]:
# Vastaavasti puristettuna kiinnostavampaan piikkiin.

fig = plt.figure(figsize = (15, 10))
plt.hist(jpsi.M, bins = 50, range = (3,3.2))

# Näillä riveillä ainoastaan määritellään otsikko sekä akseleiden tekstit.

plt.xlabel('Invariantti massa [GeV/c²]', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('J/$\psi$:n metsästys \n', fontsize = 15) # \n luo uuden rivin otsikon muotoilua varten

# Tehdään kuvaaja näkyväksi.

plt.show()

### 3. Jaottelu ja vertailu

Joskus on kiinnostavaa tarkastella miten eri osat datasta vaikuttavat lopputulokseen. Kokeillaan tässä jakaa dataa sen mukaan, oliko havaituilla hiukkasilla korkea vai matala energia.

In [None]:
ehto = 150

KorkeaEnergia = kaksoismyonit[(kaksoismyonit.E1 + kaksoismyonit.E2) >= ehto]
MatalaEnergia = kaksoismyonit[(kaksoismyonit.E1 + kaksoismyonit.E2) < ehto]

In [None]:
fig = plt.figure(figsize = (15, 10))
plt.hist(KorkeaEnergia.M, bins = 300, range = (80,100), alpha = 0.5, label = 'Korkea E', facecolor = 'k')
plt.hist(MatalaEnergia.M, bins = 300, range = (80,100), alpha = 0.5, label = 'Matala E')

plt.xlabel('Invariantti massa [GeV/c²]', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('Kahden myonin invariantin massan histogrammi \n', fontsize = 15)
plt.legend (loc = 'upper right')

plt.show()

Näyttäisi siltä, että matalaenergisissä tapauksissa syntyisi enemmän kiinnostavia tapahtumia, mutta tässä on pidettävä mielessä histogrammin toimintaperiaate. Pikainen tarkastus kertoo monestako tapahtumasta kumpikin kuvaaja on koostettu.

In [None]:
print (len(KorkeaEnergia))
print (len(MatalaEnergia))

Mitenhän käy, jos jakoehdoksi laittaa vaikkapa 90 GeV? Mitä havaitaan, jos histogrammin alue alkaisikin jo matalasta päästä?

### 4. Pseudorapiditeetti

<img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pseudorapidity_plot.svg/695px-Pseudorapidity_plot.svg.png"
align = "left" style = "height:300px">

Pseudorapiditeetti $\eta$ (eetta) kuvaa havaitun hiukkasen poikkeamaa hiukkassuihkun suunnasta. Suuret, yli 2,5 arvot menevät niin suihkua pitkin, ettei niitä juurikaan saada mitattua, kun taas nollaa lähestyvät jäävät tarkimmin havainnointilaitteistoihin törmäysputken ympärillä.

Pseudorapiditeetista $\eta \equiv -ln[tan\frac{\theta}{2}]$ saadaan myös näkyviin törmäystapahtumien kulmajakauma, mikäli se auttaa hahmottamaan tilannetta.

Viereisessä kuvassa ajatellaan hiukkassuihkun kulkevan vaakasuuntaisesti vasemmalta oikealle.



In [None]:
prapMyonit = pd.concat([kaksoismyonit['eta1'],kaksoismyonit['eta2']])
prapJpsi = pd.concat([jpsi.eta1,jpsi.eta2])

kulmatMyonit = prapMyonit.copy()
kulmatMyonit[:] = [2*np.arctan(np.exp(x))*360/(2*np.pi) for x in kulmatMyonit]

kulmatJpsi = prapJpsi.copy()
kulmatJpsi[:] = [2*np.arctan(np.exp(x))*360/(2*np.pi) for x in kulmatJpsi]

In [None]:
fig = plt.figure(figsize = (15, 10))
plt.hist(prapMyonit, bins = 100, range = (-3,3))

plt.xlabel('Pseudorapiditeetti', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('Jakauma \n', fontsize = 15)

plt.show()


In [None]:
fig = plt.figure(figsize = (15, 10))
plt.hist(kulmatMyonit, bins = 180, range = (0,180))

plt.xlabel('Kulma (deg)', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('Jakauma \n', fontsize = 15)

plt.show()

Kuvaajissa on selkeitä symmetrisiä muotoja. Mistähän moinen voisi johtua?

Hiukkasilla on poikittaista liikemäärää $p_T$. Mistähän voisi johtua seuraava pseudorapiditeetin ja $p_T$:n välinen suhde?

In [None]:
fig = plt.figure(figsize = (15, 10))
poikittaiset = pd.concat([kaksoismyonit.pt1,kaksoismyonit.pt2])
plt.scatter(prapMyonit, poikittaiset, s = 0.5)

#plt.ylim(0,6) # aja solu ensin niin, että tämä rivi on kommentti. Poista sitten ensimmäinen risuaita ja aja uudestaan.

plt.title('Hiukkasten poikittaisliikemäärä $\eta$ suhteen \n', fontsize = 15)
plt.xlabel('Pseudorapiditeetti', fontsize = 15)
plt.ylabel('Poikittaisliikemäärä', fontsize = 15)

plt.show()

### 5. Resoluutio

Pseudorapiditeetti määrittää havainnoitujen hiukkasten suuntaa, joka osaltaan kertoo miten tarkkoja tuloksia voidaan saada. Teknisistä syistä $\eta = \left | 2,5 \right |$ on suunnilleen äärirajalla mittalaitteiden asemoinnin suhteen. Mitä keskemmälle mitta-asemaa havainnot tulevat, sitä tarkemmin niistä voidaan sanoa jotakin, kuten nähdään seuraavista kuvaajista.

In [None]:
korkea = 1

suuret_eetat = kaksoismyonit[(abs(kaksoismyonit.eta1) >= korkea) & (abs(kaksoismyonit.eta2) >= korkea)]
pienet_eetat = kaksoismyonit[(abs(kaksoismyonit.eta1) < korkea) & (abs(kaksoismyonit.eta2) < korkea)]

In [None]:
fig = plt.figure(figsize = (15, 10))
plt.hist(suuret_eetat.M, bins = 300, range = (80,100), alpha = 0.5, label = 'Korkea $\eta$', facecolor = 'black')
plt.hist(pienet_eetat.M, bins = 300, range = (80,100), alpha = 0.5, label = 'Matala $\eta$')

plt.xlabel('Invariantti massa [GeV/c²]', fontsize = 15)
plt.ylabel('Tapahtumien lukumäärä', fontsize = 15)
plt.title('Invariantin massan histogrammi pseudorapiditeetin mukaan \n', fontsize = 15)
plt.legend (loc = 'upper right', fontsize = 15)

plt.show()

In [None]:
print (len(suuret_eetat))
print (len(pienet_eetat))

### 6. Sovitusta ja tilastoja

Suurten aineistojen käsittely kuvaajina auttaa niiden hahmottamisessa, mutta kuvien ohella tietokoneet ovat hyviä ilmiöitä kuvaavien sovitteiden etsimiseen sekä tilastollisten termien esiinkaivamiseen. Pythonissa on sisäänrakennettuja toimintoja esimerkiksi keskiarvojen, varianssin tai keskihajonnan laskemiseksi. Moneen havaintojoukkoon voi koettaa sovittaa tyypillisiä perusjakaumia, kuten normaalijakaumaa.

In [None]:
alaraja = 87
ylaraja = 95

pala = kaksoismyonit[(kaksoismyonit.M > alaraja) & (kaksoismyonit.M < ylaraja)]

fig = plt.figure(figsize = (15, 10))

esite_ala = 80
esite_yla = 100

alue = kaksoismyonit[(kaksoismyonit.M > esite_ala) & (kaksoismyonit.M < esite_yla)]

kerroin = len(pala)/len(alue)
(mu, sigma) = norm.fit(pala.M)

n, bins, patches = plt.hist(kaksoismyonit.M, 300, density = 1, facecolor = 'green', alpha = 0.75, histtype = 'stepfilled',
                            range = (esite_ala,esite_yla))

y = kerroin*norm.pdf( bins, mu, sigma)
l = plt.plot(bins, y, 'r--', linewidth = 2)

plt.xlabel('Massa [GeV/$c^2$]', fontsize = 15)
plt.ylabel('Tapahtuman todennäköisyys', fontsize = 15)
plt.title(r'$\mathrm{Histogrammi\ invarianteista\ massoista\ normeerattuna\ ykköseen:}\ \mu=%.3f,\ \sigma=%.3f$'
          %(mu,sigma),fontsize=15)
plt.grid(True)

plt.show()

Hiukkasfysiikan tarpeisiin normaalijakauma on kuitenkin väärä työkalu, vaikka satunnaisesti näyttäisikin soveltuvan yksittäisiin paikkoihin. Poisson-jakauma olisi asteen parempi, mutta tyypillisesti käytetään Breit-Wigner -jakaumaa:

$$
N(E) = \frac{K}{(E-M)^2 + \frac{\Gamma^2}{4}}
$$

jossa $E$ on energia, $M$ piikin huippukohta, $\Gamma$ jakauman luonnollinen leveys ja $K$ vakio. Resonanssissa havaitun hiukkasen elinaika $\tau$ liittyy jakauman leveyteen seuraavasti:

$$
\Gamma \equiv \frac{\hbar}{\tau}
$$

Voit kokeilla B-W-sovitusta alla eri kohtiin aineistoa. Rajojen siirtäminen vaatii myös alkuarvojen huippukohdan siirtämistä.

In [None]:
# Ensin määritetään tarkastelualueen rajat ja tarkkuus.

lowerlimit = 2
upperlimit = 4
bins = 100

# Haetaan aineisto. 

ds = pd.read_csv(
    'https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/Dimuon_DoubleMu.csv')
i_mass = ds.M
hist, edges = np.histogram(i_mass, bins = 100, range = (lowerlimit, upperlimit))

# Määritetään funktio jakaumalle.

def breitwigner(E, gamma, M, a, b, A):
    return a*E+b+A*( (2*np.sqrt(2)*M*gamma*np.sqrt(M**2*(M**2+gamma**2)))/(np.pi*np.sqrt(M**2+np.sqrt(M**2*(M**2+gamma**2)))) )/((E**2-M**2)**2+M**2*gamma**2)

from scipy.optimize import curve_fit

# Annetaan koneelle alkuarvot ja iteroidaan pari kertaa parantaen sovitusta.

#initials = [1, 91, -1, 200, 13000] # Z-bosonille 90 GeVin kieppeillä
initials = [1, 3.1, -1, 100, 13000] # J/psi 3 GeVin kieppeillä
x = np.linspace(lowerlimit, upperlimit, bins)
y = hist

i = 0
while i < 5:
    popt, pcov = curve_fit(breitwigner, x, y, p0 = initials, sigma = np.sqrt(y))
    i = i+1
    initials = popt
    #print(initials) for checking up
    
error = np.sqrt(np.diag(pcov)) 

# Piirretään kuvaajat ja printataan tilastolliset tiedot näkyviin.

plt.figure(figsize = (10,5))
plt.hist(i_mass, bins, range = (lowerlimit,upperlimit), label = "Alkuperäinen histogrammi", alpha = 0.5 )
plt.plot(x, breitwigner(x, *popt), color = 'r', label = "Breit-Wigner -sovitus")
plt.scatter(x,y, color = 'b', label = "")
plt.legend(loc = "upper right")
plt.xlabel("\n Invariantti massa (GeV)", fontsize = 15)
plt.ylabel("Tapahtumien lukumäärä \n", fontsize = 15)
plt.title("Hiukkanen on hajonnut kahdeksi myoniksi \n", fontsize = 15)
plt.show()

print("Tämän hiukkasen massa on: " + str(popt[1])+ u" \u00B1 " + str(error[1]) + " GeV")

tau_high = 1/(popt[0]-error[0])
tau_low = 1/(popt[0]+error[0])
var = (tau_high - tau_low)/2
tau = tau_high - var

print("Tämän hiukkasen elinaika on: " + str(tau) + u" \u00B1 " + str(var) + " GeV^-1" )