Tekoäly ennusti

NHL:n Stanley Cupin kärkijoukkueet 2020

 

Digia julkaisi tekoälyyn ja koneoppimiseen perustuvan ennusteen vuoden 2020 NHL-voittajasta. Ennusteen kehittymistä seurattiin neljännesvälierien ja finaalipelien ajan aina mestaruuden ratkeamiseen asti. Leikkimielisen ennusteen tarkoitus oli esitellä menetelminä koneoppimista ja simulaatiota sekä auttaa hahmottamaan, millaisiin kysymyksiin kummallakin menetelmällä on mahdollista vastata.

Lue lisää koneoppimisesta ja simulaatiosta

Tutustu Digian analytiikan tarjoamaan

 

 

Viimeisimmän Digian koneoppimiseen perustuvan ennustemallin mukaiset kärkijoukkueet
(päivitetty 28.9.2020)

1. Tampa Bay Lightning

voittomahdollisuus 71,40 %

2. Dallas Stars

voittomahdollisuus 28,60 %

-

NHL:n pudotuspelien voittaminen vaatii taitoa ja onnea. Pudotuspeleissä on aina vastakkain kaksi enemmän tai vähemmän tasavahvaa joukkuetta, joista kummallakaan ei ole poikkeuksellista etulyöntiasemaa toisiaan vastaan. Tämän vuoksi otteluiden lopputulokseen sisältyy aina sekä sattumanvaraisia tekijöitä, että myös tilastollisia tekijöitä (esim. maalivahtien torjuntaprosentti).

Edellä mainituista syistä loimme koneoppimisella toimivan simulaation, joka ennustaa eri joukkueiden todennäköisyydet pudotuspelien voittoon. Koneoppiminen hyödyntää tilastollista dataa runkosarjasta ja pudotuspeleistä 10 vuoden ajalta. Simulaatio avulla voimme imitoida ja mallintaa pudotuspelien ottelurakennetta tilastollisesti. Koneoppinut algoritmi laskee voittotodennäköisyydet joukkueille yhdessä ottelussa. Tämän jälkeen kaikki pudotuspelien ottelut pelataan simulaatiossa läpi algoritmin kanssa ja tuloksena on Stanley Cup voittaja. Tämä simulaatio toistetaan 10000 kertaa, jolloin voimme laskea tuloksista todennäköisyydet joukkueiden Stanley Cupin voitolle.

Joachim Wahlström, Data Scientist, Digia

 

Stanley Cup 2020 raportti

 

Sävyanalyysi Twitter-datan perusteella

 

Sävyanalyysi (englanniksi sentiment analysis) pyrkii tuottamaan tuloksena tiedon, onko jokin teksti sävyltään positiivinen vai negatiivinen (tai jotain siltä väliltä). Tässä tapauksessa käytimme teksteinä twiittejä. Haimme twiittejä joukkueiden aihetunnisteiden perusteella, esimerkiksi haulla #vegasborn saa Vegas Golden Knights -joukkueeseen liittyviä twiittejä. Suorittamalla saaduille twiiteille sävyanalyysin ja käyttäen twiittauksen ajankohtaa, voimme laskea kullekin joukkueelle päiväkohtaisen keskimääräisen sävyn.

Ideamme on tarkastella sitä, onko twiittien sävyllä ja joukkueiden menestyksellä yhteyttä toisiinsa. Yksi suoraviivainen hypoteesi olisi, että joukkueen menestyessä myös heihin liittyvien twiittien sävy on positiivinen, mutta on hyvin kuviteltavissa muitakin vaihtoehtoja.

 

 

Mukana olleet joukkueet

Philadelphia Flyers New York Islanders

 

Tampa Bay Lightning Boston Bruins

 

Vegas Golden Knights Vancouver Canucks

 

Colorado Avalanche Dallas Stars

 



 
 
 

Hypetermit, kuten tekoäly, koneoppivat mallit ja sentimentti-tekstianalytiikka ovat jalkautuneet jo arkipäiväämme. Malleja hyödynnetään jo monessa kuluttajapalvelussa ilman, että ajattelemme asiaa: Verkkokauppa osaa tarjota meille juuri sopivia tuotteita, sosiaalisen median virrassa pompsahtelee vastaan tiettyjen tuotteiden mainoksia, asiakaspalvelussa viestini voidaan ohjata sopivimmalle asiakaspalvelijalle riippuen tunnetilastani tai viestin sävystä ja dynaamiset hinnoittelumallit optimoivat hintatarjouksia muuttuvien olosuhteiden mukaan. Esimerkkejä on lukuisia. Uskon, että tekoälykkäistä algoritmeista hyötyvät kaikki, kunhan ne on vastuullisesti ja eettiset näkökulmat huomioiden ohjelmoitu.

Päivi Karesjoki, analytiikkaliiketoiminnan vetäjä, Digia
Data ja analytiikka -palvelumme