KTPO-sopimuksen kohta 3.1 Tietoliikenteen, datanhallinnan ja laskentapalvelujen raportointi, kori 1, raportoidaan kolme kertaa vuodessa.



TIETOLIIKENTEEN PALVELUT, FUNET

Yksityiskohtaisemmat Funet-kuukausiraportit: https://wiki.eduuni.fi/x/DYJpAQ (ei julkisesti saatavilla, vaatii kirjautumisen)


Tarkastelujakso 1.9.-31.12.2021 

    • Verkon käyttömäärät
      • Ulkomaat
        • Liikennemäärä ulkomaille pysynyt vakaana

      • Kotimaa
        • Liikennemäärä kotimaan Ficix-liikennepisteissä pysynyt vakaana seurantajaksolla

    • Verkon ja sen palveluiden laatu/saatavuus
      • Yhteyspalveluiden laatu ja saatavuus säilynyt hyvällä tasolla. Kuitukatkot eivät ole aiheuttaneet katkoa palveluihin.
      • Seurantajaksolla runkoverkossa useita kuitukatkoja, joista ei aiheutunut palvelukatkoa Funet-yhteyksille varmentavien reittien ansiosta.
    • Asiantuntijatuki RT servicedeskin kautta tikettien määränä kuukausittain:


Tarkastelujakso 1.9.-31.12.2021

    • Funet-verkon tietoturvatilanne on ollut tarkastelujaksolla normaali. Funet CERT vastaanotti ja käsitteli tavanomaisen määrän haavoittuvuusilmoituksia.


Tarkastelujakso 1.9.-31.12.2021

    • Verkkovierailupalvelu eduroamin käyttömäärät palautuivat tarkastelujakson lopussa jonkin verran kohti pandemiaa edeltänyttä tasoa. Joulukuussa 2021 eduroam-kirjautumisia tehtiin jo miltei yhtä paljon kuin vuoden 2019 joulukuussa (noin 2 miljoonaa kirjautumista kuukaudessa), kun vuoden 2020 joulukuussa kirjautumisia kertyi vain miljoonan verran. Tarkastelujakson syys-, loka- ja marraskuussa jäätiin kuitenkin vielä reilusti (noin miljoonalla per kuukausi) vuoden 2019 vastaavan ajan kirjautumismääristä. Kansainvälisten eduroam-kirjautumisten määrissä jäädään käyttäjien normaalia pienemmän liikkuvuuden takia edelleen kuukausittain alle puoleen pandemiaa edeltävien kuukausien kirjautumismääristä.



DATANHALLINNAN PALVELUT

Pitkäaikaissaatavuuden palvelut

Tarkastelujakso 1.9.-31.12.2021

Fairdata-verkoston toiminta

  • Fairdata-verkoston toiminta parantaa yhteistyötä ja tiedonkulkua Fairdata-palveluja (IDA, Qvain, Etsin, Metax, Fairdata PAS) sekä Tiedejatutkimus.fi:n tutkimusaineistotietoja hyödyntävien organisaatioiden ja CSC:n välillä.
    • Tiedonvälitys myös datatukiverkoston ja koulutustoiminnan välillä.
  • Verkoston sähköpostilistalla 114 henkilöä 37 eri organisaatiosta. Vuoden 2021 aikana Fairdata-verkostolle järjestettiin 5 kokousta ja 2 työpajaa, joissa oli keskimäärin noin 50 osallistujaa.
  • Fairdata-verkostolle järjestetty tarkastelujakson aikana kaksi kokousta 7.10.2021 ja 9.12.2021.
    • Joulukuun kokouksessa keskusteltiin mahdollisuudesta antaa tutkijan kotiorganisaatiolle tekniset hallintaoikeudet IDAan tallennettuihin ja julkaistuihin aineistoihin, erityisesti silloin kun data jää orvoksi. Organisaatioilta tuli ehdotukseen alustavasti positiivista palautetta ja ehdotusta kehitetään edelleen keväällä 2022.

IDA-käyttöpolitiikkamuutokset

  • IDAn käyttöpolitiikkaa uudistettiin ja tarkennettiin 1.7.2021 organisaatioiden kommentit huomioiden. Käyttöpolitiikasta poistettiin Suomen Akatemian rahoituspäätökseen perustuvan IDA-käyttöoikeuden ja OKM:n erillismyöntönä saatavan IDA-käyttöoikeuden hakemisen (ja jatkamisen) mahdollisuus.
  • Syyskuussa 2021 SA:n rahoituspäätökseen tai OKM:n erillismyöntöön perustuen IDAa käyttäneet projektit siirrettiin kotiorganisaatioidensa IDA-käyttöoikeuden alaisiksi projekteiksi. Samalla OKM:n Kotukselle myöntämästä erillismyönnöstä tehtiin organisaatiokäyttöoikeus. Muutoksista informoitiin henkilökohtaisesti niitä organisaatioita ja loppukäyttäjiä, joita muutos koski.

Viestintä

Asiantuntijatuki Servicedeskin kautta

IDA-, Qvain-, Metax- ja Etsin-palveluihin liittyvät ratkaistut Servicedeskin kautta tulleet tukipyynnöt kuukausittain vuosina 2020 ja 2021. Tarkastelujakson aikana syys-joulukuussa palvelujen tikettijonossa on käsitelty yhteensä 101 tukipyyntöä.

Tarkastelujakso 1.9.-31.12.2021

Fairdata-palvelujen kävijämäärät (selainkäyttöiittymä)

Evästeetön web-analyytikka seuraa päivätasolla uniikkeja kävijöitä fairdata.fi-verkkosivustolla sekä IDA-, Etsin- ja Qvain-palvelujen selainkäyttöliittymissä. Kävijöitä kaikissa näissä verkkopalveluissa yhteensä keskimäärin noin 125 päivässä arkisin ja noin 20 päivässä viikonloppuisin.


IDA, Etsin, Metax, Qvain - Katsaus tuotantoon

Palveluiden saatavuus

Tarkastelujaksossa palveluiden saatavuus on ollut erinomainen:

  • IDA 99,99%
  • Etsin 99,99%
  • Metax 99,99%
  • Qvain 99,99%
IDA- Tutkimusdatan säilytyspalvelun käyttö

  • Yllä oleva kuvaaja kattaa palvelun käytön vuoden 2015 lopusta vuoden 2021 loppuun

  • IDAa käyttävien projektien määrä on 415 (kasvua 5 % edelliseltä tarkastelujaksolta). Projekteissa on aktiivisia IDA-käyttäjiä 914 (kasvua 4 % edelliseltä tarkastelujaksolta).
    • Projekteista 21 on suljetussa tilassa tai projektin vastuuhenkilön tunnus ei ole aktiivinen.
    • Kaikesta datasta alle 4 teratavua (alle 4 %) kuuluu projekteille, jotka ovat suljetussa tilassa tai joiden vastuuhenkilö ei ole aktiivinen.
    • Tarkastelujakson aikana 7 projektia on poistettu palvelusta vastuuhenkilön pyynnöstä.
  • Dataa on noin 1025 teratavun edestä (vähentynyt 1 % edelliseltä tarkastelujaksolta). Kaikesta datasta 543 teratavua eli 53 % prosenttia on jäädytetty.


IDA - Tutkimusdatan säilytyspalvelu - Palvelun käyttö organisaatioittain 12/2021

IDA-palvelu on käytössä 31 eri organisaatiossa. Tarkastelujakson aikana IDAa käyttävät projektit jakautuvat sektoreittain seuraavasti:

OrganisaatioProjekteja
Yliopistot368
Ammattikorkeakoulut21
Valtion tutkimuslaitokset24
Muut organisaatiot (Kotus)2
Yhteensä415
Etsin - Tutkimusaineistojen hakupalvelu

Aineistojen kokonaislukumäärä ajanjaksolla 2016–12/2021


Uusien aineistojen lukumäärä kuukausittain 2019-12/2021


Julkaistujen aineistojen määrät:

  • Uusia aineistoja 01-12/2021: 419
  • Kuvailutyökalun avulla: 169
  • Haravoinnin ja APIn kautta: 250

IDA, Etsin, Metax, Qvain - Katsaus kehitykseen

Fairdata-palvelujen yhteiset kehityskohteet
  • Laadunvarmistus:
    • Parannettu sensitiivisen palvelinkonfiguraation hallintaa
    • Parannettu kehitysprossesin työkalujen dokumentaatiota ja käyttöönottoa
    • Julkaisuprosessin dokumentaatiota parannettu eri sidosryhmät huomioonottaen.
    • Yhdenmukaistettu Etsimen ja Qvaimen julkaisuprosessia muiden Fairdata komponenttien kanssa
    • Yhdenmukaistettu IDAn kehitysprosessia muiden Fairdata -komponenttien kanssa
    • Lisätty automaatiotestauksen kattavuutta eri palveluissa
    • Tunnistettu ja dokumentoitu manuaalisia tuotantoprosesseja
IDA kehitys
  • 4 HPE Apollo 4510 Gen10 -palvelinta ja 1.78 PiB levyä otettu suunnitellusti käyttöön Q3/2021 alussa. Palvelimet korvasivat IDAn vanhemmat edustapalvelimet ja niiden tallennuskapasiteetin.
  • Nextcloud- ja PostgreSQL-ohjelmistokomponettien päivittämiseen liittyvät muutokset tehty ja niiden testaaminen tuotantoonviemistä varten aloitettu.
  • Palvelun sisäisiä automaattisia prosesseja, ohjelmistoversioiden valvontaa ja laadunvarmistusta parannettu
  • Parannuksia selainkäyttöliittymän käytettävyyteen, pieniä bugikorjauksia
Etsin kehitys
  • Lisätty tuki aineistojen muokkausoikeuksien jakamiselle (luonnosten näyttäminen muokkausoikeuksien mukaisesti)
  • Aloitettu aineistosivun ulkoasun parantamisen suunnittelu (käytettävyyden parantaminen)
Qvain kehitys
  • Uudistettu Qvaimen käyttöohjeet
  • Aineistojen muokkausoikeuksien jakaminen muille käyttäjille (testausvaihe menossa 12/2021)
  • Aloitettu kuvailusivun käyttöliittymän uudistustyö (suunnitteluvaihe menossa 12/2021)
Metax kehitys
  • Lisätty tuki aineistojen muokkausoikeuksien jakamiselle
  • Jatkettu yhteistyötä AMK:ien Reportronic-palveluun suunnitteilla olevan Metax-integraation toteutukseen liittyen
  • Tehty yhteistyötä Jyväskylän Yliopiston IDAssa säilytettävän datan aineistometatietojen tuomiseksi Metax API -rajapinnan kautta
  • Tehty yhteistyötä Aalto Yliopiston aineistometatietojen tuomiseksi Metax API -rajapinnan kautta
  • Tehty yhteistyötä CSC:llä sisäisesti sensitiivisen datan aineistometatietojen (SD Submit) sekä EUDAT B2SHARE FMI -aineistometatietojen tuomiseksi Metax API -rajapinnan kautta

Tutkimukseen liittyvien aineistojen digitaalinen pitkäaikaissäilytys (Fairdata PAS-palvelu)

CSC on tarkastelujaksolla edistänyt tutkimukseen liittyvien digitaalisen aineistojen pitkäaikaissäilytystä OKM:n kanssa asetettujen tavoitteiden mukaisesti. Tämä tarkoittaa säilytykseen jo hyväksyttyjen aineistojen vaalimista, uusien käyttöönottojen tukemista sekä hallinnollisesti että teknisesti, sekä toiminnan jatkuvaa kehittämistä vastaamaan paremmin korkeakoulujen ja tutkimuslaitosten aineistojen säilyttämisen tarpeita.

Vuonna 2021 toteutuneita toimenpiteitä ovat esim.:

  • OKM:n säilytyspäätöksien mukaisten aineistojen eheyden, käyttökelpoisuuden ja autenttisuuden vaaliminen
  • Uusien säilytyspäätöksien mukaisesti organisaatioiden tukeminen hallinnollisesti ja teknisesti palvelun käyttöönotossa
  • Hyödyntävien organisaatioiden toivomat määrittelymuutokset huomioitu
  • Demoympäristön toteuttaminen
  • Integraatiopäivitys muihin Fairdata-palveluihin
  • Rajapintakomponentti PAS-palvelun REST-rajapinnan automaattiseen hyödyntämiseen
  • Paketointipalvelun tuki kaikille PAS-palveluun toteutetuille tiedostomuodoille
  • Paketointipalvelun siirto uuteen laitealustaan
  • Python3-kehitysympäristöön siirtyminen
  • Tiedostomuotojen luokittelu tiedostojen analysointikomponentissa
  • Erilaisia pieniä bugikorjauksia ja muita tehtäviä

Laajempi PAS-palveluiden vuosiraportti 2021 on saatavilla digitalpreservation.fi-sivustolla.




Datanhallinnan palvelut, yhteentoimivuus ja tuki

Tarkastelujakso 1.9.-31.12.2021


Työpaja 2.9.2021 LUKEssa Maaperätiedon kehittäminen -hankkeen tutkimusryhmille datanhallinnasta ja datanhallinnan palveluista, tavoitteena auttaa tutkimusryhmiä datansa avaamisessa. (33 osallistujaa)

Sensitive data services workshop datatukihenkilöstölle 14.9.2021 (81 osallistujaa). Virtuaalisessa työpajassa esiteltiin uusia sensitiivisen datan palveluita ja niiden käyttöä.

Kirjastoverkkopäivät 28.10.2021, puheenvuoro ja työpaja metadatasta ja yhteentoimivista datanhallinnan palveluista (80 osallistujaa).

Åbo Akademi, Seminaari tallennusratkaisuista 19.11.2021, puheenvuorot Allas- ja Sensitiivisen datan palveluista, 20 osallistujaa.

IT-Päivät, puheenvuoro Fairdata-palveluista 17.11.2021, case-esimerkkinä Metsähovi-tutkimuskeskuksen kumulatiivisen datan jakaminen Fairdata-palveluiden avulla.

Tilaisuus Competence Centeristä 15.12.2021 (50 osallistujaa). Virtuaalisessa tapahtumassa keskustelimme datatukiverkoston kanssa CSC Datanhallinnan osaamiskeskuksen toiminnasta ja mahdollisista yhteistyömuodoista datanhallinnan osaamisen kehittämisessä muiden organisaatioiden kanssa.

  • tilaisuudessa käytiin läpi mm. tuloksia webropol-kyselyyn, joka kartoitti organisaatioiden tukihenkilöiden osaamistarpeita, yhteistyömahdollisuuksia koulutusten järjestämisessä ja datanhallinnan palvelutarjooman selkeyttämistarpeita

Manage well and get preserved video Checksums (71 katselua). Tarkistussumma tarkoittaa numeerista arvoa, joka on laskettu binääritiedoista käyttämällä sopivaa matemaattista algoritmia.

Blogi CSC:n Tutkimusdatanhallinnan osaamiskeskuksesta https://www.csc.fi/-/csc-research-data-management-competence-center 

Uusi nettisivu CSC:n Tutkimusdatanhallinnan osaamiskeskuksesta https://www.csc.fi/tutkimusdatanhallinnan-osaamiskeskus

Datatukiverkosto

    • Organisaatioita mukana 33
    • Sähköpostilistalla 127 jäsentä
    • Chat-käyttäjiä 100
    • Kuukausittaiset datakahvit, osallistujia 15-30 eri organisaatioista
    • Koulutukset: Sensitive data services workshop 14.9.2021, Tilaisuus Competence Centeristä 15.12.2021
  • RDM koulutusmateriaalien tuottaminen ja päivittäminen tutkijoiden ja tutkimusorganisaatioiden käyttöön sekä kansainvälisten datanhallinnan hyvien käytäntöjen skaalaaminen kansallisiin tarpeisiin (esim. eLearning RDM-johdantokurssi). 
  • Edelleen verkkosivujen sisällön selkiyttäminen ja täydentäminen Docs-puolelle vastinpariksi research.csc.fi materiaaleille

Tarkastelujakso 1.9.-31.12.2021

  • Tuettu infroja, tutkimushankkeita, CSC:n palveluiden käyttäjiä hyvien RDM käytänteiden implementoinnissa ja fasilitoitu datanhallinnan suunnittelua sekä tuotettu työn tueksi ohjeita ja koulutusmateriaaleja. 
    • RDMkit: Hyviä tuloksia RDMkit datanhallintaresurssin käyttöönotosta Suomessa: Joulukuun 2021 tilastojen mukaan Suomesta runsaasti käyntejä sivustolla
      • 115 contributors, 93 pages referencing 309 tools and resources
        5722 unique users, 37536 views
        123 countries have accessed; the top 10 are (in order) United States, United Kingdom, Germany, France, Norway, Belgium, Netherlands, Spain, Finland, Italy
  • Osallistuttu kansallisen Dynaamiset DMP:t työryhmä loppuraportin laatimiseen (valmistuu keväällä 2022) 
  • Tuettu käyttäjiä ja organisaatioita palveluiden valinnassa ja käytön suunnittelussa sekä niihin liittyvän datanhallinnan tuen skaalaamisessa eteenpäin eri organisaatioissa.
  • Vahvistettu omaa osaamista henkilötietoihin ja sensitiiviseen dataan liittyen.
  • Edistetty datanhallintapalveluiden käyttäjätukien harmonisointia/yhteistyötä sekä selkeytetty datanhallintapalveluiden tietovirrat käyttäjille


Tarkastelujakso 1.9.-31.12.2021

Aineistonhallinnan suunnittelun (DMP) edistäminen

  • Valmisteltu uutta DMP-konsortiota asiakkaiden kanssa. Neuvoteltu sopimuksista, palvelun tuottamisesta ja laadittu konsortiolle sääntöehdotus yhteistyössä organisaatioiden edustajien kanssa.

Yhteentoimivuuden ja toistettavuuden edistäminen

  • Edistetty tutkimuksen palveluiden yhteentoimivuutta mm. selvitys- ja arkkitehtuurityöllä sekä edistetty sisäistä organisoitumista ja tiedonkulkua
  • Kehitetty datansiirtoa Altaasta IDAan 
  • Tehty kansallisia ohjeita semanttisen yhteentoimivuuden edistämiseksi AVOTT-työryhmässä ja valmisteltu kansallista AVOTT-arkkitehtuurityötä
  • AVOTT:n alaisen Palvelut avoimen FAIR-toimintakulttuurin edistäjinä - työryhmän työhön osallistuminen ja siellä tutkimusaineistojen avaamista edistävän linjauksen ja mittariston kehittäminen

  • Yhteistyötä esim. Kansalliskirjaston Ihmistieteiden neuvottelukunnassa, Finto-konsortiossa Avoimen tieteen ryhmissä, tutkimuslaitosten kanssa ja kansainvälisissä yhteyksissä esim RDA. 
  • CSC:n datanhallinnan palveluiden ja ohjeistusten yhtenäistäminen docs.csc.fi:ssä ja parempi linkittäminen research.csc.fi sivuston kanssa 

PID palvelut

    • Aloitettu yhteisen tiekartan hahmottelua PID-verkostossa
    • Neuvottu organisaatioita PID-asioissa
    • Seurattu kansainvälistä kehitystä osallistumalla PID-työryhmiin (FDO forum, ePiC, RDA, Knowledge Exchange)
    • DataCite Finland -konsortiossa on nyt 6 jäsentä.
    • PID-mikropalvelun tuotantoonvientiä edistetty ja palvelua testattu


Tarkastelujakso 1.9.-31.12.2021

  •  Sensitive Data (SD) -palvelut toimitettu beta-statuksen alla, käyttäjien määrä jatkaa maltillista kasvuaan.
    • Loppukäyttäjiä nyt myös organisaatioista, jotka eivät aikaisemmin ottaneet ePouta käyttöön.
    • Palvelujen päivitykset loppukäyttäjien palautteen perusteella, esim. siirrettävien aineistojen salaus käyttäjän puolesta SD Connect -palveluun sekä näiden aineistojen helpompi käyttö SD Desktopin sisällä.
    • SD-palveluiden käyttäjäkokemuksen parantamisen valmistelu, esim. SD Connect -palvelun käyttöliittymän yksinkertaistaminen. 
    • Tiekartan tarkistaminen tuotantopalvelun lanseeraamiseksi vuoden 2022 ensimmäisellä kvartaalilla.
    • Loppukäyttäjien dokumentaation, koulutusmateriaalin sekä animaatioiden tuottaminen.
    • Esiselvitys DL2021-ympäristön HPC-laskennan hyödyntämisen mahdollistamiseksi arkaluonteiselle aineistolle.
  • Tuki OKM:n 2-vuotisen esikoulun kokeilun vaikutuksista (https://okm.fi/hanke?tunnus=OKM004:00/2020)
  • Findata määräyksen analysoiminen - SD-palveluiden kartoitus puuttuvien ominaisuuksien osalta. Findata-määräyksen mukainen auditioprosessi aloitettu kilpailuttamalla auditoijat.
  • Uusien lisäpalveluiden arkkitehtuurin ja palvelumallien (SD Apply, SD Submit sekä FEGA) tarkentaminen osana vuoden 2022 työn suunnittelua. 


LASKENNAN  PALVELUT

Tieteen ja tutkimuksen palveluiden ylläpito

Tarkastelujakso 1.9-31.12.2021

Käyttäjien lukumäärä

Käyttäjien kokonaismäärä on vuonna 2021 jatkanut kasvuaan. Alla olevassa taulukossa on kuvattu aktiivisten käyttäjien määrä CSC:n palveluissa, mukaanlukien IDA. Aktiivinen käyttäjä tarkoittaa tässä käyttäjää, jolla on voimassa oleva tunnus. Reilussa puolessa vuodessa käyttäjämäärät ovat nousseet 4-21 % kaikissa kolmessa asiakassegmenteissä. Varsinkin tutkimuslaitosten tutkijat ovat löytäneet CSC:n palveluja entistä enemmän.



YliopistotTutkimuslaitoksetAmmattikorkeakoulut
Aktiiviset käyttäjät 2018328123295
Aktiiviset käyttäjät 20193671384233
Aktiiviset käyttäjät 20203633422449
Aktiiviset käyttäjät 20214088512467
Kasvu 2021 aikana12,5 %21,3 %4 %


Laskentapalveluiden käyttäjämäärät on myös jatkanut kasvuaan vuoden 2021 aikana. 

Puhdin CPU-resurssit ovat erittäin monien asiakkaiden käytössä. Kokonaisuudessaan Puhdin käyttäjämäärä nousi miltei 500 hengellä, nyt uniikkeja käyttäjiä koko vuoden aikana jo 2210. Uusi www pohjainen käyttöliittymä otettiin käyttöön lokakuussa, ja jo noin 100 henkilöä ovat käyttäneet sitä joka kuukausi.  Kesän aikana on odotetusti laskua käyttäjämäärissä, mutta syksyllä palvelun käyttäjämäärät palasi samoihin lukemiin kuin keväällä. 

Mahdin käyttäjämäärien kasvu jatkui pitkin vuotta 2021.  Varsinkin GPU noodien lisääminen kasvatti käyttäjien kokonaismäärää, joka on noin neljännes Puhdin vastaavasta. Vuoden 2021 käyttäjämäärät ovat yli kaksinkertaiset vuoden 2020 verrattuna, jolloin Mahti otettiin käyttöön.

Käyttäjistä, jotka käyttävät GPU:ita (eli Mahti-AI ja Puhti-AI) käyttävät usein myös CPU-resursseja. Samalla on merkittävä määrä, jotka käyttävät pelkästään kiihdytettyä laskentaa.

Puhdin isompi käyttäjämäärä on linjassa palvelun luonteen kanssa. Puhdissa suoritetaan enimmäkseen pieniä ja keskisuuria laskujen, toisin kuin Mahdissa, missä suuret ja keskisuuret laskut ovat painottuneet. Pienin resurssi mitä Mahdissa voi käyttää on 128 laskentaydintä  (yksi laskentasolmu), mikä on suurempi resurssi kuin mitä monet pienet käyttäjät voivat hyödyntää. 



2021 uniikit käyttäjät/kk

PuhtiPuhti AIwww.PuhtiPuhti
yhteensä
MahtiMahti AIMahti
yhteensä
Tammikuu594202-701126
126
Helmikuu651265-811176
176
Maaliskuu743210-845156
156
Huhtikuu717234-848167
167
Toukokuu741191-84317125186
Kesäkuu639195-73118536202
Heinäkuu503167-59015126172
Elokuu605210-74217235194
Syyskuu675198-77216639196
Lokakuu69219510279722764257
Marraskuu75822510987419462231
Joulukuu5992147872715547187
202119796892302210430132478
20201553604-1758192-192

Laskentapalvelujen käytettävyys ja käyttöaste




2021 käytettävyys2021 käyttöaste

Puhti
Puhti AI
Mahti
Mahti AI
PuhtiPuhti AIMahtiMahti AI
Tammikuu100 %100 %79,64 %81,71 %77,75 %
Helmikuu100 %99,26 %75,93 %90,27 %65,28 %
Maaliskuu100 %98,75 %68,11 %75,55 %77,55 %
Huhtikuu100 %94,42 %67,99 &83,32 %70,70 %
Toukokuu

100,00 %

95,79 %

68,32 %

78,55 %

69,57 %

42,89 %

Kesäkuu

95,66 %

100,00 %

71,84 %

72,01 %

78,46 %

30,18 %

Heinäkuu

100,00 %

100,00 %

60,07 %

61,40 %

70,76 %

20,68 %

Elokuu

100,00 %

100,00 %

65,32 %

69,80 %

66,23 %

35,09 %

Syyskuu

100,00 %

92,78 %

56,96 %

79,26 %

62,91 %

32,47 %

Lokakuu

95,56 %

100,00 %

59,69 %

69,65 %

62,41 %

60,59 %

Marraskuu

100,00 %

95,28 %

66,51 %

78,89 %

70,10 %

54,33 %

Joulukuu

100,00 %

100,00 %

60,97 %

73,40 %

57,19 %

60,80 %

202199,27 %98,02 %66,17 %

75,97 %

69,09 %

42,17 %

202099,17 %94,25 %84,96 %77,36 %61,4 %-


Laskentapalvelimien käyttöaste on vuoden 2021 aikana ollut tasainen, mutta viimeisten neljän kuukauden aikana käyttöaste on ollut alkuvuotta heikompi.  Samalla valtaosa resursseista on käytössä, ja yksittäiselle tutkijalle tämä hiukan heikompi käyttöaste näkyy hyvänä asiakaskokemuksena siten että jonot ovat lyhyet ja resursseja helposti saatavilla. Kun verrataan vuotta 2021 ja 2020 toisiinsa nähdään että Puhdin CPU partition käyttöaste on pudonnut. Selitys tälle on se että Mahti tuli käyttöön vasta elokuussa 2020 syksyllä, ja Puhti oli pitkään ainoa supertietokone joka oli suomalaisten tutkijoiden käytössä. Monet isot käyttäjät ovat siten siirtyneet Mahtiin ja vaikka Puhdin käyttäjämäärät ovat kasvaneet niin resurssit ovat riittäneet käyttäjille.

Samalla on huomioitavaa että kokonaiskäyttö, eli miten monta tuntia on käytetty laskentaytimiä ja GPUita on noussut voimakkaasti. Tämä johtuu siitä että vuoden 2020 aikana käyttöön otetulla Mahdilla on 179 712 laskentaydintä, kun Puhdissa on vain 27 280 laskentaydintä. Samoin Mahti-AI:n käyttöönotto nosti GPU korttien määrää. Puhti-AI:ssa on 320 GPU:ta ja Mahti-AI:ssa 96 GPU:ta. Mahti-AI:n GPU:t ovat myös suorituskykyisemmät koska ovat uudempaa Ampere sukupolvea (A100), ja Puhti-AI:ssa on vanhempi Volta (V100) sukupolven GPU. Alla olevassa kuvaajassa näkyykin miten resurssien kokonaiskäyttö  on noussut vuoden takaisesta.


Puhti


Graafi esittää Puhdin laskentaytimien käyttö ajan funktiona. Kuvassa on myös esitetty jonot, jotka kuvaavat minkälaisia resursseja tutkija on tarvinnut. Maksimimäärä laskentaytimiä Puhdissa on 27280. Ajanhetket, missä on pienempi kuorma, ajoittuu yleensä viikonloppuihin, lomakausiin tai huoltokatkoihin.

Puhdin jonotusaikoja tarkistetaan seuraavassa kuvaajassa kahden kvantiilin avulla. Jokaisena ajanhetkenä on laskettu 50 % ja 95 % kvantiilit edellisestä 24 tunnista. 50 % graafi kuvaa, että tätä nopeammin puolet ajoista ovat menneet ajoon siitä ajanhetkestä kun ne ovat laitettu jonoon. 95 % kvantiili vuorostaan tarkoittaa että 95 % töistä ovat menneet ajoon tätä nopeammin.  Jonotusajat ovat olleet lyhyitä keskimäärin, ja tutkijoiden työskentely jouhevaa.

Graafi esittää Puhdin GPU-käyttö ajan funktiona. Kuvassa on myös esitetty jonot, jotka kuvaavat minkälaisia resursseja tutkija on tarvinnut. Maksimimäärä GPUita Puhdissa on 320. Ajanhetket, missä on pienempi kuorma, ajoittuu yleensä viikonloppuihin, lomakausiin tai huoltokatkoihin.

Jonot GPU-resursseihin on kuvattu alla olevassa graafissa. Keskimäärin näihin resursseihin on ollut pidemmät jonot kuin CPU-resursseihin.

Mahti

Graafi esittää Mahdin laskentaytimien käyttö ajan funktiona. Kuvassa on myös esitetty jonot, jotka kuvaavat minkälaisia resursseja tutkijat ovat tarvinneet. Maksimimäärä laskentaytimiä Puhdissa on 179712. Ajanhetket, missä on pienempi kuorma, ajoittuu yleensä viikonloppuihin, lomakausiin tai huoltokatkoihin. Esimerkiksi Toukokuun alun huoltokatko näkyy sekä jonotusajassa että käyttöprosentissa. Jonotusajat ovat pääsääntöisesti olleet maltillisia tai erittäinkin lyhyitä.


Mahdin GPU resurssien käyttöasteet sekä jonotusaikatilastot. Syksyn aikana CSC on ryhtynyt toimenpiteisiin varmistakseen että Mahdin GPUt saadaan tehokkaampaan käyttöön. Tämä näkyykin graafissa kasvavana käyttönä syyskuun aikana.

Nostoja tutkimustuloksista

Machine learning methods for atmospheric molecular level applications

Vitus Besel(1)*, Milica Todorović(2), Theo Kurtén(3), Patrick Rinke(4) and Hanna Vehkamäki(1)

1 Institute for Atmospheric and Earth System Research/Physics, University of Helsinki, 00560 Helsinki, Finland

2 Department of Mechanical and Materials Engineering, University of Turku, FI-20014 Turku, Finland

3 Institute for Atmospheric and Earth System Research/Chemistry, University of Helsinki, 00560 Helsinki, Finland

4 Department of Applied Physics, Aalto University, FI-00076 Helsinki, Finland

Galaxy formation and evolution 

Prof. Peter Johansson (PI), Dr. Till Sawala (Academy of Finland res. fellow), Dr. Stuart McAlpine (postdoc), Dr. Shihong Liao (postdoc), Dr. Dimitrios Irodotou (postdoc), Dr. Francesco Rizzuto (postdoc), Mr. Matias Mannerkoski (PhD student), Mr. Alexander Rawlings (PhD student)

University of Helsinki

Fotran: Found in Translation

Jörg Tiedemann, University of Helsinki, Language Technology


Antidepressant drugs act by directly binding to TrkB neurotrophin receptors

Mykhailo Girych*, Giray Enkavi*, Tomasz Rog*, Ilpo Vattulainen*, et al.

*The Biological Physics Group, University of Helsinki, carried out the biomolecular simulations and related data analysis.

Simulation-assisted scattering analysis of moisture-induced swelling in wood microfibril bundles (SASAMIS)

Antti Paajanen, Jukka Ketoja  VTT

Paavo Penttilä, Aleksi Zitting  Aalto University

NanoGaC Chimeric Gold Nanoclusters as Novel Drug Carriers against Gastric Cancer

Prof. Hannu Häkkinen, Dr. María Francisca Matus, Dr. Sami Malola

University of Jyväskylä

Laiteinvestoinnit

2021 alkuvuoden aikana Puhtiin ja Mahtiin on tehty kaksi merkittävää laajennusta.

Puhtiin on hankittu viisi yleiskäyttöistä palvelinta, joissa on nopeat ethernet kytkentä internettiin, ja lisäksi suora pääsy Puhdin kytkentäverkkoon. Lisäksi näissä tehopalvelimissa on suuri määrä paikallista levyä. Näiden palvelimien on tarkoitus toimia alustana, joilla voidaan ajaa uusia palveluja liittyen www-käyttöliittymiin, tietokantoja, ja parantaa kyvykkyyttä monitoroida järjestelmän käyttöä.

Mahtiin on hankittu 24 uutta GPU-laskentasolmua, eli Mahti-AI (https://www.csc.fi/-/mahti-ai-opened-to-boost-ai-research). Näissä laskentasolmuissa on viimeisintä GPU-teknologiaa, ja kukin laskentasolmu on siten nopeampi ja kyvykkäämpi kuin vaastava Puhti-AI solmu. Tarkat tekniset spesifikaatiot yhdelle laskentasolmulle ovat:

  • kaksi AMD Epyc Rome 7H12 -prosessoria (CPU) 
  • neljä seuraavan sukupolven NVIDIA Ampere A100 -prosessoria (GPU)
  • 512 GB muistia CPU:lle ja 160 GB muistia GPU:lle (40 GB kutakin GPU:ta kohti)
  • 3,8 TB paikallista Nvme-tallennuskapasiteettia
  • Kytkentäverkossa kaksi 200 Gbit/s yhteyttä.

Näitä laskentasolmuja hankittiin vastaamaan koneoppimistutkijoiden kasvaviin tarpeisiin ja mahdollistamaan laskennallisia menetelmiä, missä tarvitaan sekä CPU- että GPU-kapasiteettia. Mahti-AI:n teoreettinen laskentateho on jopa hiukan isompi kuin edellisen supertietokoneen Sisun laskentakapasiteetti.


Tarkastelujakso 1.9-31.12.2021

  • Altaan tuotteistamista palveluna on edistetty
  • Palvelun tiekartan ja resursoinnin uudellenjärjestely CSC:llä 
  • Altaan kapasiteettimyöntöjen yleisten linjausten tarkentaminen
  • Valmisteltu arkaluontoisen tallennuspalvelun siirtoa betasta tuotantoon 

Altaan saatavuus

Tarkastelujakson aikana ei ole ilmennyt odottamattomia katkoksia ja Allas on ollut tutkijoiden käytettävissä 100%.

Altaan datamäärät ja käyttöaste

Altaassa oli vuoden 2021 alussa säilytetty 2,7 PiB dataa ja datan määrä on tarkastelujakson aikana kasvanut edelleen 4,9 PiB:stä 5,3 PiB:hen. Näin ollen datamäärä Altaassa on melkein tuplaantunut vuoden 2021 aikana.

Alla olevasta taulukosta näkee datamäärän ja Altaan käyttöaste, joka kuukauden ensimmäisenä päivänä.

Päivämäärä

Datamäärä

Käyttöaste

1.9.20214,9 PiB33,8 %
1.10.20215,0 PiB34,7 %
1.11.20215,1 PiB35,4 %
1.12.20215,2 PiB36,1 %
1.1.20225,3 PiB36,8 %


Altaan käyttäjät

Tarkastelujakson aikana 681 akateemista projektia käyttivät Allasta ja koko vuoden aikana 690 projektia ovat käyttäneet Allasta. Vertailun vuoksi voidaan todeta että Altaan käyttäjinä vuoden 2020 aikana oli yhteensä 551 akateemista projektia.

Sektoreittain vuoden 2021 Allasta käyttävät projektit jakautuivat seuraavasti:

Sektori

Projektien määrä

Sektori

Projektien määrä

Korkeakoulut ja muut koulutusorganisaatiot604
Tutkimusorganisaatiot85
Julkishallinnon organisaatiot1
Yhteensä690


Datamäärän jakautuminen projektien kesken

Alla olevasta kuvasta näkyy ne kymmenen organisaatiota, joiden akateemisilla projekteilla oli eniten dataa Altaassa tarkastelujakson lopussa.

Kun projekti tulee Altaan käyttäjäksi, sille myönnetään 10 TiB säilytystilaa vuodeksi. Lisää säilytystilaa resurssijakoryhmä jakaa lähtökohtaisesti 50 TiB:hen asti automaattisesti, vuodeksi kerrallaan. Alla olevasta kuvasta näkyy että tällä hetkellä 93% projekteille riittää 10 TiB hyvin, 6% säilyttää 10-50 TiB dataa Altaassa ja ainoastaan 1% enemmän kuin 50 TiB.

CSC:n tuki Altaan käyttäjille

CSC:n tuki Altaan loppukäyttäjille on järjestetty CSC:n yleisen asiakaspalvelun kautta (servicedesk@csc.fi) ja kysymykset/ongelmat dokumentoidaan CSC:n tikettijärjestelmään. Vuoden 2020 aikana oli dokumentoitu 221 asiakasyhteydenottoja Altaan liittyen. Tarkastelujakson aikana on vastattu 34 yhteydenottoon, ja vuoden 2021 aikana 131 yhteydenottoon.



Laskennallisen tutkimuksen asiantuntijapalvelut

2021

  • Tehtyä (vuosi 2021):
  • Käynnissä:
    • www-käyttöliittymän lisääminen Mahti-supertietokoneelle, avataan kevään aikana.
    • Paikallisten levyjen määrää nostetaan Puhdissa lisäinvestoinnilla.
    • Sensitiivisen datan tukea suurteholaskennan alustoilla kehitetään, fokuksena datan kryptaus, sekä laskennan ja datan riittävä eristäminen.
    • Singularity konttien käyttöönoton edistäminen. Tavoitteena helpottaa ohjelmistojen asentaminen, sekä parantaa niiden soveltuvuutta suurteholaskentaympäristöön.
    • Monipuolisia, mutta myös monimutkaisia, työvuoratkaisujen pilotointia käyttäen asiakkaiden oikeita käyttötapauksia.

2021 - 2026

Nykyiset supertietokoneet palvelevat Suomen tiedettä noin vuosiin 2025 - 2026 asti. Koneiden elinkaaren loppuminen riippuu sekä mahdollisista lisäinvestoinnista jotka nostaisivat niiden tehokkuutta sekä jatkovuosien kustannuksista verrattuna koneiden suhteelliseen laskentakapasiteettiin. Selvää on kuitenkin että vuosien 2025-2026 aikana on tarve uudelle kansalliselle supertietokonekapasiteetille.

Kuvassa esitetään palveluiden elinkaari. Vihreällä olevat alueet ovat tavallista tuotantoaikaa. Keltaisella merkityt alueet ovat joko rajoitettua käyttöä tai käyttö vaatisi lisäinvestointia tai tuen jatkamista. www.Puhti ja www.Mahti viittaa tässä suunniteltuun www-käyttöliittymän käyttöönottoon. Tavoitteena on ylläpitää ja kehittä laskentapalveluiden toiminnallisuutta ja ajanmukaisuutta niiden elinkaaren aikana. Osa tätä työtä on Puhdin ja Mahdin käyttöjärjestelmän päivitys vuoden 2022 aikana. 



Tarkastelujakso 1.9.-21.12.2021

Koulutustapahtumia:

  • "THL training for ePouta" (ENG, 15 minuuttia) (joulukuu)

  • "Dockers in modern computing at Oulu University" (ENG, 15 minuuttia) (Syyskuu)

Rahti-sovellusluettelo. Päivitetyt mallit, joissa on log4j CVE -tietoturvahaavoittuvuus. Malli mlflowa varten lisättiin. Ilmavirran malli on päivitetty.

Asiantuntijatuki servicedeskin kautta:

Pilvipalvelupyynnöt sisältävät sekä rahti- että cPouta -pilvipyyntöjä. Tapausten huippu elokuussa ja syyskuussa 2020 johtuu vanhentuneista tileistä ja hankkeista. Joka lukuvuosi luodaan paljon projekteja ja tilejä. Hankkeet päättyvät normaalisti 12 kuukauden kuluttua. Huippu tammikuussa 2021 johtuu Rahti-tiimin helmikuussa ratkaisemista "docker hub" rajoituksista. Ponnistelut dokumentaatioon ja projektien elinkaarihallinnan automatisoinnin lisääminen ovat vähentäneet tukipyyntöjen määrää vuonna 2021. 

CSC:n pilvipalveluiden käyttäjämäärät (lähde: IdM-järjestelmä, 1.2.2022, luvuissa erilliset käyttäjätunnukset joilla käyttöoikeus ko. palveluun)

  • ePouta 195 käyttäjää (edellisellä vertailukaudella 202 käyttäjää)
  • cPouta 1646 käyttäjää (edellisellä vertailukaudella 1590 käyttäjää)
  • Rahti 737 käyttäjää

Tarkastelujakso 1.9.-31.12.2021

Ohjelmistokäyttö Puhdilla

Miten kuvaajat on laadittu?

Eri ohjelmistot laskentapalvelimilla otetaan käyttöön ohjelmistomoduleilla. Alla olevat kuvaajat on laadittu seuraamalla ja kohdistamalla eräajotöissä käytetty aika kyseiselle ohjelmistolle, palvelimelle ja CPU/GPU.1 Koska yhdessä työssä voi olla ladattuna monta modulia, eräajoista modulikohtaisesti laskettu summa voi ylittää todellisuudessa yhteensä käytetyn ajan.2 Toisaalta, lista kattaa vain CSC:n esiasentamat ohjelmistot (ne joista on moduli). Kuvaajista on poistettu kääntäjien, kirjastojen ja vastaavien työkalujen modulit. Tutkijoiden itse asentamat ohjelmistot eivät näy tässä analyysissa, koska niistä ei ole omaa modulitiedostoa.

Palvelin2021 Modulikäyttö1 (M ly)2021 Käyttö yhteensä2 (M ly)Modulikäytön osuus (%)
Puhti CPU326672537
Mahti CPU367170122
Puhti GPU5729519
Mahti GPU65212

Modulien latauksista yhteensä laskettu Puhdin CPU-laskentayksikkökäyttö vuodelle 2021 on 266 M CPUh (3 sisältäen myös muistin ja nopean levyn laskentayksiköt), mikä on reilu kolmannes oikeasti käytetystä kapasiteetista (725 M ly). Tämäkin on todennäköisesti yliarvio ja tätä suurempi osa kuormasta on laskettu tutkijoiden itse asentamilla ohjelmistoilla. GPU-käytössä suhde on vielä suurempi: modulikäyttö yhteensä 57 M ly, ja yhteensä käytetty kapasiteetti 295 M ly. Mahdilla modulien latausten perusteella laskettu suhteellinen käyttö on pienempi, eli Mahdilla tutkijat ajavat vielä enemmän itse kääntämiään ohjelmistoja.


Tulkinta

Suurin osa laskenta-ajasta (CPU) kuluu kourallisella ohjelmistoja. GPU-aika rajoittuu vielä pienemmälle joukolle, jossa kärjessä AI/ML-käyttö (pytorch, tensorflow) ja GPU:ta hyödyntävä molekyylidynamiikka (Desmond, Gromacs). Käyttäjämääriltään suosituimpia ovat bioinformatiikan ja koneoppimisen/datan käsittelyn työkalut.

Laskentaresurssikäyttö tiedealoittain ja organisaatioittain


Piirakkakuvaajat sisältävät myös Ilmatieteen laitoksen oman osion, modulidatasta se on suodatettu pois. CSC:n osuudesta suurimman osan vie tarjotut palvelut:  cPouta, ePouta, Rahti, Notebooks, Chipster, ... ja superkoneilla pääsosin testaus/benchmark -käyttöä yhteensä 5.4 M ly.

Laskentayksikkökäyttö vuonna 2021, suurimmat organisaatiota ja tiedelaa 30 (miljoonaa laskentayksikköä)

Organisaatioyht Mly
Tiedealayht Mly
Helsingin yliopisto812
Physical sciences599
Aalto-yliopisto311
Biochemistry, cell and molecular biology217
Tampereen yliopisto226
Computer and information sciences185
Jyväskylän yliopisto159
Chemical sciences161
Ilmatieteen laitos145
Biomedicine146
Oulun yliopisto103
Astronomy and space science115
CSC - Tieteen tietotekniikan keskus Oy97
unknown103
Turun yliopisto66
Geosciences81
Itä-Suomen yliopisto56
Class: Others66
Teknologian tutkimuskeskus VTT Oy17
Pharmacy35
Åbo Akademi13
Genetics, developmental biology, physiology32
Luonnonvarakeskus9.5
Ecology, evolutionary biology31
Lapin yliopisto6.9
Materials engineering30
King's College London5.7
Medical biotechnology25
Lappeenrannan-Lahden teknillinen yliopisto LUT4.3
Languages25
Terveyden ja hyvinvoinnin laitos4.0
Plant biology, microbiology, virology24
unknown3.7
Other engineering and technologies23
Jyväskylän ammattikorkeakoulu3.7
Medical engineering22
Yrkeshögskolan Arcada3.4
Environmental sciences20
Maanmittauslaitos3.0
Cancers19
Työ- ja elinkeinoministeriö2.1
Other natural sciences18
Ruokavirasto2.1
Mechanical engineering18
Digi- ja väestötietovirasto2.1
Electronic, automation and communications engineering, electronics16
Kajaanin ammattikorkeakoulu1.9
Health care science7.0
Sweco Rakennetekniikka Oy1.8
Other humanities4.7
Haaga-Helia ammattikorkeakoulu1.3
Animal science, dairy science4.5
Centria-ammattikorkeakoulu1.0
Neurosciences3.9
Turun ammattikorkeakoulu0.9
Forestry3.4
Satakunnan ammattikorkeakoulu0.9
History and archaeology3.1
Universitetet i Oslo0.9
Environmental engineering3.0

Lähde: Reppu-dashboard

Tieteelliset ohjelmistot Puhti- ja Mahti-laskentapalvelimilla

  • Docs CSC oppaassa dokumentoituna ja asennettuna Puhtiin 123 ja Mahtiin 28
  • Ladattavia eri ohjelmistomoduleja Puhtissa 282 (+ 12 conda-asennusta) ja Mahtissa 123 (ja niiden eri versiot)

Kaikista asennetuista ohjelmistoista ei ole omaa sivua käyttöoppaassa, vaikka niitä onkin asennettu ja ohjelmistomoduli on saatavilla. Tällä pyrimme maksimoimaan hyödyn käytetystä työajasta harvemmin tarvittujen ohjelmistojen aiheuttamasta työmäärästä ja toisaalta korkeatasoisesta asiakaspalvelusta. Conda-asennuksia on korvattu singularity-container -versioilla levyn suorituskyvyn parantamiseksi.

Uniikit käyttäjätunnukset lisenssipalvelun kattamista kaupallisista ohjelmistoista

AbaqusAccelrysCOMSOLMATLABSchrödinger
Tammikuu142231975
Helmikuu152452483
Maaliskuu132382482
Huhtikuu1121120115
Toukokuu1420619103
Kesäkuu162061882
Heinäkuu14133555
Elokuu162652273
Syyskuu1424524158
Lokakuu917727154
Marraskuu1420928114
Joulukuu131532880
Tilanteet, joissa käyttäjä on joutunut odottamaan lisenssiä (se ei ole ollut saatavilla)

AbaqusAccelrysCOMSOLMATLABSchrödinger
Tammikuu06050
Helmikuu011170
Maaliskuu17110
Huhtikuu04000
Toukokuu011040
Kesäkuu05010
Heinäkuu12071
Elokuu05010
Syyskuu15012
Lokakuu10081
Marraskuu26011
Joulukuu43002

Taulukko kuvaa niitä päiviä, joina tutkija ei ole saanut kaupallisen ohjelmiston suorittamiseen lisenssiä. Lisenssien määrää on pyritty optimoimaan siten, että eri tutkimus on mahdollista tasapainoisesti eri tiedealoilla, mutta kohtuullisella lisenssikustannuksella. Suurempi lisenssi olisi kalliimpi, ja mahdollistaisi käytön milloin vain, mutta kokonaiskustannusten optimoimiseksi olemme ennemmin hankkineet pienemmän määrän lisenssejä useampiin ohjelmistoihin kuin paljon yhteen. Accelrys (Biovia) -lisenssi on ollut säästösyistä alimitoitettu ja sen tarkoitus on ollut mahdollistaa kesken jääneiden tutkimusprojektien saattaminen loppuun. Korvaava ohjelmisto (Schrödinger) mahdollistaa vastaavanlaiset toiminnot, ja siinä lisenssi on ollut merkittävästi laajempi, ja on riittänyt käyttäjille hyvin paljon suuremmasta käyttäjämäärästä huolimatta.


Tarkastelujakso 1.9.-31.12.2021

  • Users 217 (previously 126 in 1.5.-31.8.2021)
  • Number of jobs 11 977 (previously 11 448 in 1.5.-31.8.2021)
  • Availability 98.0% (previously 99.7% in 1.5.-31.8.2021)
  • Number of user support questions answered 121 (previously 132 in 1.5.-31.8.2021)
  • Chipster YouTube channel statistics:
    • 509 new subscribers (previously 421). Total now 4758.
    • 50 300 views (previously 42 900)

Development work

  • Done 1.9.-31.12.2021
    • Enabled running jobs in containers, which offers better security, more efficient compute resource usage and more versatile installation of analysis tools
    • Updated and improved analysis tools for single cell RNA-seq
    • Gave four courses (bought by universities): three single cell RNA-seq courses (Oulu, Turku, Helsinki) and one RNA-seq course (Helsinki)
    • Added tutorial videos and user documentation for single cell RNA-seq data analysis
    • User support
    • Updated the vulnerable log4j component version in CSC Chipster and in the open source package
    • Improved process for installing new analysis tools
    • Automated renewal of HTTPS certificate on chipster.csc.fi
    • Instructions for running Chipster when the network access is protected with a proxy server
    • Improved the user interface for adjusting tool parameters
  • Doing
    • Add, update and improve analysis tools for single cell RNA-seq
    • Add new tools for bulk RNA-seq data
    • Added tutorial videos and user documentation for single cell RNA-seq data analysis
    • Collaborate with the University of Helsinki to add tools for COVID data
    • Collaborate with prof Leo Lahti (University of Turku) to add tools for microbiome data
    • User support
    • Workflow functionality which allows the user to apply former analysis pipeline with tools and parameters for new datasets


Tarkastelujakso 1.1.-31.12.2021

  • Users 366 (previously 352 in 2020)
  • Number of jobs 38 791 (previously 34 291 in 2020)
  • Availability 99.1%
  • Number of user support questions answered 544 (previously 582 in 2020)
  • Chipster YouTube channel statistics:
    • 1400 new subscribers (total 4758)

    • 138 088 views




Tarkastelujakso 1.9.-31.12.2021

  • CSC on Elmer tiimin johdolla mukana akatemian huippuyksikössä HiECSs: High-Speed Electromechanical Energy Conversion Systems
    • Yksi seitsemästä valitusta yksiköstä. 
    • Mukana myös Aalto, LUT, Tuni ja VTT
    • Tunnustus laskentaohjelmiston keskeisestä roolista tutkimuksessa ja pitkäjännitteisestä yhteistyöstä (mm. SEMTEC Tekes-projekti).
    • Omalla julkaisuluettelolla ei huippuyksikköön olisi ollut asiaa. 
  • Osallistuminen partnerina FMI:n kanssa Akatemian EuroHPC-hakuun. Erinomaisista arvioista huolimatta hankkeelle ei myönnetty rahoitusta.
  • Kvanttitietokonetta kehittävä IQM teki hakemuksen PRACE SHAPE -ohjelmaan.
    • Tarkoituksena olisi ollut kehittää ja soveltaa Elmeriä sähkömagneettisten aaltojen etenenemisen mallinnukseen. 
    • Hakemus ei ilmeisesti mennyt läpi, mutta lopullista päätös ei ole vielä tullut. 
  • Elmer webinaarisarja jatkui joulukuussa kolmella jaksolla. Youtubessa olevat webinaarivideot keskeinen väline yhteisön rakentamisessa.
  • Peruskehitystä ja yleistä tukea.


Vuosi 2021 kokonaisuutena

  • CSC on Elmer tiimin johdolla mukana akatemian huippuyksikössä HiECSs: High-Speed Electromechanical Energy Conversion Systems.
  • 11 jakson webinaarisarja herätti paljon mielenkiintoa, ks. kuva alla.
  • ElmerIce mukana kahdessa Nature-artikkelissa.
  • Sähköpiirien simuloimisen kehitystä.
  • GPU-porttauksen tutkimista.
  • Peruskehitystä ja yleistä tukea.



Tarkastelujakso 1.9.-31.12.2021 (koko 2020)

  • Sisältää myös PRACE, EuroHPC CC, ja LUMI Roadshowt
  • Koulutustapahtumia 30 (66)
  • Kurssipäiviä 73 (222)
  • Osallistujia 1022 (3667) + MOOCit *68 (750)
    • 10 (49) webinaaria/online
    • 0 (11) luokkahuonekurssia
    • 2 (6) MOOC
  • Kokonaisarvosana 8.71 (8.79)
  • Uutta:
  • Tulossa:
    • Ympäristökurssia kehitetään kohti itseopiskelumateriaalia
    • Yhteistyön tiivistäminen yliopistojen IT tuen ja koulutuksen kanssa
    • Elements of Supercomputing käännetään suomeksi

Käyttöoppaat (docs.csc.fi)

  • Istuntoja: 11805 (-43% verrattuna edellisiin 120 päivään. Lasku johtuu pääosin seurannan muutoksesta edellisen jakson aikana, jossa evästeiden sallimatta jättäminen laski pävittäisesti tilastoituvia istuntoja systemaattisesti 75%. Itse kävijämäärän tulkitaan pysyneen ennallaan.) Sivujen lukuja 38588, keskimääräinen aika 2:01.
  • 36 sisällöntuottajaa ja 217 päivitystä (github)
  • docs.csc.fi saavutettavuus 100%
  • Sivuston kävijäanalyysin yhteenveto

Laskennallisen tutkimuksen asiantuntijatuki servicedeskin kautta(star)

Laskennallisen tutkimuksen RT-tuen asiakastyytyväisyys(star)




ratkaisuaika [d]

jono(t)

tukipyyntöjä

mediaani

top75%

2020 SR-COMP (star)

7747

1.7

7.7

2021 SR-COMP (star)90451.26.9

2021/M1-4 SR-COMP (star)

3202

1.9

10.3

2021/M5-8 SR-COMP (star)26681.05.9
2021/M9-12 SR-COMP (star) 31451.05.7

(star) SR-COMP == customer-accounts, hpcplatforms, notebooks-support, research-support, resource, servicedesk. (nämä asiakastuen "jonot" kattavat suurimman osan laskentaympäristön käytön tukipyynnöistä lähtien tunnusten hankkimisesta ja resurssien hakemisesta käytön ongelmien ratkaisemiseen)

Tikettien määrän kasvu selittyy suurelta osin erityisesti customer-accounts -jonon liikenteen lisääntymisellä, mikä korreloi kasvaneen asiakasmäärän kanssa.

Tikettien ratkaisuaikojen jakaumassa on pitkä häntä. Osa tiketeistä jää odottamaan asiakkaan vastausta ja se suljetaan, kun sitä ei saada. Joskus jo ratkaistu ja suljettu vanha tiketti avataan uudelleen uuden ongelman ilmetessä (tämä myös hieman nostaa edellisten raporttien ratkaisuaikoja niiden julkaisun jälkeen). Toki joidenkin tikettien ratkaisu myös aidosti kestää pitempään. Toisaalta jonoissa on myös lähinnä "tiedoksi" olevia asioita. Määrä ja ratkaisuaika eivät kovin hyvin kuvaa tehtyä työtä tai saatua palvelua, mutta ratkaisuaikojen mediaani antaa suuntaa ja vähintään trendin. Näytteistämällä tehty tyytyväisyyskysely (pulse) kertoo hyvin korkeasta laadusta.

Nostoja tutkimuksista, joissa CSC:n asiantuntijatuella merkittävä rooli

1) Antarktiksen Thwaites "tuomiopäivän jäätikön" romahdussimulaatiot on tehty HiDEM 2.0 -ohjelmistolla, jota ovat kehittäneet CSC:n asiantuntijat Jan Åström ja Fredrik Robertsen. HiDEM2.0 edellyttää usein myös Elmer/Ice käyttö (Thomas Zwinger) (https://doi.org/10.5194/tc-2021-288). Vuoden vaihteen Science -artikkeli (https://www.science.org/content/article/ice-shelf-holding-back-keystone-antarctic-glacier-within-years-failure ) toi alan tarkimmalle ohjelmistolle huomattavaa näkyvyyttä sekä kotimaisessa ja kansainvälisessä lehdistössä (Washington post, CNBC, Daily Mail, USAtoday, Fortune, CNN, Natureworldnews, Iltalehti, Helsingin Sanomat). Yhdessä Aalto-yliopiston tutkijoiden kanssa ohjelmistoa kehitetään edelleen merijäämallina joka voi tulevaisuudessa mahdollistaa esimerkikiski koillisväylän jäätilanteen ennustamiseksi, mikä mahdollistaisi Aasiaan suuntautuvan laivarahdin turvallisuuden takaamisen.

2) Ruth Tichauer, Ilia Sokolovsii, Dmitry Morozov, Gerrit Groenhof Jyväskylän yliopistosta ovat kehittäneet uuden laskentamenetelmän, jolla voidaan tutkia vahvasti kytkeytyneitä kvanttisysteemejä mikro-onkaloissa (https://aip.scitation.org/doi/10.1063/5.0037868). Laskentamenetelmän sovittaminen CSC:n ympäristöön vaati huomattavan määrän tukea useilta asiantuntijoilta sisältäen teknisiä haasteita sekä sopivien ja riittävien resurssien varmistamisen. Yhteenveto tutkimuksesta (pdf).

3) Mikail Kuklin ja Miguel Caro Aalto yliopistosta ovat kehittäneet työvuota, jossa tiheysfunktionaaliteoriaa käyttäen lasketaan ominaisuuksia pienille hiilivetymolekyyleille, joiden avulla parametrisoidaan koneopittu tehokkaampi laskentamalli, joka kykenee myös kuvaamaan reaktioita.  CSC on tukenut projektia optimoimalla käytettyjä ohjelmistoja (TurboGAP) ja työvuota. Yhteenveto tutkimuksesta (pdf).

4) Vitus Besel, Milica Todorovic, Theo Kurtén, Patrick Rinke ja Hanna Vehkamäki ovat kehittäneet koneoppimistyövuota ilmakehän aerosolitutkimukseen. Tutkimuksen haasteena on ollut kohteena olevien molekyylien sekä tarvittavien esi- ja jälkikäsittelyvaiheiden lukumäärä, joka johtaa hyvin suureen määrään erillisiä pieniä töitä, joiden ajaminen CSC:n eräajojärjestelmän kautta on tehotonta. CSC:n tuella projektissa käytettiin koneoppimistehtäviin kehitettyä työvuo-ohjelmistoa, jonka avulla pienet osatehtävät kyettiin suorittamaan tehokkaasti. Yhteenveto tutkimuksesta (pdf)




Tarkastelujakso 1.9.-31.12.2021

Pääportaali (www.kielipankki.fi)

  • Käyttäjiä: 6,123 (-2 % verratuna 1.9.-31.12.2020)
  • Käyttäjiä Suomesta 4185 (68 % kokonaismäärästä)
  • Saatavuus 100 %

Hakupalvelu Korp (korp.csc.fi)

  • Käyttäjiä: 2405 (-7 % verratuna 1.9.-31.12.2020)
  • Käyttäjiä Suomesta: 1578 (65 % kokonaismäärästä)
  • Saatavuus: 100 %

Lähteet: Google Analytics, CSC:n OpsView


Tarkastelujakso 1.9.-31.12.2021

  • Valmistelu ja osallistuminen neljään Akatemian EuroHPC-hakemukseen partnerina tutkimusryhmien kanssa ja kahteen alihankkijana. Kahdella partnerihankkeelle myönnettiin rahoitusta erittäin kovatasoisessa haussa.
  • GPU-frameworkeihin (Kokkos ja SYCL) tutustumista.
  • LUMIn ensimmäisen kansallisen haun tekninen evaluointi.
  • Ensimmäisen suomalaisen joukkueen kokoaminen Supercomputing-konferenssin yhteydessä järjestettävään kandivaiheen opiskelijoiden klusterikilpailuun yhdessä FCCI-konsortion kanssa. Joukkuetta valmennetaan ennen marraskuussa 2022 tapahtuvaa kilpailua ja osallistumisoikeudesta saadaan tieto toukokuussa.
  • Porttaus- ja optimointitukea molekyylidynamiikkaa ja koneoppimista yhdistävässä hankkeessa.
  • Kahden plasmasimulaatiokoodin porttausta ja optimointia GPUille.
  • DFT/elektronirakennekoodin CUDA/HIP-porttausta LUMIa ja muita GPU-koneita varten.
  • Mahdin large partition -pyyntöjen käsittely.
  • Yleinen käyttäjätuki.
  • Dokumentaation ja suorituskykytyökalujen ylläpitäminen ja kehittäminen.
  • LUMIn ohjelmointimalleihin ja ohjelmointiympäristöön tutustumista Puhdin ja testialustojen avulla.
  • LUMIn 1. vaiheen osana saapuvan porttausalustan hyödyntäminen ei onnistunut suunnitellusti käyttöympäristöön liittyvien toimittajan myöhästymisten vuoksi.

Tulossa

  • LUMIn GPU-ohjelmointiympäristöön tutustuminen kun se tulee saataville.
  • Edellä mainitun porttaus- ja optimointityön jatkaminen.
  • Dokumentaation ja suorituskykytyökalujen ylläpitäminen ja kehittäminen.
  • LUMIn käyttäjädokumentaatioon kontribuoiminen tarvittaessa.

Vuosi 2021 kokonaisuutena

  • Partnerina kahdessa hyväksytyssä yliopistovetoisessa LUMIn hyödyntämiseen tähtäävässä Akatemia-hankkeessa.
  • LUMIn ohjelmointimalleihin ja ohjelmointiympäristöön tutustumista Puhdin ja testialustojen avulla.
  • Ristikorrelaation tehokas rinnakkaistettu toteutus Pythonilla suurille data- ja tiedostomäärille bioinformatiikkahankkeessa, viimeistely.
  • Porttaus- ja optimointitukea molekyylidynamiikkaa ja koneoppimista yhdistävässä hankkeessa.
  • Kahden plasmasimulaatiokoodin porttausta ja optimointia GPUille.
  • DFT/elektronirakennekoodin CUDA/HIP-porttausta LUMIa ja muita GPU-koneita varten.
  • Yleinen käyttäjätuki ja Mahdin large partition -pyyntöjen käsittely.

Huom: Työtä rahoitetaan osittain myös PRACE 6IP:n, Nomad2:n ja EuroHPC Competence Centerin kautta.



Tarkastelujakso 1.9.-31.12.2021

  • Tuotettu kattava koneoppimisen opas käyttäjille (https://docs.csc.fi/support/tutorials/ml-guide/)
  • Raskaiden koneoppimistöiden osalta selvitetty ja dokumentoitu hyperparametrien optimoinnin ratkaisuja sekä ratkaisuja usean noodin töihin (PyTorch distributed, DeepSpeed)
  • Kehitetty usean ympäristön koneoppimistöiden tukea Mlflow-työkalun avulla: valmis mallipohja Rahti-pilviympäristöön ja opasvideo
  • Tuotettu sensitiivisen datan ympäristöön R-pohjaisen data-analytiikan työkalut
  • Jatkettu aktiivista kurssitoimintaa ja asiakastukea; luotu uusi kurssi, joka on johdanto CSC:n laskentaympäristöihin erityisesti R-käyttäjille
  • Ylläpidetty koneoppimisen ja data-analytiikan (R) ympäristöä ja parannettu niiden hallittavuutta siirtymällä konttipohjaisiin asennuksiin (Singularity)

Tarkastelujakso 1.9.-31.12.2021

Uusien ominaisuuksien kehitys:

  • Uusi julkaisu R5 avoimeen betaan. Ensimmäiset ulkoiset käyttäjät.
  • R5:n (beta) dokumentaation ensimmäinen versio julkaistu osoitteessa  https://docs.csc.fi/cloud/csc_notebooks/
  • R5:n (beta) stressitestaus tehty

Tulossa: 

  • Skaalautuvuuden ja tehokkuuden parantaminen entisestään
  • Vanhan version Release-4:n hallittu alasajo
  • Itsepalvelumallin vahvistaminen

Aktiiviset käyttäjät kvartaalettain ja käyttäjäryhmittäin


2019-Q12019-Q22019-Q32019-Q42020-Q12020-Q22020-Q32020-Q42021-Q12021-Q22021-Q32021-Q4
Yliopistot288312367446456306545609491410331
596
Ammattikorkeakoulut1817353557207272121636192
Tutkimuslaitokset62212111310629503259

Kuukausittaiset Notebooks-laskentaympäristön käynnistykset



Tarkastelujakso 1.9.-31.12.2021

Paituli:

Tilastot 1.9.-31.12.2021

  • Käyttäjiä: 1 175 (-9 % verratuna 1.9.-31.12.2020)
  • Tiedostolatauksia:  3823 (-4 %)
  • API-latauksia: 461 400 (-58 %)
  • Saatavuus 97,7 %

Vuositilastot 2021:

  • Käyttäjiä: 2 615 (-7 % verratuna 2020)
  • Tiedostolatauksia: 9 884 (-6 %)
  • API-latauksia: 1 303 740 (-47 %)
  • Saatavuus 99,2 %

API-latauksien lasku johtuu hyvin suositun ilmakuva-aineiston poistumisesta jakelusta, joka olisi vaatinut erikoislisenssin geoserverillä. Palvelussa oli suunnittelematon katko 15.10 (Pe) iltapäivästä 18.10 (Ma) klo 10:30 asti. Katko johtui virheestä Javan päivitysskriptissä. 

Uutta:

  • Paitulin palvelimien ja käyttöjärjestelmän vaihto: Centos8 → RHEL8 ja asennusskriptien kehitys.
  • Paituliin uusien Maanmittauslaitoksen ja Luonnonvarakeskusken aineistojen lisäys
  • Puhti: GIS-softien (sen2cor, OpenDroneMap, PDAL, QGIS, PCL) päivitys ja käyttäjädokumentaation parantaminen
  • Puhti: LUKE VMI 2019 aineiston lisäys
  • ArcGIS lisenssipalvelimelle 2022 lisenssien päivitys

Tulossa:

  • Paituliin uusien Maanmittauslaitoksen, Tilastokeskuksen ja Helsingin yliopiston aineistojen lisäys
  • Puhti: GIS-softien päivitys RHEL8:lle
  • ArcGIS-konsortion uuden kauden sopimusneuvottelut.





Tarkastelujakso 1.9.-31.12.2021

  • Asiakastunnusten tuen (CAM) tiketit: 1925 tikettiä kaiken kaikkiaan (1.9.-31.12.2021)
    • Tikettimäärä kasvussa (koko vuoden tikettimäärät 2019: 3402, 2020: 3723 ja 2021: 5232)
    • Tikettimäärän kasvu erityisen suurta mm. Haka-federaation ulkopuolisten kv-tutkijoiden uusien tunnusten luonnissa
    • CAM-prosessi on automatisoimassa toimintojaan mm. poistuvien laskentaprojektien datan poistoprosessin muodossa
  • Tieteellisten resurssien jaon (RJR) hakemukset:

    • Hakemuksia vuonna 2021 yhteensä 2033 kappaletta, haettuja laskutusyksiköitä 1 742 259 522 ja myönnettyjä laskutusyksiköitä 1 574 959 522
    • Hakemusmäärä selkeässä kasvussa (vuonna 2019 hakemuksia 934, vuonna 2020 hakemuksia 1474 ja vuosi 2021 hakemuksia 2033 kappaletta)

    • Myös Lumi-supertietokoneen ensimmäiset resurssihakemukset arvioitu ja käsitelty resurssienjakoprosessissa
    • RJR-prosessia vahvistettu datanhalllinnan palveluiden asiantuntijoilla sekä ko. palveluiden yhteentoimivuutta kehittämällä

Tarkastelujakso 1.9.-31.12.2021

  • Saatavuus: 99,97% (ennalta sovitut aiempaan versiopäivitykseen liittyvät lisäpäivitykset poisluettuna, lähde: CSC TechOp, Grafana)
  • Tunnukset ja projektit:
    • Aktiiviset käyttäjätunnukset (sis. akateemiset ja kaupalliset tutkijatunnukset, tekniset tunnukset, koulutustunnukset, admin-tunnukset ja CSC:n henkilökunnan tunnukset): 6703 (lähde: IdM, 1.2.2022)
      • Uudet käyttäjätunnukset: 2714 (lähde: IdM, 1.1.-31.12.2021, vertailuksi 1219 uutta tunnusta vuonna 2020 ja 1054 uutta tunnusta vuonna 2019)
      • Sulkeutuneet ja poistetut tunnukset: 251 (lähde: IdM, 1.1.-31.12.2021)
    • Aktiiviset akateemiset laskentaprojektit: 3160 (lähde: IdM, 1.2.2022, laskentaprojektin lukumäärä on kasvussa kuten akateemisten käyttäjätunnusten määrä)
      • Uusia akateemisia laskentaprojekteja: 1410 (lähde: IdM, 1.1.-31.12.2021)
      • Suljettuja akateemisia laskentaprojekteja:  870 (lähde: IdM, 1.1.-31.12.2021)
    • Uuden Lumi-supertietokoneen käyttäjä- ja projektimäärät
      • Kansainvälisiä Lumi-projekteja (ns. Puhuri-projektin kautta tulleet kv-projektit) 82 ja kansainvälisiä Lumi-käyttäjiä 218
      • Suomalaisia Lumi-projekteja 48 ja käyttäjiä 103
    • Sekä käyttäjätunnusten että laskentaprojektien määrä kasvussa
      • Yksi kasvava segmentti on kansainväliset tutkijakäyttäjät (Haka-federaation ulkopuolinen käyttö)
      • CSC:llä käynnistynyt selvitys ja tuotteistus koulutus-, kurssi- ja opiskelijaprojektien laajemmasta käytöstä
  • Toteutetut kehitystehtävät ja roadmap: 
    • Done (September-December 2021):
      • Project extension/closing functionality into production, plus data retention policy implementation
      • Multi factor authentication (MFA) pilot and first version
      • LUMI projects and resource applications workflows for MyCSC
      • Haka Level of Assurance changes to CSC identity management
    • Roadmap (early 2022):
      • User account lifecycle renewal (tying lifecycle to Haka login and attribute check)
      • Customer master data work together with CSC Sales and Finance
      • Additional Lumi features, for example end-user emails and project lifecycle implementation
      • Pouta and Allas service quotas

Tarkastelujakso 1.9.-31.12.2021

  • Saatavuus: 99,94 % (lähde: CSC TechOp, Grafana)
    • MyCSC rakentuu CSC:n Rahti-alustaan ja em. saatavuus on saatu Rahti-alustan kautta
  • Käyttäjämäärät (ao. kuvaajassa vuosi 2021, lähde Google Analytics, joka nykymuodossa otettiin käyttöön maaliskuussa 2021)

  • Tehdyt kehitystehtävät ja roadmap
    • Tehtyä (syyskuu - joulukuu 2021):
      • LUMI resource application forms for Finnish researchers
      • Better SSH key validation in backend and improved end-user instructions
      • Password change directly to LDAP and improved error messages
      • Multi factor authentication (first version)
    • Roadmap (alkuvuosi 2022):
      • Integrate Research Hub and Virta publications and profiles
      • Design the data management plan (DMP) integration to MyCSC and CSC processes
      • Improvements to the end-user views about his service usage and project data at CSC Services
      • Improvements to the new user Registration process and functionality (also non-federated users)
      • CSC user account lifecycle renewal (to be based on Haka login and attribute checks)
      • Progressive web application (for mobile use of certain MyCSC functionalities)
      • Pouta and Allas service quotas





  • No labels