Erland Källén, Stockholms Universitet 2007-06-08 Implementationsplan för FCD superdatorresurs Att behandlas vid SNIC styrelsemöte 12 juni 2007 Inledning Den nya resursen skall drivas i ett samarbete mellan PDC och NSC där användargrupperna finns på tre platser: Stockholms Universitet/MISU, SMHI/Rossby Centre och KTH/Mekanik. Resursen består av två huvuddelar, en kraftfull beräkningsresurs och en omfattande datalagringsenhet. Beräkningsresursen skall placeras vid PDC tillsammans med en mindre del av datalagringskapaciteten. Huvuddelen av datalagringen skall placeras vid NSC och planeras samordnas med det aviserade norska klimatdatalagringsprojektet (NOTUR). För att sköta beräkningsresursen behövs en heltids systemerare, den föreslås delas mellan PDC och NSC. För klimatdatalagringsprojektet behövs också personresurser, det är idag oklart hur mycket men preliminärt har vi avsatt personresurser från SNIC medel som förläggs till NSC. Slutligen avser vi använda en del av de SNIC medel som disponeras för resursen till tillämpningsinriktad support vid resp. forskningsmiljöer. Eftersom användargrupperna är lokaliserade på olika avstånd från beräkningsresursen behövs snabba nätverksförbindelser. Även latency aspekter, som beror på antalet noder mellan användaren och beräkningsresursen, påverkar kommunikationsmöjligheterna. SUNETs nuvarande kapacitet borde vara tillräcklig för överföring av data mellan beräknings- och lagringsresurser men det måste säkerställas att placeringen av den centrala beräkningsresursen vid PDC/KTH inte innebär en märkbar nackdel för forskargrupperna vid SMHI och MISU på grund av latency problematiken när det gäller resultatanalys och visualiseringar. En undersökning av detta ingår i upphandlingsprocessen, eventuellt måste extra investeringar göras men det är idag oklart vad detta innebär. Resursen Beroende på processortyp och minneskonfiguration så kommer resursen att omfatta 425-475 noder, av vilka några dedikeras som analysnoder med en lämplig minneskonfiguration, (kostnad ca 16 Mkr) och ett disklagringssystem på 200-250 TB effektiv lagringsyta (ca 3 Mkr). Beräkningsresursen placeras vid PDC medan lagringsdelen delas mellan PDC och NSC. Hela KAW stödet på 19,4 Mkr används för inköp av hårdvara (detta under förutsättning att högskolemomsen tas bort fr.o.m. 2008), ev. infrastrukturkostnad står KTH/PDC för. För den nya datorn behövs en lagringshierarki som erbjuder hela skalan från nodlokala diskar, högpresterande disksystem för klusterlokalt filsystem till masslagring med diskcache. Fysisk placering av de olika komponenterna i förhållande till klimat-turbulensdatorn bestäms av realiserbar bandbredd och användarmönster. Det kan bli nödvändigt att placera några analysnoder i anslutning till lagringsenheten vid NSC. Masslagring bestående av bandarkiv och diskcache behöver inte vara fysiskt nära datorn utan kan väl vara placerat på NSC. I och med att NSCs masslagring är gridbaserat (GridFTP och övrig Globus-funktionalitet) så kan användare på nya klimat-turbulensdatorn flytta data mellan systemet på PDC och masslagringen på NSC på samma sätt som man gör idag mellan Tornado och NSCs masslagring. Om det finns ett behov av att även 1
Erland Källén, Stockholms Universitet 2007-06-08 integrera befintliga disksystem vid Tornado eller att användarmönstret för den klimatrelaterade användningen av resursen är sådant att hela eller delar av det klusternära disksystemet vid PDC också behöver finnas för access på NSC är detta också möjligt. Valet av klusternära system påverkar lösningen för detta och det finns flera vägar att gå. Vissa klusternära filsystem kan tekniskt spänna över ett WAN och användas mellan PDC och NSC. Troligare lösningar är att tillhandhålla gränssnitt för användare att själva administrera vilka filer eller dataset som ska replikeras till NSC. Även detta skulle kunna implementeras med gridteknik om Tornados användare redan är bekväma med detta. Både i Globus och glite finns gott om verktyg för replikering och administration av data. I implementering av lagringslösningen bör man kunna använda sig av den infrastruktur som planeras för NDGF Tier-1 bl. a. så planeras en dedikerad 10 Gb förbindelse mellan NSC och PDC. För användares hemkataloger erbjuder PDC normalt AFS. AFS är ett globalt filsystem. Att filsystemet är globalt innebär förutom att vara nåbart från alla datorer på PDC så kan användare installera klienter på egna datorer som laptop eller PC. Filer på PDC kan då med säkerhetspolicy uppfylld nås och redigeras lokalt hos användaren. Kösystem kan utformas i enlighet med användarnas önskemål. PDC driver i dag flera system för olika grupper med olika användarspecifika policies i kösystemen. Driftsbudget KTH/PDC ger ett omfattande stöd i samband med placering av resursen vid PDC. Ekonomiskt omfattar stödet hyreskostnader, kostnader för el och kyla av systemet samt även den infrastruktur som behövs för placering av resursen i PDCs datorhall. Ansvaret för systemadministration delas mellan NSC och PDC. Den halva systemadministratören vid PDC bekostas av KTH medan den halva systemadministratören vid NSC bekostas av SNIC medel. I den ursprungliga budgeten var denna post satt till en halvtid. Vi föreslår här en utökad omfattning motsvarande en heltid för denna funktion vilket motiveras av den storlek på systemet som vi nu ser att vi förmodligen kommer att kunna köpa. NSC har idag stor delaktighet i stöd och utveckling av applikationsprogramvara för klimatsimulering, något som är mycket viktigt att fortsätta med. NSC och SMHI får bidrag med SNIC medel till finansiering av en applikationsexpert för detta ändamål. NSC får också bidrag från SNIC medel för att finansiera de personresurser som behövs för lagringsprojektet. Här är uppskattningen gjord att lagringsprojektet drivs under två år och att det åtgår en knapp halvtids personresurs för ändamålet. Detta är endast en första uppskattning, vi måste klargöra med våra norska kollegor vilken omfattning lagringsprojektet kommer att få. MISU bidrar tillsammans med SNIC medel till en applikationsexpert inom klimatområdet. KTH-Mekanik får finansiering från SNIC för en del av en applikationsexpert inom CFD området. De kostnader som redovisas i tabellen nedan avser disponering av SNIC medel och KTHs finansiering av infrastruktur och del av systemperson. Forskningsmiljöernas tilläggsfinansiering av applikationsexpertisen är inte medtagen. 2
Erland Källén, Stockholms Universitet 2007-06-08 Utgiftspost Finansiär Mottagare Kostnad/år (kkr) Lokalhyra KTH PDC 318 El drift KTH PDC 1573 Kyla KTH PDC 621 Sys adm 1 heltid KTH/SNIC 50/50 NSC/PDC 750 Lagringsproj SNIC NSC (2008-2009) 300 Appl. exp. CFD KTH/SNIC KTH Mekanik 200 Appl. exp., klimat SMHI/SNIC NSC, SMHI 200 Appl. exp., klimat MISU/SNIC MISU 200 Totalt för tidsperioden 2008-2011 (kkr) KTH 11548 SNIC 4500 Tidplan och uppdrag för upphandlingsgrupp En upphandlingsgrupp med representanter från alla forskargrupperna samt från både PDC och NSC kommer att utnyttjas vid inköp och installation av den nya resursen. Gruppen skall både utföra upphandling av beräkningsresursen och lagringsenheten samt undersöka kommunikationslösningar. En preliminär tidplan för detta arbete ser ut som följer: 1. Benchmark och formulering av avropsförfrågan: genom att vi kan dra fördel av arbete som nyligen utförts både vid NSC och PDC kan vi ha en förfrågan färdig att skicka ut den 1 oktober, 2007. 2. Utredning av kommunikationslösningar. Färdigt senast 1 oktober 2007. 3. Tid för svar på förfrågan: 4 veckor 4. Utvärdering, inköp, leveransavtal, minst 8 veckor 5. Leverans av utrustning på plats: 8 veckor 6. Installation på plats: 2 veckor 7. Systemprov och acceptanstest: 4 veckor Totalt sett så kan resursen alltså börja användas ca ett halvår efter utskick av avropsförfrågan, dvs. den 1:a april 2008. För att trimma systemet gentemot användare så kommer vi också att ha en period av pilotanvändning på ca 4 veckor innan alla användare kan ges tillgång till systemet. 3
SNIC styrelse, informationsbilaga 070914 Information internationellt samarbete Sammanfattning till SNICs styrelsemöte 2007-09-14 o EGEE-III Bildandet av en SNIC-JRU samt budgetäskande och bud om tillhandahållande av resurser till EGEE-III är en separat beslutspunkt vid mötet. SNIC planerar att delta i EGEE-III som en JRU (Joint Research Unit). Denna JRU är den enda finansierade partnern från Sverige. SNIC har deltagit som en defacto-jru även i EGEE-II, men nu behöver detta formaliseras genom ett MoU som beskriver denna JRU upprättas. Basdata om deltagande parter insamlas just nu. Budgivning och förhandlingar inför EGEE-III-ansökan har pågått under sommaren, inom den Nordiska federation och gentemot projektledningen. Processen har haft vissa problem, t ex hoppade Danmark av projektet samma dag som den slutliga anbudet/budgeten skulle skickas projektledningen. Resultatet för federationen bedömmer jag dock som OK. För svensk del kommer EGEE-III att få en något reducerad budget jämfört med EGEE II. Sverige/SNIC fokuserar på att driva ROC samt visst användarstöd. Finland/CSC fokuserar på säkerhet och Norge/Notur fokuserar på användarstöd. SNICs anbud om tillhandahållande av resurser inom EGEE-III har tagits fram av föreståndaren, SweGrid-koordinatorn (Mats Nylén) och ROC-föreståndaren (Per Öster). En avvägning mellan vilka resurser som kommer att finnas tillgängliga inom det uppgraderade SweGrid och vilka grid-resurser som kommer att krävas utanför EGEE-III har gjorts. o NDGF Undertecknandet av MoU för SNICs tillhandahållande av infrastruktur inom NDGF (för närvarande endast för LHCs behov) är en separat beslutspunkt vi mötet. I samband med arbetet inför EGEE-III och med NDGF MoU hare en diskussion mellan föreståndarna för centra i Sverige, Finland och Norge om NDGFs och EGEEs roller uppkommit. Den allmänna meningen är att det finns möjliga förbättringar inom båda projekten, och att en bättre samordning av drift av olika gridmiljöer behövs. Detta för att bibehålla trovärdighet både gentemot Europeiska projekt och gentemot Nordiska finansiärer. o PACE, DEISA-II PACE är ett planerat FP7-projekt inom ESFRI-ramen. SNIC deltar som undertecknare av MoU. Kontraktsförhandling pågår, Lennart Johnsson är SNICs representant i projektet. Stödbrev från VR är inskickat. Slutförhandling sker 28 september. KFI har avsatt 6.6 Mkr under 2007 för ett pilotsystem inom projektet. Placeringen av detta kommer att tas upp vid styrelsemötet i oktober. DEISA är ett Europeiskt FP6-projekt inom HPC med 11 stora HPC-centra som deltagare (däribland CSC i Finland). Sverige är inte med. Lennart Jonsson har meddelat att han undersöker möjligheten för Sverige att delta i fortsättningen av DEISA-projektet, DEISA-II. Det är troligt att DEISA och PACE kommer att slås samman i framtiden. o o EGI En kärngrupp bestående av ett mindre antal länder genomför den föreberedande fasen. EGI genomför en workshop i Budapest den 2/10. Projektet har begärt att få in use-cases till 21 september, en förfrågan om bidrag har gått ut till ett antal användargrupper inom SNIC. SIRENE, ev. Workshop Dublin 29-30 oktober SIRENE har just nu en låg profil och det är ännu osäkert om workshopen i Dublin blir av.