Nytt från NATIONELLT SUPERDATORCENTRUM VID LINKÖPINGS UNIVERSITET NR 11 SEPTEMBER 2002 NSC bygger Sveriges kraftfullaste datorsystem NSC bygger som bäst på ett kluster som blir Sveriges kraftfullaste datorsystem med en teoretisk prestanda på 1.8 Teraflops. Det nya klustret kommer att användas dels av akademiska forskare i hela landet, dels av SMHI och klimatforskare vid Rossby Centre i Norrköping. Klustret kommer att invigas den 24 oktober i samband med den årligen återkommande workshopen Linux Clusters for Super Computing (LCSC) som hålls den 24-25 oktober i Linköping. Se www.nsc.liu.se/lcsc för mera information och anmälan. Workshopen tjuvstartar med tutorials redan på eftermiddagen den 23 oktober. Välkomna! Läs mera om klusterbygget på sid 5.
Bråda dagar på NSC Detta är min första ledare som NSCs nye föreståndare och jag vill här passa på att tacka min företrädare professor Anders Ynnerman som under de senaste åren gjort ett fantastiskt jobb för att skapa det moderna NSC som vi ser idag tack, Anders!! Anders har nu gått vidare till att bli föreståndare för det nationella metacentret SNIC (Swedish National Infrastructure for Computing) som kommer att hantera hela Sveriges HPD-verksamhet. Vi önskar Anders lycka till i den nya rollen och ser fram emot ett gott och nära samarbete i framtiden. Att NSC är inne i ett expansivt skede kan inte ha undgått någon av våra läsare. Sällan har det skruvats och byggts så mycket som just nu vid NSC. Klusterbyggande har antagit allt större Matts Karlsson Föreståndare NSC dimensioner vid NSC och för närvarande pågår fyra olika klusterbyggen, varav det största och mest omtalade redan har omnämnts i t ex Ny Teknik. NSC har byggt kluster sedan 1999 och idag har verksamheten utvecklats till att bygga kluster som kommer att ersätta Cray T3E vår trotjänare sedan ett antal år som vid årsskiftet kommer att pensioneras. NSC bygger även mindre kluster för SMHIs produktion (Bris) och för så skiljda områden som oceanografi (Otto) och bioinformatik (Dayhoff). Vi har nöjet att presentera den sistnämnda verksamheten i en särskild artikel i detta nummer av Nytt från NSC. Det nya stora klustret har 400 processorer och ett snabbt nätverk och kommer att invigas i samband med den årliga kluster-workshopen LCSC (Linux Clusters for Super Computing) som hålls i Linköping den 24-25 oktober. På programmet finns Thomas Sterling från Caltech, USA, som huvudtalare samt företrädare för akademi och industri. Vi tjuvstartar redan på eftermiddagen den 23 oktober med tutorials om klusterdesign och gridteknik. NSC fortsätter att utveckla sina samarbeten både nationellt och internationellt, särskilt inom det heta GRIDområdet där både Grendel och Ingvar idag finns anslutna till NorduGrid (www.nordugrid.org). Den 1 juli i år byggdes vår SGI 3800 ut till 128 processorer och 128 GB primärminne. Utbyggnaden har inneburit en ökad tillgång på Sveriges i särklass mest eftersökta datorsystem. Vi hälsar också våra nya medarbetare välkomna till NSC: Lennart Karlsson, Peter Kjellström och Leif Nixon. De är våra nya systemexperter och utgör ett kraftfullt tillskott till personalstyrkan. Alla tre är nu på plats och deltar fullt ut i NSCs expansiva verksamhet. Ny föreståndare på NSC NSC hälsar sin nye föreståndare Matts Karlsson välkommen. Sedan 2001 har han förestått NSCs avdelning för beräkningsorienterad biomekanik vars forskning är inriktad mot modellering och simulering av biologiska system, med fokus på hjärtat och de större kärlens mekanik. (Se presentation i nr 8, 2001 av Nytt från NSC). Matts har forskarbakgrund från Linköpings universitet där han disputerade 1995 inom mekanisk värmeteori och strömningslära. Sedan gjorde han en post-doc på Falk Cardiovascular Research Center vid Stanford University innan han kom tillbaka till Linköping där han 1999 blev docent och år 2002 befordrades till professor i medicinsk teknik. Vi önskar Matts lycka till när han nu axlar rollen som föreståndare för NSC, ett av Sveriges ledande superdatorcentra. 2
Bioinformatik Bioinformatik är en relativt ny vetenskap som ligger i gränslandet mellan datavetenskap, matematik, statistik å ena sidan och biologi, kemi, medicin å den andra. Inom bioinformatik ägnar man sig åt analyser, tolkningar och organisering av de enorma datamängder som härrör från DNA- och proteinsekvenser samt härtill relaterad information. Exempel på sekvensrelaterad information är kunskap om enstaka variationer i arvsmassan, s.k. SNPs (single nucleotide polymorphisms), vilka man försöker korrelera till förändrade egenskaper, t.ex. vad avser sjukdomsrisk eller läkemedelsnedbrytning. Ett annat exempel är microarray-analyser, som möjliggör jämförelser av tiotusentals geners användning mellan olika vävnader eller under olika betingelser. Metoden används också för att studera förändringar i samband med sjukdomstillstånd och kan ge ledtrådar i sökandet av motsvarande proteiners funktioner i människokroppen. Ytterligare sekvensrelaterad information gäller proteiners tredimensionella strukturer, proteininteraktioner och metaboliska syntes- eller nedbrytningsvägar. De enorma datamängderna kan exemplifieras av det humana genomprojektet, inom vilket människans arvsmassa sekvensbestäms och kartläggs. Den första stora och viktiga pusselbiten har varit att bestämma DNA-sekvensen, dvs. ordningen av de fyra baserna A, C, G och T. Människans genom består av ca 3,2 miljarder baser, så man kan förstå att det varit ett svårt och tidskrävande arbete, men tack vare stora framsteg både på den kemiska analyssidan och på datorsidan har man nu kartlagt så gott som hela genomet. Med denna stora informationsmängd ser vi bioinformatiker framför oss en mängd nya spännande uppgifter när det gäller att tolka genomet. Alltjämt är det oklart exakt vilka delar av arvsmassan som kodar för proteiner eller andra gener. Vidare förekommer alternativa kodningar, dvs. en gen kan koda för mer än ett protein. Detta sätt för naturen att smartkoda har hittills bara undersökts i ett fåtal fall. En stor uppgift för dagens biovetenskapliga forskare är att kartlägga funktionen hos alla de mellan 30 000 och 100 000 olika proteiner som människan har (uppskattningen av antalet varierar betydligt mellan olika källor). Med bioinformatiska tekniker, innefattande sekvensjämförelser, studier av sekvensmönster och strukturmodelleringar, kan man finna ledtrådar till att spåra funktionen. Den exakta funktionen måste naturligtvis undersökas och verifieras experimentellt i laboratorier. Kartläggningen av människans proteiner kommer att leda till ny kunskap om proteinernas olika funktioner och samspel dem emellan. Vi kommer att förstå mekanismer bakom en mängd sjukdomar och finna nya strategier att behandla dessa. Användning av sekvensjämförelser och uppskalning av dessa metoder till att omfatta kompletta genom möjliggör en detaljerad karakteristik av enzymfamiljer. Ortologer (motsvarande protein) kan identifieras i olika modellorganismer, vilket är av betydelse för studier av proteinfunktioner. I de kompletta genomen kan samtliga medlemmar i olika proteinfamiljer upptäckas med hjälp av sekvensjämförelser och mönsterigenkänningstekniker, t.ex. HMM (Hidden Markov Models). De kompletta genomen möjliggör också studier av proteiners evolution. Jämförelserna resulterar i upprättande av sekvensalignments, i vilka sekvenserna arrangeras så att motsvarande aminosyror hamnar i samma kolumn (Fig. 1). Härvid är det lätt att identifiera områden med en hög andel konserverade aminosyror, vilka i allmänhet är bevarade av strukturella eller funktionella skäl. Dessa sekvensmönster som framträder kan i sin tur användas för att fiska fram besläktade proteiner ur sekvensdatabaserna. Med denna metodik kan stora proteinfamiljer karakteriseras. Proteinernas egenskaper bestäms av deras rymdstrukturer. För att experimentellt bestämma strukturen används röntgenkristallografi och/eller kärnmagnetisk resonans (NMR). Att förutsäga ett proteins rymdstruktur med utgångspunkt från enbart aminosyresekvensen är alltjämt en av biovetenskapernas stora olösta gåtor. Emellertid kan man, eftersom rymdstrukturen i allmänhet är välbevarad mellan besläktade proteiner, använda molekylmodellering för att beräkna den tredimensionella strukturen med utgångspunkt från ett besläktat proteins struktur. I ett första steg jämförs proteinet man vill modellera med proteinet vars rymdstruktur är känd. Målet är att motsvarande sekvensområden skall inpassas gentemot varandra i ett s.k. alignment (Fig. 1). I nästa steg överförs aminosyrekedjan i proteinet man önskar modellera till den kända strukturen. Härefter försöker datorprogrammet att finna den optimala rymdstrukturen, dvs. den med lägst energi och minst antal ogynnsamma kontakter mellan atomerna i proteinet. Genom dockningsberäkningar kan man testa huruvida ett substrat passar eller inte vid ett enzyms aktiva yta. För enzymet gg-adh (alkoholdehydrogenas) som finns i levern hos oss människor har vi testat hur olika gallsyror binder (Fig. 2). I modellen kan man mäta de kritiska avstånden för att en reaktion skall kunna äga rum. Syftet är att finna molekylära förklaringar till varför 3
Fig. 1. Multipelt sekvensalignment. (Bild: Erik Nordling) Alignment upprättat baserat på sekvensjämförelser. De vågräta raderna utgör aminosyresekvenser (skrivna i enbokstavskod) arrangerade så att aminosyror i motsvarande positioner befinner sig i samma kolumn. För att förtydliga har kolumner där samma aminosyra förekommer med en viss frekvens färglagts. Olika grad av konservans åskådliggörs med olika färger. den ena gallsyran binder medan den andra inte gör det. Vidare kan man jämföra olika enzymers förmåga att binda substraten. På motsvarande sätt testar man i läkemedelsindustrin potentiella läkemedel med molekylmodellering. Förutsägelserna är ännu långt ifrån perfekta, t.ex. är interaktioner som förändrar proteinstrukturen svåra att förutsäga. Man kan emellertid ha stor nytta av tekniken för att i ett första steg sålla fram rimliga läkemedelskandidater. Vidare kan man, såsom vi gjort i exemplet ovan, använda tekniken för att förklara molekylära interaktioner. Vid institutionen för fysik och mätteknik (IFM), Linköpings Tekniska Högskola, har i dagarna ett 32-noders linuxkluster installerats för forskargrupperna i bioinformatik (prof. Bengt Persson) och biologiska beräkningar (prof. Jesper Tegnér). Klustret kommer att användas för storskaliga genomjämförelser, analys av microarraydata, molekylmodellering samt utveckling och användning av olika maskininlärningstekniker. Främst kommer vi att använda Markov-modeller (HMM) och supportvektormaskiner (SVM) men även neurala nätverk och andra tekniker lär komma ifråga. En fördel med ett linuxkluster är att programmen enkelt kan utprovas på linuxarbetsstationer för att sedan köras i större skala på klustret. För det löpande underhållet och systemuppdateringar förlitar vi oss på Professor i bioinformatik vid Bengt Persson klusterexpertisen inom NSC. Klustret är institutionen för fysik och mätteknik, döpt till Dayhoff efter Margaret O. Linköpings universitet. Dayhoff, som var en av pionjärerna inom sekvensjämförelser och proteinevolution redan på 1960-talet. Fig. 2. (Bild: Erik Nordling) Molekylmodellering visande dockning av en gallsyremolekyl till den aktiva ytan av enzymet alkoholdehydrogenas. I figuren har de kritiska avstånden mellan steroidmolekylen och nyckelpositioner i den aktiva ytan markerats. (den katalytiska zinkjonen, koenzymet NAD+ och aminosyran Ser48). Avstånden skall vara omkring 2 Å för att enzymreaktionen skall kunna ske. 4
NSC bygger nytt kluster I dagarna byggs NSCs nya kluster. Det består av tvåhundra datorer sammankopplade med ett mycket snabbt nätverk, Utöver dessa datorer finns det även datorer för inloggning, övervakning, lagring, m.m. Hela systemet får plats i elva stycken rack i NSCs datorhall i G-huset på campus Valla, Linköpings universitet. Var och en av de tvåhundra datorerna innehåller två Intel XEON-processorer (2.2 GHz), två gigabyte SDRAM ECC-minne, en hårddisk på 80 gigabyte och ett 3D SCI-nätverkskort från Dolphin. Datorerna är sammankopplade i en tredimensionell torus via SCI-korten vilket erbjuder en mycket effektiv lösning för kommunikationsintensiva applikationer. Liksom på alla NSCs tidigare kluster kommer Linux vara det operativsystem som används. För produktionsomgivningen integrerar vi som tidigare kösystemet PBS med schemaläggaren Maui och kompilatorer samt övriga verktyg. Användare från det tidigare klustret Ingvar kommer känna igen sig. Utöver GNUs kompilatorsvit, GCC, och Portland Group (PGI) kommer Intels kompilatorer och verktyg vara tillgängliga. Intels kompilator har visats sig generera mycket eff-ektiv kod för deras processorer med SSE2-instruktioner. För kommunikationen kommer SCALIs ClusterEdge-programvara användas. Vi har mätt upp 230 MByte/s i bandbredd och 4,5 µs fördröjning mellan två datorer på applikationsnivå (med MPI). Vi kommer även kunna använda TCP/IP över SCI-nätverket. Det kommer inte nå samma extrema prestanda men det möjliggör annan kommunikation. Det finns många faktorer att ta hänsyn till när man bygger ett kluster och även om utbudet på PC-marknaden verkar oändligt, är det inte många kombinationer av komponenter som ger bra prestanda i alla aspekter. Om man därtill lägger kostnaden, kvarstår ofta endast ett fåtal möjligheter. Till exempel är valet av chipset på moderkortet egentligen mycket mer kritiskt än valet av processor. Vi har tagit hjälp av Advanced Computer Technology (ACT) i Linköping för att ta fram den datorlösning vi nu installerar. I ACTs monteringsverkstad har ett flertal kombinationer av lådor, fläktar och moderkort växt fram, testats och utvärderats. Medan NSC har varit fokuserade på benchmark och applikationsprestanda har ACT sett till möjliga leverantörer, leveranstider, montering och övriga hårdvarudetaljer. Samarbetet har medfört att vi lyckats ta fram ett byggblock för högpresterande kluster som är stabilt och effektivt ur många aspekter. Klustret med inalles över fyrahundra processorer kommer totalt kunna utföra en biljon åtta hundra miljarder flyttalsoperation per sekund (flops). Det kommer ha över fyra hundra miljarder bytes primärminne och cirka tjugo biljoner bytes sekundärt minne fördelat på cirka tvåhundrasextio hårddiskar. Klustret invigs den 24 oktober i samband med workshopen Linux Clusters for Supercomputing (LCSC) som NSC håller för tredje året i rad (se annons på första sidan). Lustigs pånyttfödelse LiKADs 1 visualiseringsdator, Lustig 2, en SGI Onyx2 med tidigare tolv MIPSprocessorer och tre InfiniteReality (IR) grafikkanaler har flyttats ut från NSCs datorhall för att ge plats åt NSCs nya kluster. Den har delats upp, kompletterats och återuppstått i två nya system. Den del som fortfarande kan nås via DNSnamnet "lustig.nsc.liu.se" innehåller numera tjugo processorer och två IR. Den andra delen har fått åtta processorer och en IR och används av centrum för medicinsk visualisering (CMIV) vid Linköpings universitet. 1 Linköpings universitets konsortium för avancerad datorgrafik 2 Linköpings universitets satsning på tillämpningar inom datorgrafik 5
Tekniska tipsrutan Skapa din egen library -fil med hjälp av Fortran-rutiner För statiskt länkade program är det relativt enkelt: 1) Kompilera din fil/er som vanligt men länka inte: f90 -c AAA.f 2) Skapa library-filen : ar crv libaaa.a AAA.o Du kan enkelt inkludera många o-filer i ett bibliotek (eller arkiv). ar är mycket likt tar t.ex. ar t libaaa.a listar filerna i ett arkiv. 3) (Kompilera och) länka med ditt nya bibliotek f90 BBB.f -L. -laaa Notera att namnet på biblioteket är avgörande för -1 flaggan. Prefixet måste vara lib och suffixet.a. -L. är för att söka i det aktuella biblioteket Obs! notera punkten! T3E tas ur drift I VARJE NUMMER Kalendarium PACT 2002, The Eleventh International Conference on Parallel Architectures and Compilation Techniques 22-25 September 2002, Charlottesville, Virginia, USA. http://www.pactconf.org/ CLUSTER 2002: IEEE Fourth International Conference on Cluster Computing 9th EuroPVM/MPI 23-26 September 2002, Chicago, Illinois, USA. http://www-unix.mcs.anl.gov/cluster2002/ 29 September - 2 October 2002, Johannes Kepler University, Linz, Austria. http://www.gup.uni-linz.ac.at/pvmmpi/index.php Den 31 december 2002 tas T3E:n ur drift. Den har gjort god tjänst hos NSC sedan våren 1997 men nu är det dags att stänga av den. Vi uppmanar alla användare att i god tid före jul plocka hem program/data som skall bevaras. Efter avstängningen kommer vi inte att ha någon som helst möjlighet att återställa data från backup-band eftersom vi då inte längre har tillgång till något system som kan läsa T3E-band. Accelrys European Cheminformatics Forum and User Group 30 September - 1 October 2002, Cambridge, England. http://www.accelrys.com/ugm/ci_e u/index.html 3rd Annual Workshop on Linux Clusters for Super Computing - Clusters for High Performance Computing and GRID Solutions 24-25 October 2002, NSC, Linköping, Sweden. http://www.nsc.liu.se/lcsc2002/ Nationellt superdatorcentrum, Linköpings universitet, 581 83 Linköping Tel: 013-28 26 18, Fax: 013-28 25 35, E-post: nsc@nsc.liu.se www.nsc.liu.se LTAB, Linköping 2002.448 GGF6 14-17 October 2002, Chicago, USA, http://www.globalgridforum.org