Information Coding / Computer Graphics, ISY, LiTH CUDA. En lösning för generella beräkningar. En introduktion: Programmingsmodell och språk

Storlek: px
Starta visningen från sidan:

Download "Information Coding / Computer Graphics, ISY, LiTH CUDA. En lösning för generella beräkningar. En introduktion: Programmingsmodell och språk"

Transkript

1 CUDA En lösning för generella beräkningar. En introduktion: Programmingsmodell och språk Minnesareor och minnesaccess Delat minne Exempel

2 CUDA = Compute Unified Device Architecture Utvecklat av NVidia Fungerar bara på NVidia-kort, G80 eller bättre GPU-arkitektur Designat för att dölja att hårdvarans egentligen är för grafik, och för att ge mer kontroll och flexibilitet

3 Liknar shader-baserade lösningar: 1. Ladda upp data till GPU 2. Exekvera beräkningskärna 3. Ladda ner resultat

4 Integrerad kod Källkoden till värdprogram och beräkningskärnor kan vara i samma källfil, skriva som ett enda program! Betydande skillnad mot shaders (och OpenCL) där kärnan är separat och explicit laddas och kompileras av värden. Beräkningskärnor indentifieras med speciella modifierare i koden.

5 CUDA Arkitektur och utvidgning av C för parallellbearbetning. Skapar ett stort antal trådar som körs parallellt /mer eller mindre). Mycket är precis som i grafik! Du kan inte anta att alla trådar körs parallelt. De körs ett antal i taget: en warp (varp, syftar på vävning). Men nu ser det mer ut som ett vanligt C-program. Inget trassel med data som lagras som pixlar, som i GLSL. Vi kan jobba med vanliga arrayer!

6 Enkelt CUDA-exempel Ett fungerande, kompilerbart, körbart exempel #include <stdio.h> const int N = 16; const int blocksize = 16; global void simple(float *c) { c[threadidx.x] = threadidx.x; } int main() { int i; float *c = new float[n]; float *cd; const int size = N*sizeof(float); } cudamalloc( (void**)&cd, size ); dim3 dimblock( blocksize, 1 ); dim3 dimgrid( 1, 1 ); simple<<<dimgrid, dimblock>>>(cd); cudamemcpy( c, cd, size, cudamemcpydevicetohost ); cudafree( cd ); for (i = 0; i < N; i++) printf("%f ", c[i]); printf("\n"); delete[] c; printf("done\n"); return EXIT_SUCCESS;

7 Enkelt CUDA-exempel Ett fungerande, kompilerbart, körbart exempel #include <stdio.h> const int N = 16; const int blocksize = 16; Kernel global void simple(float *c) { c[threadidx.x] = threadidx.x; } thread identifier int main() { int i; float *c = new float[n]; float *cd; const int size = N*sizeof(float); } cudamalloc( (void**)&cd, size ); dim3 dimblock( blocksize, 1 ); dim3 dimgrid( 1, 1 ); simple<<<dimgrid, dimblock>>>(cd); Call kernel cudamemcpy( c, cd, size, cudamemcpydevicetohost ); cudafree( cd ); for (i = 0; i < N; i++) printf("%f ", c[i]); printf("\n"); delete[] c; printf("done\n"); return EXIT_SUCCESS; Allocate GPU memory 1 block, 16 threads Read back data

8 Modifierare för kodtyper Tre modifierare anger hur kod skall användas: global körs på GPU, startas v CPU. Detta är berʼkningskärnans ingångspunkt. device är kod som körs på GPU host är kod som körs på CPU (default). CPU host myhostfunc() GPU device mydevicefunc(() global myglobalfunc(()

9 Minneshantering cudamalloc(ptr, datasize) cudafree(ptr) Liknar CPUns minnesallokering, men görs av CPUn för att allokera på GPU cudamemcpy(dest, src, datasize, arg) arg = cudamemcpydevicetohost or cudamemcpyhosttodevice

10 Körning av kärnan simple<<<griddim, blockdim>>>( ) (Mycket egendomlig syntax.) Grid är en grid av block. Varje block har nummer inom grid och varje tråd har nummer inom sitt block. Inbyggda variabler för kärnan: threadidx och blockidx blockdim och griddim (OBS, inget prefix som i GLSL.)

11 Kompilera Cuda nvcc nvcc är nvidias kompilator, /usr/local/cuda/bin/nvcc Källfiler har suffix.cu Enklast möjliga kommandorad: nvcc simple.cu -o simple (Fler parametrar finns för bibliotek mm.)

12 Kompilera Cuda för större tillämpningar nvcc och gcc i kombination nvcc för.cu-filer gcc för.c/.cpp etc Det går bra att blanda språk. Länkning måste inkludera C++-runtimebibliotek. Exempel: En C-fil, en CU-fil

13 Exempel på multi-fil-kompilering Källfiler: cudademokernel.cu och cudademo.c nvcc cudademokernel.cu -o cudademokernel.o -c gcc -c cudademo.c -o cudademo.o -I/usr/local/cuda/include g++ cudademo.o cudademokernel.o -o cudademo - L/usr/local/cuda/lib -lcuda -lcudart -lm Länka med g++ för att inkludera C++-runtime

14 C/CUDA program code.cu CUDA-kompilering bakom scenen nvcc CPU binary PTX code PTX to target Target binary code

15 Exekvering av Cuda-program Måste sätta environment-variabel för att hitta Cudas runtime. export DYLD_LIBRARY_PATH=/usr/local/cuda/lib:$DYLD_LIBRARY_PATH Sedan kör man som vanligt:./simple Problem när vi vill exekvera utan shell! Starta med execve()

16 Beräkningar med CUDA Organisation och åtkomst Blocks, threads...

17 Warps En warp är det minsta antal trådar som processas parallellt i en CUDA-kapabel enhet. Detta antal är satt till 32. Vi behöver normalt inte tänka så mycket på warps utan i första hand tänka på block och threads.

18 Processing organization 1 warp = 32 threads 1 kernel - 1 grid 1 grid - many blocks 1 block - 1 thread processor 1 block - many threads Använd många trådar och många block! > 200 blocks rekommenderas. Antal trådar bör vara multipel av 32

19 Fördelning av beräkningar över threads och blocks Hierarkisk modell Grid Block 0,0 Block 1,0 Block 2,0 Block 3,0 Block n,n Thread 0,0 Thread 1,0 Thread 2,0 Thread 3,0 Block 0,1 Block 1,1 Block 2,1 Block 3,1 Thread 0,1 Thread 1,1 Thread 2,1 Thread 3,1 Thread 0,2 Thread 1,2 Thread 2,2 Thread 3,2 griddim.x * griddim.y blocks Thread 0,3 Thread 1,3 Thread 2,3 Thread 3,3 BlockDim.x * blockdim.y threads

20 Indexera data med thread/block-ids Beräkna index via blockidx, blockdim, threadidx Enkelt exempel, beräkna kvadrat av varje element (enbart kärnan): // Kernel that executes on the CUDA device global void square_array(float *a, int N) { int idx = blockidx.x * blockdim.x + threadidx.x; if (idx<n) a[idx] = a[idx] * a[idx]; }

21 Värdprogram för kvadratexempel Sätt block size och grid size // main routine that executes on the host int main(int argc, char *argv[]) { float *a_h, *a_d; // Pointer to host and device arrays const int N = 10; // Number of elements in arrays size_t size = N * sizeof(float); a_h = (float *)malloc(size); cudamalloc((void **) &a_d, size); // Allocate array on device // Initialize host array and copy it to CUDA device for (int i=0; i<n; i++) a_h[i] = (float)i; cudamemcpy(a_d, a_h, size, cudamemcpyhosttodevice); // Do calculation on device: int block_size = 4; int n_blocks = N/block_size + (N%block_size == 0? 0:1); square_array <<< n_blocks, block_size >>> (a_d, N); // Retrieve result from device and store it in host array cudamemcpy(a_h, a_d, sizeof(float)*n, cudamemcpydevicetohost); // Print results and cleanup for (int i=0; i<n; i++) printf("%d %f\n", i, a_h[i]); free(a_h); cudafree(a_d); }

6.1 Kompilering och lite grundläggande information

6.1 Kompilering och lite grundläggande information 6 Förhoppningsvis ska de C-konstruktioner som gås igenom här tillsammans med de exempelprogram som ges här och i andra delar av lab-pm vara tillräckliga för att ni ska kunna klara av laborationerna. Syftet

Läs mer

Heltal(int) Programmeringsteknik 54

Heltal(int) Programmeringsteknik 54 Heltal(int) Datatypen int används tillsammans med char, short int och long int för att lagra heltal i C. Matematisk sett finns det oändligt många heltal. På en dator måste det införas en begränsning på

Läs mer

7 Programmeringsteknik

7 Programmeringsteknik 7 Programmeringsteknik Att skriva ett program innebär att man skriver en plan för hur bearbetningen av data ska utföras. Vilken typ av data och vilken typ av bearbetning, som ska göras, ska vara bestämt

Läs mer

3.3 for-satsen. Programmering, grundkurs, 8.0 hp, Elektro, KTH, hösten 2010. Föreläsning 3

3.3 for-satsen. Programmering, grundkurs, 8.0 hp, Elektro, KTH, hösten 2010. Föreläsning 3 Föreläsning 3 3.3 for-satsen I programmering talar man om tre sätt på vilket ett programflöde kan vara beskaffat: 1. Saker kan hända efter varandra, i sekvens. 2. Flödet kan innebära att ett val görs,

Läs mer

Typsäker registeraccess

Typsäker registeraccess Typsäker registeraccess Mikael Rosbacke January 6, 2011 Detta dokument ska diskutera ett ramverk för läsning och skrivning av hårdvaruregister. Det är inspirerat av en artikel på CUJ expert panel och har

Läs mer

Föreläsning 4: for, while, do-while

Föreläsning 4: for, while, do-while TDA 545: Objektorienterad programmering Föreläsning 4: for, while, do-while Magnus Myréen Chalmers, läsperiod 1, 2014-2015 Evaluering Det är viktigt att ni kan se hur kod körs. ( se = simulera på papper,

Läs mer

Introduktion till programmering D0009E. Föreläsning 5: Fruktbara funktioner

Introduktion till programmering D0009E. Föreläsning 5: Fruktbara funktioner Introduktion till programmering D0009E Föreläsning 5: Fruktbara funktioner 1 Retur-värden Funktioner kan både orsaka en effekt och returnera ett resultat. Hittills har vi ej definierat några egna funktioner

Läs mer

Femte Generationens Operativsystem

Femte Generationens Operativsystem Femte Generationens Operativsystem Fredrik Tolf 22 november 2004 Sammanfattning I ett års tid har jag utformat planer på hur man bör bygga ett operativsystem, som jag anser är bättre

Läs mer

Snabbguide Visma Compact API Copyright 2006-2010 Visma Spcs AB

Snabbguide Visma Compact API Copyright 2006-2010 Visma Spcs AB Snabbguide Visma Compact API Copyright 2006-2010 Visma Spcs AB Komma igång med Compact API Hur APIet fungerar Visma Compacts API läser och skriver direkt till databasen via ett antal färdiga metoder som

Läs mer

7 GRUNDERNA I PROGRAMMERING

7 GRUNDERNA I PROGRAMMERING Grunderna i programmering 7 GRUNDERNA I PROGRAMMERING Detta kapitel är bokens största kapitel och kanske det viktigaste. Vi kommer här att gå igenom grunderna för sekventiell programmering. Det vi går

Läs mer

Vägen till ett framgångsrikare liv. Framgång föder framgång

Vägen till ett framgångsrikare liv. Framgång föder framgång Framgång föder framgång I din strävan till ett framgångsrikare liv, finns det en fundamental ingrediens som de flesta människor missar. Nämligen att se till det de redan har, och göra detta med en tacksamhet.

Läs mer

Föreläsning 4. Kö Implementerad med array Implementerad med länkad lista Djup kontra bredd Bredden först mha kö

Föreläsning 4. Kö Implementerad med array Implementerad med länkad lista Djup kontra bredd Bredden först mha kö Föreläsning 4 Kö Implementerad med array Implementerad med länkad lista Djup kontra bredd Bredden först mha kö Kö (ADT) En kö fungerar som en kö. Man fyller på den längst bak och tömmer den längst fram

Läs mer

THEO tidsregistrering

THEO tidsregistrering Datavetenskap Magnus Langered och Denny Pedersen THEO tidsregistrering Examensarbete, C-nivå 2000:16 THEO tidsregistrering Magnus Langered och Denny Pedersen 2000 Författarna och Karlstads universitet

Läs mer

Deployment of recovery media. Erik Götheson

Deployment of recovery media. Erik Götheson Deployment of recovery media Handledare på TFE-UmU: Stig Byström Handledare på Komatsu Forest AB: Carl-Henrik Lindmark Examinator: Ulf Holmgren, Stig Byström Datum: 06-06-2011 Abstract This report contains

Läs mer

Risker vid användning av USB-minnen och u3

Risker vid användning av USB-minnen och u3 Risker vid användning av USB-minnen och u3 JACOB LÖFVENBERG FOI är en huvudsakligen uppdragsfinansierad myndighet under Försvarsdepartementet. Kärnverksamheten är forskning, metod- och teknikutveckling

Läs mer

Installation Hogia Small Office. Bokföring. Se hur vi förenklar vardagen för dig som småföretagare på www.hogia.se/smalloffice

Installation Hogia Small Office. Bokföring. Se hur vi förenklar vardagen för dig som småföretagare på www.hogia.se/smalloffice Installation Hogia Small Office Bokföring 1 Installationsanvisning Hogia Small Office Bokföring Från och med version 2012.2 har vi gått över till licensnummer och du måste därför efter installationen är

Läs mer

An enrichment and extension programme for primary-aged children

An enrichment and extension programme for primary-aged children An enrichment and extension programme for primary-aged children Created by Tim Bell, Ian H. Witten and Mike Fellows Adapted for classroom use by Robyn Adams and Jane McKenzie Illustrated by Matt Powell

Läs mer

FRÅN POSTORDER TILL E-HANDEL

FRÅN POSTORDER TILL E-HANDEL FRÅN POSTORDER TILL E-HANDEL UTVECKLING AV E-HANDELSPLATS MED ASP.NET Tobias Henning Johan Kraner EXAMENSARBETE 2003 Information & Medieteknik FRÅN POSTORDER TILL E-HANDEL FROM MAIL ORDER TO E-COMMERCE

Läs mer

Kombinatorik. Kapitel 2. Allmänt kan sägas att inom kombinatoriken sysslar man huvudsakligen med beräkningar av

Kombinatorik. Kapitel 2. Allmänt kan sägas att inom kombinatoriken sysslar man huvudsakligen med beräkningar av Kapitel 2 Kombinatorik Allmänt kan sägas att inom kombinatoriken sysslar man huvudsakligen med beräkningar av det antal sätt, på vilket elementen i en given mängd kan arrangeras i delmängder på något sätt.

Läs mer

Ingate SIParator 4.9.2

Ingate SIParator 4.9.2 Ingate SIParator 4.9.2 Steg för steg-guide Lisa Hallingström Paul Donald Bogdan Musat Adnan Khalid Per Johnsson Ingate SIParator 4.9.2: Steg för steg-guide by Lisa Hallingström by Paul Donald by Bogdan

Läs mer

Metodanrop - primitiva typer. Föreläsning 4. Metodanrop - referenstyper. Metodanrop - primitiva typer

Metodanrop - primitiva typer. Föreläsning 4. Metodanrop - referenstyper. Metodanrop - primitiva typer Föreläsning 4 Metodanrop switch-slingor Rekursiva metoder Repetition av de första föreläsningarna Inför seminariet Nästa föreläsning Metodanrop - primitiva typer Vid metodanrop kopieras värdet av en variabel

Läs mer

Sidnumrering i Word HÖGSKOLAN VÄST

Sidnumrering i Word HÖGSKOLAN VÄST Sidnumrering i Word HÖGSKOLAN VÄST 1 Hur man skapar sidnumrering Steg. Hur skapar man sin egen sidnumrering? i Word (som börjar och slutar på valfri sida) Introduktion Börja med att infoga - för dig ett

Läs mer

Ladda ned Manual till: CM-840/842

Ladda ned Manual till: CM-840/842 Ladda ned Manual till: CM-840/842 1a. Fråga: jag har precis packat upp mitt 2010 certifierade kassaregister men så fort jag slår in något så visas en felkod typ F03, F05 eller E01 Fiscal i displayen, vad

Läs mer

A brief exploration of the XP planning process The planning game

A brief exploration of the XP planning process The planning game A brief exploration of the XP planning process The planning game Master Thesis in Computing Science and Engineering, 20p Författare: Robert Jonsson c98rjn@cs.umu.se Handledare: Vitec Fastighetssystem AB:

Läs mer

Installationsguide för Debian GNU/Linux

Installationsguide för Debian GNU/Linux Installationsguide för Debian GNU/Linux Installationsguide för Debian GNU/Linux Copyright 2004 2015 Debian Installer-teamet Det här dokumentet innehåller installationsinstruktioner för Debian GNU/Linux

Läs mer

SuperBooky. - modernt webbaserat bokföringsprogram för småföretag

SuperBooky. - modernt webbaserat bokföringsprogram för småföretag SuperBooky - modernt webbaserat bokföringsprogram för småföretag Kandidatarbete inom Data- och Informationsteknik DŽENAN BAŽDAREVIĆ DANIEL CHINIQUY ENGSTRÖM ISABELLE FRÖLICH JAKOB CSÖRGEI GUSTAVSSON ALEXANDRA

Läs mer

Ordbok. SVT Fri television /Om alla, för alla

Ordbok. SVT Fri television /Om alla, för alla Ordbok 1 SVT Fri television /Om alla, för alla Välkommen att vara med och utveckla SVT! Vi har många utmaningar framför oss. En av de största är att göra viktiga frågor i samhället intressanta och engagerande

Läs mer

Dator och Nätverksteknik V2012 ARBETSBOK DATOR OCH NÄTVERKSTEKNIK. Thelin Läromedel. www.skolportalen.se. Läromedel för GY2011. Jan-Eric Thelin 2012

Dator och Nätverksteknik V2012 ARBETSBOK DATOR OCH NÄTVERKSTEKNIK. Thelin Läromedel. www.skolportalen.se. Läromedel för GY2011. Jan-Eric Thelin 2012 DATOR OCH NÄTVERKSTEKNIK Dator och Nätverksteknik V2012 ARBETSBOK Läromedel för GY2011 Jan-Eric Thelin 2012 ISBN: 978-91-7379-184-7 Thelin Läromedel www.skolportalen.se FÖRORD Detta är Arbetsboken i Dator

Läs mer

Sammanfattning i Sammanfattning

Sammanfattning i Sammanfattning Sammanfattning i Sammanfattning Ett ärendehanteringssystem är ett komplett system vars mål är att effektivisera och koordinera processer av olika slag. Ett exempel på ärendehantering är försäkringsbolag

Läs mer

Rapport Mobile Keyring

Rapport Mobile Keyring Mobile Keyring - Rapport Mobile Keyring Utskriven/PDF Export: 2012-03-04 Copyright 2012 Sidan 1 av 17 Rapport Mobile Keyring Mobile Keyring är en system som syftar till att tillhandahålla en standard för

Läs mer