Programmering för språkteknologer II. OH-serie: Sökning och sortering. Algoritm

Relevanta dokument
Sökning och sortering

Programmering för språkteknologer II, HT2014. Rum

Föreläsning 11 Datastrukturer (DAT037)

Objektorienterad programmering E. Algoritmer. Telefonboken, påminnelse (och litet tillägg), 1. Telefonboken, påminnelse (och litet tillägg), 2

Algoritmer. Två gränssnitt

Föreläsning ALGORITMER: SÖKNING, REGISTRERING, SORTERING

TDDI16 Datastrukturer och algoritmer. Algoritmanalys

Programmering för Språkteknologer II. Innehåll. Associativa datastrukturer. Associativa datastrukturer. Binär sökning.

Föreläsning 2 Datastrukturer (DAT037)

Översikt. Stegvis förfining. Stegvis förfining. Dekomposition. Algoritmer. Metod för att skapa ett program från ett analyserat problem

if (n==null) { return null; } else { return new Node(n.data, copy(n.next));

DAT043 - föreläsning 8

Föreläsning 11 Innehåll

Algoritmanalys. Inledning. Informationsteknologi Malin Källén, Tom Smedsaas 1 september 2016

Föreläsning 2 Datastrukturer (DAT037)

Magnus Nielsen, IDA, Linköpings universitet

Föreläsning 7 Innehåll. Rekursion. Rekursiv problemlösning. Rekursiv problemlösning Mönster för rekursiv algoritm. Rekursion. Rekursivt tänkande:

Föreläsning 12 Innehåll

Tommy Färnqvist, IDA, Linköpings universitet

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 5 Jonas Lindgren, Institutionen för Datavetenskap, LiU

Instuderingsfrågor, del D

Föreläsning 12 Innehåll

Länkade strukturer, parametriserade typer och undantag

Föreläsning 1, vecka 7: Rekursion

Föreläsning 8 - del 2: Objektorienterad programmering - avancerat

Teoretisk del. Facit Tentamen TDDC (6)

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 10 Erik Nilsson, Institutionen för Datavetenskap, LiU

Tentamen DE12, IMIT12, SYST12, ITEK11 (även öppen för övriga)

Föreläsning 12: Exempel och problemlösning

Introduktion till programmering SMD180. Föreläsning 9: Tupler

F9 - Polymorfism. ID1004 Objektorienterad programmering Fredrik Kilander

Algoritmanalys. Genomsnittligen behövs n/2 jämförelser vilket är proportionellt mot n, vi säger att vi har en O(n) algoritm.

Föreläsning 2, vecka 8: Repetition

Innehåll. Sökning och hashtabeller. En bilsamling att söka i. En bil-klass att söka efter. Hur hittar vi alla bilar som uppfyller ett annat villkor

Föreläsning 9 Innehåll

Lösningsförslag till exempeltenta 1

Anmälningskod: Lägg uppgifterna i ordning. Skriv uppgiftsnummer (gäller B-delen) och din kod överst i högra hörnet på alla papper

Teoretisk del. Facit Tentamen TDDC (6)

Lösningar Datastrukturer TDA

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 9 Jonas Lindgren, Institutionen för Datavetenskap, LiU

Tentamen Datastrukturer D DAT 035/INN960 (med mycket kortfattade lösningsförslag)

Datastrukturer. föreläsning 2

Quicksort. Koffman & Wolfgang kapitel 8, avsnitt 9

Facit Tentamen TDDC (7)

Sortering. Om du följt dessa steg korrekt så ska böckerna nu vara sorterade.

Föreläsning 11 Innehåll. Sortering. Sortering i Java. Sortering i Java Comparable. Sortering. O(n 2 )-algoritmer: urvalssortering insättningssortering

Tentamen i Algoritmer & Datastrukturer i Java

TENTAMEN PROGRAMMERINGSMETODIK MOMENT 2 - JAVA, 4P

Föreläsning REPETITION & EXTENTA

Objektorienterad programmering. Fält som funktionsresultat. Mer om fält: att uppdatera ett parameterfält. Kontrast: Parametrar av primitiv typ

Objektorienterad programmering med Java, Generics

Föreläsning 6: Metoder och fält (arrays)

Föreläsning 5 Innehåll

Sortering. Föreläsning 12 Innehåll. Sortering i Java. Sortering i Java Exempel. Sortering

Problemlösning och algoritmer

BINÄRA TRÄD. (X = pekarvärdet NULL): struct int_bt_node *pivot, *ny; X X X 12 X X 12 X X -3 X X

Föreläsning 13 Datastrukturer (DAT037)

Programmering för språkteknologer II, HT2011. Rum

for-satsen Fält for-satsen Föreläsning 8 (OH-bilder 7) for-satsen for-sats är en styrsats för iterationer. for-sats har följande generella utseende:

1 Standardalgoritmer. 1.1 Swap. 1.2 Sök minsta värdet i en array

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 6 Jonas Lindgren, Institutionen för Datavetenskap, LiU

Datastrukturer D. Föreläsning 2

MMA132: Laboration 2 Matriser i MATLAB

Föreläsning 5. Rekursion

SORTERING OCH SÖKNING

7 Programmeringsteknik

Typkonvertering. Java versus C

Avbildningar och hashtabeller. Koffman & Wolfgang kapitel 7, mestadels avsnitt 2 4

Kungl. Tekn. Högskolan Förel 1, bild 1 Föreläsning 1: Introduktion ffl Kursinnehåll ffl Javarepetition ffl Referenser ffl Nyckelordet static ffl Klass

Tentamen Programmeringsteknik II Inledning. Anmälningskod:

Föreläsning 3-4 Innehåll. Diskutera. Metod. Programexempel med metod

Lösningsförslag till tentamen

Föreläsning 3-4 Innehåll

Sortering. Brute-force. Sortering Ordna element enligt relation mellan nyckelvärden

Lösningsförslag till tentamen Datastrukturer, DAT037,

Programkonstruktion och Datastrukturer

Tentamen'('Datastrukturer,'algoritmer'och'programkonstruktion.'

Sätt att skriva ut binärträd

Lösningsförslag till tentamen Datastrukturer, DAT037,

Föreläsning 4 Innehåll. Abstrakta datatypen lista. Implementering av listor. Abstrakt datatypen lista. Abstrakt datatyp

Tentamen ID1004 Objektorienterad programmering October 29, 2013

Datastrukturer, algoritmer och programkonstruktion (DVA104, VT 2015) Föreläsning 6

Medan ni väntar. 2. Skriv metoden. 3. Skriv metoden. Naturligtvis rekursivt och utan användning av Javas standardmetoder.

Klassen BST som definierar binära sökträd med tal som nycklar och enda data. Varje nyckel är unik dvs förekommer endast en

Tentamen i Introduktion till programmering

Teoretisk del. Facit Tentamen TDDC kl (6) 1. (6p) "Snabba frågor" Alla svar motiveras väl.

Föreläsning 6 Innehåll. Rekursion. Rekursiv problemlösning Mönster för rekursiv algoritm. Rekursiv problemlösning. Rekursion. Rekursivt tänkande:

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 6 Jonas Lindgren, Institutionen för Datavetenskap, LiU


TENTAMEN I PROGRAMMERING. På tentamen ges graderade betyg:. 3:a 24 poäng, 4:a 36 poäng och 5:a 48 poäng

JAVAUTVECKLING LEKTION 4

Föreläsning 5 Innehåll. Val av algoritm och datastruktur. Analys av algoritmer. Tidsåtgång och problemets storlek

Lösningsförslag till tentamen Datastrukturer, DAT037 (DAT036), Tiden det tar att utföra en iteration av loopen är oberoende av värdet på

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Tentamen i Algoritmer & Datastrukturer i Java

3. Toppkvinnor på hög Låt lådan och de två kvinnornas famnar utgöra stackarna L, K1 respektive K2. Från början finns alla kort i L.

Objektorienterad programmering E. Back to Basics. En annan version av printtable. Ett enkelt exempel. Föreläsning 10

Föreläsning 1 Datastrukturer (DAT037)

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 5 Jonas Lindgren, Institutionen för Datavetenskap, LiU

Transkript:

Programmering för språkteknologer II OH-serie: Sökning och sortering Mats Dahllöf Sökning och sortering Sökning: lokalisera objekt i samlingar. Finns ett visst värde? I så fall: var? Sortering: placera objekten i en samling i en viss ordning. (Om en samling är sorterad blir sökning effektivare. Jfr t.ex. med ett bibliotek.) Extremt viktiga problem. Relevanta i vitt skilda sammanhang. Olika algoritmer för båda. Institutionen för lingvistik och filologi Oktober 2010 1 2 Algoritm en systematisk procedur som i ett ändligt antal steg anger hur man utför en beräkning eller löser ett givet problem (NE) Man talar ofta om algoritmer på en abstraktionsnivå som tillåter olika sätt att implementera dem. Linjär sökning Extremt enkel algoritm. Samlingen behöver ej vara sorterad. Låt oss ta fält, som är den typ av samling man brukar titta på. (Varför?) Man går igenom dess platser från början till slut (eller till träff). Tidsödande. Hur? 3 4

Kodexempel (en metod för linjär sökning) Sökaint-värde i fält avint (int[]). public static int linsearch(int[] arr, int x) { for (int i=0; i < arr.length; i++) { if (arr[i]==x) { return i; // index för första träff return -1; // för "ingen träff" } // (-1 omöjligt index) Linjär sökning: komplexitet (förenklat) Varje jämförelse har en viss tidskostnad. Man måste titta igenom hela samlingen för att veta att sökt objekt inte finns. Om objektet finns och givet vissa antaganden om slumpmässighet, så kan man tänka sig att medelvärdet för antalet jämförelser är lika med samlingens halva längd. 5 6 Linjär komplexitet Om en algoritms tidsåtgång T beter sig på det här sättet, så är den av linjär komplexitet. G en konstant grundkostnad. n inputs längd. k en kostnad per värde/jämförelse. T = G+n k. Linjär sökning är ett exempel på en algoritm med linjär komplexitet. Binär sökning (lätt förenklat) Om vi har en ordnad del av ett fält kan vi eliminera halva delen för varje jämförelse med sökt värde. Vi tittar på mittvärdets storlek och ser om sökt värde finns före eller efter. Vi kan då söka igenom t.ex. ett fält med 1024 värden med med 11 jämförelser. Antal kvar efter varje mittvärdesjämförelse ( ): 1024 512 256 128 64 32 16 8 4 2 1 svar. Stor vinst jämfört med linjär sökning (vid större fält)! 7 8

Exempel sök 29 (target == 29) Jämförelse:arr[mid] > target (mid mittvärdet ). Ja: uteslut högerdel inkl.arr[mid]. Nej: uteslut vänsterdel exkl.arr[mid]. (nej) (nej) (nej) (ja) rätt, returnera index 14 Exempel (sök 12) ingen träff, returnera -1 (för ingen träff ) 9 10 Logaritmisk komplexitet Om en algoritms tidsåtgång T beter sig på det här sättet, så är den av logaritmisk komplexitet. G en konstant grundkostnad. n inputs längd. k en kostnad per jämförelse. T = G+m k, om n = 2 m. (T = G+ 2 log n k). Varje fördubbling av indatas längd ger en konstant tidkostnad. (Jfr. linjär: fördubbling av indata ger fördubblad kostnad.) Olika instanser av samma problem Binärsök i givet fält 12 mellan index 0 och 15: Binärsök i givet fält 12 mellan index 0 och 7: Binärsök i givet fält 12 mellan index 4 och 7:... Binärsök i givet fält 12 mellan index 6 och 6: 11 12

Kodexempel: binär sökning Skall visa två metoder att söka efter ett int-målvärde i ett sorterat int[]-fält mellan två index. Ytterligare krav: unika värden i fältet. Rekursiv implementation: Anropar samma metod (fast med allt snävare intervall, givet som argument). Icke-rekursiv implementation med while-slinga. Lab: Ni skall parametrisera så att det fungerar för alla ordningsbara objekttyper (d.v.s. de som implementerar interface tcomparable<t>, mer om detta snart). Kodexempel: binär sökning, rekursiv public static int binsearch(int[] arr, int target, int low, int high) { if (high - low > 0) { int mid = (low+high+1)/2; if (arr[mid] > target) { return binsearch(arr,target,low,mid-1);} else { return binsearch(arr,target,mid,high);}} else { if (arr[low] == target) {return low;} else {return -1;}}} 13 14 Kodexempel: binär sökning, while-upprepning public static int binsearch2(int[] arr, int target, int low, int high) { while (high - low > 0) { int mid = (low+high+1)/2; if (arr[mid] > target) {high = mid-1;} else {low = mid;} if (arr[low] == target) {return low;} else {return -1;}} Generisering/parametrisering av detta Not till labben! Bör avse objekstyper med en ordningsrelation. Standardmetod:int compareto(t o) GränssnittetComparable<T> kräver att denna metod finns. Man kan ställa krav på en parameter till en generisk klass, t.ex. så här: public class MyClass<T extends Comparable<T>> {...} extends i stället förimplements i denna kontext. 15 16

Sortering Som vi såg var det mycket billigare att söka i en sorterad sekvens av värden än i en osorterad. Det är alltså ofta smart att sortera de objektssamlingar man skall söka i. Sortering behövs ofta när människor skall använda data, t.ex. läsa artiklar i en uppslagsbok. Sortering: urvalssortering ( naiv algoritm) Princip: Gå igenom index från minsta till största och se till att minsta värdet hamnar på första platsen, näst minsta värde hamnar på andra platsen, o.s.v. Byt plats på (swap) jämförda värden så fort ett efterföljande värde är mindre än det på aktuellt index. (En variant som ger mest kompakt kod.) 17 18 Kodexempel: urvalssortering (av int[]-fält) public static void selsort(int[] arr) { for (int i = 0; i < arr.length-1; i++) { for (int j = i+1; j < arr.length; j++) { if (arr[i] > arr [j]) { swap(arr,i,j); } Kodexempel: swap public static void swap(int[] arr, int x, int y) { int temp = arr[x]; arr[x] = arr[y]; arr[y] = temp; } 19 20

Ett exempel på urvalssortering Indataint[] arr = {57,44,91,32,57 Jämförelser, indexpar (jämte aktuella värden) och konsekvens (swap eller ingenting). 0-1 (57-44): swap 1-3 (57-44): swap 0-2 (44-91) 1-4 (44-57) 0-3 (44-32): swap 2-3 (91-57): swap 0-4 (32-57) 2-4 (57-57) 1-2 (57-91) 3-4 (91-57): swap Beteende hos urvalssortering J/S: jämförelse/swap. [ j = 0] j = 1 j = 2 j = 3 j = 4 i = 0 - J/S J/S J/S J/S i = 1 - - J/S J/S J/S i = 2 - - - J/S J/S i = 3 - - - - J/S [i = 4] - - - - - 21 22 Komplexitet hos urvalssortering Fält av längden n ger 1+2+3+...+(n 1) st jämförelse+swap (Swap varje gång i värstafallet. Hur ser det ut?) T.ex 1+2+3+4 = 10 i exemplet med längden 5. Funktionen kallas triangeltal (kolla Wikipedia!) 1+2+3+...+ m = (m 2 + m)/2. När n blir allt större så blir n 2 -komponenten relativt sett allt större än n-komponenten. Man talar därför om en kvadratisk komplexitet här. (Tänk triangel är halvkvadrat.) Smartare algoritm: Quicksort Välj ut ett pivotvärde, som bör ligga nära mitten ordningsmässigt bland de värden som skall sorteras. Dela (partitionera) sedan i två högar: värden mindre, respektive värden större än pivoten. Partitionera sedan de två högarna på samma sätt. Typ, om vi väljer bokstäver smart: Lägg alla böcker A L i en hög; M Ö i en annan. Dela sedan i A F och G L samt M R och S Ö. O.s.v. 23 24

Välja pivot Måste vara en smart gissning som bygger på en billig beräkning. För att räkna ut det verkliga mittobjektet i samlingen måste man redan ha sorterat den. En lösning (givet ett fält som skall sorteras): Ta medianen av värdena på första, mittersta och sista index. Median: det mittersta i storleksordning. int pivot = median(arr[low], arr[(low+high+1)/2], arr[high]); Välja pivot, exempel int[] arr = {44,57,91,32,12,93, vi ser på hela, från index 0 tilll 5. int pivot = median(arr[0],arr[3],arr[5]); blir samma som median(44,32,93); Alltså 44. Råkar vara ett mycket bra val (men det blir det inte alltid). 25 26 Partitionering Partitionera fält mellan indexlow ochhigh (inklusivt). public static int partition(int[] arr, int low, int high) { int pivot = median(arr[low], arr[(low+high+1)/2], arr[high]); Forts. Partitionering, forts. while (low < high) { while (arr[low] < pivot) {low++; while (arr[high] > pivot) {high--; swap(arr,low,high); // som tidigare return low; // index med pivot som värde // hamnar mellan partitionerna } Obs! Förutsätter unika värden i fältet. 27 28

Quicksort mellan två index, rekursiv public static void qsort(int arr[], int low, int high) { if (high-low < 2) { // EN ELLER TVÅ VÄRDEN if (arr[low] > arr[high]) { swap(arr,low,high);} else { // TRE ELLER FLER VÄRDEN int pivotidx = partition(arr, low, high); qsort(arr, low, pivotidx); // "HÖG" 1 qsort(arr, pivotidx+1, high); } } // "HÖG" 2 // OBS! PIVOT I "HÖG" 1. Quicksort mellan två index, icke-rekursiv 1 Quicksort gör ju att vi i varje givet läge måste hålla reda på ett godtyckligt antal högar som vi skall partitionera. En hög är färdig efter en swap om den är av storleken en eller två värden. Större högar än så partitioneras till två högar. D.v.s en hög försvinner och två tillkommer. En lösning: Vi har två fält (int[]),lo ochhi, så att hög n ligger från position lo[n] till positionhi[n] i det fält som sorteras (arr). 29 30 Quicksort mellan två index, icke-rekursiv 2 Som sagt, hög nligger från positionlo[n] till position hi[n] i det fält som sorteras (arr). Varje hög är ett segment avarr. En variabelint il håller reda på antalet högar vi har kvar att partitionera. I ett typiskt fall kommer detta antal att gå från 1 och öka med 1 för varje partitionering och sedan minska när partitioneringar är färdiga (längd 1 eeller 2). Närint il == 0 terminerar processen. Quicksort mellan två index, icke-rekursiv I public static void qsort2(int[] arr, int low, int high) { int[] lo = new int[500]; // som stack int[] hi = new int[500]; // som stack int il = 1; // antal "högar" kvar att sortera lo[il]=low; hi[il]=high; // intervall nr il [FORTSÄTTER med en while-slinga] Obs! 500 maxdjup för stack. Ingen säkerhetskontroll. 31 32

Quicksort mellan två index, icke-rekursiv II while (il > 0) { if (hi[il]-lo[il] < 2) { // EN ELLER TVÅ VÄRDEN if (arr[lo[il]] > arr[hi[il]]) { swap(arr,lo[il],hi[il]); il--; } // BIT NR il KLAR else { // d.v.s MINST TRE [SE NÄSTA SIDA] } } } Quicksort mellan två index, icke-rekursiv III while (il > 0) { [FÖREGÅENDE SIDA] else { // MINST TRE; inte (hi[il]-lo[il] < 2) int pivotidx = partition(arr,lo[il],hi[il]); lo[il+1] = lo[il]; // NY "HÖG" il+1 (LÄGRE) hi[il+1] = pivotidx; lo[il] = pivotidx+1; // DEN HÖGRE SKRIVS ÖVER // DEN GAMLAS INDEX. il++; // hi[il] SOM TIDIGARE } } } // il++: EN "HÖG" TILLKOM 33 34 Sammanfattning: fyra algoritmer Sökning: linjär sökning binär sökning: halvera sökrymden för varje jämförelse Sortering: placera ett värde i taget rätt: urvalssortering Quicksort: försök halvera mängden värden att sortera för varje iteration Det finns många fler algoritmer på dessa områden. 35