Iformatiostekologi Tom Smedsaas 10 augusti 016 Geomsittligt sökdjup i biära sökträd Detta papper visar att biära sökträd som byggs upp av slumpmässiga data är bra. Beteckigar och defiitioer Defiitio De itera väglägde beteckad IPL eller I är summa av alla oders väglägder där rote sägs ha väglägde 1, rotes bar väglägdera etc. För att defiiera de extera väglägde kompletterar vi trädet med alla tomma träd som vi kallar extera oder. Det ya trädet iehåller då itera och + 1 extera oder trädet är ju fullt dvs varje od är atige e iter med två bar eller ett löv uta bar. De extera väglägde beteckad EPL eller E defiieras som summa av alla extera oders väglägder. Exempel k k a s a s e v e v Figure visar hur trädets komletteras med extera oder. I trädet är I 11 och E Ett träds väglägd är ett mått på hur välförgreat det är för samma atal oder är ett träd med lite väglägd mer välförgreat ä ett träd med stor väglägd. Det fis ett ekelt sambad mella de itera och de extera väglägde uttryckt i följade formel: Detta ka visas med hjälp av iduktio övig! E I + + 1 1 1
Avädig av väglägder Väglägdera är speciellt avädbara för att uttrycka det geomsittliga arbetet för sökig i ett biärt sökträd. Om ett träd med oder har iter och exter väglägd I respektive E så gäller att det geomsittliga atalet försök s för att söka e befitlig yckel så kallad lyckad sökig är s I Detta följer direkt av defiitioe av iter väglägd: att hitta yckel lagrad i rote kräver ett försök, yckelara i rotes bar två försök etc. Resoemaget förutsätter att alla ycklar är lika saolika att bli sökta. För att hitta motsvarade uttryck för misslyckad sökig dvs att upptäcka att e viss yckel ite fis i trädet kostaterar vi att varje misslyckad sökig slutar i e exter od. För att komma fram till de extera ode gör vi lika måga försök som dess bidrag var till de extera väglägde. Om alla extera oder är lika saolika täk efter vad detta egetlige iebär så blir det geomsittliga atalet försök u för e misslyckad sökig u E + 1 3 det fis ju + 1 extera oder. Det är således i högsta grad itressat att titta på vad vi ka förväta oss för väglägder i ett biärt sökträd. Att de mista och största möjliga väglägde är Θ log respektive Θ lämas som e gaska ekel övig. De svårare me itressatare fråga vad vi ka förväta oss för väglägd i ett slumpmässigt uppbyggt träd ägar vi ästa avsitt åt. Väglägd i träd uppbyggt av slumptal Atag att vi har uika ycklar och att ett biärt sökträd byggs upp geom att dessa ycklar successivt läggs i i trädet. Atag vidare att var och e av de! olika permutatioera av ycklara är lika saolik. Påståede De geomsittliga itera väglägde i de träd som geereras är 1.386 lg + O Bevis Låt E betecka de geomsittliga extera väglägde och I betecka de geomsittliga itera väglägde i de träd som skapas av alla möjliga iläggigssekveser av de ycklara.
Då gäller E I + + 1 4 Eftersom ovaståede relatio gäller för varje eskilt träd måste de också gälla för medelvärdet Atalet odbesök som görs vid sökig av e viss yckel är exakt lika måga som gjordes är de yckel lades i i trädet om ma äve räkar de extera, tomma ode. Vid det i:te ilägget så görs, i geomsitt, Ei 1/i eftersom i 1 reda är lagrade och det fis i extera il -oder. Vid första ilägget görs E0/1 besök i geomsitt, adra ilägget E1/ besök i geomsitt o.s.v. Eftersom det krävs exakt lika måga odbesök för att fia e yckel som det behövdes för att lägga i de så erhåller vi sambadet I E0/1 + E1/ + E/3 +...E 1/ 5 Dea differesekvatio ivolverar både E och I. Dessutom har de full historia dvs det :te värdet beror av alla föregåede värde. Stadardsättet att bli av med de fulla historie är att sätta upp motsvarade ekvatio för I 1: I 1 E0/1 + E1/ + E/3 +... + E / 1 6 och seda subtrahera 6 frå 5: I I 1 E 1 7 Geom att aväda sambadet 4 ka vi bli av med de ea av de två obekata. Det spelar i pricip ige roll vilke vi elimierar me det visar sig att det blir lättare att räka om vi aväder E. Ekvatioe 7 övergår då i E 1 E 1 1 1 + E E 1 + + E 1 E 1 E + + 1 E 1 8 Ekvatio 8 ka kotrolleras för 1, och 3 geom räka på alla möjliga träd av dessa storlekar. Ekvatioe 8 är e icke-lijär differesekvatio som, geerellt sett, ka vara svår att lösa. I just detta fall ka dock lösige erhållas på vårt valiga sätt geom att expadera: 3
E + + 1 + + 1 + + 1 E 1 + E 1 + + 1 E 1 + + 1 + + 1 1 + 1 E 3 + + 1 + + 1 1 + + 1 E 3. + + 1 + + 1 1 + + 1 + + + 1 k + + 1 + + 1 1 + + 1 + + + 1 + + 1 + 1 1 + 1 3 + 1 E1 E k 1 {k } E1 Eftersom E1 4 erhålles E + + 1 + 1 1 + 1 3 + 1 + + 1 + 1 1 + 1 3 + 1 + 1 1 + + 1 H 1 + + 1H + 1 + 1H + 1 9 där H är de harmoiska summa. H 1 + 1 + 1 3 + + 1 Observera att detta är ett exakt uttryck för E vi har ite gjort ågra uppskattigar alls. Formel ka således lätt kotrolleras för t.ex. 1, och 3. Geom att aväda uppskattige så erhålles H l + γ + O 10 4
E + 1 l + γ + O + 1 l + l + + 1 γ + O + 1 l + O l lg + O 1.386 lg + O 11 Om sambadet mella iter och exter väglägd 4 avädes så erhålles I 1.386 lg + O V.S.B Observera att vi som ett delresultat har visat att lösige till differesekvatioe E + 1 E 1 + är O log vilket är ett resultat som ka avädas vid aalys av quicksort. Alterativ resoemag Om ma tycker att resoemaget som ledde fram till ekvatio 5 är svårt att förstå så ka följade alterativa resoemag föras. Atag att de ycklar vi har ycklara k 1 < k < k 3 <... < k. Om vi vid uppbyggade av trädet börja med yckel k i kommer de att bli rot i trädet och vi kommer få i 1 oder i västersubträdet T L och i i högersubträdet T R. Om väglägde för trädet T L och T R beteckas med I L respektive I R så blir väglägde för detta träd I 1 + i 1 + I L + i + I R + I L + I R vi måste addera 1 för varje od i subträde eftersom vägara till dem först måste gå geom rote. Om vi varje yckel k i är lika saolik att bli vald som rot blir de geomsittliga väglägde I 1 + Ii 1 + I i i1 + 1 Ii i0 Dea ekvatio ka lösas med e likade tekik som avädes ova eller så ka ma utyttja sambadet 1 mella iter och exter väglägd och då får ma exakt samma formel som. 5