Virtual Reality i teori och praktik (MAM101)

Transkript

1 Kompendium till kursen Virtual Reality i teori och praktik (MAM101) Mattias Wallergård Joakim Eriksson Günter Alce Lars Thern 2015 ver. 04

2 Innehållsförteckning 1. Introduktion Visuell modalitet Auditiv modalitet Känsel-modalitet Inter-modalitet Interaktion för VR och AR Tracking Immersion & Presence

3 1. Introduktion Vad är Virtual Reality? Virtual Reality (förkortat VR) är egentligen en ganska märklig term, och den saknar en allmänt erkänd definition. Rent semantiskt så innebär ju de båda orden Virtual Reality (=virtuell verklighet) en motsägelse. En allmängiltig, kortfattad definition skulle kunna se ut så här: Virtual Reality är en form av Människa-Maskin interaktion som kan utföras så verklighetstroget som möjligt, och kan upplevas med flera sinnen samtidigt. VR kan sägas vara en samlingsbeteckning på interaktionsteknik som strävar att få användare att uppleva något på låtsas eller virtuellt. Det kan vara en kombination av artificiella bilder, ljud och ibland till och med känsel och lukt. Nuförtiden används datorer och andra elektroniska apparater för att skapa dessa illusioner. För att uppnå en hög grad av närvarokänsla (en känsla av verklighet), är det mycket viktigt att systemet är dynamiskt (dvs saker och ting förändrar sig), och interaktivt (dvs den virtuella miljön kan påverkas av användaren och kan ge någon form av stimuli tillbaka till användaren). Många forskare föredrar att istället använda termen Virtual Environment (VE). En sådan definition återfinns i Kalawsky (1993): Virtual Environments are synthetic sensory experiences that communicate physical and abstract components to a human operator or participant. The synthetic sensory experience is generated by a computer system. Men vägandet av dessa termers för- och nackdelar mot varandra känns som en akademisk debatt, och man kan nog tryggt betrakta VR och VE som synonymer. Det finns även en del mycket närliggande discipliner där tekniken används och vad man eftersträvar är så snarlikt VR att det egentligen är poänglöst att försöka dra någon gränslinje mot dem. Eventuella skillnader i utrustning som används blir allt mindre och det är snarare sin egen bakgrund som avgör vad man vill kalla sitt område: - Simulated Environments, eller Simulation-based learning. Här är det primära syftet oftast färdighets- och yrkesträning. T.ex. flygsimulatorer. - Serious Games. Denna term har blivit populär på senare år. Huvudsakligen går det ut på att använda befintliga spel-motorer för mera seriösa tillämpningar. Ett spel är ju egentligen inget annat än en simulering. Moderna spel-motorer är svåra att överträffa kvalitetsmässigt, och vissa kan erbjuda en hög nivå av generalitet. Vad är Augmented Reality? En närbesläktad teknik med VR är Augmented Reality (AR). Den svenska termen av AR är förstärkt verklighet, men vi kommer att använda den engelska förkortningen AR i fortsättningen. AR betyder att man förstärker verkligheten genom att t.ex. lägga 3

4 till virtuella objekt på verklighet. En allmänt vedertagen definition på AR är Ronald Azumas definition från 1997 (Azuma, 1997): AR är en teknologi som: kombinerar den reella verkligheten med virtuella objekt är interaktiv i realtid (samt är kontextberoende) återges i 3D (och är rumsligt förankrad ) Den principiella skillnaden mellan VR och AR är att i VR strävar man efter att användaren kan stänga ute omvärlden och enbart uppleva den virtuella världen. Men i AR däremot, vill man förstärka den reella verkligheten med virtuella objekt. Paul Milgram beskriver förhållandet mellan AR och VR enligt Figur 1-1 (Notera: Virtual Environment =VR). Figur 1-1 The Reality-Virtuality Contiuum by Paul Milgram. En kort historik om VR och dess föregångare Artificiella representationer av verkligheten är såklart inte något nytt påfund. Det ligger i vår natur att vilja bli hänförda av illusioner. För flera hundra år sedan så tillverkades enormt komplicerade klockverk med figurer och dockor som rörde sig i intrikata mönster. Föregångaren till nutidens projektor kallades Laterna magica, och man framförde sofistikerade multimedia-shower med hjälp av handmålade glasplattor och speglar. Under 1800-talet började man tillverka enkla produkter som kunde skapa en illusion av rörelse. The Zoetrope är bland den mest kända (se Fig. 1-2). Man sätter sig med ett öga intill en av slitsarna och roterar trumman. Illusionen av en rörlig figur funkar varje gång, trots att man vet att det ligger en pappersremsa med 12 stillbilder i trumman. Denna illusion av Lefvande Bilder verkar vi aldrig tröttna på (även om vi numera kanske är lite kräsnare med bildkvaliteten: gärna 4K och 144Hz). Varför fungerar en Zoetrope? Den vanligaste förklaringsmodellen är the Phiphenomenon. Evolutionsmässigt behöver vi kunna avläsa och tolka förändringar i omgivningen. Vår hjärna strävar helt enkelt förstå synintryck som en kontinuerlig rörelse trots ibland bristfällig information. Denna förmåga kan ibland fungera ända ner till en bildväxlingsfrekvens på Hz. En annan fråga som en Zoetrope-användare ställer sig är varför man inte märker synbortfallet på grund av mellanrummen mellan slitsarna när man snurrar trumman? Detta är samma anledning till varför vi sällan lägger märke till när vi blinkar. Fenomenet kallas Persistence of Vision, och kan liknas vid att syncentrum hjärnan har en buffert där en efterbild kvarstår i upp till cirka 40 ms. Om ett synbortfall inte 4

5 varar längre, så presenterar syncentrum det hela som ett kontinuerligt synintryck. Om däremot bortfallet varar längre, så får vi mycket svårt att detektera förändringar mellan bilderna. Figur 1-2 The Zoetrope ger illusionen av rörelse. Sensorama utvecklades av Morton Heilig i slutet på 1950-talet (se Figur 1.3). Denna produkt var ett ambitiöst försök till att ge en multimodal upplevelse, dvs. att förmedla stimuli för flera sinnen på samma gång. Den återskapade en känsla att köra motorcykel genom att ge stimuli för synen, hörseln, känseln (vibrationer i stolen), och till och med lukter. Dock kunde Sensorama inte erbjuda någon interaktivitet (det var ju i princip en film som spelades upp). Figur 1-3 Sensorama, en multimodal upplevelse. Utvecklad av Morton Heilig i slutet på 1950-talet. 5

6 Interaktivitet var däremot något som sattes i första rummet hos de flyg-simulatorer som började utvecklas redan i flygets barndom. Att kunna hålla planet upprätt och parera för kastvindar, var en mycket svår uppgift med de tidigaste planen. Figur 1.4 visar en av de tidigaste simulatorerna (från ca 1910) där piloten fick träning i hur roderkontrollerna skulle användas. Två årtionden senare kunde pilot-skolor köpa fix och färdiga flygsimulatorer, t.o.m. med möjlighet till blind-flygning, tack vare den geniale Ed Link, en orgelbyggare som utnyttjade luftbälgar, elektriska pumpar, och andra orgelkomponenter till att återskapa stigning, dykning, bankning etc. (se Figur 1.5). I och med USAs rymdprogram under talet ökade simulatorernas betydelse ännu mer. De användes inte enbart för att träna astronauterna i sådant som stjärnnavigering, dockning i rymden, månlandning, mm., utan även för att t.ex. testa systemens tillförlitlighet, finslipa på procedurer, och samverkan med markpersonal. Men man förlitade sig till datorer i mycket liten utsträckning, och området datorgrafik var fortfarande tämligen outforskat. Figur 1.4 En av de tidigaste flygsimulatorerna (bild från 1910). Piloten fick träning i hur roderkontrollerna (de båda hjulen utmed sidorna) skulle användas för att hålla planet upprätt, och parera olika vindförändringar. ( 6

7 Figur 1.5 Ed Link s serietillverkade Aviation Trainer från tidigt 1930-tal. Det lilla planet vilade på 4 luftbälgar, och som med diverse orgelkomponenter kunde återskapa stigning, dykning, bankning etc. ( En mångsidig pionjär inom datorgrafiken, Ivan Sutherland, presenterade 1965 The Ultimate Display (se Figur 1.6), som bestod av två katodstrålerör som via speglar och okular visades framför ögonen. Den fick smeknamnet Damokles svärd 1 eftersom den var monterad på ett stort takupphängt stativ. Huvudrörelser detekterades elektromekaniskt av givare på stativet. Några år senare lyckades man göra den huvudburen, och därmed etablerades begreppet Head-Mounted Display (HMD)

8 Figur 1.6 Ivan Sutherland s Damokles svärd En föregångare till våra dagars Head Mounted Displays. På 1980-talet hade teknologin på olika nyckel-områden (datorgrafik, head-mounted displays, motion tracking, etc.) utvecklats så pass långt att det var möjligt för en grupp inom Human Factors Research Division på NASA att syntetisera ihop ett fungerande multimodalt koncept kallat Virtual Interface Environment Workstation (VIEW) (se Figur 1.7a). VIEW-konceptet bestod bl.a. av HMD, hörlurar, röststyrning, och Datagloves, dvs handskar med fiberoptiska trådar utmed fingrar som detekterar fingerrörelser (Fisher et al., 1986). I första hand avsågs nog Telepresence som det primära användningsområdet, dvs att kunna fjärrstyra en robot ute i rymden på ett sätt att operatören skulle få känslan av att vara där roboten är (se Figur 1.7b). På något sätt har nog VIEW-konceptet blivit en ikon för VR och det är denna typ av utrustning många människor tänker på när de hör begreppet VR. Dock anses det vara Jaron Lanier som något år senare lanserade begreppet Virtual Reality, och han hade också ett företag, VPL research Inc., som var en av de första att sälja sådana system. Under 80-talets senare del uppstod det en hel del hysteri kring VR. Det skrevs och rapporterades om denna nya teknologi på ett inte alltid så seriöst sätt. För en allmänhet som knappast visste så mycket om den tidens datorer och dess begränsningar var det svårt att skilja ut vad som var fantasirika visioner, och vad befintliga system de-facto kunde prestera. 8

9 Figur 1.7a NASAs Human Factors Research Division syntetiserade ihop ett multimodalt koncept kallat VIEW (Virtual Interface Environment Workstation), som bestod bl.a. av HMD, hörlurar, röststyrning, och Datagloves. Figur 1.7b Telepresence, att t.ex. kunna fjärrstyra en robot ute i rymden på ett naturligt sätt, och att operatören får en känsla av att vara där roboten är (bild fr. Fisher et al., 1986). En kort historik om AR Terminologin AR myntades först vid 1990 talet av Tom Caudell och David Mitzell. Tom Caudell jobbade för Boeings forskargrupp där han försökte med hjälp av VR teknik placera ut virtuella kablar som visade var sedan dem verkliga kablarna skulle dras. På det viset behövde inte ingenjörerna varken tolka eller titta på ritningar. Ungefär samtidigt, tog ett annat forskarlag från Columbia University fram en prototyp som de kallade för KARMA (Knowledge-based Augmented Reality for Maintenance Assistance), figur Figur 1-8. KARMA bestod av en HMD som med hjälp av trackers på skrivaren kunde visa 3D-grafik över hur man laddar och servar skrivaren utan att behöva läsa skrivarens manualer. Forskarlaget bestod av Steven Feiner, Blair MacIntyre and Doree Seligmann. 9

10 Figur 1-8 KARMA (Knowledge-based Augmented Reality for Maintenance Assistance). Steve Feiner et al. utvecklade (1997) även The Touring Machine som gav information till studenterna om campus. Systemet krävde att användaren gick runt med ryggsäck (Figur 1-). Figur 1-9 The Touring machine. Det var först i 2008 som AR tog ny fart då mobiltelefoner fick tillräcklig beräkningskapacitet som möjliggjorde användarna att få uppleva AR. Nu finns det många AR applikationer både för ios och Android. Steve Mann brukar refereras som father of wearable computing har byggt något han kallar för digital eye han undviker begreppet AR. Han brukar använda sig av begreppet Mediated Reality, som betyder möjligheten att lägga till, subtrahera information från, eller på annat sätt manipulera ens verklighetsuppfattning med hjälp av en bärbar enhet. 10

11 Figur 1-10 Steve Mann, digital eye från AR utrustning Hårdvaran som krävs för mobil AR börjar nu bli så pass kraftfull i förhållande till storleken, samtidigt som den blir billigare och mer spridd, att mobil AR verkligen är något som är på frammarsch i vardagen. Utvecklingen för hårdvara för mobil AR har gått från tung och otymplig utrustning placerad i en ryggsäck, till nutidens smartphones. Trots denna frammarsch av mobil AR har dem en del begränsningar som: Begränsad vy, att se världen genom en handhållen enhet är en oönskad begränsning som innebär att uppleva AR genom ett nyckelhål. Konstig interaktion, På samma sätt som de flesta människor skulle känna sig obekväma när man står i en offentlig plats och hålla upp en kamera framför dem under en längre tid, bör en AR användare inte behöva hålla en handhållen enhet framför dem. Det är både socialt oacceptabelt och ergonomiskt ohälsosamt. Nedsatt kvalité, Displayen som visar AR bilden är begränsad till kamera sensorns kvalité och hastighet. Att ha igång kameran drar dessutom mycket batteri. Vidare är kameran sämre än det mänskliga ögat för avkänning av världen omkring oss. Begränsad användning, Användaren måste aktivt initiera användningen av AR-applikationen och peka med enheten i önskad riktning för att det ska finnas någon AR information. Den här typen av användning resulterar endast i korta tidsperioder och endast när användaren har bestämt att hon/han skulle vilja veta mer om något. Därför anses AR kunna ge fullt utslag först då man går vidare i hårdvara utvecklingen till glasögon och/eller vidare till framtidsvisioner med kontaktlinser. Figurerna nedan1-11a-c visar en kort historik över utrustning för mobil AR. 11

12 Figur 1-11a Generation Kit Bag, för ca 20 år sedan. Figur 1-11b Generation Hand bag, från 2008 till nutid. Figur 1-11c Generation No bag bilden visar Google Glass. AR i framtiden AR är fortfarande i en tidig utvecklings fas som har väldiga möjligheter för framtida tillämpningar. Enligt Carmigniani et al. (2011) är MIT Media Lab-projektet "Sixth Sense ett av det bästa exemplet på AR forskning. Det erbjuder en värld där människor kan interagera med information direkt utan att kräva användning av någon mellanliggande enhet. 12

13 Parviz kontaktlins öppnar dörren till en miljö där information kan endast ses av användaren. Naturligtvis kan detta också göras genom att använda glasögon istället för kontaktlinser, men fördelen med båda fallen över att använda en mobiltelefon är att ingen annan än användaren kan se informationen som projiceras, vilket gör det mer personligt. Cisco har föreställt en värld där AR kunde användas för att ersätta de traditionella provrummen genom att låta personer prova på virtuella kläder, vilket sparar tid och ger möjlighet att prova mer kläder, vilket ökar chansen för butiker att sälja mer. AR ger också möjligheten att förbättra sinnen som saknas eller är nedsatta för vissa användare. Till exempel, kan AR användas som en sensorisk anordning, hörselskadade användare kan få visuella ledtrådar som informerar dem om missade ljudsignaler och blinda användare kan få audiella ledtrådar som meddelar dem om okända visuella händelser. Fortfarande ligger störst fokus på teknikutvecklingen och det finns ett gap efter forskare som tittar på interaktions design, mänskliga faktorer och vad vanliga användare kommer att vilja använda AR för. Mycket fokus ligger dessutom på det visuella även om ljud har nämnts så bör man nyttja fler modaliteter så som haptik. VR-/AR-system och dess kännetecken Definitionen av VR i början av detta kapitel är mycket allmänt formulerad. Det medför att man kan ha en ganska öppen syn på hur ett VR-system ska se ut, och att det kan vara uppbyggt av komponenter och mjukvara med mycket varierande egenskaper. Hårdvaran kan bestå av allt från dataspelskomponenter för några hundralappar till enormt sofistikerade simulatorer för hundratals miljoner kronor. Istället för att fokusera på vilka komponenter som ingår, så kan det vara intressant med en mera övergripande betraktelse. Principiellt kan ett VR-system beskrivas som en sluten interaktions-loop mellan en användare och ett VR-system (se figur 1.12). Handlingar som användaren utför, ska kunna registreras och tolkas av systemet. Systemet ska sedan ge en återkoppling, baserat på de regler och fysiklagar som ställts upp i den virtuella miljön. Denna återkoppling bör helst ges multi-modalt, dvs via flera kanaler i form av visuell, audiell och haptisk information tillbaka till användaren. Dessutom är det synnerligen viktigt att denna återkoppling kan ges inom ett visst tidsintervall. Redan några tio-tals millisekunders fördröjning mellan en handling, t.ex. att vrida på en ratt, och visuell återkoppling där man kan se att man svänger, försämrar känslan av trovärdighet. Vid ännu längre tidsfördröjningar, tappar man efterhand styrförmågan helt och hållet. 13

14 Tracking & övrig input Återkoppling: visuell, audiell, haptisk, etc. Figur Principiell funktion av ett VR-system. En sluten loop där handlingar som användaren utför registreras och tolkas av systemet, och som sedan ger en återkoppling, helst via flera modaliteter. Tidsfördröjningar mellan handling och återkoppling börjar bli förnimbara vid ms. Ännu längre tidsfördröjningar ger successivt sämre trovärdighet och kontrollförmåga. Mänsklig perception och dess utmaningar Detta kompendium omfattar inte några djupare redogörelser för kognitiva processer och perception. Men egentligen är bakgrundskunskaper i dessa områden synnerligen viktiga, eftersom VR strävar efter att ge en illusion av verklighet. Hur långt kan vi egentligen komma i att erbjuda en användare upplevelsen av en alternativ verklighet? Man inser direkt att VR-teknologin av idag har stora brister och att utmaningarna är enorma. Två grundläggande aspekter är: 1. Vi människor använder oss oftast av flera olika typer av sinnesintryck samtidigt. Således bör ett VR-system kunna ge användaren stimuli via flera kanaler, eller modaliteter. Aristoteles klassiska kategorisering av våra sinnen är: syn, hörsel, känsel, lukt och smak. Men exempelvis känsel -sinnet består egentligen av ett flertal ganska funktionellt och anatomiskt väldigt olika organ och receptorer, varav de som kan vara relevanta i VR-sammanhang är: Taktila systemet. Olika typer av receptorer i huden för tryck, drag, vibrationer, temperatur, samt hårrörelser. 14

15 Proprioceptiva systemet. Receptorer i muskler och senor som ger information om kroppsställning, och muskelbelastning. Vestibulära systemet. Organ i innerörat som kan liknas vid accelerometer- och gyro-sensorer. Dessa organ ger information om rörelseförändringar, samt huvudets lutning. Aristoteles kände inte heller till så mycket om den komplexa samverkan mellan olika sinnen. Ta som exempel vår balans: här samverkar synen och vestibulära systemet, tillsammans med taktil och proprioceptiv information. I många situationer blir dock ett eller ett par sinnesintryck de dominerande och resterande stimuli blir redundanta. I designen av ett VR-system kan man behöva göra ett urval av lämpliga modaliteter, beroende på vilken tillämpning som avses. 2. VR-system bör designas utifrån insikter om hur vår perception används, och hur den har utvecklats. James J. Gibson stiftade termen ecological psychology för att kunna ge en mera evolutionär förklaringsmodell till vår perception (1979). Gibson betonar hur alla djurs perception har utvecklats genom evolution i samklang med förutsättningarna i omgivningen. Det har t.ex. resulterat i att flyttfåglar har receptorer för det jordmagnetiska fältet, och att valar har en sonar. I tidigare teorier, beskrevs ofta perception som ett separat passivt mottagande av sinnesintryck, med fokus på informations-behandlingen. Enligt Gibson däremot, är nästan allt vi gör ett utforskande och en interaktion med vår omgivning. Perception är därmed naturligt kopplad till motoriska handlingar (som kan vara reflexer, eller mer eller mindre medvetna beteenden). Enbart ett nervstimuli leder inte nödvändigtvis till perception. Punkt 2 ovan indikerar vikten av att en bra VR-miljö måste fungera som ett closedloop system, och reagera på samma sätt som en riktig miljö. Det verkar ju onekligen som ett omöjligt företag att försöka uppnå en virtuell värld som kan motsvara en interaktion som i den riktiga världen. Enbart problemen med temporala anomalier, såsom exempelvis tidsfördröjning, är något som kraftigt försämrar känslan av verklighet. Just på grund av att vår perception är så sofistikerad så kanske kan VR-teknologin aldrig helt uppfylla visionerna och förväntningarna som förmedlats i media, sciencefiction litteratur och filmer. Den totala out-of-body-illusionen att befinna sig i en annan värld kanske alltid förblir en dröm (eller mardröm). Således, för att VR-tekniken ska bli praktisk och tillämpbar behövs bl.a. - En väl avvägd ambitionsnivå över hur naturtrogen interaktionen behöver vara - En vidsynt tolkning över vad som utgör ett VR-system. - Fokusera på tillämpningarna, den praktiska nyttan, och inte göra ett VR-system mer komplicerat än vad som krävs. Tillämpningsområden för VR Nedanstående uppräkning gör inte anspråk på att vara fullständig, utan de får snarare ses som exempel på användningsområden. 15

16 Visualisering & gestaltning. Inom arkitektur och design är det en fördel att kunna visualisera/gestalta sådant som ännu inte existerar. Exempelvis kan det vara svårt för lekmän att tillgodogöra sig information från en traditionell ritning. Simulering och träning. T.ex. trafiksimulering, förarutbildning, träningsmoment inom vården. Rehabilitering. T.ex. kartläggning av hjärnskador eller balansproblem, träning av vardagliga sysslor för att återhämta sig efter en stroke. Arkeologi och historia. Att återskapa och levandegöra historiska föremål och miljöer. Man kan t.ex. presentera ett föremål i sin kontext, eller vandra runt i en forntida by. 16

17 Participativ Design. Ett medium för kommunikation och diskussion under en designprocess. Man kan göra ändringar direkt, och arbeta runt flera alternativ, och därmed öka inflytandet hos berörda deltagare. Man behöver kanske inte ens träffas fysiskt. Ny interaktionsteknik, nya industriella applikationer. T.ex. Augmented reality, interaktiva manualer, autonoma agenter, fjärr-manipulering. Spel & infotainment. Förutom dagens enorma utbud av spel, så finns det stor potential för marknadsföring, infotainment, och interaktiv försäljning. Det finns idag flertalet webbaserade VR-verktyg, t.ex. för att välja färg och tillbehör till en ny bil. Tillämpningsområden för AR Möjligheterna är många för att använda AR på ett innovativt sätt. Det behöver inte vara fotorealism på 3D-grafiken, AR-applikationer kan bestå av enkla pilar för att visa 17

18 riktning eller text som ger hjälpfull information. Nedan nämns fem typer av tillämpningar som oftast används inom AR forskning: marknadsföring, underhållning, utbildning, medicin och mobila applikationer för smartphones. Dessutom diskuteras också de utmaningar som AR står inför för att kunna gå från laboratoriet till industrin. Marknadsföring AR används mest av marknadsförare för att visa nya produkter online. De flesta tekniker använder markörer som användarna måste hålla framför sin webbkamera. Till exempel, körde bilföretaget MINI en AR annons i flera tyska bil tidningar i december 2008, MINI. Läsaren behövde helt enkelt gå till MINI webbplats och hålla upp annonsen framför sin webbkamera och en 3D MINI dök upp på skärmen (Figur 1.13). Figur 1.13 MINI reklam. AR är även bra för att bygga billiga, flexibla prototyper som annars är väldigt kostsamma. Det är en väldigt kostsam process för industrin att tillverka en produkt före kommersialisering och undersöka om produkten uppfyller förväntningarna. En grupp av Institute of Industrial Technologies och Automation (ITIA) av det nationella rådet för forskning (CNR) Italien i Milan arbetar med AR och VR-system som ett verktyg för att stödja virtuella prototyper. Några exempel på tillämpade forskningsprojekt där ovanstående teknik har tillämpats är motorcykel prototyper, virtuell layout av en fabrik och ett kontor, virtuell ljus simulering och virtuella prova på skor (Figur 1.14) med Magic Mirror gränssnittet. 18

19 Figur 1.14 Användare provar på virtuella skor framför Magic Mirror. Liknande exempel på Magic Mirror kan användas för att prova på något i butikerna, som t.ex. kläder (skjortor, klänningar, klockor, byxor, etc.) vilket sparar avsevärd tid för kunder. Underhållning och utbildning Underhållnings och utbildnings applikationer omfattar kulturella applikationer dvs. sightseeing, museum och även för att rekonstruera antika ruiner (Figur 1.15), traditionella spelapplikationer med AR-gränssnitt, och smartphone applikationer som använder sig av AR gränssnitt för att utbilda, underhålla eller hjälpa. Figur 1.15 AR vy av Dashuifa. 19

20 Det finns en del AR system som används för att vägleda och informera personer i Museum. Det anses vara mer effektiv kommunikation med användaren då multimedia presentationer används. En handhållen skärm är mer intuitiv och naturlig att interagera med än att leta upp ett nummer slumpmässigt till ett objekt i en skriftlig liten guide, särskilt om användaren kan använda hans/hennes egen telefon. Dessutom kan användare lättare komma ihåg multimedia presentationer och blir mer villig att lyssna, titta och/eller läsa. Inom utbildningsområdet kan AR också användas för ett lärande syfte. Till exempel, har Mark Billinghurst et al. (2001) utvecklat Magic bok, en bok vars sidor införlivade enkel AR-teknik för att göra läsningen mer fängslande. AR spelapplikationer som utnyttjar den verkliga miljön, naturliga gester och som dessutom är lätt att relatera med verkliga situationer kan vara väldigt kul och spännande upplevelse. Exempel på AR spel är NerdHerder som finns både för ios och Android telefoner. Tyvärr behöver man markörer för dem flesta av dagens AR spel. Medicinska tillämpningar De flesta av de medicinska tillämpningarna behandlar bildstyrd och robot-assisterad kirurgi. AR kan appliceras så att det kirurgiska laget kan se bilddata i realtid medan proceduren pågår. Bichlmeier et al. (2007) införde ett AR-system för visning genom den "riktiga" huden på en virtuell anatomi med polygonala ytmodeller som möjliggör realtids visualisering. Författarna har även utvecklat AR system som vid navigering av kirurgiska verktyg utökar läkarens uppfattning var i kroppen man är under kirurgi. AR kan också användas för att hantera kundernas sjukdomshistoria. Tänk om alla läkare kunde se patientens sjukdomshistoria genom att sätta på en HMD och se virtuella etiketter som visar patientens tidigare skador och sjukdomar. Juan et al. (2004) har utvecklat ett AR system för att hjälpa patienter bekämpa fobi för kackerlackor, vilket visar att AR kan användas för att behandla även psykiska besvär. Dessutom, kan AR användas för att hjälpa de synnedsatta, genom AR navigering. Hara et al. (2010) har utvecklat ett sådant system med multimodal återkoppling för utökad navigering för synskadade. Anordningen bestod av en Wii handkontroll som gav ljud och haptisk feedback. Handkontrollen fungerade som ett vägledande verktyg och varnade användaren då man var nära väggar och andra hinder. Det finns en hel del utmaningar kvar speciellt med HMDs som är att föredra vid medicinska tillämpningar eftersom den tillåter läkaren att använda båda händerna. Utmaningar såsom klumpiga HMDs och korrekt placering av virtuella objekt så att en kirurg ska fortfarande kunna se sina verktyg genom de projicerade bilderna. En annan möjlig typ av display som kan användas skulle vara en stor skärm placerad i rummet synlig för hela kirurgiska teamet. Då skulle hela teamet kunna se samma sak samtidigt men då måste kirurgen titta på både skärmen och patienten. 20

21 Mobila tillämpningar Det finns redan många AR mobila applikationer för ios och Android. Exempel på mobila AR applikationer är ionroad, där idén är att applikationen skall vara ett par extra ögon som har kontroll över vägen t.ex. varnar ionroad om man närmar sig bilen framför. Andra populära befintliga program för smartphones baseras på t ex. Junaio eller Layar, med dessa kan man välja kanaler som är intressanta. En kanal kan vara restauranger, en annan kanal kan vara affärer etc. Dessa applikationer använder inte någon teknik för bildanalys, utan utnyttjar enbart sensorer såsom GPS och kompass för att fastställa position och riktning. TAT (The Astonishing Tribe) numera RIM har utvecklat den uppseendeväckande prototypen TAT augmented ID (Figur 1.16), som snart sägs bli en färdig applikation. Figur 1.16 TAT augmented ID, baseras på mjukvara för ansiktsigenkänning från Polar Rose. En annorlunda mobil applikation som egentligen gör precis det motsatta av AR, istället för att förstärka så tar man bort saker från verkligheten (Diminished Reality), se video klipp från Scalado numera Microsoft (Figur 1.17). Video klippet visar en person som tar ett foto men samtidigt finns det personer som passerar som oönskat kommer med i bilden. Detta lösas genom att man klickar bort det man vill ta bort. Figur 1.17 Diminished Reality av Scalado. 21

22 Rekommenderad läsning Kapitel 1 i The Handbook of Virtual Environments, 2002, Kay Stanney (ed), Lawrence Erlbaum. Isdale, J., 1998, What is VR? Kalawsky, R., 1993, The Science of Virtual Reality and Virtual Environments, Addison Wesley. Rheingold, H., 1991, Virtual Reality, Secker and Warburg, London. Wilson, J.R., D Cruz, M., Cobb, S. and Eastgate, R., 1996, Virtual Reality for Industrial Applications, Nottingham University Press. Referenser Fisher, S. S., McGreevy, M., Humphries, J., Robinett, W., "Virtual Environment Display System," ACM 1986 Workshop on 3D Interactive Graphics, Chapel Hill, North Carolina, October 23-24, Gibson, J.J., 1979, The Ecological Approach to Visual Perception Bichlmeier, C, Wimmer, F, Heining, S. M, Navab, N, Contextual Anatomic Mimesis: Hybrid In-Situ Visualization Method for Improving Multi-Sensory Depth Perception in Medical Augmented Reality, IEEE, Billinghurst, M, The MagicBook: A Transitional AR Interface, Ivan Poupyrev, Bruns, E, Brombach, B, Zeidler, T, Bimber, O, Enabling Mobile Phones To Support Large-Scale Museum Guidance, Multimedia, IEEE, vol.14, no.2, pp.16 25, April- June Carmigniani, J, Borko, F. Handbook of Augmented Reality, Springer Science+Business Media, LLC 2011, pp Costanza, E, Inverso, S. A, Pavlov, E, Allen, R, Maes, P, eye-q: Eyeglass Peripheral Display for Subtle Intimate Notifications, Mobile HCI 2006, September, 13 15, Feldman, A. Tapia, M, E, Sadi, S., Maes, P., Schmandt, C., ReachMedia: On-the-move interaction with everyday objects, ISWC, pp.52 59, Ninth IEEE International Symposium on Wearable Computers (ISWC 05), Geekology, Cool: Augmented Reality Advertisements, Dec

23 Handheld Augmented Reality, ar/stbtracker.php, Studierstube Tracker, Hara, M, Shokur, S, Yamamoto, A, Higuchi, T, Gassert, R, Bleuler, H, Virtual Environment to Evaluate Multimodal Feedback Strategies for Augmented Navigation of the Visually Impaired, 32nd Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC 10), Buenos Aires, Argentina, September 1 4, Juan, M.C. Botella, C, Alcaniz, M, Banos, R, Carrion, C, Melero, M, Lozano, J.A, An augmented reality system for treating psychological disorders: application to phobia to cockroaches, Mixed and Augmented Reality, ISMAR Third IEEE and ACM International Symposium on, vol., no., pp , 2 5 Nov Kato, H, Billinghurst, M, Poupyrev, I, Imamoto, K, Tachibana, K, Virtual Object Manipulation on a Table-Top AR Environment, ISAR 00, , Lee, J, Lee, S, Park, S, LeeS, Choi, J, Kwon, J, Design and implementation of a wearable AR annotation system using gaze interaction, Consumer Electronics (ICCE), 2010 Digest of Technical Papers International Conference on, vol., no., pp , 9 13 Jan MINI, Mistry, P, Kuroki, T, and Chuang, C, TaPuMa: Tangible Public Map for Information Acquirement through the Things We Carry, MIT Media Lab, Ambi-sys 08, February Mistry, P, Maes, P, Chang, L, WUW Wear Ur World A Wearable Gestural Interface, ACM, CHI 2009, Boston, April 4 9, Parviz, B. A, Augmented Reality in a Contact Lens ( IEEE Spectrum, September Reitmayr, G, Schmalstieg, D., Location based Applications for Mobile Augmented Reality, AUIC2003, Schmalstieg, D, Fuhrmann, A, Hesina, G, Bridging Multiple User Interface Dimensionswith Augmented Reality, IEEE, Schmalstieg, D, Fuhrmann, A, Hesina, G, Zsalavari, Z, Encarnacao, M, Gervautz, M, Purgathofer, W, The Studierstube Augmented Reality Project, Presence, Vol. 11, No. 1, February 2002, 33 54, Massachusetts Institute of Technology, Sorce, S, Augello, A, Santangelo, A, Gentile, A, Genco, A, Gaglio, S, Pilato, G, Interacting with Augmented Environments, IEEE Pervasive Computing, vol. 9, no. 2, pp , Apr.-June 2010, doi: /mprv

24 2. Visuell modalitet Inom Virtual Reality, så kan man nog tryggt påstå att synen är det sinne som man mest har uppmärksammat, och lagt mest energi på att försöka tillgodose med riklig stimuli. Trots det, i jakten på den perfekta visuella illusionen så återstår det hel del utmaningar (som kanske aldrig går att lösa). Vårt visuella system Ögats uppbyggnad Ögat kan liknas vid en kamera där objektivet motsvaras av hornhinnan och linsen, bländaren motsvaras av iris, och filmen motsvaras av näthinnan (se Figur 2.1). Figur 2.1 Ögats anatomi (bild från Näthinnan sitter längst bak i ögat och består av synceller som överför ljuset via en fotokemisk process till elektriska signaler som senare tolkas av hjärnan. Det finns två typer: tappar och stavar. Tapparna finns framför allt i gula fläcken (macula), där de sitter mycket tätt. Gula fläcken är en mycket liten del av näthinnan, ca 3mm i diameter. Tapparna är inte lika ljuskänsliga som stavarna men de finns i tre sorter som är känsligast i lite olika våglängder: rött, grönt och blått. Stavarna däremot är mycket ljuskänsliga men kan inte urskilja färger. De finns över hela näthinnan, utom i gula fläcken. Det område där näthinnan övergår till synnerven finns inga synceller alls, och kallas blinda fläcken. Ett friskt öga har ett synfält som omfattar cirka uppåt, nedåt och åt näsan, samt cirka utåt det vill säga i riktning mot tinningarna. Det är värt att notera vilket enormt spann i ljusintensitet som ögat kan urskilja: uppåt en faktor Detta är möjligt tack vare 3 olika adaptionsmekanismer: iris reglerar öppningsarean, neural adaption 2, och adaption av tapparnas pigment-koncentration

25 En vanlig bildskärm kan som jämförelse återge intensitetsvariationer i storleksordningen Fovea centralis är en fördjupning i gula fläcken, ca 1.5 mm i diameter, och detta är platsen för vårt detaljseende eftersom tapparna sitter extremt tätt här. Trots att fovean bara motsvarar en bråkdel av vårt totala synfält (med en synvinkel på mindre än 2 ), så är omkring 10 % av synnerverna knutna till fovean. Således så ser vi skarpast och med bäst färgåtergivning i ett mycket koncentrerat, centralt område, och resten av synfältet är mest till för att förnimma ljus och rörelser. Varför är det såhär? Jo, man kan säga att naturen har löst ett bandbreddsproblem: Om vi skulle ha lika stor koncentration av receptorer över hela näthinnan så skulle synnerven vara tjockare än ögat självt, och vi skulle antagligen behöva en större hjärnvolym. Vissa djur har utvecklat andra former på fovean, t.ex. utsträckt i horisontalled för att bättre kunna överblicka en horisontlinje. Visuell perception Om det nu stämmer att synvinkeln där vi ser skarpt bara är 2, hur kommer det då sig att vi upplever det som om att vi ser skarpt i hela vårt totala synfält? Svaret är att näthinnan och synnerven bara är en del i det komplexa system som utgör vår visuella perception. Enligt Gibson (1979), är perception nära kopplat till ett utforskande och en interaktion med vår omgivning. Synorganet är, precis som i annan perception, naturligt sammanlänkat till beteenden och reflexer. De slutliga synintryck vi får i våra hjärnor är resultat av bl.a. flera motoriska handlingsmönster, som antingen kan vara autonoma, eller delvis styrda av medvetandet. Här är några exempel: - Fixation. Vår blick stannar till vid en enskild fixeringspunkt i synfältet som då träffar fovea centralis. Fixeringarna varar cirka ms, men vi tenderar att fixera en längre tid om punkten är mer informativ än om den inte är det. - Saccader. Fixeringen avbryts med en snabb förflyttning till en annan fixeringspunkt. En saccad är den snabbaste rörelse vår kropp kan utföra (ca 700 /s), och de varar mellan ms. Under denna tidsperiod tar vi inte in någon syninformation. Denna tillfälliga blindhet är dock vår hjärna duktig på att sopa igen spåren av (på liknande sätt som vi nästan aldrig blir medvetna om när vi blinkar). - Följerörelser (smooth pursuit). Vår blick kan följa ett rörligt objekt med närmast perfekt matchande ögonrörelser. Alternativt, när vi själva är i rörelse kan vi fixera på en specifik punkt. - Ackommodation. Detta är en mekanism för att kunna justera brytningen på infallande ljus så att fokus hamnar på näthinnan, och man därmed får optimal synskärpa. Genom att linsens kant är förbunden med trådar till en omkringliggande, ringformad muskel, så kan linsen sträckas ut och därigenom förändras det fokala djupet. (Tyvärr förlorar vi denna förmåga vid stigande ålder, eftersom linsens elasticitet avtar successivt). - Vergens. För en fixeringspunkt som ligger nära oss, har vi god nytta av vergens, dvs att muskulatur runt ögonen gör att de kan konvergera så att samma fixeringspunkt hamnar i fovea centralis för båda ögonen (figur 2.2). 25

26 Figur 2.2 Vergens. Spatiala tolkningar Genom hela vår evolution har det varit livsavgörande att kunna göra en korrekt bedömning av olika objekt i omgivningen, till exempel med avseende på dess avstånd, storlek och rörelse. Det bör understrykas att det absolut inte är enbart synen som förser oss med stimuli för spatiala tolkningar. Men vanligtvis, om vi kan använda synen i en viss situation, så blir detta oftast det dominerande sinnet. Vår förmåga att bedöma storlek/avstånd i djupet baseras på flera olika ledtrådar, s.k. depth-cues. Man brukar skilja på två typer: binokulära och monokulära. Binokulära cues är de ledtrådar som vi får på grund av att vi har två ögon. Eftersom ögonen sitter ganska nära varandra (centrumavstånd ca 6 cm), så är binokulära cues egentligen bara effektiva på relativt nära håll, upp till ungefär 30 m. Retinal disparity. Ögonens inbördes avstånd ger upphov till att det som avbildas på höger respektive vänster näthinna är en aning olika. Ju närmare objektet befinner sig ögonen, desto mer olika blir bilderna på höger respektive vänster näthinna (se figur 2.3). Vergens. Ju närmare ett objekt befinner sig, desto mer måste vi konvergera med ögonen (se figur 2.2). Vårt binokulära seende ger oss förvisso djupseende, men egentligen erbjuder det inte så särskilt starka cues till en mer noggrann avståndsbedömning. Det är snarare 26

27 kognitiva processer baserat på ackumulerade synintryck, såsom monokulära cues, som ger det största bidraget till avståndsbedömning. Figur 2.3 Retinal disparity. Monokulära cues kallas ibland även pictorial cues, och det räcker med ett öga för att uppfatta dem. De 7 klassiska monokulära cues man vanligtvis brukar man räkna upp är följande: Perspektiv (linear perspective). Med våra ögon betraktar vi omvärlden med en perspektiv-projektion. Med ökande avstånd så ser parallella linjer (t.ex. en järnvägsräls) ut att konvergera till en punkt i fjärran (vanishing point). Vid en ortografisk avbildning saknas denna konvergens, och information om djup kan bli svårt, ibland omöjligt att tolka (se Figur 2.4). Överlagring av konturer (interposition & occlusion). När objekt är ogenomskinliga så kommer de att blockera de objekt som befinner sig längre bort från betraktaren (se Figur 2.5). Relativ storlek. Ett objekts relativa storlek i bilden jämfört med likadana objekt ger oss information om hur långt bort från oss objektet är (se Figur 2.6). Relativ höjd. Ett objekts relativa höjd i bilden tolkas hur nära det ligger horisonten. För objekt nedanför en horisontlinje så verkar högre positionerade objekt som är längre bort. För objekt som befinner sig ovanför horisonten är det tvärtom (se Figur 2.7). Textur-gradient. De flesta objekt har någon slags textur på sin yta. Man kan avgöra hur en yta är lutad mot betraktaren genom att texturens täthet förändras. 27

28 Tätheten ökar med avståndet, dvs. ju högre täthet desto mer avlägsen (se Figur 2.8). Skuggor och belysning. En ljuskälla som belyser ett objekt ger ledtrådar om dess form, och skuggan ger ledtråd om avstånd till omkringliggande objekt (se Figur 2.9). Atmosfäriskt perspektiv. Ljuset som reflekteras från objekt sprids och absorberas i partiklarna i det medium som det färdas i. Detta gör att näraliggande objekt förefaller att vara ljusare och skarpare och att de dessutom har mer mättade färger än objekt som befinner sig längre bort (se Figur 2.10). Figur 2.4 Perspektiv (linear perspective). Vänster bild återger en liggande rektangel i en ortografisk projektion. Det går inte att se att rektangeln faktiskt ligger ned. Höger bild, däremot, återger samma rektangel med en perspektivprojektion. Med ökande avstånd så ser parallella linjer ut att konvergera till en punkt i fjärran (vanishing point). Figur 2.5 Överlagring av konturer (interposition & occlusion). Vänster bild visar två rektanglar som en trådmodell (wire-framed). Det är svårt att avgöra vilken av rektanglarna som är närmast. Höger bild visar shaded view. Därmed ser man att röd rektangel blockerar den gröna, och således är den röda närmast betraktaren. 28

29 Figur 2.6 Relativ storlek. Erfarenhetsmässigt vet vi ungefär hur stort ett objekt av en viss typ är. I en bild ger ett objekts relativa storlek i förhållande till annat oss information om avstånd. Den högra tekannan verkar vara längre bort. Figur 2.7 Relativ höjd. Ett objekts relativa höjd i bilden tolkas hur nära det ligger horisonten. För objekt nedanför en horisontlinje så verkar högre positionerade objekt som är längre bort. För objekt som befinner sig ovanför horisonten är det tvärtom. Figur 2.8. Textur-gradient. Vänster bild visar en texturerad yta rakt framifrån. Då får man inga ledtrådar om djup i bilden. Höger bild visar samma yta, men aningen roterad. Då kan man med hjälp av täthetsgradienten se att högra änden är längre bort. 29

30 Figur 2.9. Skuggor och belysning. En ljuskälla som belyser ett objekt ger ledtrådar om dess form, och skuggan ger ledtråd om avstånd till omkringliggande objekt. Bilden till vänster visar en scen utan skuggor, vilket gör det svårt att avgöra tekannornas position och storlek. Högra bilden visar samma scen med skuggor. Då får man en helt annan information: högra tekannan är närmre, har höjd över marken, samt är mindre. Figur Atmosfäriskt perspektiv. Ljuset som reflekteras från objekt sprids och absorberas i partiklarna i det medium som det färdas i. Detta gör att näraliggande objekt förefaller att vara ljusare och skarpare och att de dessutom har mer mättade färger än objekt som befinner sig längre bort. Alla de depth-cues som har presenterats hittills har byggt på statiska scener och stillastående observatörer. Men information om djup erhåller vi även genom t.ex. parallaxförändring eller rörelseparallax. Gemensamt med många djur, så har vi ett väl intrimmat beteende att flytta på huvudet, eller hela kroppen, för att få en alternativ projicering av omgivningen på våra näthinnor. Genom denna projektionsskillnad framträder de mest närliggande objekten som de som förflyttat sig mest på våra näthinnor. Ett exempel på utnyttjande av rörelseparallax var de små spelkonsoller som blev populära på 80-talet. De var alldeles för primitiva för riktig 3D-grafik. Istället så visade man scenen i en ortografisk sid vy. För att ge en djupkänsla, behöver man då låta olika lager av objekt röra sig olika snabbt över scenen. Närliggande objekt förflyttar sig snabbt, medan objekt i bakgrunden rör sig långsamt (se figur 2.11). 30

31 Figur 2.11 Nintendo s Super Mario. Ortografisk sid vy som följer med huvudpersonen. Närliggande objekt förflyttar sig snabbt, medan objekt i bakgrunden rör sig långsamt. Vection & Optic flow Vection (även self-motion illusion ) är illusionen av att vara i rörelse som framkallats av enbart visuell stimuli. Ett vanligt exempel är att sitta på ett stillastående tåg och ett tåg på spåret bredvid börjar röra sig. Då får man känslan av att man själv rör sig. Denna illusion ger en ledtråd om hur viktigt visuell stimuli är för rörelse- och hastighetsuppfattning. En mycket grundläggande funktion (även insekter använder sig av detta) är något som kallas optiskt flöde (optic flow). Varseblivelse av färdriktningen bestäms av att i denna punkt i synfältet förändras bildinformationen minimalt ( focus-of-expansion"). Utifrån denna punkt rör sig visuella objekt med stigande hastighet mot periferin. Avvikelser från ett jämnt optiskt flöde kan man då enkelt identifiera som eventuella objekt man måste väja för. Display-teknologi Med ovanstående genomgång av vårt visuella system, så kan man lätt inse svårigheterna med att försöka framställa artificiella visuella stimuli. Kort sagt: idag finns inte tekniken för att framställa en fullständig visuell illusion. För att uppnå det behöver man förmodligen koppla in sig på synnerven direkt, eller bära ett par bildskärmar som kontaktlinser. Idag finns det även olika lösningar för volumetriska displayer (populärt kallat holografi-tekniker), men dessa kan bara presentera ett objekt i en begränsad storlek (se Figur 2.12). Än så länge är det långt kvar till Star Trek s Holodeck. 31

32 Figur 2.12 Volumetrisk display från Actuality Systems Inc. Inne i glaskupan roterar en spegel mycket snabbt. När den projiceras med laser från olika vinklar, uppnås en illusion av holografi. Således, om vi vill visa en 3D-miljö, så är vi än så länge hänvisade till en eller flera 2- dimensionella projektioner. De tekniska utmaningarna för att få dessa 2D-projektioner att exakt motsvara det som en verklig omgivning avbildar på näthinnan är många. Här följer några av utmaningarna: - Synfältet. Detta bör omfatta omkring 180 i horisontalled. Detta är svårt att tillgodose med en enstaka, plan projektionsyta. Närvarokänslan kan förbättras genom flera vinklade projektionsytor, alternativt en krökt, konkav projektionsyta. - Huvudrörelser. Parallax-förändringar orsakade av huvudrörelser hjälper oss att avgöra hur närliggande ett objekt är. En korrekt 2D-projektion behöver därför kontinuerligt mäta in betraktarens huvudposition och kompensera för dessa rörelser. - Stereoskopi. Binokulära effekter såsom retinal disparans och vergens ger oss ett stereoseende som är speciellt effektivt i ett närområde. Hur man kan göra detta med olika tekniker beskrivs i steroskopi-avsnittet. Figur 2.13 ger exempel på några olika display-produkter, som alla har sina fördelar respektive nackdelar. Från övre vänstra hörnet: - Tre eller fler separata bildskärmar. - Display-vägg där flera projektorer samverkar med hjälp av edge-blending 3. - Head-Mounted Display (finns i många utföranden). - Konkav display-vägg. - Parabolisk display (Elumens Vision-station). - CAVE, ett omslutande rum som utgörs av 3-4 väggar och ibland även golv och tak

33 Figur 2.13 Några olika display-produkter, som alla har sina fördelar respektive nackdelar. T.ex. är produkterna i den vänstra kolumnen avsedda för en person åt gången. Bildskärmar Det finns tre huvudsakliga typer av bildskärmar som används inom AR: Head Mounted Display (HMD), handhållna skärmar och rumsliga skärmar (Spatial displays). HMD är en bildskärm som bärs på huvudet och kombinerar bilderna av den verkliga och virtuella miljön över användarens syn på världen. HMD för AR kan antingen vara video see-through eller optical see-trough (Figur 2-14). 33

34 Figur 2-14 Bilden visar skillnaden mellan video see-through och optisk see-through skärmar. Video see-through system är mer krävande än optisk see-through system eftersom de kräver att användaren bär på minst en men ofta två kameror på huvudet och kräver behandling av båda kamerornas bild för att kunna återge både den "verkliga delen" av den utökade scenen och de virtuella objekten. Optisk see-through däremot använder en halv-silver spegel-teknik som låter den fysiska världen att passera genom glaset/linsen utan bearbetning och projicerar de grafiska virtuella objekten på spegeln som i sin tur återspeglas i användarens ögon. Scenen liksom den verkliga världen uppfattas mer naturlig med optisk see-through än med video see-through. Å andra sidan, med video see-through system är den utökade bilden redan utarbetad och tillåter därmed mycket större kontroll över resultatet. Således kan kontroll över tidpunkten för verklig scen uppnås genom att synkronisera den virtuella bilden med scenen innan den visas. Medan med en optisk see-through kan den verkliga världen inte fördröjas, så tidsfördröjningen som införs i systemet av grafik och bildbehandling uppfattas av användaren. Detta resulterar i att bilden inte är fäst med det verkliga objektet vilket i sin tur upplevs vara instabil, jittering eller som om virtuella objekten svävar omkring. Exempel på glasögon som är ute och säljs är Epson Moverio BT-200 (Figur 2-15) och Vuzix M100 (2-16) båda är väldigt likt till utseendet Google Glass (Figur 1-11c). Figur 2-15 Epson Moverio BT-200 (optisk see-through) glasögon. 34

35 Figur 2-16 Vuzix M100 (video see-through) glasögon. Figur 2-17 SAR, rumslig skärm. Spatial AR (SAR) använder sig av video-projektorer, optiska element, hologram, radio frekvens taggar, och andra spårningsmetoder för att visa grafisk information direkt på fysiska objekt utan att användaren behöver ha på sig eller bära displayen (Figur 2-17). Rumsliga displayer separerar AR tekniken från användaren och integrera den i omgivningen istället. 35

36 Olika tekniker för stereoskopi Med stereoskopi menas att artificiellt återskapa upplevelsen av retinal disparans (se Figur 2.3). Det finns många olika tekniska lösningar för att åstadkomma detta. Följande tekniker är vanliga inom VR: - optisk separation - aktiv stereo - anaglyfisk separation - polariserad separation - autostereo-displayer Optisk separation Med optisk separation menas att man genom linser, prisman, speglar, etc., optiskt avskiljer synfältet för höger respektive vänster öga. Därmed kan man visa två separata bilder som motsvarar den retinala disparansen. Detta presenterades första gången redan 1838 av Sir Charles Wheatstone. Stereoskopen blev sedermera enkelt utformade med ett par linser, en skiljevägg och en hållare för bild-paret, och stereofotografering fick ett stort genomslag under 1800-talets senare hälft (se Figur 2.18). Det har också använts flitigt vid flygfotografering sedan andra världskriget. Figur 2.18 T.v. ett stereoskop i ett vanligt 1800-tals utförande, bestående av ett par linser, en skiljevägg och en hållare för bild-paret. T.h. View-master, en mycket populär produkt på 60-och 70- talet. Idag används många olika typer av display-lösningar för optisk separation. Figur 2.19 visar två varianter. Men den mest förekommande är den huvudburna varianten. Vi kallar det Head-Mounted Display (HMD) i brist på ett bra svenskt ord. I VR tillämpningar finns det flera uppenbara fördelar att använda en HMD. Först och främst får ju en användare den virtuella världen presenterad framför ögonen hela tiden oavsett hur man rör på huvudet. Om man kompletterar en HMD med en huvudposition-tracker, och låter trackern styra position och orientering i den virtuella världen, så kan man skapa en stark illusion av att befinna sig i, och titta runt i, den virtuella miljön. En annan fördel är att optisk separation är ganska enkelt realiserbart med en separat display framför varje öga. I dagens läge är det vanligast med LCDs, 36

37 men de tidigaste använde sig av miniatyr katodstrålerör (CRT). I forskningsfronten finns det lasrar som direkt ritar på näthinnan. Figur 2.19 Till vänster: optisk separation av två olika områden på en stationär bildskärm. Till höger: en s.k. Boom som fungerar ungefär som ett rörligt periskop. Tyvärr finns det även nackdelar med HMDs. Förutom att HMDs med hög kvalitet fortfarande är extremt dyra (en avancerad modell kan kosta drygt 1 miljon kr/styck), så ligger det en stor utmaning i att kunna erbjuda ett acceptabelt synfält. Figur 2.20 ger en ledtråd till problematiken: Bilden från en LCD måste avledas och ljus brytas så att vi kan fokusera på den. Det är svårt att utforma på ett kompakt och billigt sätt, och samtidigt erbjuda en hög field-of-view (FOV). FOV brukar anges diagonalt per öga, och brukar ligga mellan Ett lågt FOV ger känslan av att gå omkring med skygglappar. Det finns dock mer avancerade produkter, t.ex. Sensics pisight som ger en FOV på upp till 180 genom att placera flera enheter med LCD + optik intill varandra i en konkav array mycket nära framför respektive öga (se Figur 2.21). 37

38 Figur 2.20 Principskiss för en HMD. Ljuset från en LCD måste avledas och ljus brytas så att vi kan fokusera på den, samtidigt som man vill göra enheten så kompakt som möjligt.(illustration från Oxford University Press, Figur 2.21 Sensics pisight ger en FOV på upp till 180 genom att placera flera display-enheter intill varandra i en array framför respektive öga ( Aktiv stereo Med begreppet aktiv stereo syftar man på att betraktaren bär på ett par glasögon med aktiv elektronik. De brukar kallas shutter-glasses (slutar-glasögon), och består av ett par skikt med flytande kristaller som kan styras att antingen släppa igenom, eller blockera allt ljus. I aktivt läge så växlar ljusblockeringen mellan vänster och höger öga, så att man bara kan se med ett öga i taget. På motsvarande sätt renderar datorsystemet varannan frame (bild) som en projicering för vänster öga, och varannan för höger öga. Växlingen mellan vänster-bild och höger-bild behöver synkroniseras med glasögonen, vilket man ofta gör trådlöst med en IR-emitter som sänder ut en bildväxlingspuls. Figur 2.22 visar en vanligt förekommande produkt. Eftersom vi bara kan se med ett öga i taget så är risken uppenbar att vi uppfattar flimmer. I praktiken behöver vi dubbla den bildväxlingsfrekvens som vi kan acceptera under normala förhållanden. Således behöver vi ca Hz i bildväxlingsfrekvens för att det ska uppfattas som flimmerfritt. Detta ställer ju en del krav på bildskärmar och projektorer. Gamla tiders CRT-bildskärmar och CRT projektorer klarade detta galant. Det har dock varit lite svårare för LCD-tekniken att komma ifatt på detta område. 38

39 Ghosting kallas problemet när man kan se antydan till dubbel bild, dvs. en ofullständig kanalseparation. I fallet med LCD-tekniken beror det på att föregående bild(er) inte hinner släckas ut i tid. En nackdel med de gamla CRT-projektorerna var att de var ljussvaga och enormt dyra. Dock finns det idag special-utformade DLP-projektorer som kan klara aktiv stereo på ett tillfredsställande sätt. Nackdelar är även att glasögonen som varje betraktare måste bära är mycket dyra, går lätt sönder, och behöver batterier. Figur 2.22 CrystalEyes från StereoGraphics. Till vänster en IR-emitter som sänder en trådlös synk-signal till glasögonen t.h. Denna signal använder glasögonen till att omväxlande blockera vänster respektive höger öga. 39

40 Anaglyfisk separation Detta är en mycket billig och enkel teknik, och samtidigt en klassiker som ofta användes till bio-filmer på 50-talet, t.ex. den oförglömliga Creature from the Black Lagoon (figur 2.23), och publiken fick pappersglasögon liknande de i figur Tekniken är enkel eftersom man inte behöver någon speciallösning för projektorer eller displayer. Det är istället en dubbelexponerad bild där vänster ögas bild är rödtonad, och höger ögas bild är blå(cyan)-tonad. Man får en förvånansvärt bra bildseparation med ett par glasögon med enkel plastfilm i matchande färg-toner. Dock blir färgåtergivningen inte så optimal. Det ger också en trötthetskänsla efter ett tag. Figur 2.23 Creature from the Black Lagoon, Anaglyfiskt sammansatt bild med en blåtonad och en rödtonad bild för respektive öga. Figur 2.24 Ett par anaglyfiska glasögon i ett enkelt utförande. En cyan- och en röd-tonad plastfilm, med en båge av papper. 40

41 Polariserad separation Inom optiken betraktar man vanligtvis ljus som en stråle. Men man kan ju, som bekant, även beskriva ljus som transversella elektromagnetiska vågor. Det som oscillerar är den elektriska fältvektorn (och dess följeslagare, magnetiska fältvektorn), och är vinkelrät mot utbredningsriktningen. Det håll utmed vilken E-vektorn oscillerar kallas för vågens polarisationsriktning. Ljus från solen eller en vanlig lampa består av en mängd ljusvågor, vars E-vektorer oscillerar åt olika håll, och man talar om opolariserat, eller naturligt ljus. Om däremot vågorna svänger alla åt samma håll talar man om polariserat ljus, vilket kan åstadkommas med laser som källa, alternativt med ett polarisationsfilter. För att uppnå stereoskopi med hjälp av polariserat ljus används vanligtvis projektorsystem, där såväl frontprojektion som bakprojektion förekommer. Man brukar skilja på två typer: - Linjär polarisation. - Cirkulär polarisation. Det är viktigt att projektionsytan kan reflektera, alternativt släppa igenom ljuset så att det inte förlorar sin polarisationsriktning. I fallet med frontprojektion fungerar det bäst med en s.k. silverduk. Man bör undvika LCD-projektorer, och istället välja DLP-projektorer, eftersom LCDenheterna i sig själva ger upphov till olika polariseringar för olika färger. Linjär polarisation Tekniken att åstadkomma stereoskopi med linjär polarisation är i princip väldigt enkel: Man tar två likvärdiga projektorer och riktar in dem så de projicerar på exakt samma yta. Framför projektorlinserna placerar man varsitt polarisationsfilter med motsatt riktning. På motsvarande sätt har betraktarna polariserande filter i form av ett par glasögon med motsatt polariseringsriktning för varje öga (Figur 2.25). Ett problem med linjärpolarisationstekniken uppstår när man lutar huvudet åt sidan. Ljuset blir snabbt utsläckt. Det är således därför som man numera ofta använder en något mer sofistikerad teknik: Cirkulär-polarisering. 41

42 Figur 2.25 Principen för linjärpolarision. Lampan avger ljus med E-vektorer åt alla håll, men filtret släpper bara igenom E-vektorer med vertikal orientering. Glasögonen, där enbart det ena filtret matchar det framför källan, släpper därför bara igenom ljuset på ena ögat. Cirkulär polarisation Cirkulär-polarisering är en elegant vidareutveckling av linjärpolarisationstekniken. Principen är att man får E-vektorn till att rotera ett fullt varv under det att den tillryggalägger en våglängd i sin utbredningsriktning. Man kan se det som en skruvrörelse. Man kan åstadkomma skruvrörelsen både högerorienterat (medurs) och vänsterorienterat (moturs). Figur 2.26 visar tekniken: Först filtrerar man fram ett vanligt linjärpolariserat ljus. Sedan tar man ett speciellt filter, en kvartsvåglängdsplatta. Kvartsvåglängdsplattan är tillverkad med ett så kallat dubbelbrytande material. Detta betyder att den har olika brytningsindex i olika riktningar. Det finns en snabb axel, lågt brytningsindex, och en långsam axel, högt brytningsindex. Detta får till följd att en fasskillnad uppstår. Fasskillnaden beror på plattans tjocklek, den relativa skillnaden i brytningsindex och ljusets våglängd. Tillverkas plattan på rätt sätt kan man alltså introducera en godtycklig fasskillnad. I fallet med cirkulär polarisation vill man åstadkomma ett fasskift på -π/2 (medurs), respektive π/2 (moturs). Tjockleken är typiskt en kvarts våglängd av grönt ljus (140 nm). På motsvarande sätt kan man återfå ett linjärpolariserat ljus med ett matchande kvartsvåglängdsfilter på glasögonen. I övre fallet i figur 2.26 så släpps ljuset igenom, men i nedre fallet, så kommer ljuset att spärras eftersom kvartsvåglängdsfiltret omvandlade ljuset till horisontell polarisation. 42

43 Figur 2.26 Principen för cirkulärpolarisering. I övre fallet (högerorienterad skruvrörelse) släpps ljuset igenom filtret. I det nedre fallet (vänsterorienterad skruvrörelse) spärras ljuset. Normalt tillverkas kvartsvåglängdsfilter och polarisationsfilter som en sandwich. Därmed är det är viktigt att ha kontroll på vilken sida som är vilken, eftersom kvartsvåglängds-filtret inte gör någon nytta för opolariserat ljus. Autostereo-displayer Autostereo-displayer har den stora fördelen att betraktaren slipper ha några glasögon eller annan utrustning på sig för att kunna se en stereo-bild. Displayen presenterar en stereo-bild där varannan pixel-kolumn är avsedd för vänster öga, och varannan för höger öga. Sedan utnyttjar man den naturliga parallax-skillnad som beror på avståndet mellan våra ögon. Denna teknik har speciellt blivit framgångsrik på grund av att pixelbaserade displayer relativt enkelt kan integreras med en raster-barriär eller med linsrader som kan avleda två intilliggande pixel-kolumner till respektive öga. En vanlig teknik bygger på samma princip som för en lenticular image, dvs. vertikalt utsträckta linsrader bryter strålgången lite olika beroende på betraktelsevinkeln (se figur 2.27). En annan teknik använder en raster-barriär för att uppnå en liknande effekt (se Figur 2.28). Ett exempel på en konsumentprodukt som använder en rasterbarriär för att uppnå autostereoskopi är den bärbara spelkonsollen Nintendo 3DS. En nackdel är att betraktarens huvudposition måste befinna sig i vissa avgränsade zoner för att strålgången ska vara korrekt. Flyttar man huvudet i sidled, så kan pixelkolumnen avsedd för vänster öga hamna hos höger öga, och vice versa. I vissa positioner kan effekten helt försvinna. Dessutom förlorar displayen halva sin horisontella upplösning när 2 bilder visas samtidigt på detta sätt. För lågupplösta displayer kan man då uppleva vertikala ränder. 43

44 Figur 2.27 Principen för en lenticular autostereo display. 2 bilder visas samtidigt, där varannan pixel-kolumn är avsedd för vänster öga, och varannan för höger öga. Med de vertikalt utsträckta linserna bryts strålgången lite olika beroende på betraktelsevinkel (tyvärr syns det lite dåligt i illustrationen). I en korrekt betraktelseposition ser höger respektive väster öga enbart sin bild. (illustration från Figur 2.28 En raster-barrier display eller även kallad parallax barrier display. Strålgången blockeras i vissa synvinklar, så att 2 intilliggande pixelkolumner visas korrekt för respektive öga. (illustration från Rekommenderad läsning: Kapitel 3 i Handbook of Virtual Environments Design, Implementation and Applications. 44

45 Om cirkulärpolarisation: larization.html Halle, M Autostereoscopic displays and computer graphics. in Computer Graphics, ACM SIGGRAPH, 31(2), pp ( u/~halazar/autostereo/disptech97.pdf 45

46 3. Auditiv modalitet Varför är auditiv feedback viktig? - I simuleringar med begränsad field-of-view (FOV) kan 3D-ljud spela en viktig roll genom att det underlättar för användaren att navigera genom den virtuella miljön. - 3D-ljud har visat sig minska responstiden på visuella stimuli (s.k. cross-modal enhancement) - Komplex, visuell information kan förenklas om den kombineras med ljud som på något sätt är spatialt kodat. - De gör det möjligt att öka upplösningen i användarens auditiva perception. Detta kan man t ex göra genom att överdriva storleken på de huvud-och-öracues som når användaren. Denna teknik är speciellt användbar i teleoperatörstillämpningar och virtuella miljöer i vilka det är viktigt att kompensera för begränsad FOV. - Det har visats att en auditory display av hög kvalité kan öka användarens upplevda perception av en visuell display. Spatialt hörande Den rumsliga noggrannheten för hörselsystemet är sämre jämfört med det visuella och det proprioceptiva systemet. Hörselsystemet kan bedöma relativa skillnader i avstånd men förmågan att bedöma absoluta avstånd är ibland förvånansvärt dålig. Interaural cues Med hjälp av att vi har två öron kan små skillnader ge oss ledtrådar om ljudkällans position. Det ger oss mest information i horisontalplanet. Interaural time difference (ITD) beror på tidsskillnader i ljudsignaler som når respektive öra. ITD är mest påtaglig för frekvenser under 2 khz. Interaural intensity difference (IID) uppstår pga. att ljud med högre frekvenser reflekteras och ockluderas så att mindre akustisk effekt når ett av öronen. IID ökar vanligen med frekvensen på ljudet och vinkeln mellan ljudkällan och lateralplanet. Lågfrekvent IID som kan uppstå pga. Egna kroppen hjälper till vid bedömningar av en ljudkällas position. Det finns ett flertal positioner en ljudkälla kan ha som ger upphov till ungefär samma ITD och IID. För ljudkällor som befinner sig mer än en meter från lyssnaren ligger dessa positioner på en rymdyta som kallas cone of confusion (Figur 3.1). 46

47 Figur 3.1 Cone of confusion Spectral cues Den viktigaste cue:n för bestämning av en ljudkällas position är frekvensspektrumet för de signaler som når örat. Dessa cues uppstår när ytterörat (pinna) interagerar med den infallande ljudvågen. Spectral cues uppstår bara för frekvenser över 6 khz. Spektral cues kan ibland förväxlas med spektralförändringar i själva ljudkällan. Reverbation Reverbation (akustisk energi som når lyssnaren via indirekta vägar t ex väggar, golv och tak) har rent generellt ingen eller liten effekt på lyssnarens förmåga att bedöma vilken riktning ljudet kommer ifrån. Däremot gör reverbation det lättare för lyssnaren att bedöma avståndet till ljudkällan. Revarbation förmedlar dessutom ledtrådar om storleken och utformningen på en miljö till lyssnaren. Dynamic cues Dynamiska cues i form av förflyttningar av antingen ljudkällan eller lyssnaren kan också förmedla information till lyssnaren. T ex, ett ljud som kommer rakt framifrån genererar samma IID och ITD som ett ljud som kommer rakt bakifrån. Lyssnaren kan då vrida huvudet åt vänster varvid ITD och/eller IID ökar för något av de två öronen. Effects of stimulus characteristics on spatial perception Även ljudkällans beskaffenhet kan påverka lyssnarens spatiala ljuduppfattning på ett flertal olika sätt. Bandbredden hos ett ljudstimuli kan t ex påverka lyssnarens uppfattning om ljudkällans placering. Spektrumfiltreringen som sker, orsakas av att ytterörat kan ej positionsbestämmas om ljudet inte har tillräcklig bandbredd. Detta gör det svårt att positionsbestämda en smalbandig ljudkälla som ligger på cone of confusion. Intersensory integration of spatial information Akustisk spatial information integreras med spatial information från andra sinnen, speciellt synsinnet, och formar spatiala uppfattningar. Synsinnet är mycket mer dominant än hörselsinnet och den upplevda positionen hos en ljudkälla bestäms därmed till hög grad av den visuella spatiala informationen. Detta fenomen utnyttjas t ex av buktalare. 47

48 Spatial simulering Simulering med hörlurar En diotic display matar samma signal till båda öronen. Med ett sådant system uppfattar lyssnaren det som att ljudkällan befinner sig inne i huvudet. En dichotic display genererar en upplevelse av att ljudkällan befinner sig någonstans på en tänkt linje som sammanbinder öronen. Konventionella stereoinspelningar i musikbranschen använder ofta enkla ITD och IID cues men även reverbation och ekon vilket leder till en relativt realistisk ljudupplevelse. Ljuddisplayer med spatial ljudinformation kan skapas med olika signalbehandlingstekniker. Faktum är att om ljudet renderas på rätt sätt så kan det bli praktiskt taget omöjligt att skilja det från ett riktigt ljud. För att kunna simulera ljudkällor från alla tänkbara positioner i det virtuella rummet måste man till hörlurarna skicka en signal som matar trumhinnorna med exakt den akustiska signal som hade nått öronen från en verklig ljudkälla. Detta gör man oftast på följande sätt (Figur 3.2): 1. Man mäter den överföringsfunktion som beskriver hur en ljudvåg transformeras när den färdas från en speciell plats i rummet och träffar lyssnarens huvud och öron. 2. För att simulera ett godtyckligt ljud från en position i rummet så använder man sedan överföringsfunktioner för att filtrera den kända ljudsignalen. 3. Den resulterande stereosignalen justeras sedan för att kompensera för displayens egen överföringsfunktion (t ex frekvenskaraktäristiken hos ett par hörlurar) och presenteras sedan för lyssnaren. Figur 3.2 HRTF De filter som beskriver hur ljudet transformeras när det möter lyssnaren kallas headrelated transfer functions (HRTFs). HRTFs beskriver hur ljudet som når lyssnaren från en speciell position ska simuleras, men har vanligtvis ingen information om reverbation. 48

49 ITD och IID är inbakad i filterna i form av den relativa fasen och magnituden mellan filtret för höger respektive vänster öra. Informationen om spectral cues och ljudstyrka (source intensity) ligger i den absoluta (frekvensberoende) magnituden hos de två filterna. Vanligtvis innehåller inte HRTFs reverbation även om det är fullt möjligt att mäta upp överföringsfunktioner som tar hänsyn till ett rums akustik. Sådana lösningar är inte praktiska eftersom sådana filter varierar med lyssnarens och ljudkällans position i rummet vilket kräver ett stort antal överföringsfunktioner. Att simulera varje eko för sig innebär enorma beräkningar. Vid många simuleringar väljer man därför att endast rendera ett fåtal av de tidigaste ekona. Sedan lägger man på ett slumpmässigt brus som klingar av exponentiellt för att simulera senare ekon. Även med en sådan förenklad approach kan beräkningarna bli mycket krävande. Hur känslig människans auditiva perception är för cues i reverbant ljudenergi är något som ännu ej är helt utforskat. Icke desto mindre vet man att reverbation kan ha en dramatisk effekt på den subjektiva realismen i en virtual auditory display och att reverbation kan hjälpa lyssnaren att uppfatta avståndet till ljudkällan. Det finns en rad praktiska faktorer som begränsar realismen hos de stimuli som kan simuleras med en virtual auditory display. För det första är mätningar av HRTFs en mycket svår och tidskrävande process. Som en följd av detta mäter man upp HRTFs endast för ett avstånd till lyssnaren, oftast med ljudkällan långt ifrån lyssnaren. Alla andra avstånd simuleras genom att man helt enkelt skalar ner magnituden hos överförings-funktionerna. Av praktiska skäl mäter man endast upp HRTFs för ett begränsat antal punkter och interpolerar fram HRTFs för övriga punkter. Detta fungerar bra för ljudkällor långt från lyssnaren men kan inte leverera stimuli med perfekt realism till lyssnaren för alla punkter i rummet. Ett annat problem är att de flesta system använder ett standard-uppsättning av HRTFs som inte är anpassad efter den individuelle lyssnaren. Det forskas mycket kring hur man ska kunna skräddarsy HRTFs till den individuelle lyssnaren utan att behöva mäta upp dennes specifika överföringsfunktioner. De mest sofistikerade systemen som använder spatialt ljud har trackers som mäter lyssnarens rörelser och uppdaterar HRTFs i realtid och skapar på så sätt dynamiska rumsliga cues. Tidsfördröjningen kan emellertid vara större än 100 ms till följd av de komplexa beräkningar som måste utföras: mäta lyssnarens rörelser, välja lämplig HRTF och filtrera källsignalen genom denna. Simulering med högtalare Man kan även använda ett antal högtalare för att simulera 3D-ljud. Man utnyttjar helt enkelt att den totala akustiska signalen vid örat är summan av de infallande akustiska signalerna. Problemet är att både öronen tar del av signalerna vilket gör det svårt att kontrollera interaural differences och spectral cues. För att motverka detta måste man noggrant beakta högtalarnas placering samt rummets akustik. De två främre högtalarna bör placeras vid ±30 grader och de två bakre vid ±110 grader. Vidare rekommenderas att signalerna till de bakre högtalarna är olika. 49

50 Vad görs i spelindustrin? Ledande på 3D-ljud i dataspelsvärlden är Creative Labs. De konkurrerade ut Aureals system A3D2.0 med sin EAX-teknologi (Environmental Audio Extention) i slutet av 90-talet. EAX är i princip en utökning av DirectX-komponenten DirectSound3D som endast har följande funktioner: - Ett ljuds intensitet avtar med avståndet till ljudkällan - IID - ITD - Ett ljud som bakifrån är mer dämpade än ljud som kommer framifrån EAX möjliggör simulering av eko, luftabsorption av ljud, simulering av olika rumsstorlekar etc. Det finns numera en mer avancerad version av EAX kallad EAX Advanced HD som har följande funktioner: - Multi-Environments Stödjer rendering av flera ljudmiljöer samtidigt i realtid - Environment Panning Ger spelutvecklarna möjlighet att styra och placera ljudmiljöer på ett unikt sätt. T ex är det möjligt att simulera ekot av ett tåg som är på väg ut från en tunnel. - Environment Reflections Möjliggör lokalisering av tidiga reflektioner och ekon - Environment Filtering Simulerar ljudutbredning i både öppna och stängda utrymmen. - Environment Morphing Möjliggör mjuka övergångar mellan olika ljudmiljöer Rekommenderad läsning: Kapitel 4, Handbook of Virtual Environments Design, Implementation and Applications. 50

51 4. Känsel-modalitet Vårt känselsinne är som tidigare nämnts enormt komplext, och består egentligen av flera olika typer av organ och receptorer. De tre viktigaste systemen: Taktila systemet. Olika typer av receptorer i huden för tryck, drag, vibrationer, temperatur, samt hårrörelser. Proprioceptiva systemet. Receptorer i muskler och senor som ger information om kroppsställning, och muskelbelastning. Vestibulära systemet. Organ i innerörat som kan liknas vid accelerometer- och gyro-sensorer. Dessa organ ger information om huvudets rörelseförändringar, samt dess lutning i förhållande till gravitationsriktningen. Således är det en oerhörd utmaning att erbjuda känsel-feedback som både är realistisk och generell. Man blir tvungen att göra kompromisser, och låta applikationen och de ekonomiska ramarna styra vilken typ av feedback som är mest relevant att ge. Taktil feedback är lättast att ge på mindre ytor som exempelvis en mindre display. Enstaka pulser eller vibrationer kan förmedlas via reläer eller piezo-kristaller. En viktig tillämpning för synskadade är displayer som dynamiskt kan förmedla brailleskrift. Det har också experimenterats med displayer som kan ge temperaturvariationer. Joysticks och spelrattar med force feedback är enkla produkter som kan ge en kombinerad proprioceptiv och taktil feedback till en låg kostnad. Denna typ av gränssnitt har ju sin förlaga i styrdon för att framföra ett fordon, och man kan ju ibland ifrågasätta om det är så naturligt att även i helt andra situationer använda ett sådant gränssnitt. För en mera generell feedback, t.ex. för att interagera med ett objekt så kan det vara lämpligare med ett haptiskt gränssnitt (se nedan). Det vestibulära systemet är en viktig del i vårt balanssinne, och samverkar till en stor del med den visuella informationen (se kapitel 5). Flygning och bilkörning är exempel på situationer där man utsätts för laterala och vertikala krafter som skiljer sig kraftigt från den normala gravitationskraften. För att ge feedback för detta, så brukar man använda plattformar som kan lutas och höjas/sänkas med hjälp av hydraulik eller luftbälgar. Rena translationskrafter, som t.ex. vid inbromsning, kan man framkalla genom att åka fram på en släde. Tillsammans med matchande visuell feedback kan detta ge en mycket stark illusion av rörelse. Dock är denna typ av utrustning mycket resurs- och utrymmeskrävande. Det är vanligast förekommande vid avancerad flygoch fordonssimulering (se Figur 4.1). 51

52 Figur 4.1 Toyotas bilsimulatoranläggning i Susono, Japan. I simulatorgloben ryms en komplett bil. Globen kan lutas upp till 25 grader åt alla håll, och den löper på räls för förflyttning 35 meter i längsled och 20 meter i sidled. Denna simulator borde kunna ge en mycket realistisk upplevelse av acceleration, inbromsning och kurvtagning. Haptisk simulering Haptik 4 kommer från grekiska och har betydelsen att ta på, eller att känna på. Normalt innefattas gränssnitt som ger stimuli till både det proprioceptiva systemet, och till det taktila systemet (hudreceptorer). En joystick med force feedback skulle förvisso kunna benämnas som ett haptiskt gränssnitt, men oftast syftar man på produkter som har minst 3 frihetsgrader, helst fler. Exempelvis har Sensable Technologies en produktserie kallad Phantom, som erbjuder interaktion via antingen fingerborg där en fingertopp träs i, eller genom ett skaft som hålls som en penna. Dessa är kopplade till ett sofistikerat länksystem, där olika modeller erbjuder olika stort arbetsområde och antal frihetsgrader (se Figur 4.2). Budgetmodellen Omni erbjuder 6 frihetsgrader (6 DOF). När man utforskar ett virtuellt objekt med hjälp av en Phantom Omni, så beräknas haptisk feedback utifrån en enda punkt, nämligen pennans spets. Detta är ett smart sätt att förenkla interaktionen. Om man däremot verkligen vill kunna greppa ett objekt för att t.ex. känna dess form med fingrarna, då måste haptik-återkopplingen beräknas för flera punkter och man behöver ett komplext exo-skelett för att förmedla krafterna till handens fingrar (se Figur 4.3). 4 hap-tic (hap'tik) adj. [Gr. haptein, to touch + ic] of or having to do with the sense of touch; tactile - Webster's New World Dictionary, Second College Edition 52

53 Figur 4.2a En Phantom från SensAble Technologies,, där den virtuella modellen kan utforskas och kännas i fingertoppen. Figur 4.2b En Phantom Omni, där en virtuell modell kan kännas via penn-skaftet. Omni är en budget-modell som inte erbjuder så stort arbetsområde. 53

54 Figur 4.3 CyberGrasp, ett exo-skelett för handen, som kan ge en individuell kraftåterkoppling för varje finger. Vanligtvis består en haptisk simuleringsalgoritm av två delar: kollisionsdetektion och kollisionsrespons. När användaren rör på det haptiska systemets probe så tas dess nya position och orientering fram och kollisionsdetektion genomförs. Om en kollision upptäcks så beräknas interaktionskrafter med hjälp av fördefinierade regler för kollisionsrespons som sedan överförs till användaren. Denna så kallade haptiska loop uppdateras med en frekvens kring 1 KHz, annars är risken att användaren upplever det som att det haptiska systemet vibrerar. Figur 4.4a beskriver det enkla fallet med en punkt (the haptic interaction point, HIP) som interagerar med en friktionsfri sfär. Eftersom sfären har en ändligt stor stelhet så kommer HIP att penetrera sfären vid kontaktpunkten. När penetreringen har detekterats av det haptiska systemet och lämpliga motkrafter har beräknats så blir systemet aktivt och ger motkrafter mot användarens hand för att motverka ytterligare penetrering. Motkraften skulle kunna beräknas enligt F = k*dx där k är stelhetskoefficienten och dx penetrationsdjupet. Med ett lågt k skulle sfärens yta upplevas som mjuk. Med ett högt k skulle man få instabilitet pga. av oönskade vibrationer. Detta beror på den trappeffekt som illustreras i Figur 4.4b. Med ett verkligt, kontinuerligt fjädrande system så är energin vid kompression och expansion lika stora. Med ett virtuellt, fjädrande system så får man däremot en positiv nettoenergi eftersom energin vid expansionsfasen är större. Detta kan leda till instabilitet för stora k eftersom lutningen på kurvan och därmed nettoenergin blir större. 54

55 (a) Figur 4.4 Haptisk rendering av en friktionsfri sfär (b) En friktionsfri sfär är ett mycket enkelt objekt att rendera haptiskt. Om man har mer komplexa objekt så måste man ta till vissa tekniker för att klara av att uppdatera krafterna med en frekvens på 1000 Hz. Dessa tekniker kan delas in efter hur the probing objekt modelleras: 1) en punkt; 2) ett linjesegment; eller 3) ett 3D-objekt bestående av punkter, linjesegment och polygoner. Vid punkt-baserad interaktion så är det bara ändpunkten på det haptiska pekdonet som interagerar med de virtuella objekten. Varje gång användaren flyttar pekdonet så görs en kollisionsdetektering för att se om punkten befinner sig inne i ett virtuellt objekt. Om så är fallet så beräknas den ideala HIP (IHIP). Beräkningen av denna punkt baseras inte bara på nuvarande punkt utan även på tidigare kontakter med det virtuella objektet (figur 4.5). Figur 4.5 Ideal HIP När man istället använder ett linjesegment för att modellera the probing object görs kollisionsdetektering mellan linjesegmentet och virtuella objekt. Detta möjliggör för användaren att röra flera virtuella objekt samtidigt. Även vridmoment kan simuleras med denna teknik, något som inte är möjligt med punktbaserad interaktion. Att använda ett 3D-objekt som probing object är önskvärt i många tillämpningar men kostar mycket datorkraft. En lösning är att använda ett antal punkter som är distribuerade över 3D-objektet (McNeely et al, 1999). 55

56 Rendering av mjuka former, friktion and textur Vissa principer från datorgrafiken kan återanvändas för haptisk rendering av släta ytor. Genom att använda the force-shading technique av Morgenbesser och Srinivasan (1996) så kan diskontinuiteter reduceras och kanterna på 3D-objekt fås att upplevas som släta. Texturer är något som finns på de flesta ytor i naturen och som kan känns av ganska väl av människans taktila system. Både friktion och textur brukar simuleras genom att lägga in rätt sorts störningar i reaktionskraften som bygger på fördefinierade egenskaper hos det material som simuleras. Den stora skillnaden mellan simulering av friktion och textur i ett haptiskt system är att friktionen endast genererar tangentkrafter i motsatt riktning till probens rörelseriktning. En textursimulering däremot kan generera krafter tangent- och normalkrafter i vilken riktning som helst. Olika sorters texturer, t ex sandpapper av olika grovhet, kan simuleras genom att man varierar friktionskoefficientens medelvärde och variation. Rent generellt så kan haptiska textureringstekniker kan delas in i två grupper: Image-based haptic texturering bygger på att man konstruerar en textur av tvådimensionell bilddata. Rent konkret så fungerar dessa tekniker enligt följande: 1. Först så mappar man 2D-bilden till en mellanliggande enkel yta som ett plan, en kub eller en sfär. 2. I andra steget så mappas texels från den mellanliggande ytan till själva objektet Procedureal haptic texturing bygger på att man genererar syntetiska texturer med matematiska funktioner. Denna funktion tar x-y-och z- koordinater som input och returnerar höjdvärdet och dess gradient. Rekommenderad läsning: Kaptitel 5 och 6 i Handbook of Virtual Environments Design, Implementation and Applications Kapitel 3.4 i 3D user interfaces theory and practice. ISBN Referenser Hinckley Ken, Pausch Randy, Proffitt Dennis, Attention and visual feedback: the bimanual frame of reference, Proceedings of the 1997 symposium on Interactive 3D graphics, p.121-ff., April 27-30, 1997, Providence, Rhode Island, United States McNeely, William A., Puterbaugh, Kevin D., and Troy, James J.. Six degreesof-freedom haptic rendering using voxel sampling. Proceedings of SIGGRAPH 99, pages , August ISBN Held in Los Angeles, California. Noma, H., Miyasato, T., and Kishino, F., A Palmtop Display for Dexterous Manipulation with Haptic Sensation, CHI 96, pp , ACM Press, New York, Richard C. and Cutkosky M.R., Contact force perception with an ungrounded haptic interface, Proceedings of the ASME Dynamic Systems and Control Division, DSC-Vol. 61, 1997, pp

57 5. Inter-modalitet Det är viktigt att beakta möjligheterna och begränsningarna i människans sinnen när man designar virtuella miljöer. T.ex. en visuell display med upplösning som är så hög att den mänskliga perceptionen inte kan uppfatta det är slöseri med resurser. Men det räcker inte med att studera syn-, hörsel-, känselperception var för sig, utan människan använder sig nästan alltid av flera olika sinnen samtidigt i en komplex samverkan. Forskning om interaktionen mellan våra sinnen görs inom många olika discipliner t ex psykologi, neurologi, filosofi och människa-datorinteraktion. Problemet är att forskningsresultaten oftast stannar inom respektive disciplin. Det teoretiska perspektivet Marks (1978) formulerade vad han kallar the Five Doctrines of sensory correspondence: 1. Olika sinnen kan informera oss om samma egenskaper hos omgivningen 2. Trots att det finns stora fenomenologiska skillnader mellan olika modaliteter så finns det en del gemensamma egenskaper 3. Åtminstone en del av de sätt på vilka våra sinnen fungerar på inkommande stimuli är generella egenskaper hos sensoriska system. 4. Det finns en motsvarighet på nervnivå till var och av de tre ovanstående doktrinerna. 5. Denna doktrin införlivar de ovanstående fyra och förslår att flera sinnen kan tolkas som modaliteter av en generell, och kanske mer primitiv känslighet. Marks (1978) föreslår vidare att dimensionen kvalité verkar uppvisa minst likheter mellan olika modaliteter medan intensitet uppvisar de starkaste likheterna över modaliteter. Dessa forskningsresultat indikerar att meningsfulla perceptionella interaktioner uppträder när samstämmig information når olika sensoriska kanaler, medan information som inte har någon meningsfull relation till varandra (t ex en bild på ett tåg och ljudet av råmande ko) så uppträder lite eller ingen interaktion. Interaktion mellan olika modaliteter är alltså i allra högsta grad stimuliberoende. Millar (1981) konkluderar att sinnesmodaliteterna varken är separata eller enskilda utan snarare en kombination av båda. Annan forskning beskriver integrationen av information från olika sinnen med konceptet sensory capture. Man har funnit att när motsägelsefulla stimuli presenteras för olika modaliteter så tenderar observatören att lösa stimulikonflikten genom att omforma den svagare sinnesupplevelsen till att mer likna den starkare. Det neurologiska perspektivet Det har gjorts en del forskning på att identifiera de ställen i hjärnan på vilka integration av information från olika sensoriska kanaler sker. Ett sådant ställe i hjärnan där visuell, auditiv och somatosensory 5 input konvergerar är superior colliculus. Ändå finns det fortfarande många fenomen kopplade till integration av stimuli som man inte kan förklara

58 Figur 5.1 Superior colliculus Ett sådant fenomen är synestesi som har definierats som ett ofrivilligt sammanfogande som innebär att den riktiga sinnesinformationen i ett sinne kompletteras med ett sinnesintryck i ett annat sinne. Förutom att upplevelsen är ofrivillig så betraktas den av personen som verklig, ofta utanför kroppen, och inte som någon påhittad fantasiskapelse. En av de vanligaste formerna av synestesi är färgad hörsel. När vissa ljud uppträder så kan personen med synestesi uppleva färger (som inte finns) av olika slag Cross-modal matching Cross-modal matching innebär att hjärnan använder information som tagits in via en modalitet för att göra en bedömning av ett likvärdigt stimuli från en annan modalitet. Lawrence Marks har forskat på cross-modal matching i ca 25 år (t ex Marks, 1978) och har bl a funnit en stark koppling mellan brightness, pitch och loudness. I ett av hans experiment fick försökspersonerna matcha ljudtoner till gråa ytors brightness. Resultaten indikerade att de flesta försökspersonerna matchade ökande pitch till ökande brightness. Hur mycket av Marks resultat beror på kulturell betingning? Det är svårt att säga men ett experiment som pekar på att cross-modal matching är oberoende av kultur utfördes av Wolfgang Köhler, en av skaparna till den så kallade gestaltpsykologin. I detta experiment fick försökspersonerna para ihop ljuden Kiki och Booba med formerna i figur 5.2. Dessa former och deras namn kommer från en avlägsen stam. Nästan alla försökspersonerna parade ihop Kiki med den gula, taggiga formen och Booba med den violetta, runda formen. Detta experiment har upprepats ett antal gånger och antalet personer som parar ihop stimuli på detta sätt ligger mellan 95 % och 98 %. Figur 5.2 Kiki och Booba 58

59 Buktalarfenomenet Ett välkänt visuellt-auditivt fenomen är the ventriloquism effect. Detta fenomen är den illusion som uppstår då skickliga buktalare uppträder. Publiken upplever inte bara att dockan pratar utan även att ljudet av buktalarens röst faktiskt kommer från dockan! Detta demonstrerar den starka spatiala koppling som finns mellan syn och hörsel. En orsak till denna illusion är det som kallas visuell dominans. Såvida det inte finns stora skillnader i intensiteten hos inkommande stimuli till olika modaliteter så kommer visuella stimuli att dominera perceptionen. Ragot et al (1988) kom fram till att visuell dominans uppträder när uppmärksamheten delas mellan visuella och auditiva modaliteter, men inte när försökspersonerna ombeds att fokusera på en av två modaliteter. Delad uppmärksamhet När det gäller att uppmärksamma signaler, signal detection, så har det visat sig att den auditiva kanalen är dominant gentemot den visuella kanalen. Detta är anledningen till att varningssignaler vanligtvis ges i formen av ljud. I ett experiment av Colavita (1974) fick försökspersonerna auditiva och visuella stimuli som låg över tröskeln för vad som kan uppfattas. Stimuli gavs slumpmässigt i form av bara auditivt stimuli, bara visuellt stimuli eller både och. När försökspersonerna utsattes för kombinationen av auditivt och visuellt stimuli så uppgav de att de bara uppfattat den visuella informationen och märkte alltså inte alls att något auditivt stimuli. Den så kallade McGurk-effekten är ett mycket intressant exempel på visuell dominans. McGurk och MacDonald (1976) utförde ett experiment i vilket försökspersonerna fick se läpprörelser och motsägelsefulla ljud. Försökspersonerna fick dels höra bara själva ljudet och dels se och höra läpprörelserna och ljuden. Resultaten var häpnadsväckande. De flesta försökspersonerna var övertygade om att de hörde det de såg, dvs. det ljud som egentligen hörde till läpprörelserna. Inte alla upplever illusionen, men de flesta upplever att kombinationen av "ma" (ljud) och "ka" (läpprörelser) blir ljudet "na". En annan inte lika stark variant av McGurk-effekten är "ba" (ljud) och "ga" (läpprörelse) som blir "da". Stein och Meredith (1993) fann att visuella stimuli i form av läpprörelser kan förstärka aktiviteten i ljudkortex så mycket att signal-brus-förhållandet med db. 59

60 Haptisk perception Den visuella modaliteten kan även dominera gentemot den haptiska perceptionen. Srinivasan, Beauregard och Brock (1996) demonstrerade detta i ett experiment i vilket försökspersonerna hade i uppgift att bestämma styvheten hos två virtuella fjädrar. De två fjädrarna upplevdes visuellt genom en datorskärm och haptiskt via en PlanarGrasper. Försökspersonerna fick slumpmässigt bedöma olika kombinationer av visuell och haptisk stimuli. Resultaten indikerade att perceptionen av styvhet till stor del påverkades av den visuella informationen. Perceptionsexperiment Det har föreslagits att man genom att använda ljud av hög kvalité kan påverkar upplevelsen av visuellt stimuli på ett positivt sätt, dvs. på så sätt att man upplever att bildkvalitén är bättre än den egentligen är. Denna princip har bl a tillämpats för utformning av militära simulatorer. Istället för att förbättra upplösningen på bilddisplayen och därmed simulatorns totala kostnad så lade man till auditiva och haptiska stimuli. Det finns väldigt lite forskning på detta område men det finns ett par studier som har resulterat i intressanta resultat. Neuman, Crigler och Bove (1991) genomförde ett experiment för att mäta effekterna av ändringar i ljudkvalitén på visuell perception av en HDTV-bild. Kvalitén på den visuella stimulin hölls konstant medan ljudkvalitén manipulerades. Det mest intressanta resultatet var att några försökspersoner upplevde en ökning i visuell kvalité när ljudkvalitén var hög. Ökningen var emellertid inte statistiskt signifikant. Woszczyk, Bech och Hansen (1995) föreslår att det är viktigt att fokusera på den totala upplevelsen och inte på de individuella modaliteterna var för sig. Ett av deras mest intressanta resultat var att både den upplevda ljud-och-bildkvalitén ökade med ökande skärmstorlek. Storms och Zyda (2001) genomförde tre experiment med totalt 108 försökspersoner för att undersöka intermodala effekter mellan den auditiva och den visuella modaliteten. Deras resultat indikerade att en visuell display av hög kvalité i kombination med en auditiv display av hög kvalité ökar den upplevda kvalitén hos den visuella displayen jämfört med fallet då endast den visuella displayen är aktiv. Vidare indikerade resultaten att en ljuddisplay av låg kvalité kopplad till en visuell display av hög kvalité minskar den upplevda kvalitén hos den visuella displayen jämfört med fallet då endast den visuella displayen är aktiv. Dessa resultat visar på vad man inom spel-och-filmindustrin känt till sedan länge: att ljud kan påverka den upplevda kvalitén hos bildstimuli och vice versa. Resultaten visar även att även om vi människor kan dela vår uppmärksamhet mellan ljudstimuli och visuell stimuli så är vi inte medvetna om eventuella intermodalitetseffekter. Balans och yrsel Vår balansförmåga är en mycket komplex funktion som bygger på samspelet mellan synen, vestibulära systemet, proprioceptiva systemet, och taktila systemet. De vestibulära organen finns i innerörat och ger hjärnan information om huvudets rotations- och translations-förändringar samt gravitationen. Speciellt är synen och det vestibulära systemet nära sammankopplat. Exempelvis kan sjukdomar som ger upphov till yrsel ofta påverka den oculo-vestibulära samverkan, och diagnosticeras genom att studera anomalier i ögonrörelserna. Inom VR kan det vara speciellt viktigt att beakta att man ganska enkelt kan framkalla vection, dvs en illusion av rörelse som enbart kommer från visuell stimuli. Och vill 60

61 man förstärka t.ex. en illusion av bilkörning så kan ljud och vibrationer öka närvarokänslan kraftigt. Har man en stor budget kan man även ge kraft-påkänningar med hjälp av slädar eller rörliga plattformar. Men nästan oavsett hur stor ambitionsnivån är, så är det väldigt svårt att matcha alla stimuli perfekt så att det motsvarar vad en människa varseblir i en verklig situation. Det är ett allmänt antagande att illamående, eller simulator-sjuka, är resultatet av stimuli som ligger lite utanför referensramarna av vad man är van vid att uppleva. T.ex. alltför snabba hastigheter, eller en dålig matchning mellan visuella och vestibulära intryck. Referenslista Colavita, Francis, B.: Human sensory dominance. Perception & Psychophysics, 16, 1974, S McGurk, K. and MacDonald, J. (1976). Hearing Lips and Seeing Voices. Nature, 264: Marks, LE (1978) - The Unity of the Senses: Interrelations among the Modalities, New York: Academic Press. Millar S. (1981). Crossmodal and intersensory perception and the blind. In R.D. Walk & H-L. Pick, Jr. (eds.) Intersensory Perception and Sensory Integration. New York: Plenum Press. Newman WR, Krickler A, Bove BM (1991) Television, Sound, and Viewer Perceptions. In: Proceedings Joint IEEE and Audio Engineering Society Meeting, 1991, Detroit, Mich. February 1-2, 1994 Ragot R.; Cavé C.; Fano M. (1988). Reciprocal effects of visual and auditory stimuli in a spatial compatibility situation. Bulletin of Psychonomic Society, 26, 4, Stein, B.E. & Meredith, M.A. (1993). The merging of the senses. Cambridge, MA. MIT Press. Storms RL. and Zyda MJ "Interactions in Perceived Quality of Auditory- Visual Displays," Presence, Vol. 9, No. 6, December 2000, pp Woszczyk W., Bech S. and Hansen V., Interaction between audio-visual factors in a home theatre system: definition of subjective attributes, 99th Conv. AES, pre-print 4133, October Rekommenderad läsning: Kapitel 22 i Handbook of Virtual Environments Design, Implementation and Applications. 61

62 6. Interaktion för VR och AR Inom VR och AR är det fundamentalt att en användare ska kunna ge input på något sätt, för att kunna påverka den simulerade miljön. Vanligtvis med avseende på: Navigation: användaren kan se sig runt, och förflytta sig i den virtuella miljön. Objektmanipulation: användaren kan påverka, t.ex. flytta runt eller ändra status på objekt i den virtuella miljön. I inledningskapitlet så uttrycktes ambitionen att interaktionen bör utföras på ett verklighetstroget sätt. Traditionellt har dock möjligheterna varit begränsade, på grund av tekniska och ekonomiska orsaker. Medan det för vissa simuleringsmiljöer, såsom bilkörning eller flygning, kan vara relativt enkelt att efterlikna verklighetens kontrollenheter, är det i andra situationer en uppenbar teknisk utmaning, t.ex. att försöka efterlikna gång i First Person Shooting (FPS) spel. Ett substitut i form av W, A, S, D-tangenterna har blivit ett pragmatiskt och allmänt accepterat interaktionssätt. En ny trend inom interaktionsdesign är paradigmet Natural Interaction, där ambitionen är att när så är möjligt efterlikna naturliga handlingar och rörelser. Teknologi på frammarsch som kan understödja denna trend är exempelvis: Displayer med multi-touch Wearable devices Tal-syntes/-igenkänning Bättre och billigare tracking-produkter Den sistnämnda punkten, tracking-produkter, var fram till för bara några år sedan väldigt exklusiva och dyra produkter, men numera har de fått en enorm spridning tack vare diverse teknikgenombrott och trender inom spelindustrin. Kapitel 7 kommer att beskriva olika metoder för tracking. Interaktion via gester Gester är uttryck med kroppsrörelser som syftar till att överföra information eller interagera med omgivningen. Ett intressant exempel på hur gester används för visuell kommunikation är U.S. Army field manual som är en guide för hur man ska använda visuella signaler inklusive hand-och armgester för en mängd olika situation. Kendon (1972) beskriver ett kontinuum av gester: Gesticulation spontana hand-och armrörelser när man pratar Languagelike gestures gest som är integrerad i ett yttrande och som ersätter ett visst ord eller en viss fras Pantomimes gester som avbildar objekt eller handlingar, med eller utan tal Emblems välkända gester som t ex V for victory Sign languages linguistiska system som är väldefinierade Ju längre ner i listan man kommer desto mindre blir spontaniteten och desto fler blir de sociala reglerna. Gesticulation utgör ca 90 % av de mänskliga gesterna. Trots den stora betydelsen som gestikulation har för människa-människainteraktion så har större delen av forskningen inom människa-datorinteraktion och virtual reality fokuserat på 62

63 de nedre delarna av Kendons (1992) kontinuum. Emblems och gestural languages har ofta klarare semantisk mening och kan därför vara mer lämpliga för den typ av interaktion som är lämplig för VR-system. Representation av gester Att känna igen gester handlar om mönsterigenkänning. Först fångas själva gestens rörelser in t ex med hjälp av ett trackingsystem. Dessa rörelser (positioner, vinklar, hastigheter etc.) analyseras sedan för att får fram deras grundläggande drag. Dessa drag körs sedan mot en databas med gester för att kunna känna igen vilken gest det rör sig om. Sensor processing Feature extraction Gesture classification Recognized gesture Gesture database Figur 6.1 Igenkänning av gester Eftersom gester varierar mycket så är det viktigt att fånga själva essensen i dem. Precis som med taligenkänning så får man ofta kompromissa mellan noggrannhet och generaliserbarhet: ju större noggrannhet man vill ha, desto mer användarspecifik träning behövs. Det finns en rad olika sätt på vilket gesterna kommuniceras från användaren till VRsystemet: Penn-baserad gestigenkänning En del forskning har gjorts på att känna igen gester från 2D styrdon som penna eller mus. Det idag vanligaste exemplet på denna teknik är teckenigenkänningen i t ex handdatorer. Oviatt (1996) kunde påvisa signifikanta fördelar med att använda tal och gester tillsammans för vissa uppgifter. Tracker-baserad gestigenkänning Några fördelar med att använda trackade handskar är Direkt mätning av hand-och fingerparametrar (vinklar, positioner etc.) Ger data med hög samplingsfrekvens Lätt att använda Inga problem med siktlinjer Det finns system som inte är alltför dyra Några nackdelar: Svårigheter med kalibrering Handskarnas räckvidd kan begränsas av sladdar Data från billigare system kan innehålla mycket brus System med hög noggrannhet är dyra Passiv kamerabaserad gest-igenkänning 63

64 Kamerabaserade system använder en eller flera kameror för att fånga och tolka bildinformation i syfte att producera visuella drag som kan användas till att tolka mänsklig aktivitet och känna igen gester. Till skillnad mot sensorer som man bär på sig så har kamerabaserade system problem med att kamerans sikt kan skymmas. Man kan använda fler kameror för att komma runt detta problem men då får man istället problem med integrering av kamerasignalerna. Hand-och-armgester är de gester som har forskats mest på. Majoriteten av de automatiska igenkänningssystem som finns är för o deictic gestures (pekande gester som refererar till människor, objekt eller händelser i tid och rum) o emblematic gestures (t ex ett V-tecken) o teckenspråk med begränsad vokabulär och syntax Ett exempel på ett sådant system är ZYKLOP (Stark och Kohler, 1995) som kan känna igen gester i realtid. Efter att handen har extraherats ut från bilden och drag såsom fingertopparnas positioner har plockats ut så bestäms vilken handgest det rör sig om. Gestigenkänning över tid görs sedan på sekvenserna av handposer och deras rörelsemönster. AR specifik interaktion En av de viktigaste aspekterna av AR är att skapa lämpliga tekniker för intuitiv interaktion mellan användaren och det virtuella innehållet av AR applikationer. Det finns fyra huvudsakliga sätt att interagera med AR applikationer: gripbar (tangible) AR gränssnitt, kollaborativ AR gränssnitt, hybrid AR gränssnitt och multimodala gränssnitt. Tangible AR interfaces Gripbara gränssnitt stöder direkt interaktion med den verkliga världen genom att utnyttja användning av verkliga, fysiska objekt och verktyg. Ett klassiskt exempel på gripbar användargränssnitt är VOMAR som utvecklats av Kato et al. (2000), där en person kan välja att flytta möbler i en AR vardagsrum med hjälp av en verklig, fysisk paddel. Paddel rörelser är mappade till intuitiva gestkommandon. Till exempel används paddel rörelse för att "plocka upp" ett objekt, för att markera det. Rörelsen för att ta bort ett objekt utförs genom att slå ett objekt. Ett mer aktuellt exempel på tangible AR gränssnitt är TaPuMa. (Figur 6.2). Figur 6.2 TaPuMa 64

65 TaPuMa systemet som är utvecklat av Pranav et al. (2008) erbjuder användare att hitta information om vardagliga saker genom saker som man bär med sig. Till exempel genom att lägga visa kort på TaPuMa systemet kan du få en utritad väg till närmaste affär eller bankomat etc. Fördelen med att använda föremål som sökord är att man eliminerar språkbarriären som man normalt ertappas med av konventionella grafiska gränssnitt (även om de flesta av dem har flera språk, är de ofta felöversatta). Å andra sidan, kan sökord med objekten också vara tvetydig, eftersom det kan finnas mer än en mappning till åtgärder eller information som är möjliga, och olika människor från olika platser, åldersgrupper och kulturer har olika betydelser för olika objekt. Kollaborativ AR interfaces Kollaborativ AR gränssnitt inkluderar användning av flera skärmar för att stödja både fjär och när aktiviteter. Det är speciellt lämpat då man ska kollaborera med rumsliga 3D objekt. Exempel på kollaborativ AR är Studierstube, där två personer kan samtidigt titta på ett 3D gränssnitt och interagera med det (Figur 6.3). Figur 6.3 Studierstube gränssnitt. Fjärdelning kan användas för att förbättra telefonmöten. Sådana gränssnitt kan integreras med medicinska applikationer för att utföra diagnostik, kirurgi, och/eller servicerutiner. Hybrid AR interfaces Hybrid gränssnitt kombinerar ett sortiment av olika, men kompletterande gränssnitt liksom möjligheten att interagera, genom ett brett spektrum av interaktions anordningar. De ger en flexibel plattform för oplanerade, vardaglig interaktion där det inte är känt i förväg vilken typ av interaktion display eller enheter som kommer att användas. Multimodal AR interfaces Multimodala gränssnitt kombinerar flera användargränssnitt som tal, beröring, naturliga gester, eller ögonrörelse som styrdon. Exempel på multimodala gränssnitt innefattar MITs Sixth Sense bärbara gestgränssnitt, som kallas WUW. WUW ger användaren information genom att projicera på ytor, väggar och fysiska föremål genom naturliga gester, armar rörelse och/eller samverkan med själva objektet. Ett annat exempel på multimodal interaktion är Lee et al. (2010), som erbjuder möjlighet 65

66 för interaktion med ögonrörelser och blinkningar. Denna typ av interaktion är under utveckling och just kombinationen av ögonrörelser, röst och gester kan komma att ge en relativt robust och effektiv människa datorinteraktion. Multimodala gränssnitt ger dessutom frihet att välja den interaktion som är mest lämplig beroende på sammanhanget, dvs. offentlig plats, museum, bibliotek, etc. Framtiden Det finns fortfarande många obesvarade frågor på det här området. T ex så har väldigt lite gjorts för att utvärdera användbarheten av interaktion med gester. Felprocent mellan 1 % och 50 % har rapporterats beroende på svårigheten hos uppgiften. En annan fråga är om gestigenkänningssystem kan anpassa sig efter skillnader mellan olika användare eller om det är nödvändigt att träna systemet och/eller användaren innan. Och så den kanske viktigaste frågan av alla: hur bra måste gestigenkänningssystem bli för att på allvar vara användbara för kommersiellt gångbara applikationer? Ögonrörelse-styrning Ögonrörelsemätningar har traditionellt använts inom kognitionsvetenskapen för att studera en rad olika egenskaper hos människans visuella beteende. De vanligaste mätenheterna är saccader, smooth pursuit (ögonen följer ett objekt) och fixeringarna mellan dessa rörelser. Amplitudmässigt brukar saccader ligga mellan 1 och 20 grader och varar mellan 10 och 80 millisekunder. När ögat följer ett objekt med vinkelhastigheter mellan 1 och 30 grader/sekund så kan ögat följa objektet på ett mjukt sätt (dvs. utan saccader). Hur ögonrörelsemätningar fungerar Flera olika tekniker har använts för ögonrörelsemätningar och de kan delas in i kontakt och icke-kontakt-metoder. Kontakt-metoder använder magnetisk induktion för att läsa av ögats rörelser m h a en anordning som monteras på användarens huvud. Bland icke-kontakt-metoderna är the limbus eyetracker det enklaste och billigaste systemet. Två infraröda fotoemittrar som arbetar med frekvensen 1 khz riktas mot gränsen mellan iris och ögonvitan. Mer eller mindre ljus kommer att reflekteras beroende på ögats position relativt fotoemittern. Ett par infraröda detektorer plockar upp det reflekterade ljuset. Med denna information kan man sedan bestämma i vilken riktning personen tittar. Videobaserade ögonrörelsemätningssystem passar bäst till 2D-inspelningar av ögonrörelser hos en person som är relativt fri att röra sig inom ett visst utrymme. Systemet plockar in en videobild av ögat som är belyst av ett avlägsen, låg-effekts infraljuskälla, i vilken man kan se en highlightad punkt på hornhinnans yta. Denna bild behandlas av en dator som beräknar hornhinnereflektionens mittpunkt samt pupillens mittpunkt. Hornhinnereflektionens mittpunkt är okänslig för ögonrotationer men känslig för positionsförändringar hos huvudet och ögat. Pupillens mittpunkt är däremot känslig för båda dessa fenomen. Skillnaden mellan pupillens mittpunkt och hornhinnereflexens mittpunkt blir en signal som är proportionerlig mot ögats rotation och därmed ögats blickriktning. 66

67 Ögonrörelser som styrdon Det finns ett antagande som säger att det som en användare tittar på en datorskärm är också det som användaren önskar välja. Av denna anledning har man försökt att använda ögonrörelser som styrdon för framför allt menyval. Eftersom ögonen tenderar att snabbt röra sig mellan olika positioner så brukar objektval definieras som en längre tid som ögat fixerar ett objekt, vanligtvis 250 ms. Det är emellertid svårt för de flesta användare att hålla ögonen stilla under en sådan tidsrymd. Om man minskar denna tid så får man dock andra problem. The Midas touch är ett fenomen som resulterar i att man väljer fler objekt än det man ville välja. Nackdelen med att ha ögonrörelser som datorinput är att det lätt blir konflikter mellan det önskade inputbeteendet hos ögonen och ögonens automatiska beteende. På senare tid har forskare börjat studera om man kan bygga modeller av ögats beteende för att kunna ta fram heuristik som kan hjälpa till att bestämma lämplig input. En enkel sådan heuristik har tagits fram av Zhai, Morimoto och Ihde (1999). Med deras metod befinner sig muspekaren hela tiden i den punkt på vilken användaren tittar. Ett val görs genom att användaren klickar på musknappen. Det finns stor potential i att kombinera input från ögonrörelser med input från andra modaliteter. T ex så skulle man kunna kombinera ögonrörelser med röstinput. Med ett sådant system skulle man t ex kunna flytta objekt genom att titta på det och säga Flytta objektet dit. När användaren säger dit och tittar på destinationen så flyttas objektet dit. Informationen från användarens tal hjälper datorn att bestämma vilken destinationen är trots svårtolkade och brusiga ögonrörelser. I dagsläget finns det ingen enkel, naturlig lösning på hur man kan använda endast ögonrörelser som input. Head-mounted displays är svåra att kombinera med ögonrörelse-input eftersom det är svårt att hålla systemet kalibrerat då HMD:n ofta glider och ändrar position på användarens huvud. En av de stora utmaningarna med att göra ögonrörelser till ett musliknande styrdon är att ögat inte rör sig på samma lugna och kontrollerade sätt som en handkontrollerad mus. Försök med speciella filter och så kallade averaging techniques har dock gjorts för att göra rörelserna mjuka och naturliga. Hela tanken med att använda ögonrörelser som styrdon är att man kan ge snabbare input till ett datorsystem. Saccader görs förvisso snabbare än handrörelser men att ta fram ett styrdon som faktiskt drar nytta av ögats snabbhet kan vara svårt i praktiken. Fitts lag lyder MT = a + b*log2(2d/w) MT är tiden det tar att flytta pekaren från en startpunkt till ett mål som har diametern W och befinner sig på avståndet D. A och b är konstanter som är specifika för det använda styrdonet. Ett styrdon med stort värde på konstanten a lägger förmodligen stor kognitiv belastning på användaren (t ex så kräver styrdonet koordination av många muskelgrupper för att sätta igång rörelsen mot målet.) Ett stort b förutsäger att en användares prestanda med styrdonet kommer att sjunka med ökande D eller minskande W om användaren t ex måste utföra flera motoriska uppgifter samtidigt (som att hålla ner musknappen för att dra ett objekt till ett mål). Man har kunnat visa 67

68 att även ögonrörelser följer Fitts lag. Man har funnit att fördelen med ögonrörelsestyrning beror på saccadernas höga hastighet och inte på den kognitiva tid som går år för att initiera uppgiften som representeras av konstanten b i Fitts lag. Rekommenderad läsning: Kapitel 9 Handbook of Virtual Environments Design, Implementation and Applications Kapitel 10 Handbook of Virtual Environments Design, Implementation and Applications Referenser Kendon, A. Some relationships between body motion and speech. In A. Seigman and B. Pope, editors, Studies in Dyadic Communication. Elmsford, New York: Pergamon Press, 1972, pp Oviatt, S. L. Multimodal interfaces for dynamic interactive maps, Proceedings of CHI 96 Human Factors in Computing Systems. ACM Press, NY, 1996, Stark M. and Kohler M., Video based gesture recognition for human computer interaction, in W. D.-Fellner (ed.), Modeling - Virtual Worlds - Distributed Graphics, November Zhai Shumin, Morimoto Carlos, Ihde Steven: Manual and Gaze Input Cascaded (MAGIC) Pointing. CHI

69 7. Tracking Inom Virtual Reality är tracking ett mycket viktigt och kritiskt område med många tekniska utmaningar. Vi har valt att använda det engelska ordet, men en översättning till svenska skulle kunna vara spårning eller målföljning. Tracking behövs för att realisera en interaktiv simulering där en person, en kroppsdel eller ett objekts rörelse kontinuerligt ska registreras för att påverka simuleringen på något sätt. En typisk situation är att en användares huvudposition trackas för att uppdatera simuleringens point-of-view och projektionsmatris. Det finns en mängd olika metoder för tracking. Alla har sina fördelar och nackdelar, och man bör låta applikationen och budgeten avgöra vad som är lämpligast från fall till fall. Man kan grovt klassificera dem under följande kategorier: Mekanisk Akustisk Elektromagnetisk Optisk / Bildbaserad Global positionering Ögonrörelsemätning Mekanisk tracking Mekanisk (eller kanske mera korrekt: elektromekanisk) trackning går ut på att omvandla mekanisk rörelse till en elektronisk signal. Ofta kan man använda enkla mekatronik-komponenter som är vanliga inom industrin, som t.ex. en vridpotentiometer för att ge en vinkelangivelse. Man brukar skilja på två typer av system: Kinematiska system (även kallat fjättrade system), samt Tröghetsbaserade system (även kallat ofjättrade system). Kinematiska trackingsystem Ett kinematiskt system utgår från en fix bas som tjänar som en referenspunkt. Utifrån denna bas går en serie rigida länkar som är förbundna med varandra med leder. Med hjälp av vinkelgivare kan man då bestämma varje länks position och orientering i förhållande till basen. Fakespace Boom (Figur 2.15) och SenseAbles Phantom (Figur 4.2) är exempel på kinematiska system. Fördelarna är hög precision och hög tillförlitlighet. Den uppenbara nackdelen med denna metod är att arbetsområdet bestäms av systemets fixerade bas och den begränsade räckvidden hos länkarna. Om man skulle göra länksegmenten längre så ökar massan och resonansfrekvensen sänks. Detta kan leda till fördröjningar eller resonanssvängningar, samt till att användaren känner av dess egenmassa mer. 69

70 Människokroppen kan förvisso också betraktas som ett kinematiskt system, och med ett personburet kinematiskt trackingsystem låter man basen vara någonstans på kroppen och kan mer direkt mäta en kroppsrörelse. Det förekommer allt från enkla goniometrar till avancerade flerledade exo-skelett. Goniometrar kallas de givare som mäter vinklar mellan leder, och man kan använda t.ex. potentiometrar, resistiva töjningsgivare eller fiberoptik (Figur 7.1). Man kan även skapa s.k. virtuella goniometrar genom att sätta en orienteringsmätare på respektive kroppsdel och sedan beräkna skillnaden i vinkel mellan dem. Nackdelen med denna metod är att mätutrustningen kan vara obekväm, och tenderar att hamna ur läge när användaren rör på sig. Vilken utrustning man än använder så kan man med de uppmätta beräkna läget för varje kroppssegment i förhållande till baspunkten. Kroppsställningen kan bestämmas ur vinkeldatan med hjälp av Forward Kinematics-beräkningar (FK). FK är relativt enkelt att beräkna, och ger alltid en entydig lösning. Figur 7.1a En goniometer för en exakt vinkelmätning av knäled. Figur 7.1b The CyberGlove. I varje handske är 22 resistiva sensorer insydda, för att mäta fingerledernas flexion och abduktion. Inverse kinematics (IK) kan användas för att beräkna poserna hos övriga kroppsdelar när endast poserna för några få kroppssegment är kända, vanligtvis huvudet och händerna. IK-algoritmer är mycket mer komplexa än forward kinematics-beräkningar men en hel del kunskap om hur man gör detta finns speciellt inom robot-tekniken. Rent konkret fungerar det så att en sensor mäter t ex handens position och orientering och skickar dessa data till IK-algoritmen. IK-algoritmen försöker sedan beräkna den mest sannolika kombinationen av poser hos de övriga kroppssegmenten som gör att handen hamnar i det önskade läget. Tröghetsbaserade system Tröghetsbaserade system, eller ofjättrade system, använder sig av accelerometrar och gyroskop. I bl.a. missiler, flygplan och båtar har man alltsedan 50-talet använt Inertial Navigation Systems (INS), där man använder tre ortogonala gyroskop för att mäta orientering och tre ortogonala accelerometrar för att mäta position. Nuförtiden kan man enkelt bygga ett tröghetsbaserat system utan rörliga delar, och med billiga integrerade kretsar, s.k. MEMS (micro-electromechanical systems). Genom 70

71 miniatyriseringen, och det stora behovet inom bilindustrin på 90-talet, fick denna typ av sensorer ett stort genomslag, och har nu blivit så pass små och billiga att de används flitigt i konsumentprodukter t ex laptops och smart phones. En accelerometer är i princip en massa upphängd i fjädrar i ett hölje som kan användas för att mäta accelerationen som inte beror på tyngdkraften längs dess känsliga axel (Figur 7.2). Det stora problemet med accelerometrar är drift. Det beror på att det som registreras (m/s 2 ) måste dubbelintegreras för att man ska erhålla ett positionsvärde (m). Avvikelser och brus blir därför ackumulerande, och en helt stillastående sensor kan ge värden som om den rörde sig. Den senaste generationen gyroskop kallas coriolis vibratory gyroscope (CVG) och behöver inte någon roterande massa. Att tracka med gyroskop medför ett antal fördelar. T ex så finns ingen räckviddsbegränsning och inga problem med siktlinjer och interferens. En annan stor fördel är extremt lite jitter. En tredje fördel är att gyroskop är väldigt snabba. Jitter och latency i orienteringen är de kritiska parametrarna i HMD:s och därför är det mycket lämpligt att använda gyroskop för tracking av huvudets tilt (framåt-/bakåtlutning) och roll (sidolutning). Yaw (rotation i horisontalplanet) är däremot benäget att drifta, eftersom man då inte får någon inverkan från gravitationen. Figur 7.2 En principskiss av en accelerometer Allmänt kan problemen med drift hos tröghetssensorer minskas genom att man använder komponenter med högre noggrannhet, algoritmer som håller driften nere, eller genom att användaren med jämna mellanrum återvänder till startpositionen så att felet kan nollställas. Alternativt kan man komplettera med någon annan trackingmetod (se avsnitt Hybridsystem). Akustiska trackingsystem Principen bakom så kallade akustiska trackers bygger på att man mäter flykttiden för en kort ultraljudspuls. Flykttiden (time-of-flight) mellan en sändare och mottagare är direkt proportionell med avståndet. Detta var en av de tidigaste metoderna för tracking, och bl.a. användes den av Ivan Sutherland när han tog fram sina tidiga HMD-lösningar. Akustiska trackers kan göras väldigt billiga och användes därför bl a i Mattels PowerGlove som var ett tillbehör till Nintendos TV-spel i början av 90-talet 71

72 (Figur 7.3). Typiska nackdelar med denna teknologi är latency, låg uppdateringsfrekvens samt känslighet för ultraljudsbrus. Anledningen till den ibland låga uppdateringsfrekvensen är reverberation. Beroende på akustiken i rummet så måste man vänta 5 till 100 ms på att efterklangen dör ut innan man kan skicka ut en ny puls vilket kan innebär uppdateringsfrekvenser så låga som 10 Hz. Figur 7.3 The PowerGlove Elektromagnetiska trackingsystem Elektromagnetiska trackingteknologier har en lång historia och har till dags dato använts mer än någon annan trackingteknologi. I början av 90-talet använde man billiga digitala kompasser i HMD:s för konsumentbruk. Detta funkade dessvärre mycket dåligt och geomagnetisk tracking används därför inte idag. Polhemus Navigation Sciences har tagit fram en teknik för att tracka position och orientering, och som ursprungligen var avsedd att sitta på stridspilothjälmar. Tekniken använde ett växelmagnetfält i vilken en sensor som kunde känna av detta magnetfält befann sig. På senare tid har man utvecklat liknande system som bygger på quasi-dc magnetfält. Båda dessa varianter används nu flitigt i en mängd olika gränssnittstillämpningar. I båda systemen genereras magnetiska fält av en källa som består av tre ortogonala lindade spolar som aktiveras i sekvens av en kontrollenhet för att generera tre ortogonala magnetdipolfält som påminner om jordens dipolfält. I ett AC-system så aktiveras källan av växelström med frekvenser mellan 7 och 14 khz. Sensorn består av tre liknande lindade spolar som kan mäta komponenter av de svängande magnetiska fälten genom induktion. Både AC och DC system har en mycket begränsad räckvidd eftersom magnetfältets styrka avtar snabbt med avståndet till sensorn. AC-system är bara känsliga för frekvensband centrerade kring 8, 10, 12 eller 14 khz och är därför immuna mot interferens från lågfrekventa spänningskällor såsom elledningar och datormonitorer. DC-system däremot kan producera fel på hela 30 mm till följd av interferens från lågfrekventa spänningskällor. Man kan dock få ner detta fel till mer rimlig storlek bl.a. genom användning av filter. Det har gjorts studier på hur olika metaller påverkar 72

73 AC-och DC-system. Man har funnit att DC-system inte påverkas alls av mässing, aluminium och rostfritt stål men däremot av koppar, ferrit och ohärdat stål. Ett exempel på ett elektromagnetiskt system är Flock-of-Birds, från Ascension Inc. (se Figur 7.4). Figur 7.4 Ett elektromagnetiskt tracking-system: Flock-of-Birds, från Ascension Inc. Systemet kan samtidigt spåra position och orientering på upp till trettio sensorer med en sändare. Varje sensor är kapabel att göra 20 till 144 mätningar per sekund av dess position och orientering (6 frihetsgrader). Räckvidden för sändaren ger ett maximalt arbetsområde på ± 2,4 meter. Position och riktning bestäms genom att överföra en pulsat DC magnetfält som mäts samtidigt av alla sensorer i flocken. Från det uppmätta magnetfältet, beräknar varje sensor självständigt sin position och orientering och gör denna information tillgänglig för en värddator. Optiska/ bildbaserade trackingsystem De flesta optiska system använder någon form av sensor för att registrera punktformiga markörer och kan klassificeras i outside-in och inside-out system. Det vanligaste arrangemanget är att använda ett ouside-in system med markörer på det trackade objektet. Sensorerna detekterar riktningen mot markörerna och en dator triangulerar sedan fram markörernas positioner m h a vinklarna från de två närmaste kamerorna. Det största problemet med outside-in-system är att man får kompromissa mellan upplösning och arbetsvolym, eftersom kameror med smal FOV har bra upplösning och vice versa. Ett alternativt arrangemang är inside-out-system i vilka man placerar sensorn på användaren och markörer i väggar eller tak. För att få tillräckligt bra positionsupplösning i ett inside-out-system så måste man ibland placera fler än en sensor på användaren vilket kan blir för tungt för vissa tillämpningar. En 73

74 möjlig konfiguration är alltså att använda outside-in tracking för att få god positionsupplösning och inside-out tracking för att få bra orienteringsupplösning. Optiska system kan även klassificeras utefter huruvida de är bildbaserade eller ej. Bildsensorer som CCD- eller CMOS-kameror kräver någon slags bildbehandling för att man ska kunna hitta markörernas vinklar. De har fördelen att de kan hitta positionen för flera markörer i samma bild och att de kan vara exakta även om det finns bakgrundsbrus, iallafall så länge bildbehandlingen är tillräckligt avancerad. Icke bildbaserade system som t ex quad cells eller lateral effect photodiode är helt analoga sensorer som bestämmer mittpunkten av allt ljus i bilden. Dessa system kräver ingen bildbehandling men man måste se till att det enda ljus som sensorerna ser kommer från markörerna. Därför använder man alltid denna typ av sensorer tillsammans med markörer som är aktiva ljuskällor. I de flesta fall är markörerna infraröda ljusdioder och sensorn är utrustad med ett IR-filter för att blockera allt synligt ljus. Bildbaserade system är inte begränsade till aktiva markörer utan kan även användas med retroreflektiva och t o m passiva markörer. Många kommersiella motion capturesystem använder kameror med ljusdioder placerade runt linsen (Figur 7.5a) för att tracka markörer i form av små bollar täckta av retroreflekterande film som innehåller tusentals reflexer som reflekterar tillbaka ljuset i den riktning det kom (Figur 7.5b). På så sätt registrerar kameran bollarna som väldigt ljusstarka (Figur 7.5c). (a) (b) (c) Figur 7.5. Komponenter i ett motion capture-system Denna metod gör markörerna så pass ljusstarka att den enda bildbehandling man behöver göra är ändra tröskelvärdet för vitt och sedan hitta mittpunkten på den ljuscirkel som är markören. Nackdelen med metoden är att den endast fungerar i inomhusmiljöer där man inte har för mycket bakgrundsljus. Passiva system kräver avsevärt mer datorkraft eftersom markörerna inte är ljusare eller mörkare än andra vita och svarta objekt i bilden. Markörerna måste istället identifieras på basis av form och storlek. Man tror att bildbaserade system med passiva markörer kommer att användas flitigt i framtiden eftersom utvecklingen av allt snabbare processorer kommer att tillåta allt mer avancerad bildbehandling. Fördelarna jämfört med ett system som använder aktiva markörer är: I inside-out-system behöver man inte dra kablar till de aktiva markörerna på väggar och/eller golv Större räckvidd till lägre kostnad Många användare kan ha samma set av markörer utan risk för konflikter Bärbara system är sladdlösa och behöver inte använda radiokommunikation istället 74

75 De kan använda vidvinkelkameror utan risk för fel pga reflektioner och därmed behöver man inte använda så många markörer Fördelar jämfört med bildbaserade system med retroreflektiva markörer är: I inside-out-system behöver användaren inte bära en ljuskälla Markörerna är platta istället för sfäriska Markörerna kan tilldelas unika koder och bildbehandlingen gör att man kan identifiera positionen och identiteten för varje markör De kan fungera såväl inomhus om utomhus Bildbaserad tracking utan markörer Den senaste utvecklingen av sofistikerade bildbehandlingsalgoritmer medger att tracking nu kan göras utan behov av markörer. Dessa system kan identifiera och följa t.ex. ögon-, ansikts- eller helkroppsrörelser med hjälp av bildsensorer. I fallet med ögon- och ansiktsrörelse kan man använda vanliga web-kameror. Microsoft Kinect är en ny enhet som kombinerar en bildsensor för synligt ljus med en infraröd 3Dlaserscanning (se Figur 7.6). Upp till två personers helkroppsrörelser kan trackas samtidigt. Figur 7.7 illustrerar Skeletal Tracking Engine, som är en del av Microsofts SDK för Kinect. Figur 7.6 Microsoft Kinect sensor. Denna enhet är egentligen 3 sensorer i en: En bildsensor för synligt ljus; en mikrofon-array för 4-kanals ljudupptagning; och en laserprojektor med intilliggande bildsensor som arbetar i det infraröda området. Figur 7.7 Illustration av informationen från Skeletal Tracking Engine. Upp till två personers helkroppsrörelser kan trackas i 3D. 75

76 En kritisk faktor vid denna typ av avancerad bildbehandling är beräkningskapaciteten hos systemet, eftersom denna information måste uppdateras kontinuerligt och utan alltför stora fördröjningar. Global positionering Global positionering kan införskaffas med mottagare för GPS eller liknande system. Det finns även gamla goda tekniker som radiovågsbaserad triangulering. Dock är denna typ av positionsbestämning av låg precision och fungerar oftast inte inomhus. Passar bra för mobila applikationer, och inom AR. Hybridsystem Det är numera mycket vanligt att produkter för tracking är hybridsystem som kombinerar olika trackingmetoder, i syfte att de ska eliminera respektive metods svagheter och begränsningar. Ett exempel är trackingsystemet till Nintendo Wii som kombinerar tröghetssensorer med en infraröd kamera (se Figur 7.8). Figur 7.8a Nintendo Wii Remote. Handhållen kontrollenhet som förutom knappar och joystick innehåller tröghets-sensorer, samt en IR-kamera i framkanten. Figur 7.8b Nintendo Sensor bar. Namnet till trots, så innehåller denna enhet endast ett par IR-lysdioder, som fungerar som en fix referenspunkt för Remote-enhetens kamera. 76

77 Ett annat exempel är det trackingsystem som används till VR-labbets Cave-system: IS-900 Motion Tracking System, utvecklat av InterSense Inc. ( Systemet ger 6-frihetsgrader (6-DOF) för varje mätstation, och bygger på en hybridteknik av tröghetsbaserad tracking och ultraljuds-tracking. Snabba förändringar av position och orientering bestäms av accelerometrar/gyros i varje mätstation. Drift korrigeras genom ett Kalmanfilter som kombinerar informationen från tröghetssensorerna med olika mätningar från ultraljud-delen. Resultatet är full 6-DOF data som är mycket exakt och fri från drift. Intersense hävdar flera fördelar med detta system: Immun mot induktiva störningar och optisk interferens. Tröghetssensorerna eliminerar problem med akustisk "siktlinje"-blockering. God noggrannhet över hela trackingvolymen. Systemet är skalbart i storlek. Från små sittbrunnar till stora rum. Kalibrering utförs endast en gång vid installationen. Trådlös överföring från personburna mätstationer. Figur 7.9 visar schematiskt IS-900, där två mätstationer får ultraljudsignaler från stationära transpondrar. Tröghetssensorn i varje mätstation beräknar orientering och position, och de akustiska komponenterna förhindrar avdrift. Figur 7.9. IS-900 schematisk illustration. Processorenheten har fyra ingångar för mätstationer och stöd för upp till 16x3 ultraljuds-transpondrar. Ultraljuds-transpondrarna är normalt monterade i taket över arbetsytan som önskas trackas. Figur 7.10 visar ett exempel på hur en array av transpondrar kan se ut. Vid installation, måste man noggrant mäta in x-, y-, z- koordinaterna för varje transponder. Men därefter behöver man inte utföra fler kalibreringar. 77

78 De akustiska mätningarna görs med enkelriktade time-of-flight (TOF) mätningar. De akustiska pulserna från transpondrarna fångas upp av mikrofoner som är integrerade i mätstationerna. Processorn ger i tur och ordning ett kommando till en transponder att skicka en 40 khz ultraljudspuls. Samtidigt startas tidtagning i var och en av mätstationerna, och stoppas vid ankomsten av den akustiska pulsen (vilken har en unik signatur för varje transponder). Figur En array av ultraljuds-transpondrar i VR-labbet på Ingvar Kamprad Design Center. Pulser av ultraljud sänds regelbundet ut från 18 olika positioner. Figur 7.11 visar två olika varianter av IS-900 mätstationer. Den ena används som head-tracker, och den är en handhållen enhet med kompletterande knappar och en mini- joystick. Varje mätstation har förutom tröghetssensorerna även 2 ultraljudsmikrofoner, placerade i vinkel 45 uppåt och framåt. Figur 7.11a IS-900 Head-tracker. Mottagare (t.v.) och sensor med trådlös sändare (t.h.). Denna sensor är avsedd att monteras på glasögon eller en hjälm. 78

79 Figur 7.11b IS-900 Wand. Handhållen kontrollenhet med integrerad sensor och sändare. Förutom fem knappar, finns en liten joystick. Denna enhet kan användas för "walk-through" navigering, eller för objekt-manipulering. Generella problem vid tracking En kritisk faktor inom all typ av tracking är systemets latency, dvs tidsfördröjningen mellan att en rörelse görs till dess att datan om rörelsen har mottagits och tolkats av systemet. Ju mer ett trackingsystem medverkar till långa fördröjningar mellan rörelsen och systemets feedback, desto mer försämras närvarokänslan och prestationsförmågan. I ett experiment av Held & Durlach (1991) varierade man tidsfördröjningar för en interaktiv uppgift och fann att vid 60 ms började manipuleringsförmågan att avta. Vid 120 ms var den kraftigt reducerad, och vid 200 ms började det bli mycket svårt att utföra uppgiften. Drop-outs är som namnet antyder ett temporärt bortfall av trackingdata. Det kan bero på störningar i trådlös dataöverföring, men det kan även orsakas av inneboende brister hos trackingsystemet. T.ex. ett optiskt system kan kräva fri sikt mellan en markör och minst två kameror, och om sikten skyms för en av kamerorna så tappar systemet förmågan att räkna ut markörens 3D-position. Ofta kan man kompensera kortvariga bortfall med olika filter- och målföljnings-algoritmer. Dessutom finns det en rad olika fel som kan uppstå vid tracking och de kan delas upp i statiska fel och dynamiska fel. Statiska fel: Spatial distortion innebär fel som uppstår till följd av ickelinjär kalibrering, felplacering etc. Jitter är brus i utsignalen från trackern som gör att bilden skakar även om trackern i själva verket är helt still Drift (eller creep) är variationer i trackerns utsignal som är för små/långsamma för att observeras direkt men som kontinuerligt bygger på en avvikelse med tiden. Dynamiska fel: Latency jitter är variationer i latency Dynamic error är fel i noggrannheten som inte beror på latency, spatial distortion eller drift. Dessa fel kan uppstå till följd av t ex overshoots som genererats av prediktions-algoritmer. 79

80 Specifika behov för olika VR-tillämpningar Tracking för ogenomskinliga HMD:s Det primära behovet för att uppnå en naturlig och immersiv upplevelse med HMDs är att tracka huvudets orientering, vilket medför att användaren kan se sig runt i den virtuella miljön genom att vrida på huvudet. Det är oftast även vara önskvärt att tracka position. Dock brukar det här uppstå en del praktiska problem beträffande trackerns arbetsområde, samt eventuella maxlängder på HMD-kablage som kan begränsa räckvidden för hur långt man kan gå iväg. I situationer där man vill kunna gå långa avstånd i den virtuella miljön, så använder man sig oftast av olika tekniker för walkin-place. T.ex. kan användaren vara upphängd i en sele och man släpar fötterna längs ett underlag med låg friktion (se Figur 7.12a). En annan lösning är att bygga någon form av treadmill, t.ex. ett löpband, eller som i Figur 7.12b, där man går inne i en sfär som vilar på hjul. Fördelen är att man kan gå obegränsat åt vilket håll, samt att det är enkelt att tracka sfärens rörelser. De flesta HMD-tillämpningar använder någon slags handtracker för selection och manipulation. I en ogenomskinlig HMD ser användaren inte sin hand utan endast den grafiska representationen av handen. Att denna virtuella hand inte befinner sig på exakt samma ställe som den fysiska handen är relativt oviktigt. Det räcker att rörelser med den verkliga handen gör att den virtuella handen följer på ett mjukt och förutsägbart sätt. Med övning så kommer användarens eye-hand sensori-motor loop att anpassa sig till den spatiala förskjutningen. Prestationsförmågan och kontrollen ökar med anpassningen men fördröjningar i trackingen kan försvåra denna anpassning. Det kan även förekomma negativa eftereffekter när användaren återvänder till verkligheten. För att undvika dessa problem kan man försöka matcha den virtuella handens position med den verkliga handens, så att användare kan använda sin naturliga proprioception 6 utan anpassning. På så sätt kan man få ett väldigt naturligt och lättlärt gränssnitt om noggrannheten hos trackingsystemet är högre än den noggrannhet med vilken den mänskliga proprioceptionen kan känna skillnader i handens position med slutna ögon. 6 Förmågan att uppfatta kroppsställning 80

81 Figur 7.12a Walk-in-place för trådbunden, ogenomskinlig HMD. Användaren är upphängd i en sele och man släpar fötterna längs ett underlag med låg friktion Figur 7.12b En sfärisk treadmill, som vilar på hjul. Fördelen är att man kan gå obegränsat åt vilket håll, samt att det är enkelt att tracka sfärens rörelser. Det krävs dock trådlös överföring till HMDn. Tracking för stationära displayer Med ett VR-system för stationära displayer, t.ex. en displayvägg eller ett Cavesystem, behöver man inte tracka huvudets orientering. Däremot ger tracking av huvudets position en möjlighet att styra VR-miljöns kameraposition, vilket gör att en användare kan uppleva parallaxförändringar och att se runt hörn. På grund av att displayerna är stationära måste man dock kompensera perspektivprojektionen så att den motsvarar kamerapositionens offset från sitt normalläge. I normalläget är perspektiv-projektionen symmetrisk, och vanishing point befinner sig i displayens centrum. När kamerapositionen flyttas från detta läge måste man därför göra perspektiv-projektionen asymmetrisk. Korrekt utfört kan denna kompensation av perspektivet ge en stark närvarokänsla, men det fungerar bara för en enskild 81

82 användare. Om det är flera betraktare samtidigt, så upplevs bilden som mycket distorderad för de som inte är bärare av huvud-trackern. Vad gäller handtracking så gäller i praktiskt samma principer som för ogenomskinliga HMD:s (se föregående stycke). Ett problem som är unikt för skärmbaserade VRsystem är dock att användaren ser den virtuella handen och den verkliga handen samtidigt (se figur 8.13). Detta kan göra att användaren lättare upptäcker fördröjningar i trackingen vilket kan försvåra manipulationen. Figur 7.13 Handtracking i ett Cave-system Tracking för AR-applikationer med see-through HMD:s Ett AR-system bygger på att man lägger bilden av det virtuella objektet över det verkliga objektet vilket kräver mycket hög precision i trackingen. Detta skiljer sig från system med ogenomskinliga HMD:s i vilka jitter, latency och latency jitter är kritiska, men i vilka spatial distortion och creep knappt märks. För typiska AR-applikationer är latency, spatial distortion och creep de mest kritiska egenskaperna i trackingsystemet. Även egenskaperna jitter och jitter latency spelar roll eftersom de kan få virtuella objekt att skaka eller vibrerar men de får inte hela världen att skaka som i en ogenomskinlig HMD och därmed blir risken för simulatorsjuka lägre. Konsensus i AR-litteraturen är att latency är den mest kritiska dimensionen. Olika AR-applikationer ställer olika höga krav på trackingen. T ex så är det rimligen så att ett datorspel som använder AR-teknik ställer mindre krav än en AR-applikation där de virtuella objekten måste projiceras exakt över de verkliga objekten. Man tror att tröskeln för upptäckt av latency är lägre i AR-system jämfört med ogenomskinliga HMD:s eftersom även verkligheten är synlig och fungerar som referens. Tracking för audio applikationer med hörlurar Upplösningen i riktning för binauralt hörande är som bäst 1 grad i azimuth (vinkeln i horisontella planet) och 15 grader elevation (vinkeln i vertikalplanet). Detta innebär att jitter och short-term stability lägre än en grad är det som krävs för att vara säker på att en ljudkälla verkar hoppa omkring när användarens huvud är still. Om VRsystemet även är visuellt så kan buktalarfenomenet göra att ett ljud verkar komma från ett objekt även om det egentligen kommer från en närliggande position. Djupperceptionen är ännu sämre i den auditiva modaliteten och därför ställer ett 82

83 auditivt VR-system ganska låga krav på trackingen både vad gäller position och orientering. Tracking för avatarapplikationer Generering av avatarer för VR-applikationer skiljer sig från den motion capture som görs t ex till filmer och spel så tillvida att den görs i realtid och att det inte finns några krav på exakthet. För genomskinliga HMD:s och skärmbaserade VR-system så är förstaperson-avatarer onödiga eftersom användaren kan se sin riktiga kropp. I system som använder ogenomskinliga HMD:s kan användaren däremot inte se sig själva och kan förlora en del av sin känsla av närvaro i den virtuella miljön. Ett billigt sätt att animera en avatars kroppsdelar är att utgå från trackern som används till handen och sedan approximera de övriga lemmarnas position och orientering med inverse kinematics. Denna teknik är ofta tillräcklig för att skapa en trovärdig illusion så länge användaren inte börjar studera t ex sina virtuella armar mer i detalj. Animering av avatarer för tredje person däremot ställer högre krav på realism och mer avancerad tracking. Tracking tekniker för AR Inom AR kan man naturligtvis i princip använda alla de tracking-metoder som beskrivits tidigare, men beroende på den speciella kontext, och de speciella krav som ställs, så beskrivs här lite av de tekniker som hittills förekommit mest inom AR. Normalt delas tracking-teknikerna in under 3 kategorier: Sensor-baserad Kamera-/bildbaserad ( Vision-based ) Hybrid-baserad Det finns åtskilliga sensorbaserade tekniker för att bestämma position och rörelse, bland annat (jord-)magnetiska (t.ex. kompass), akustiska, tröghetssensorer (acceleratorer), optiska och mekaniska. Det finns även sensorer som bygger på olika typer av radiosignaler, t.ex. GPS och RFID. Alla har sina fördelar respektive nackdelar med tanke på noggrannhet och felgenerering (Tabell 7.1). Tabell 7.1 Jämförelse av vanliga tracking-tekniker för AR. Teknologi Range (m) Setup time Precsion Time (s) Environment (hr) (mm) Optical: in/out Marker-based Optical: in/out Markerless Optical: in outside-in Optical: in/out inside-out GPS out WiFi in/out Accelerometer in/out Magnetic in/out Ultrasound in Inertial in/out 83

84 Hybrid in/out UWB in RFID: active when needed 500 in/out RFID: passive when needed 500 in/out Kamerabaserade tekniker använder sig enbart av videokameror för att bestämma position och rörelse. Första steget är att identifiera och tracka kännetecken ( features ) i bilderna. Det kan vara allt ifrån enkla markörer som är utplacerade i förväg i rummet/omgivningen, till naturliga kännetecken såsom hörn, kanter och kontraster som sedan bearbetas med lämplig metod för bildanalys/bildbehandling för att den virtuella bilden ska kunna placeras rätt i den verkliga bilden. Kamerabaserade system har lågt jitter och ingen drift och har fördelen att de kan korrigera fel dynamiskt. Nackdelen är dock att de är långsamma, och snabba kamerarörelser kan leda till att trackingen misslyckas, särskilt i de system som använder punkter och strukturer som stöd för trackingen, och det kan ta tid för systemet att rätta till detta. Därför kombineras ofta kamerabaserade system med t.ex. GPS och acceleratorer till hybridsystem, som kompenserar för långsamheten i kamerabaserade tekniker. De senaste åren har det kommit realtids tracking-system som kan hantera rörelseoskärpa ( motion-blur ). Det har visat sig att rörelseoskärpa i kamerabaserade system kan analyseras och användas till att ersätta t.ex. ett gyroskop. Problem med tracking Tracking-fel i AR-system kan också orsakas av t.ex. en komplex miljö, ljusändringar, rörelser i miljön, eller att objekt i rörelse separeras eller slås samman pga. occlusion. Ett problem som kan uppstå i AR-system är felaktig occlusion. Virtuella objekt ska ibland gömmas bakom reella objekt, och reella objekt kan döljas av virtuella. Virtuella objekt brukar ibland felaktigt placeras överst, dvs. framför reella objekt, även om det reella objektet ska vara närmare kameran. Detta är inte trovärdigt, och ger en dålig användarupplevelse. I seriösa applikationer är det mycket viktigt att det är korrekt placerade, t ex inom reparation och medicinska applikationer. Problem uppstår oftast vid användande av en kamera, då man inte använder en 3D-modell av den reella miljön Figur 7.14 Occlusion i AR. eller objektet. En lösning är att använda två kameror som genererar depth-maps. Det finns också lösningar då en kamera används, utan en 3D-modell; t.ex. kan urklippsmasker genereras baserat på rörelsen på konturer i bilden över tiden. Kamerabaserad tracking För att kunna placera ett 3D-objekt korrekt i den kombinerade virtuella och reella verkligheten som återges på displayen i en AR-applikation, krävs det att kamerans 84

85 position och rörelser kan detekteras. För att upplevelsen ska bli trovärdig, måste tracking-tekniken vara robust och tåla t.ex. snabba rörelser utan att jitter och lag uppstår mellan det virtuella objektet och den reella verkligheten. Detta är ju inte minst viktigt inom medicinska applikationer eller vid reparation av viktiga objekt med hjälp av AR. Jämför man med VR, är det mycket lättare för användaren att upptäcka fel i AR, eftersom man har den reella verkligheten som referens. Det första steget i tracking-proceduren är att identifiera kännetecken ( features ). En feature är en speciell punkt i bilden som tracking-algoritmen kan låsa på och följa genom flera bildrutor. Som feature väljs ofta ljusa eller mörka punkter, kanter eller hörn, beroende på vilken tracking-algoritm som används. Det viktiga är att varje feature representerar en specifik punkt på det verkliga objektets yta. När en feature är identifierad och trackad skapas en serie med tvådimensionella koordinater, som representerar featurens position över en serie av bildrutor. Det är denna serie som bildar ett track. När väl dessa tracks har skapats kan de omedelbart användas för 2D- motion tracking, och användas till att beräkna 3D-information. För att göra det möjligt att återge de virtuella objekten exakt rätt i bilden av den reella verkligheten, krävs det alltså att det finns eller skapas en motsvarande virtuell representation av verkligheten, där de virtuella objekten placeras, samt att denna modell/karta följer kamerans rörelser och position. Det finns flera olika kamerabaserade tracking-metoder: Markör-baserad Modell-baserad Natural features Markörer Markörer kan vara passiva eller aktiva. Exempel på aktiva markörer är LEDs. Passiva markörer kan bestå av cirklar (t.ex. utskrivna på papper) som är placerade på kända ställen i miljön och fungerar som referenspunkter, eller kvadratiska kort med olika unika symboler eller mönster. Till skillnad från cirkelmarkörerna krävs det endast ett kvadratiskt markörkort för att kameran ska kunna registrera positionen på markörens fyra hörn i förhållande till varandra, och det virtuella objektet kan därmed återges i rätt vinkel och storlek. Vilket objekt som återges är kopplat till det unika mönstret på kortet. Mönstret eller symbolen på kortet identifieras genom linje- och kontrastdetektering. Ett exempel på ett system med kvadratiska markörer är ARToolKit, som presenterades redan år 1999, men Figur 7.15 ARToolKit. fortfarande är populärt i många AR-applikationer. Andra sådana system är IGD (Institut Graphische Datenverarbeitung), SCR (Siemens Corporate Research) och HOM (Hoffman marker system) (se figur 7.15). 85

86 Figur 7.16 Markörer från olika system: ARToolKit, IGD, HOM respektive SCR En nackdel med markör-baserade tekniker är att de inte är skalbara (t.ex. utomhus). I figur och i motsvarande videor visas exempel på tillämpningar av markörbaserad AR. Figur 7.17 ARf, ett Augmented Reality-virtuellt husdjur i iphone, framtagen av Augmented Environments Lab; en forskningsgrupp på GVU Center vid Georgia Institute of Technology. Figur 7.18 En video demonstrerar ARToolKit. Figur 7.19 En annan demonstrationsvideo av markörbaserad AR: Mini-tanks came out in sequence from a hole in my room wall. 86

Visa mer