Innehåll Datorseendebaserade människa-datorgränssnitt Exempel på tillämpningar och tekniker Lars Bretzner Centre for User Oriented IT Design (CID) och Computational Vision and Active Perception Lab (CVAP) NADA/KTH Bakgrund, introduktion Datorseendebaserade gränssnitt: Helkroppsposer och rörelser Handgester Datorseendebaserade gränssnitt: Bakgrund Bygger på datoriserad analys av bilder från en eller flera kameror som filmar användaren Har blivit en intressant möjlighet p.g.a. Framsteg inom datoriserad bildanalys Snabbare (och billigare) datorer Billigare (och fler) kameror av bra kvalitet Datorseendebaserade gränssnitt Fördelar: Användaren behöver ingen utrustning för interaktion Billigt ofta standardkameror Flexibilitet samma kamera,olika interaktionssätt Nackdelar: Komplicerad teknik, i de flesta fall är tekniken ej ännu mogen för marknaden Datorseende - Bildanalys Automatisk tolkning av bilder, t.ex igenkänning av föremål, människor eller händelser, för bl.a navigering, övervakning, medicinska tillämpningar, fjärranalys (satellit o flygfoto), MMI, bildsökning, robotar etc. Aktivt forskningsområde sedan 1960-70 Stort uppsving under senare delen av 90-talet och framåt pga allt snabbare datorer Page 1
Varför är det svårt? Datorseende - Bildanalys Bildinnehållet (pixlarna) bestäms av en mängd parametrar: 3D-formen hos föremålen, materialegenskaper, belysning (frekvens, placering), atmosfär, kamerans placering, optik, bildsensor etc etc. Stor datamängd att hantera: >100000 pixlar=bytes per färgkanal (R,G,B) i varje bild, ofta 10-60 bilder/sekund Datorseende - Bildanalys Hur representera/modellera världen för att hantera alla tänkbara situationer...? Tills vidare: Begränsa problemdomänen t.ex Kontrollerade belysningsförhållanden Kända avstånd kamera-scen Enkla scener Fåtal objekt/händelser att känna igen... Helkroppsposer och -rörelser Detektion av stora kroppsdelar och/eller deras rörelser, typiskt armar, ben, torso och huvud. Helkroppsrörelser Enklast: Hitta stora rörelser i hela bilden, kombinera med enkla antaganden om kroppsposition. Exempel på tillämpningar: Övervakning Navigering i VR-miljöer Spel Exempel: Ghost in the Cave, TMH, KTH Helkroppsrörelser Detektion av stora rörelser kan även kombineras med hudfärgsdetektion och borttagning av statisk bakgrund. Exempel: Sony Eye Toy till Playstation 2 Helkroppsposer och -rörelser För att bestämma kroppsposen kan enkel 3Dmodell av kroppen (torso,huvud,armar,ben) matchas mot bilddata. Med två kameror fås djupinformation i scenen. Smart visuell feedback: användaren inuti spelet Ex. MIT AI lab Page 2
Helkroppsposer och -rörelser Kroppsposerna i 3D kan användas för interaktion, t.ex navigering i VR-miljö. Ex. MIT AI lab Fördelar: - Bättre noggrannhet i rörelsedetektion - Kroppsposer möjliggör rikare interaktion Helkroppsposer och -rörelser Endast en kamera: Kroppsposer och rörelser i 3D betydligt svårare. Ingen djupinfo och ofta skymda kroppsdelar gör att gissningar om posen ofta måste göras baserade på statistik från vanliga kroppsrörelser. Nackdelar: - Komplexa beräkningar ty många frihetgrader - Känsligt för belysning, klädsel, bakgrund - Kräver två eller flera kameror Ex. CVAP/NADA/KTH Mätning av huvudposition samt orientering och/eller blickvektor. Exempel på tillämpningar: Uppmärksamhetsmätningar - Intresseområden i bilder, på websidor etc. - Attentive interfaces (uppmärksamhetskänsliga) Trötthetsmätningar Dialogsystem - Ja-nickar/Nej-skakningar - Turtagning Relativt gammalt område, många kommersiella system. En eller flera kameror. Ofta IR-belysning och kamerafilter för att minimera känsligheten för yttre ljusförhållanden. Ex. Smart Eye AB Teknik I: 1. Hitta ansiktet i bilden. 2. Hitta detaljer, särdrag, i ansiktet (ögon, ögonvrå, mungipor..). 3. Anpassa 3D-modell av huvudet till bildpunkterna -> huvudposition och orientering 4. Hitta iris, pupiller, ögonlock -> blickvektor Teknik I, prestanda: Två eller flera kameror med VGA upplösning, Huvudorientering ca 1 grad, Blickvektor ca 3-5 grader ~ 5-8 cm på 1 m. Fördelar: - Både huvudpose och blickvektor. - Stora huvud- och ögonrörelser möjliga. Nackdelar: - Problem med glasögon och vissa ansiktstyper. - Otillräcklig blicknoggrannhet för vissa tillämpningar. Page 3
Teknik II: 1. Hitta ögonen (pupillerna) i bilden med IR-reflexer från ögonbotten. 2. Hitta glintar, dvs reflexer i hornhinnan från IRljuskällor. 3. Beräkna ögonlobens 3D-position från glintarna. 4. Ögonlob+pupillposition -> blickvektor Exempel: Uppmärksamhetsmätning, fixeringar Ex. Tobii AB Exempel: Attentive interfaces forts, svara i telefonen Teknik II, prestanda: Blickvektor ca 1 grad ~ 1.5-2 cm på 1 m. Fördelar: - Tillräcklig noggrannhet för de flesta fall. - Okänslig för olika ansiktstyper. Nackdelar: - Glintberoende: Endast mindre ögonrörelser möjliga i normalfallet. - Mäter ej huvudpose. Exempel: Attentive interfaces, gränssnitt som reagerar då de blir betraktade. Ex. Queen s Univ. : Övrigt Läpprörelser för förbättrad talförståelse, även datortalpedagog Ansiktsigenkänning kommersiella produkter för säkerhetstillämpningar och underhållning (t.ex i Sonys robothundar) Ansiktsuttryck känslogränssnitt, s.k. affective interfaces, enkel variant i Logitechs webcam, snart även i 3G-mobiler Ex. Queen s Univ. Ex. OKI, Japan Page 4
Handgester Medvetna handgester för kontroll av och/eller kommunikation med datoriserad utrustning. Varför handgester? Vi är vana att använda händerna för interaktion Många naturliga gester, t.ex. pekgester Hög rörlighet ger flexibilitet Möjligt att detektera utan behov av datormöss, handskar etc. Exempel på gester: Handgester - Gester som direkt identifierar en intresseregion (t.ex pekgester), eller som specificerar ett kvantitativt värde. - Gester som ges betydelsen av kontrollkommandon. - Kombinationer. Tillämpningsområden: Kontroll och instruktioner av mekaniska system, robotar. Komplettera/ersätt datormöss och mekaniska tangentbord i lämpliga situationer. Interaktion med visualiseringssystem och virtuella miljöer som CAD-miljöer och datorspel. Kontrollera hemelektronik, t.ex som fjärrkontroll för TV och video, ljusdimmer etc.... Handgester Färgsegmentering: Hudfärg relativt väldefinierad i färgrymden Handmodell: Särdragsextraktion Blob- och åsdetektion med automatiskt skalval: Exempel Särdragsextraktion: Hörn, linjer, blobbar, åsar på olika skalor 3D-Geometri: 3D-rörelse från särdragens rörelse över tiden Formmodellering: Kombinera särdragen för att representera form Formigenkänning: Finn den mest sannolika modellen och positionen De 20 starkaste blob- och ås-svaren Handmodell: Särdragshierarki över multipla skalor Handdetektion: Matcha model mot data med partikelfilter Hierarki av stabila, dominerande särdrag (handflata, fingrar, fingertoppar) Modelltillstånd X=(x,y,s,α,l,x,y,α ) (position,skala,orientering,pose,dynamiska parametrar) Hypotesfördelning över tiden Page 5
Kombination av färg och forminformation Exempel DrawBoard: Handposer styr ritprogram Partikelfilter hittar de modellparametrar har högst sannolikhet Ex. CVAP/NADA/KTH Problem/frågeställningar Detektion: Handen generellt svår att modellera, många frihetsgrader, hög deformerbarhet. Vyoberoende? Personberoende variationer i gesters utseende. Komplexa scener; mycket rörelse, mycket bildinformation. Varierande belysningsförhållanden. Realtidskrav. Exempel: Kontroll av hemelektronik TV och belysning styrs med handposer. >>>>Vilka gester går att detektera i vilka situationer? Interaktion: >>>>Vilka gester är bekväma att använda i vilka situationer? >>>>Vilka gester är lätta att komma ihåg? Ex. CID/NADA/KTH Handposer Kombination av gester och menyer för multifunktionskontroll Enbart handposer ger begränsad skalbarhet, en stor mängd handposer skulle med stor sannolikhet innebära: Detektionsproblem Svårigheter att utföra Svårigheter att komma ihåg...etc. Ex. CID/NADA/KTH Page 6
Marking- och Flow-menyer för gestgränsnitt Pekgester för informationsåtkomst -En kombination av rörelser upp/ner/vänster/höger bestämmer menyvalet -Kan memoreras, endast två poser behövs! Enkel formbaserad detektion av fingertoppar mot statisk bakgrund. Traditionell marking menu Pekgester för åtkomst av informationslager över valfritt objekt. Skapar interaktiva ytor utan behov av elektriska installationer. Flow menu -mindre rörelser, återvänder till ursprungspositionen Möjlighet i ömtåliga miljöer och platser utsatta för hårt slitage och vandalism. Ex. CID/NADA/KTH Projektor-kamerasystem för virtuella pekskärmar Projektor-kamerasystem för virtuella pekskärmar Exempel: IBM styrbart projektor-kamerasystem Användaren interagerar med projektionen via t.ex. pekgester. I princip kan vilken plan yta som helst utnyttjas. Intressant alternativ till pekskärmar i känsliga miljöer och platser med hårt slitage och/eller risk för vandalisering. Visuell feedback ökar transparensen, användaren förstår bättre vad som händer och kan korrigera fel. Ex. CID/NADA/KTH Stor flexibilitet. Detektionsproblem när användaren skymmer projektor/kamera, och vid stora vinklar. Projektor-kamerasystem för virtuella pekskärmar Exempel: CLIPS/IMAG/INRIA Datorseendebaserade gränssnitt: Kort sammanfattning Relativt ny teknik med uppsving under senaste åren. Fördelar: Ingen speciell utrustning för interaktion, bara egna kroppen. Billigt. Flexibelt. Stor potential. Nackdelar: Komplicerad, generellt ej mogen teknik. Känslig för belysning, bakgrund, avstånd m.m. Page 7
Datorseendebaserade gränssnitt: Kort sammanfattning Helkropp: 3D svårt, speciellt med bara en kamera. Enklare tekniker baserade på rörelse mot statisk bakgrund. Få kommersiella produkter. : Etablerade tekniker, många kommersiella produkter för uppmärksamhetsmätningar, de flesta med IR. Handgester: 3D svårt ty många frihetsgrader. Ofta vyberoende tekniker med fåtal handposer inkl. pekgester. Ännu inga kommersiella produkter(?), men på gång. Visuell feedback ofta bra sätt att öka transparensen, kan visa relationer användare-objekt, användaren kan lättare lära sig gränssnittet. Page 8