Visuell perception. Sidan 1. Översikt. Sammanfattning av förra föreläsningen. Kognitiv arkitektur. Visuella systemet: översikt.

Översikt Visuell perception Visuella systemets övergripande arkitektur Informationsbearbetningsstegen Första steg: visuella sensoriska minnet Begränsad kapacitet, tidsspann Visuell bearbetning Särdag Mer komplexa former Skillnad på vad som registreras i sensoriska minnet och vad som uppfattas i senare steg Objektigenkänning Template matching Särdragsanalys Sammanfattning av förra föreläsningen Kognitiv arkitektur Hjärnan använder sig av redundant beräkning Har kapacitet till massiv parallell beräkning Hjärnan kan samtidigt ta hänsyn flera info.källor Hjärnan beräknar genom samtidig förhandling på olika beräkningsnivåer Har en hygglig uppfattning av helheten innan den har bearbetat delarna till fullo Ex. tolkning av särdrag innan ett ord har bearbetats Objektegenskaper vad Planering, logiskt tänkande Position orientering var Motorik Visuella systemet Visuella systemet: översikt form, färg Vad Planering, logiskt tänkande storlek, position, riktning sensoriska minnet Var visuella stimuli Percept = den mentala repr. som tolkning av stimuli resulterar i T.ex. begreppet soffa när man ser en soffa framför sig Perception (varseblivning) = processer, upp till och med tolkning av stimuli Sensoriska minnet lagring av otolkad information, t.ex. färg, form, position högre-nivå kognition semantisk kategorisering objektigenkänning segmentering i ytor mönsterigenkänning särdrags-analys sensoriska minnet visuella stimuli Sidan 1

Vilket steg kommer först? Vilket steg kommer först? Steg s: vi ser linjesärdrag Steg s+1: vi ser ytor Steg s+2: vi uppfattar de tre kuberna Steg s: linjerna bildar Y- och T-mönster Steg s+1: vi ser kubens ytor Steg s+2: vi uppfattar 3D objekt Objektigenkänning Objektigenkänning Borde ske i de senare stegen av perceptuell bearbetning Finns evidens på att objektigenkänning sker före segmentering i ytor Som ju kommer jättetidigt i beräkningskedjan (???) Segmentering i ytor på basis av objektigenkänning (eftersom objekten definierar ytorna på vänstra bilden) Möjlig kognitiv neurovetenskaplig tolkning Möjligt att stegen ligger i den normala ordningen, men att de samarbetar med varandra Alla bearbetningssteg aktiveras nästan samtidigt Information kan skickas både uppåt och neråt i bearbetningshierarkin Det uppstår en förhandling Därav de oförklarliga effekterna Återstår att studera detta genom t.ex. kognitiv modellering, samt empirisk undersökning Sensoriska minnet Sidan 2

Sensoriska minnet Dess funktion är att buffra stimuli Stabilisera en dynamiskt föränderlig värld Att hålla kvar stimuli så länge att vi kan välja ut viktig information Solso: Att kunna se allting, för att sedan uppmärksamma de viktiga komponenterna Sensoriska minnet 1. Kan ta in mycket information parallellt Ex. långt mellan varje ögonrörelse när vi läser Ögonen hoppar 15-20 bokstäver i taget vid läsning 2. Kan endast återge 4-5 siffror (???) Hur skiljer sig dessa uppgifter åt? 1. Förstå det man läser Helt och hållet mental operation 2. Beskriva verbalt det man sett Involverar motoriken (munnen) Tar tid att säga orden Men, vad händer vid högläsning? 1. Läsa en sammanhängande text Ordens aktivering hjälper upp varandra via associativa kopplingar 2. Säga siffror Enskild aktivering, ingen hjälp av grannar Sperling: Delrapport Experiment: Visa adresserbar 3x3 matris av siffror för försöksdeltagare Slumpvist val av rad i displayen som ska återges Resultat: Nästan perfekt återgivning Resultaten håller även för större matriser Slutsats: Sensoriska/ikoniska minnet kan hålla all information som kommer in Men, starkt tidsbegränsat Alternativt, mycket känslig för interferens Delrapport - helrapport När ton-markören fördröjs 1 sekund: Samma dåliga återgivning som vid helrapporter antal återgivna enheter 9 (extrapolerat) 4-5 = återgivningsnivå för helrapport Sensoriska minnet Stor kapacitet (verkar inte ha någon tydlig övre gräns) Information tynar snabbt bort Kanske förvärras detta av svars-interferens Det faktum att vi verbaliserar stimuli kan påverka minnet negativt Måste ju välja ut det man ska beskriva verbalt Selektiv uppmärksamhet Kan resultera i att andra delar av visuell input undertrycks 1 sekund Sidan 3

Konstanser Skillnad mellan vad som finns därute och vad vi ser Inte okritisk avläsning av sensoriska minnet Skillnad mellan verkligheten och hur vi uppfattar den Exempel: Storlekskonstans Två föremål uppfattas som lika stora trots att den faktiska bilden på näthinnan är mindre Storlekskonstans Storlekskonstans Baseras på: Perceptuella ledtrådar Relation till uppfattat djup Storlek på närliggande föremål Kognitiv erfarenhet Prototypisk storlek Färgkonstans Gestalt-teori Två krafter i perception: logisk vs. visuell Jfr. med top-down förväntningar och bottom-up perceptuell information Logiskt tänkbar kub blir visuellt upplevd Sidan 4

När visuella uppfattningen luras När visuella uppfattningen luras Är linjerna lika långa? Är linjerna lika långa? När visuella uppfattningen luras Objektigenkänning Är de inre cirklarna lika stora? Kontextberoende AI-inspirerade teorier om visuell perception Sidan 5

Analys syntes Analysera: uppfatta ingående delar Syntetisera: parallella hypoteser om vad informationen representerar Samtidig top-down och bottom-up bearbetning Biologiskt trolig (jfr IA-modellen) Parallell constraint satisfaction Ett effektivt sätt att beakta flera krav samtidigt Särdragsanalys Flexibelt att kunna känna igen nya kombinationer av beståndsdelar Särdrag: / \ Evidens (= experimentella resultat) Misstag vid läsning av A: Tror sig ha sett bokstav med liknande särdrag (ex. H) Neuroner i V1-V4 känner igen särdrag Geoner Alfabet av 3-D former Mer komplexa former kan analyseras i dess beståndsdelar Evidens Ifall beståndsdelarna är omöjliga att identifiera går det inte heller att identifiera objektet (ex. fig 4.10 i Solso) Möjlig implementation av geoner Superquadrics: En grundläggande form kan parametriseras och blir kub, sfär, etc. genom omställning av parametrar Template matching Alternativ till särdragsigenkänning Hur pass biologiskt trovärdig är den? Mallar (template matching) Matcha visuellt stimulus mot förlagrade mallar Evidens för att vi kan matcha mot flera mallar samtidigt Tänk på interactive activation modellen av läsförståelse Men, mallar är inte helt oproblematiskt: Kräver en mall för varje möjligt stimulus Sidan 6

Mallar Flexibel mall Kräver en mall för varje möjligt stimulus A A A A A A A Lösning: Flexibel mall Normalisering av stimulit Förutbestämd grundform Flexibla kanter Problem Fortfarande starkt formberoende A A A A Normalisering (för att passa mallen) Förutsätter att vi vet på vilket sätt stimulit ska vändas och förstoras/förminskas för att passa mallen Måste alltså veta vilken mall vi vill matcha mot Moment 22 Men, idag vet vi att interaktiv aktivering och beräkning i kaskad möjliggör parallell constraint satisfaction Mallar aktiveras på en nivå Stimuli anpassas på olika sätt parallellt, stöds eller undertrycks av mallarna Mallar eller särdrag? Vilka mallar behövs för 3D objekt? Geoner? Eller många olika 2.5D vyer? Föremål från olika vinklar Förlagrade mallar för ett antal vanliga vinklar Vi interpolerar mellan dessa Mallarna = specifik kombination av särdrag RT lagrad vy lagrad vy I förlängningen: prototyper Idealiserade, typiska representanter Behöver inte ha sett den i verkligheten Jfr. statistik: medelvärdet behöver inte finnas med bland ingångsvärdena Prototyper är så pass reella för oss att vi tror oss ha sett dem Experiment som illustreras i fig. 4.16 i Solso 0 360 vinkel Sidan 7

Sammanfattning Visuell perception sker i olika steg Första steget: all information lagras temporärt Sensoriska minnet Information förvandlas allteftersom den tolkas i senare bearbetningssteg Högst upp: Objektigenkänning som bygger på särdrag Vanliga kombination av särdrag lagras som mallar Sidan 8