1 Begrepp oc Eempel Begreppsinlärning List-ten-Eliminate Begreppsinlärning 1 Begrepp oc Eempel List-ten-Eliminate Begreppsinlärning (Concept Learning) Inlärning av en boolsk funktion från eempel Kategorier Vackert väder Hundar Motorfordon Lagbrott Delmängd av någon överordnad mängd X Beteckningar Beteckningar c Begreppet som ska läras c() 0/1, X Hypotes, Resultatet av inlärningen ( gissad c ) Två sorters träningseempel () 0/1, X Positiva eempel: : c() = 1, D H Hypotesrummet, Alla tänkbara ypoteser H Negativa eempel: : c() = 0, D D Mängden tillgängliga träningseempel D X
Eempel Eempel Eempel på ett begrepp Vackert Väder Låt väderinstanserna i vara sammansatta av fyra attribut: 1 = <Soligt, Varmt, Blåsigt, Torrt> 2 = <Molnigt, Varmt, Stilla, Torrt> 3 = Generellt: Himmel Temp Vind Fukt Antag att attributen bara kan anta speciella diskreta värden: Himmel { Soligt, Molnigt, Regnigt } Temp { Varmt, Kallt } Vind { Blåsigt, Stilla } Fukt { Torrt, Fuktigt } Antal möjliga väder: X = 3 2 2 2 = 24 Eempel Hur ser ypotesmängden H ut? Typiska träningseempel 1 = <Soligt, Varmt, Blåsigt, Torrt> Vackert 2 = <Soligt, Varmt, Blåsigt, Fuktigt> Vackert 3 = <Regnigt, Kallt, Blåsigt, Fuktigt> Usc 4 = <Soligt, Varmt, Stilla, Fuktigt> Vackert X H Varje ypotes motsvaras av en delmängd av X Begränsande antagande Begreppen är alltid konjunktioner av attributvärden Hur många ypoteser finns det att välja bland? Hur många delmängder a X finns det? H = 2 X H = 2 24 = 16777216 Man måste göra begränsande antaganden! Eempel på begrepp c av denna typ Soligt & Varmt Kallt & Vindstilla & Torrt Hur många ypoteser finns det nu? Himmel Temp Vind Fukt Soligt Molnigt Varmt Blåsigt Torrt Regnigt Kallt Stilla Fuktigt 4 3 3 3 = 108
1 Begrepp oc Eempel List-ten-Eliminate Inlärning sök efter en ypotes som stämmer med eemplen Utnyttja strukturen os H för att söka snabbare Vissa ypoteser är generellare än andra Partiell ordning mellan ypoteserna Generella ypoteser X H Speciella ypoteser Generellast i vårt eempel: Alla väder är vackra Speciellast i vårt eempel: Inga väder är vackra (!) True S V K B S&V S&K S&B S&V&B S&K&B S&V&B&F S&K&B&F S&V&B&T S&K&B&T algoritmen Starta med den/de mest speciella ypoteserna oc generalisera succesivt vid beov. ĥ mest speciella ypotesen i H for e nästa eempel: if positivt eempel: generalisera ĥ så att även e täcks in Ger den mest speciella ypotesen som är konsistent med alla eemplen. False
Konkret eempel: Vackert väder med antagandet att begreppet är en konjunktion av attributvärden. Problem med Startypotes: Aktuell ypotes: <,,, > (Maimalt pessimistisk) <Soligt, Varmt, Blåsigt, Torrt> <Soligt, Varmt, Blåsigt, > <Soligt, Varmt,, > Träningseempel: 1 = <Soligt, Varmt, Blåsigt, Torrt> Vackert 2 = <Soligt, Varmt, Blåsigt, Fuktigt> Vackert 3 = <Regnigt, Kallt, Blåsigt, Fuktigt> Usc 4 = <Soligt, Varmt, Stilla, Fuktigt> Vackert Omöjligt att veta ifall endast en unik ypotes återstår. Varför skulle vi föredra den mest specifika ypotesen? Vi kan inte upptäcka inkonsistenta indata eftersom alla negativa eempel ignoreras. Vad änder ifall det finns fler lika specifika ypoteser? Slutlig ypotes: Vackert väder Soligt Varmt List-ten-Eliminate List-ten-Eliminate Version Space (VS) Alla ypoteser som är konsistenta med de eempel man ittills ar sett. VS H VS = 1 VS = En unik lösning Inkonsistenta eempel List-ten-Eliminate algoritmen Direkt representation av Version Space (VS) VS H for e nästa eempel: tag bort alla ypoteser ur VS som inte är konsistenta med e Problem: H är oftast för stor! Generella ypoteser Effektiv representation av Version Space Utnyttjar den partiella ordningen mellan ypoteserna För generellt Version space För speciellt Speciella ypoteser
G generellaste ypoteserna i H S speciellaste ypoteserna i H for e nästa eempel: if positivt eempel: G G {ypoteser som inte omfattar e} S generalisera S att omfatta e Städa S från generella varianter else: S S {ypoteser som omfattar e} G specialisera G att inte omfatta e Städa G från speciella varianter Städa G från ypoteser som inte är generellare än något i S Städa S från ypoteser som inte är speciellare än något i G G-trädet Positivt eempel Negativt eempel S-trädet Konkret eempel: Vackert väder med antagandet att begreppet är en konjunktion av attributvärden. G = {<,,, >} G = {<Soligt,,, >, <Molnigt,,, >, <,Varmt,, >, <,,Stilla, >, <,,,Torrt>} G = {<Soligt,,, >, <,Varmt,, >} 1 = <Soligt, Varmt, Blåsigt, Torrt> Vackert 2 = <Soligt, Varmt, Blåsigt, Fuktigt> Vackert 3 = <Regnigt, Kallt, Blåsigt, Fuktigt> Usc 4 = <Soligt, Varmt, Stilla, Fuktigt> Vackert S = {<Soligt, Varmt,, >} S = {<Soligt, Varmt, Blåsigt, >} S = {<Soligt, Varmt, Blåsigt, Torrt>} S = {<,,, >} 1 Begrepp oc Eempel List-ten-Eliminate Inlärningsalgoritmen är inte elt objektiv eftersom den inte tillåts välja bland alla tänkbara ypoteser. Induction Inlärningsmetodens påverkan på resultatet En inlärningsalgoritm som är elt neutral Restriction Begränsning av vilka ypoteser som kan komma ifråga Preference Styrning av vilka ypoteser som väljs i första and Är en bättre? Alla delmängder av X är lika rimliga. Kunskap om 1, 2,..., n säger inget om n+1 Utan bias är det omöjligt att generalisera till / D.