AI, musik & PLCGalgoritmen

LINKOPINGS UNIVERSITET, IDA AI, musik & PLCGalgoritmen AI inom en artistisk domän sarwi387 9/18/2012

ABSTRAKT AI har anpassats på de flesta naturvetenskapliga ämnen tidigare men man har de senaste årtionden visat att AI även går att appliceras på en artistisk domän som musik. Man vill inom denna typ av forskning använda metoder inom AI för att studera det komplexa fenomenet i utförande av uttrycksfull, expressiv musik.

INLEDNING AI och musik är ett stort tvärvetenskapligt forskningsprojekt där ett av målen är att använda AI för att öka förståelsen för komplexa artistiska fenomen. Man studerar de fundamentala principerna i expressiv musik genom att analysera och mäta den artistiska förmågan i stora mängder data med inspelningar av talangfulla pianister. Man använder sig av moderna metoder som till exempel data-mining (datasökning), maskininlärning, mönsterigenkänning och data-visualisering. Huvudsyftet med denna forskning är att hitta modeller och regler som karaktäriserar och förklarar mönster inom musiken. Man letar efter enkla, generella och tolkningsbara modeller inom uttrycksfull musik. Grunden för detta arbete bygger på Gerhard Widmer s artikel In search of the Horowitz factor (2003). Widmer är ett stort namn inom denna typ av forskning inom musikologi. Liksom i hans artikel så ligger fokus i detta arbete på den artistiska förmågan för pianister, forskning kring detta och vad för arbete som gjorts för att hitta en generell modell eller regler för att beskriva artistisk musik. Man kan om man så vill kalla det sökandet efter Horowitz faktor som artikeln är döpt till efter den kända pianisten Vladimir Horowitz. I tidigare forsking som G, Widmer utfört -95-98 så har man introducerat ett antal grundläggande regler för pianospelande med induktiva inlärningsalgoritmer. Men dessa försök var väldigt begränsade gällande empirisk data och därför gjorde det näst intill omöjligt att dra en generell signifikant slutsats. Den forskning som G, Widmer och hans forskningsgrupp senare har bedrivit är den mest dataintensiva empiriska studien som någonsin gjorts inom detta ämne och detta har därför gett stora framsteg och utökad förståelse inom musikologi. Följande arbete kommer beskriva projektet att hitta Horowitz faktor och dess omfattning och sedan belysa en av de algoritmer som utvecklades för att komma ett steg närmare den omtalade faktorn.

DEN ARTISTISKA DOMÄNEN Först och främst hur beskriver vi då uttrycksfull musik? Jo, det är konsten att kunna forma ett musikaliskt stycke genom att variera olika parametrar som till exempel tempo och dynamik. En pianist spelar inte mekaniskt och kan inte avläsa noter och sedan hålla ett exakt tempo eller hålla en viss styrka. Det är det som skiljer de mycket talangfulla pianisterna från de mer medelmåttiga och det är precis detta man vill belysa. Vad är det som gör att en pianist så talangfull och kan man hitta en faktor som särskiljer en pianist från en annan? De viktigaste parametrarna man fokusera på är tempo, tajming, dynamik och artikulation (förbindelsen mellan olika noter). Det är denna typ av parametrar som får musiken att komma till liv och gör att det skiljer sig mellan olika personer som spelar. IN SEARCH OF THE HOROWITZ FACTOR-THE PROJECT: 2001 startade G Widmer och hans forskningsgrupp projektet som var början på sökandet efter Horowitz faktor. I detta projekt användes induktiva inlärningsalgoritmer för att upptäcka generella och giltiga principer utifrån insamlad data. Man samlade ihop data där precisa mätningar av timing, dynamik och de övriga viktiga faktorerna som behövdes för att kunna få så korrekta och beskrivande resultat som möjligt. Materielet bestod av stora mängder av inspelningar av mycket begåvade konsertpianister eftersom fokus i forskningen ligger på endast pianospel. Projektet byggde vidare på tidigare forskning som till exempel Friberg -95 och Todd -92-89 men där användes det statiska metoder medan man i detta projekt lät datorn och AI ha en mer självständig roll. All data som samlades in spelades på ett speciellt piano, ett Bösendorfer SE290, som är ett datorövervakat piano som mäter tider, styrka, timing med mera. Pianot mäter och spelar in varje tangent- och pedalrörelse med väldigt hög precision. Data som insamlats är en av de största korpusarna med musik mätt på detta sätt och den bestod av 18 kompletta Mozartsonater och mer än 150,000 noter. Även stycken av Chopin som spelats av 22 stycken olika pianister. Tre olika pianister spelar samma stycke. Kan man se några generella regler? Dessa inspelningar analyserades med intelligent dataanalysmetoder från olika delar av maskininlärning, datasökning (data mining) och mönsterigenkänning för att kunna bygga tolkningsbara kvantitativa modeller för vissa aspekter av olika inspelningar.

I början av projektet så undersökte man data på en mer lokal not-till-not nivå. Man utgick från tre definierade målklasser: tempo, dynamik och artikulation men detta var inte tillräckligt omfattande för att hitta generella signifikanta regler. Det blev på en för låg nivå som verkligen inte kan beskriva större sammanhang och det är fler faktorer som spelar in en dessa tre tar hänsyn till. Alltså går det inte att beskriva artistisk musik på denna representationsnivå, inte tillräckligt bra i alla fall. De tidigare algoritmerna lärde sig nya teorier men då endast med en regel åt gången och en regel var satt när ett stoppvillkor var uppfyllt och inlärningsprocessen stannar när det inte går att hitta fler regler som uppfyller villkoren. En enkel inlärningsalgoritm med icke så höga krav på varken precision eller coverage. Med detta i ryggen så utvecklade man därför en ny regellärande algoritm: PLCG-algoritmen. PLCG: Den induktiva PLCG(Partition, Learn, Cluster, Generalize)-algoritmen vill hitta enkla regelmodeller i komplexa datasamlingar där det kan vara svårt eller näst intill omöjligt att hitta generella modeller för olika data. PLCG står för delning, inlärning, klustering och generalisering vilket är de steg som den utför. Det är en inlärningsmetod som med hjälp av enkla regelinlärnings-algoritmer lär sig modeller eller teorier för att sedan kombinera dessa till en gällande regel. Experiment som Widmer genomförde visade att PLCG hade lättare för att upptäcka signifikant enkla teorier till skillnad från mer direkta metoder av regellärande. PLCG kompromissar också mellan täckning(coverage) och precision vilket ger bättre resultat till skillnad från tidigare algoritmer som endast tar in en viss typ av information i sina beräkningar. Ett distinkt kännedrag är att det är en meta-algoritm som kan implementeras på vilken annan regellärande algoritm som helst och den kan alltid på lämpligt sätt hitta en perfekt trade-off mellan generaliteten, precisionen och komplexiteten på olika teorier.

Experimenten visade också hur lätt det var att använda PLCG som en meta-lärande strategi för att utforska olika delar av regelmodeller. Grundidén är att lära flera modeller parallellt och söka efter grupper med liknade regler för att sedan generalisera dessa till sammanfattade regler. Dessa regler varierar i generaliserbarhet men vi väljer till slut dessa generaliseringar som grund för den slutliga modellen som optimerar de fördefinierade villkoren. Ett enkelt not-nivå exempel: PLCG lär sig några få enkla regler och det visade sig att bara med fyra regler så kan man förutspå noter och cirka 23 % av alla situationer där pianisten förlängde en not. I ett annat exempel räckte det med två regler, en att förlänga noter och en att förkorta en not och då kunde dessa två förutse hur ett stycke skulle spelas, långt ifrån hundra procent men samtidigt lyckades den mycket bra för att vara endast två regler. För att få förståelse för hur enkel och generell en regel kan vara: Regel TL2: Abstract_duration_context = equal-longer & metr_strenght 1 lengthen Givet två noter med likvärdig varaktighet följt av en längre not, förläng den noten (alltså spela den långsammare) som föregår den sista, förläng den dessutom om noten är på en uppmätt svagare position( metr_strenght 1) Med endast två regler kan en maskin förutspå en pianists mönster. Denna enkla regel visar sig att vara väldigt generell. Regel TL2 förutser korrekt 1,894 fall med lokal notförlängning vilket är 14,12 procent av alla exempel av signifikant förlängning som observerades. Det är 588 fel (2,86 procents fel) vilket ger en precision på 0,763. Tänk att en enkel regel kan förutse detta i sådan komplex musik. Ett andra exempel: Med hjälp av ett exempel från artikeln Discovering simple rules in complex data: A meta-learning algorithm and some surprising musical discoveries, även denna av Widmer,

så ska PLCG s grundläggande egenskaper förklaras och exempelfieras i ett exempel från den artikeln: I exemplet så behövs det tre andra algoritmer: En regelinlärande algoritm L, en hierarkisk klusteralgoritm H och slutligen ett regelväljandekriterium eller en strategi S. Vid regelinlärningen så använder PLCG den algoritm som tidigare exemplifierats:

De kriterier som gäller för att slutföra algoritmen är: (1) RULESTOPCRITERION(r,E) = true if purity P (r, E) = p/(p + n) MPRL, (2) THEORYSTOPCRITERION(Theory,E) = true if no more rule r can be found with purity P (r, E) = p/(p + n) MPRL and positive coverage p MCRL, där p och n är numeriska positiva och negativa exempel, dessa två är båda gömda av regel r i en samling exempel E, den krävda minimum purity MPRL och minimum täckning MCRL är användardefinierade parametrar. Självklart så kommer höga värden av MPRL producera mer precisa teorier med möjligen lägre täckning, och lägre MPRL kommer leda till en mer generell teori som också täcker ett stort nummer av negativa exempel. I regel-klustering använder man sig av en bottom-up hierarkisk samlingsklusteringalgoritm som producerar ett binärt klusterträd med de individuella reglerna som löven på trädet och roten är alla reglerna. Koden nedan. Avståndet δ mellan två regler är det antal generaliseringar som behövs för att räkna ut den minst generella generaliseringen, som vi kallar lgg, av de två reglerna. Givet våra standardrepresentationsexempel och regler så är definitionen av lgg väldigt enkel: ett diskret attribut med två olika värden i de två reglerna generaliseras till det tomma villkoret (=true) medan villkor med numeriska attribut generaliseras till det mest specifika oregelbundna uttrycket som täcker båda av de ursprungliga intervallen. Avståndet mellan kluster räknas sedan ut till det kortaste avståndet från vilket som helst av delarna av ett kluster till vilken av delaren som helst i ett annat kluster och detta kallas single-link clustering, enkel-länk klustering. Se bild nedan.

För regelval-kriterierna (steg 6 I Fig 2) så använder man en annan greedy set-covering - algoritm, som börjar med den tomma regelmängden och som alltid lägger till den regel som har maximum renhet/äkthet till det ännu obetäckta instanserna. Koden nedan: Laplace uppskattar L = (p + 1)/(p + n + 2) vilket är relaterat till purity men som straffar regler med en låg täckning på de positiva exemplen. Åter igen, urvalet avslutas när ingen regel med högre purity än någon användar-definierad MPPLCG och högra täckning än någon minimum täckande MCPLCG kan hittas.

SLUTSATS Arbetet beskrivit ovan är bara en liten del av den forskning som faktiskt bedrivs idag. Att arbetet främst berörde Widmer och hans forskningsgrupps arbete så var det för just sökandet efter en faktor som avgör musikalisk begåvning lät så intressant och det var av intresse jag valde att läsa mer för att se vart man faktiskt hade kommit. Dock var det svårt att hitta någon annan person som skrivit om ämnet, främst algoritmen PLCG som jag ville beskriva. Därför ligger det mesta på grund av Widmer s forsking och den forskning som bedrivits på the Austrian Research Institute for Artificial Intelligence. Även om man då skulle kunna säga att det bara är information från en källa så de källor jag funnit varit mycket givande och tillräckligt för att bilda sig en uppfattning. Det som framgick är att PLCG-algoritmen var ett stort steg vidare inom musikologi och en mycket mer framgångsrik och beskrivande algoritm än de tidigare enklare alternativen. PLCG kan ta fram enkla modeller och gör en bra avvägning och att den går att kombinera med andra algoritmer är något som gör den så användbar.

LITTERATURFÖRTECKNING Artiklar: Widmer, G. (2003). Discovering simple rules in complex data: A meta-learning algorithm and some surprising musical discoveries. Artificiell Intelligens 146(2): 129-148. Widmer, G. (2003). In search of the Horowitz factor. AI-magazine volume 24, no 3. 111-130. Widmer, G. (2001) Using AI and Machine Learning to Study Expressive Music Performance: Project Survey and First Report. Austrian research institute for artificiell intelligens. http://www.ofai.at/cgi-bin/tr-online?number+2001-06 Friberg, A. (1995). A Quantitative Rule System for Musical Performance. http://www.speech.kth.se/music/publications/thesisaf/sammfa2nd.htm Todd, N (1992). The Dynamics of Dynamics: A Model of Musical Expression. http://asadl.org/jasa/resource/1/jasman/v91/i6/p3540_s1