Översikt TSFS6 Diagnos och övervakning Föreläsning 8 - Change detection Erik Frisk Institutionen för systemteknik Linköpings universitet frisk@isy.liu.se 6-5- Change detection Likelihood-funktionen Likelihood-kvot och hypotestester Algoritmer för change detection θ känd - CUSUM θ okänd - GLR CUSUM och residualer Sammanfattning Change detection Denna föreläsning baseras på ett inledande kapitel i boken: Detection of Abrupt Changes: Theory and Application av M. Basseville, I.V. Nikiforov I kursen ingår ej hela kapitlet. Avsnitt som kan ses som överkurs är:..,..,..6,.3,..,..3.,.5,.6 (men läs dem gärna ändå). För den som är intresserad av sådan här teori finns hela boken elektroniskt tillgänglig via länk från kurshemsidan. Avsnitt.7 i textkompendiet Change detection Tidigare i kursen såg hypotestesterna ut liknande H : θ Θ H : θ Θ C = Θ dvs, antingen θ Θ eller θ Θ hela tiden. I detta avsnitt antas att hopp-tillfället beaktas, dvs. att hypoteserna ser ut liknande: H : θ Θ, t { H Θ, t < : θ Θ C = Θ, t Egentligen ingen skillnad mot tidigare, endast att parametrarna som testas inkluderar hopptiden 3
y y Hur passar detta in i det stora hela? Change detection -problemet 6 5 3 σ= σ= Teststorhetskapitlet där man beaktar hopptiden Klassiskt statistiskproblem, väl utvecklad teori Allmänbildning Här det enklaste fallet (oberoende data) Förändringar i olinjära dynamiska modeller följer samma princip men kräver lite mer invecklade algoritmer 3 µ= =5 µ=3 3 3 5 6 7 8 9 t 3 5 =5 6 3 5 6 7 8 9 t Ta hänsyn till hopp-tiden då en parameter hoppar från ett värde till ett annat dvs θ. ( ) ( ) µ σ θ =, θ = 5 6 Var byter mätsignalen nivå? Var byter mätsignalen varians? 5 5 5 3 35 5 5 5 5 5 3 35 5 5 5 5 5 5 5 3 35 5 5 8 6 5 5 5 3 35 5 5 7 8
Likelihood-funktionen Definition (Likelihood-funktion) Låt f (z θ) vara täthetsfunktionen för Z = [Z, Z,... Z n ]. Då är likelihood-funktionen, givet att z = Z observeras, funktionen som definieras av Likelihood-funktionen Modell: Z N(θ, ) Två oberoende observationer: z = 3, z = 5..35 θ=.6.5 x =3,x =5 L(θ z) = f (z θ).3.5. En teststorhet kan formas som: f(x θ)..5 L(θ).3. T (z) = max θ Θ L(θ z)..5. Not: likelihood-funktionen är en funktion av θ medans täthetsfunktionen är en funktion av z. Tolkning: Hur sannolikt är det att observera det utfall vi observerat. 5 3 3 5 x Täthetsfunktion f (z i θ) = (z πσ e i θ) σ 6 8 θ Likelihood-funktionen L(θ) = f (3 θ)f (5 θ) 9 Likelihood-kvot Likelihood-kvot Antag man har hypoteserna.3.5 H : θ = θ H : θ = θ p. och man känner fördelningsfunktionen för data givet θ, f (z θ) = L(θ). Eftersom Likelihood-funktionen säger något om hur sannolikt ett visst värde på θ är så är det rimligt att förkasta nollhypotesen om.5..5 p L(θ ) > L(θ ) dvs. att kvoten är större än en given tröskel. L(θ ) L(θ ) = f (z θ ) f (z θ ) Rimligt att välja H om.5 8 6 6 8 p > p Starka kopplingar till normalisering av teststorheter baserat på likelihood-funktionen.
Likelihood-kvot/ratio Betrakta ett hypotestest med enkla hypoteser: H : θ = θ H : θ = θ Log-likelihood kvoten blir då (byter notation för att passa utdelad text): s(y) = log L(θ y) L(θ y) = log P θ (y) P θ (y) Huvudegenskapen som gör den användbar E θ (s) >, E θ (s) < dvs, en förändring i parametern θ visar sig som en förändring av tecken hos s. Neyman-Pearson lemma Antag hypoteserna H : θ = θ H : θ = θ där pdf för observationerna är den kända fördelningsfunktionen f (z θ i ) i de två fallen. En lite slarvig formulering av Neyman-Pearson lemma är då: Den bästa tänkbara teststorheten (tänk styrkefunktion) för dessa hypoteser är T (z) = f (z θ ) f (z θ ) Finns generaliserade resultat för nollhypoteser som inte är singeltons. Slutsats: LR är bra att sikta på om man har en god statistisk modell över sina observationer. 3 Översikt Algoritmer för Change Detection Delar in algoritmerna i två kategorier: Change detection Likelihood-funktionen Likelihood-kvot och hypotestester H : θ = θ H : θ = θ Algoritmer för change detection θ känd - CUSUM θ okänd - GLR CUSUM och residualer Sammanfattning θ känd Shewhart control chart Geometrical Moving Average Finite Moving Average Filtered Derivative Algorithm CUSUM (CUmulative SUM).... θ ej känd GLR (Generalized Likelihood Ratio)... Alla dessa detektionsalgoritmer har gemensamt att likelihood-kvoten är en grundsten. 5 6
Shewhart control chart Samla in batchar med N data och beräkna teststorheten enligt: T = N s i, s i = log P θ (y i ) P θ (y i ) Varför summera på det där viset? Ett grundantagande som ofta görs är att y i :na är oberoende, då gäller att log L(θ y,..., y N ) L(θ y,..., y N ) = log P θ (y,..., y N ) P θ (y,..., y N ) = = log N P θ (y i ) N P θ (y i ) = log P θ (y i ) N P θ (y i ) = s i = T Vilket också förklarar varför log-likelihood ratio ofta används istället för likelihood-ratio. Ex.: Hopp hos medelvärde för normalfördelad variabel Mätsignal y(t) som är en oberoende sekvens av variabler med fördelning N(µ, σ), σ känd. s i = log P θ (y i ) P θ (y i ) = log H : µ = µ H : µ = µ πσ e (y i µ ) σ = = µ µ πσ e (y i µ ) σ σ ( y i µ ) + µ Teststorheten blir då ett ganska naturligt och intuitivt mått (tolka): T = N s i = N µ µ σ ( ȳ µ ) + µ 7 8 Ex.: Hopp hos varians för normalfördelad variabel Mätsignal y(t) som är en oberoende sekvens av variabler med fördelning N(µ, σ). s i = log P θ (y i ) P θ (y i ) = log H : σ = σ H : σ = σ πσ e (y i µ) σ πσ e (y i µ) σ = = = log σ (y i µ) ( σ σ ) σ Teststorheten blir då ett kopplad till en variansskattning av y T = N s i = N log σ σ N ( σ σ )ˆσ i. 9 Exempel forts. Tanken bakom teststorheten är inte helt enkel att tolka. Vi kan verifiera att den uppfyller de grundläggande villkoren på teststorheten. Väntevärdet av teststorheten under nollhypotesen är E Θ {T } = N log σ σ N ( σ σ )σ = N ( σ σ ) log σ σ < Sista olikheten eftersom x log x och likhet endast då x =, dvs då σ = σ. Under mothypotesen blir motsvarande räkningar enligt samma olikhet E Θ {T } = N log σ σ N ( σ σ )σ = N ( ) σ σ log σ σ >
CUSUM - intuitiv härledning Hittills har ej hopp-tiden beaktats, det är detta som görs i CUSUM algoritmen. Hur uppför sig den kumulativa summan s i typiskt runt tiden för förändringen? Intuitivt borde man därför bilda teststorheten enligt: 5 5 5 3 5 6 7 8 9 t t a h där T k = S k m k S k = k s i m k = min j<k S j CUSUM - härledning Likelihood ratio och oberoende ger: L k ( ) = P H (y) P H (y) = Log-likelihood ratio: H : θ = θ, t { H θ t < : θ = θ t tch P θ (y i ) k i= P θ (y i ) k P = θ (y i ) k log L k ( ) = log P (y θ i) P θ (y i ) = i= k i= s i = S k k P (y θ i) P θ (y i ) i= Problem: Hopp-tiden är okänd. Standardlösning inom statistikfältet: gör en ML-skattning av och sätt in i formeln. CUSUM, forts. ML-skattningen av blir då: ˆ = arg max log k Lk ( ) = arg och uttrycket för teststorheten max k S k T k = S kˆ = max S t k k ch = max S k S = S k min vilket är samma uttryck som resonerades fram tidigare: T k = S k m k S CUSUM, forts. Teststorheten beräknas som där S k = T k = S k m k k s i, m k = min j<k S j Ett lite enklare, och vanligare, sätt är istället beräkna T i = max(, T i + s i ), T = där S k = k s i, m k = min j<k S j Att besluten från de två olika algoritmerna är samma ges av Proposition T (t) = max(, T (t)) 3
GLR (Generalized Likelihood Ratio) CUSUM krävde kunskap om det nya värdet på variabeln θ. Vad gör vi i det (normala) fallet då θ är okänt? Svar: Hanterar det på exakt samma sätt som den okända hopptiden hanterades i CUSUM, dvs. gör en ML-skattning av θ. T k = max θ, log P H (y) P H (y) Log-likelihood ratio blir alltså en funktion av både och θ : k k St k ch (θ ) = s i = log P (y θ i) P θ (y i ) i= i= Implementation och ytterligare detaljer Principen enligt förra bilden men den dubbla maximeringen kan vara svår att göra effektiv. Mer information om GLR (bland annat implementationsdetaljer) och liknande algoritmer hittas i Adaptive Filtering and Change Detection, Fredrik Gustafsson, Wiley,. Detection of Abrupt Changes - Theory and Application, Michèle Basseville and Igor V. Nikiforov, previously published by Prentice-Hall, 993. (Nu tillgänglig på nätet, se kurshemsidan) Kay, Steven M. Fundamentals of statistical signal processing, volume II: detection theory. (998). ML-skatta genom att maximera över båda variablerna T k = max max St k k θ ch (θ ) 5 6 Översikt Change detection Likelihood-funktionen Likelihood-kvot och hypotestester Algoritmer för change detection θ känd - CUSUM θ okänd - GLR CUSUM och residualer Sammanfattning CUSUM och residualer Grunden för CUSUM var att man hade en s.k. score-function s(t) med egenskapen E H {s(t)} <, E H {s(t)} > då CUSUM-algoritmen blev T i = max(, T i + s i ), T = Tidigare har s(t) varit log-likelihood kvoten. Antag vi inte har den statistiska kunskapen utan har genererat residualer. Kan CUSUM ändå vara intressant? Residualer har ju typiskt egenskapen { brusig runt under H r(t) = signifikant skild från under H 7 8
CUSUM och residualer, forts. Dieselmotor i SCANIA-lastbil med EGR/VGT Det är enkelt åtgärdat, definiera till exempel s(t) = r(t) ν där ν är, i runda slängar, i storleksordning lika som r(t):s största värde under H. ν kallas en driftsfaktor ν är ett mått på modellosäkerheten adaptivitet kan med fördel infogas i ν, stort ν då systemet opererar i arbetsområden med stor modellosäkerhet etc. olinjärt filter som visar sig vara ett användbart alternativ till linjära lågpassfilter för efterbehandling av residualer. 9 Alla modellvariabler är kopplade via turbo och EGR Ett fel påverkar därför typiskt alla mätta variabler Viktigt att systematiskt kunna utnyttja ovanstående Svårmodellerat system 3 Dieselmotor i SCANIA-lastbil med EGR/VGT W egr p im XO im EGR cooler u δ W ei Intake manifold Cylinders Intercooler u egr EGR valve W eo p em XO em Exhaust manifold W c u vgt Compressor Turbine ω t W t 3 Dynamisk modell av motorn Motorn har tydligt dynamiskt beteende och kan beskrivas av ett system av ordinära differentialekvationer d x = g(x, u) dt y = h(x) där tillstånden, mätsignalerna, och styrsignalerna är x = (p im, p em, ω t ), y = (p im, p em, ω t, W af ), u = (δ, EGR, VGT ) En modell som bygger på grundläggande fysikaliska principer, innehåller mappar som kalibrerats via experiment i testcell. Tydligt olinjär Används för reglerdesign Hyfsat korrekt över motorns hela arbetsområde Tydliga bias och osäkerheter på sina ställen 3
European Transient Cycle - experimentdata Residualgenerator via estimering 3 pim 7 6 5 pem u Process y [kpa] [kpa] 3 Observer - ŷ + r [krpm] 3 8 6 ω t [kg/s] 3.7.6.5..3. WAF t Kandidatmetod att användas i en toolbox är stokastiska filter som till exempel: Extended Kalman Filter (EKF)/Unscented Kalman Filter (UKF)/Particle Filter (PF) plug and play Inga garantier. 3 t [min] 3 t [min] 3 33 Residualgenerator via estimering Residualer - % fel i trycksensor på lastbilsmotor u Process y Observer - ŷ + r ˆx = EKF(observations) r = p im ˆp im (Intake manifold pressure) r = p em ˆp em (Exhaust manifold pressure) r 3 = ω t ˆω t (Turbine speed) r = W af Ŵ af (Air mass flow past air-filter) 33 3
CUSUM och residualer Change Detection - Sammanfattning tiden för förändring tas med i beaktande här enkla fall och grundalgoritmer teorin bygger på likelihood kvoter - optimal CUSUM - om θ är känd GLR - om θ ej är känd alternativ till efterbehandling av residualer, oavsett hur de är genererade. Enkelt att införa och tolka adaptiv tröskel. Applicera CUSUM på två av residualerna från förra bilden Enkelt att göra ett pålitligt beslut 35 36 TSFS6 Diagnos och övervakning Föreläsning 8 - Change detection Erik Frisk Institutionen för systemteknik Linköpings universitet frisk@isy.liu.se 6-5- 37