6 Skattningar av parametrarna i en normalfördelning



Relevanta dokument
1 Förberedelseuppgifter

Laboration 2: Styrkefunktion samt Regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Resultatet läggs in i ladok senast 13 juni 2014.

Laboration 4: Lineär regression

1 Förberedelseuppgifter

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Datorlaboration 2 Konfidensintervall & hypotesprövning

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Statistik och epidemiologi T5

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Laboration 4 R-versionen

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 4: Hypotesprövning och styrkefunktion

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Föreläsning 12: Regression

TAIU07 Matematiska beräkningar med Matlab

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 4 Regressionsanalys

MAS110B MATEMATISK STATISTIK ALLMÄN KURS INFERENSTEORI

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Linjär regressionsanalys. Wieland Wermke

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Matematisk statistik för B, K, N, BME och Kemister

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Matematisk statistik för D, I, Π och Fysiker

Statistik B Regressions- och tidsserieanalys Föreläsning 1

FMS032: MATEMATISK STATISTIK AK FÖR V OCH L KURSPROGRAM HT 2015

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Tentamen i Matematisk statistik Kurskod S0001M

LABORATION 3 - Regressionsanalys

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

oberoende av varandra så observationerna är

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

TVM-Matematik Adam Jonsson

Uppgift 1. Deskripitiv statistik. Lön

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik, Föreläsning 5

TENTAMEN KVANTITATIV METOD (100205)

Matematisk statistik för B, K, N, BME och Kemister

Regressionsanalys av huspriser i Vaxholm

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 12: Linjär regression

LABORATION 3 - Regressionsanalys

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Föreläsning 14: Försöksplanering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Grundläggande matematisk statistik

F13 Regression och problemlösning

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

10.1 Enkel linjär regression

Laboration 5: Regressionsanalys

bli bekant med summor av stokastiska variabler.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

FACIT (korrekta svar i röd fetstil)

Abstrakt algebra för gymnasister

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Föreläsning G60 Statistiska metoder

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

Matematisk Modellering

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 5: Intervallskattning och hypotesprövning

Diskussionsproblem för Statistik för ingenjörer

Metod och teori. Statistik för naturvetare Umeå universitet

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATIONER DEL II, HT-11 MATEMATISK STATISTIK FÖR BIO-, KEMI- OCH NANOTEKNIK För att få tillgång till de datafiler som hänvisas till i texten skriver du initstat Om initstat inte fungerar eller du använder datorer utanför KC (tex. sal MH:1) är det enklast att hämta ner datamaterial och filer från kursens hemsida www.maths.lth.se/matstat/kurser/fms086 när du startat Matlab 6 Skattningar av parametrarna i en normalfördelning Du ska undersöka hur skattningar av väntevärde och varians beror av stickprovsstorleken. Olbjer kap 7.1 Givet är ett stickprov x 1,...,x n från N(Ñ, 2 ) därñoch 2 är okända. 1. Hur skattasñ? 2. Vilken fördelning har skattningen avñ? 3. Hur skattas 2? Utgå från en normalfördelning N(3, 4). Antag att väntevärdet 3 och variansen 4 är okända för oss och att vi vill skatta dem genom att ta ett stickprov, x 1,..., x n, om n observationer och bilda x respektive s 2 = 1 n 1 n i=1 (x i x) 2. Hur nära kommer skattningarna de sanna värdena om stickprovsstorleken är 5? om den är 25? Simulera 1000 stickprov om 5 värden från N(3, 4) och skattañi varje stickprov. Gör samma sak för 1000 stickprov som alla består av 25 observationer. Undersök väntevärdesskattningarna egenskaper, t ex genom att göra histogram. >> X=normrnd(3,2,5,1000); >> Z=normrnd(3,2,25,1000); >> mx=mean(x); >> mz=mean(z); >> subplot(2,1,1) >> hist(mx,) >> subplot(2,1,2) >> hist(mz,) Vann man mycket på att öka stickprovsstorleken från 5 observationer till 25? Hur stor är sannolikheten att skattningen avviker mer än 2 enheter från det sanna värdetñ=3? då du använder 5 värden i stickprovet, 25 värden i stickprovet? (Användnormcdf ellernormspec, men tänk först ut vilken fördelning skattningen har då n=5? då n=25?)

7 TOLKNING AV KONFIDENSINTERVALL FÖR VÄNTEVÄRDET Gör även histogram för 2 -skattningarna och jfr de två stickprovsstorlekarna n=5 och n=25. Är det ovanligt att skattningen av 2 avviker mer än 2 från det sanna värdet 4 (dvs understiger 2 eller överstiger 6) då n=5? då n=25? 7 Tolkning av konfidensintervall för väntevärdet Du ska, genom att simulera konfidensintervall för väntevärdetñfå en tolkning av begreppet konfidensintervall och speciellt undersöka hur intervallen beror av stickprovsstorleken. Olbjer kap 7.3 Givet är ett stickprov x 1,...,x n från N(Ñ, 2 ) därñoch 2 är okända. 1. Hur bildas ett 95% konfidensintervall förñ? För att göra konfidensintervall för väntevärdet behövs kvantilfunktionen för t-fördelningen som i Matlab heter tinv. Definitionen av kvantilfunktionen är här det tal som är sådant att sannolikheten att få ett utfall mindre än talet är lika med argumentet. Vill man ha t 0.025 (n 1) t ex, skriver mantinv(0.975,n-1). Fördelen med Matlabs definition är att kvantilfunktionen blir samma som inversen till fördelningsfunktionen. Fördelen med att ha definitionen tvärtom, som i kurskompendiet, är att argumentet blir lika med risken vid ett ensidigt test att förkasta nollhypotesen trots att den är sann. Använd de 00 simulerade stickproven från föregående övning för att göra 00 95% konfidensintervall förñ. Hälften av dem kommer då att vara baserade på 5 observationer medan de övriga på 25. Plotta gärna ut, i samma diagram men med olika symboler, övre och undre gränserna i konfidensintervallet för några stickprov (förslagsvis 150 st). Matlabtips: Om övre och undre gränserna i konfidensintervallen ligger i variablerna over respektive under kan de 150 första intervallen illustreras med följande sekvens (det är de lodräta avståndet mellan stjärna och ring som utgör konfidensintervallet) >> plot(over(1:150), * ) >> hold >> plot(under(1:150), o ) >> line([0 150], [3 3]) Alternativt kan du använda funktionenplotint. Hur många intervall missar det sanna värdetñ=3, då n=5? då n=25? (Ska det vara någon skillnad?) Hur många intervall ska enligt teorin i genomsnitt missañ? Hur påverkar stickprovsstorleken konfidensintervallen? 12

8 HYPOTESTEST ANALYS AV KEMILABORATION 8 Hypotestest Analys av kemilaboration Övningen ska illustrera hur olika test kan beräknas med hjälp av Matlab, hur de tre olika metoderna för test är sammankopplade, hur viktigt det är att ha klart för sig vilka modellantaganden man gör om data när man använder ett test i Matlab, vilka slutsatser man kan dra från testet. Olbjer kap 7.5 1. Givet är ett stickprov x 1,..., x n från N(Ñ, 2 ) därñoch 2 är okända. Hur testas H 0 :Ñ=Ñ0 mot H 1 :Ñ Ñ0 (a) med ett signifikanstest, där signifikansnivån är fix? (b) med ett signifikanstest där man har räknat ut ett P-värde? (c) med hjälp av konfidensintervall? 2. Givet är ett stickprov x 1,..., x n1 från N(Ñ1, 2 ) och ett stickprov y 1,..., y n2 från N(Ñ2, 2 ) där Ñ1,Ñ2 och 2 är okända. Hur kan du undersöka omñ1 ochñ2 skiljer sig åt? Nu skall ni använda mätvärden från kemilaborationen Bestämning av koppar med atomabsorptionsspektrofotometri med grafitugn. De som har gjort laben kan använda sina egna mätvärden, övriga kan låna värden av någon som gjort laben eller be labhandledaren om anvisning. Antag här att det inte finns någon osäkerhet i den kalibreringskurva ni använt för att få fram kopparkoncentrationerna. Om du inte har översatt de två uppmätta dataserierna till kopparkoncentrationer med hjälp av kalibreringskurvan kan du göra det med följande kommandon: Lägg in de uppmätta absorbtionerna i varsin vektorabs3 ochabs10 >> abs3 = [... ] % Uppmätta absorbtioner i 3-serien >> abs10 = [... ] % Uppmätta absorbtioner i 10-serien Lägg in värdena från kalibreringskurvan, kända kopparkoncentrationer i en kolonnvektor kalibx och motsvarande absorbtioner ikaliby >> kalibx = [0 0 50 50 100 100 150 150 0 0] % eller de värden ni använt >> kaliby = [... ] Kalibreringskurvan, y = + x kan skattas med (detaljer kommer senare i kursen) >> n = length(kaliby) >> b = regress(kaliby, [ones(n,1) kalibx]) >> alpha = b(1) >> beta = b(2) 13

y 9 STYRKEFUNKTION sedan översätts absorbtionerna till kopparkoncentrationer med x = >> cu3 = (abs3 - alpha)/beta >> cu10 = (abs10 - alpha)/beta I detta avsnitt skall vi inte ta hänsyn till osäkerheten i kalibreringskurvan utan vi antar att värdena i cu3 ochcu10 är uppmätta direkt. Använd kommandot ttest, eller ttest2 (använd hjälptexterna för att avgöra vilken test som är lämplig), för att göra 95% konfidensintervall för kopparkoncentrationen baserat dels på 3-serien och på 10-serien. Skriv ned resultaten så att ni kan jämföra dem med resultaten då vi tar hänsyn till osäkerheten i kalibreringskurvan senare i laborationen. Om ni nu hade fått reda på den sanna kopparkoncentrationen skulle ni kunna använda intervallen för att testa om ni har något systematiskt fel i era mätningar. Hur gör ni detta? Testa om det är någon skillnad mellan väntevärde för de 10 mätningarna och väntevärdet för de 3 mätningarna. Slå upp formeln för konfidensintervall för 2 baserat på ett stickprov från N (Ñ, 2 ) i formelsamlingen och beräkna ett 95% konfidensintervall för 2 (eller genom att dra roten ur gränserna) dels baserat på 10-serien och dels på 3-serien. Blir det stor skillnad mellan intervallbredderna? 9 Styrkefunktion Att illustrera begreppet styrkefunktion hos ett signifikanstest; att illustrera vilka faktorer som påverkar styrkefunktionen. Olbjer kap 7.6 1. Givet är ett stickprov x 1,...,x n från N(Ñ, 2 ) därñoch 2 är okända. Du testar H 0 :Ñ=Ñ0 mot H 1 :Ñ Ñ0. Hur definieras styrkefunktionen för testet ovan? Vad kan styrkefunktionen användas till? Antag att du har n observationer från N(Ñ, 2 ) och vill testa attñ=6. För att göra det konkret, anta att du vid ett laboratorieexperiment vill pröva om ph-värdet på en lösning kan vara 6 genom att göra n bestämningar. Antag vidare, att man gjort upprepade bestämningar tidigare med samma instrument och därför anser att man känner dess variation på denna typ av lösning och att 2 är 0.6. Vi har alltså ett stickprov x 1,...,x n från N(Ñ, 0.6) och vill testa H 0 :Ñ=6 H 1 :Ñ 6 på signifikansnivå. Hur bra är detta test? Intressanta frågor kan t ex vara: Om det sanna ph-värdet inte är 6 utan 5.5 (avvikelsen är 0.5 från nollhypotesens värde), med vilken sannolikhet kommer jag då att upptäcka att H 0 är falsk med detta test? Hur många bestämningar måste jag göra för att med sannolikheten 0.90 upptäcka att H 0 är falsk då Ñisjälva verket är 7 (dvs avvikelsen från nollhypotesens värde är 1)? 14

10 ENKEL LINJÄR REGRESSION Denna typ av frågor kan besvaras med hjälp av testets styrkefunktion som definieras som Ô(Ñ) = P(H 0 förkastas det sanna parametervärdet ärñ) Just i det här fallet, då vi har ett tvåsidigt test med känt, blir styrkefunktionen (se avsnitt 7.6.2 i Olbjer) Ô(Ñ) = ( z /2 (Ñ 6) n )+1 (z /2 (Ñ 6) n ) dvs den beror på testets signifikansnivå, 2 försöksfelvariansen (som vi antar känd) samt n stickprovsstorleken. Använd funktionen styrka (se help styrka eller stencilen om Matlabkommandon) för att se hur styrkefunktionen ser ut då testets signifikansnivå är 0.05, 2 =0.6 och stickprovsstorleken n är 9. Observera att i figuren som fås frånstyrka ritas på x-axeln avvikelsen från nollhypotesensñ0, dvs funktionen som ritas är P(H 0 förkastas Ñavviker frånñ0 med c) Är du nöjd med funktionen? Hur stor är slh att förkasta H 0 omñär 6.5? Hur stor är slh att upptäcka att H 0 inte är sann, dåñär 5? Hur skulle en ideal styrkefunktion se ut i det här exemplet? Skissera den på papper! Du vill naturligtvis att slh att förkasta H 0 ska vara liten omñverkligen är 6, men att slh ska vara stor så fort Ñavviker från 6 (dvs om H 0 inte är sann). För att förbättra styrkefunktionen har du olika strategier till ditt förfogande: Ändra på felrisken Ändra på försöksfelvariansen 2 Ändra på stickprovsstorleken n Pröva vilken strategi som är bäst för att närma sig den ideala styrkefunktionen. Vilken strategi tror du är enklast att genomföra i praktiken vid t.ex. laboratoriearbete? 10 Enkel linjär regression Att studera modellen enkel linjär regression och illustrera hur de olika parametrarna i modellen påverkar data; att illustrera begreppet residualer; att visa på de olika möjligheter som finns i Matlab att analysera en regressionsmodell. Olbjer kap 10 Antag att givet är talpar (x i, y i ), i=1,...,10 där man anser att sambandet mellan x och y är linjärt. Modellen är y i = + x i + i där i är oberoende observationer från N(0, 2 ). 1. Vad är den grafiska tolkningen av och i modellen? Vilka förutsättningar har du på x-värdena? 2. Regressionsmodeller beskrivs enklast med hjälp av matriser. Hur ser matrisformuleringen ut för modellen ovan? 15

10 ENKEL LINJÄR REGRESSION 3. Residualanalys är ett viktigt instrument vid analys av regressionsmodeller. Hur definieras residualerna i ovanstående modell? Skattningen av 2 i modellen bygger på residualerna. Hur ser skattningen ut? 10.1 Illustration av modell: I ett enkelt simuleringsexperiment ska du undersöka hur värdet på påverkar modellen och de slutsatser man kan dra från data. (För att ge illustrativa bilder ges fullständiga Matlab kommandon i denna del av laborationen.) Skapa en vektor x med värden 1, 2,..., 10 och en variabel y som erhålls genom det teoretiska linjära sambandet y= + x, där och är kända. Välj t ex y=10+2x. Till variabeln y adderas två uppsättningar av normalfördelade mätfel N(0, 2 ) med olika värden på, förslagsvis =1 och =5. >> x=[1:10] >> y1=10+2*x+normrnd(0,1,10,1); >> y2=10+2*x+normrnd(0,5,10,1); Vektorn y1 består alltså nu av 10 observationer från N(10+2x, 1) medan y2 består av 10 observationer från N(10+2x, 25). Titta på data i samma diagram och jämför. >> plot(x,10+2*x) >> hold on >> plot(x,y1, x ) >> plot(x,y2, o ) För att skatta regressionslinjen och titta på residualerna utnyttjar vi den specialskrivna m-filen reggui. >> reggui(x,y1) >> reggui(x,y2) Titta på residualerna för de båda linjerna. Hur påverkas de av värdet på? I figurerna som alstras av reggui ges även skattningar och konfidensintervall för modellens parametrar. Jämför de erhållna intervallen med de sanna värdena på och ; täcker intervallen över parametrarna? 10.2 Matlabs egen inbyggda regressionsrutin I Matlab finns en inbyggd funktion för regressionsanalys,regress, som kan användas vid multipel linjär regression (och därmed förstås även vid enkel linjär regression). Observera att reggui endast kan användas vid enkel linjär regression samt vid polynomregression som är ett specialfall av multipel linjär regression. Pröva hjälpkommandothelp regress för att ta reda på hur in- och utargumenten ser ut. Använd regress för att skatta en av de två regressionslinjerna ovan. Då måste vi först bilda matrisen X som är en (10 2) matris med första kolumnen enbart ettor och andra kolumnen bestående av x-värdena. >> X=[ones(10,1) x] >> [b bint r]=regress(y1,x,0.05) Utargumentet bint ger konfidensintervall för parametrarna och (med konfidensgrad 0.95 här ovan). Kontrollera att de erhållna skattningarna och intervallen stämmer med de du fick frånreggui. 16

11 KALIBRERINGSKURVA 11 Kalibreringskurva Att studera modellen enkel linjär regression och illustrera hur de olika parametrarna i modellen påverkar data; att illustrera begreppet residualer; att visa på de olika möjligheter som finns i Matlab att analysera en regressionsmodell. Olbjer kap 10 Antag att givet är talpar (x i, y i ), i=1,...,10 där man anser att sambandet mellan x och y är linjärt. Modellen är y i = + x i + i där i är oberoende observationer från N(0, 2 ). 1. För ett givet värde på x, x 0, är man ofta intresserad av det förväntade värdet för y,ñ0. Ange formeln för ett 95% konfidensintervall förñ0 i ovanstående modell. 2. För ett givet värde på x, x 0, är man ofta intresserad av det predikterade värdet för y, y(x 0 ). Ange formeln för ett 95% prediktionsintervall för y(x 0 ) i ovanstående modell. 3. Vad är skillnaden mellan konfidensintervallet och prediktionsintervallet i de föregående uppgifterna? Använd gärna ett konkret exempel för att klargöra skillnaden. 4. Vid kalibrering har man det omvända problemet: För ett givet värde på y, y 0, vill man skaffa ett intervall för motsvarande x 0. Visa grafiskt hur detta kan göras utgånde från ett prediktionsintervall. Man vill göra en kalibreringskurva för en kalorimetrisk analys av fluorjoner i vatten och mäter därför transmittansen två oberoende gånger för ett antal kända koncentrationer av fluorjoner. Resultat (finns i fil kalibrer): Konc F (Ñg/ml) x 0.8 1.216 1.824 2.432 3.0 % transmittans y.3.5.9 81.2 81.6.3.4 81.0 81.8 82.0 Konc F (Ñg/ml) x 3.648 4.256 4.864 5.472 6.0 % transmittans y 82.9 83.0 83.9 84.0 85.0 82.5 83.1 84.0 84.0 84.8 Materialet blir nog mer hanterbart om man arbetar med >> x=[konc ; Konc ]; >> y=[trans(1,:) ; Trans(2,:) ]; Pröva att anpassa en enkel linjär regressionsmodell till data med hjälp av reggui (observera att reggui behöver ej den inledande kolumnen av ettor) Verifiera att modellen är rimlig genom att titta på residualerna. 17

12 MULTIPEL LINJÄR REGRESSION OCH PROBLEMET MED KOLINJÄRA X-VARIABLER Prediktion: Vad är den förväntade transmittansen då fluorkoncentrationen är 5.0? Vad är motsvarande 95% prediktionsintervall? Kalibrering (invers prediktion): Då man i framtiden ska använda linjen som kalibreringskurva, vill man till ett värde y bestämma ett intervall som med 95% sannolikhet täcker provets verkliga halt. Skatta ett 95% intervall för fluorkoncentrationen då man för ett prov med okänd koncentration avläst trans=82.8. I kemilaborationen Bestämning av koppar med atomabsorptionsspektrofotometri med grafitugn började ni med att ta upp en kalibreringskurva som ni sedan använde för att ett- och ett översätta era uppmätta mätvärden till kalibrerade mätvärden. När man sedan använder sina kalibrerade mätvärden så tar man alltså inte hänsyn till osäkerheten i kalibreringskurvan. För att göra det kan man göra ett kalibreringsintervall i stället för det konfidensintervall ni gjorde under punkt 8. De metoder som tas upp i boken för att göra kalibreringsintervall baseras på ett observerat y-värde, men era mätningar baseras på 3 respektive 10 observerade y-värden, så t.ex. kalibreringsintervallet i formelsamlingen får modifieras något till I x0 = x 0 s 1 ± t /2(n 2) k + 1 n + (x 0 x)2 där S xx x 0 = ȳ0 där 1 k under kvadratroten tidigare var 1. k är här antalet observerade y-värden. Använd detta, eller matlabkommandot kalibk för att göra ett kalibreringsintervall baserat dels på 10-serien och dels på 3-serien. Jämför resultatet med konfidensintervallen ni fick under punkt 8. 12 Multipel linjär regression och problemet med kolinjära x-variabler Att ge exempel på en korrelationsmatris; att ge exempel på en multipel linjär regressionsmodell; att illustrera hur multipel linjär regression kan påverkas av kolinjära x-variabler; att illustrera vilka kriterier som används då man väljer mellan olika modeller. Olbjer kap 11.1-11.7 Antag att y, responsvariabeln, beror linjärt av två oberoende variabler x 1 och x 2. Vid 10 olika försök har man noterat (x 1, x 2, y). Modellen är nu y i = 0+ 1x 1i + 2x 2i + i, i = 1,..., 10 och där i är oberoende observationer från N(0, 2 ) som tidigare. 1. Ange matriserna i matrisformuleringen av modellen. 2. Vad menas med att x-variablerna är kolinjära? 18

12 MULTIPEL LINJÄR REGRESSION OCH PROBLEMET MED KOLINJÄRA X-VARIABLER 12.1 Cementdata Detta experiment beskrevs i Industrial and Engineering Chemistry redan 1932. I 13 försök har man mätt värmeutvecklingen i stelnande cement som funktion av viktprocenten av några ingående ämnen. I filen cement finns följande variabler: varme utvecklad värme i kalorier per gram cement cem1 viktprocent av 3CaO Al 2 O 3 cem2 viktprocent av 3CaO SiO 2 cem3 viktprocent av 4CaO Al 2 O 3 Fe 2 O 3, cem4 viktprocent av 2CaO SiO 2 Data: cem1 cem2 cem3 cem4 varme 7 26 6 78.5 1 29 15 52 74.3 11 56 8 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 23 34 83.8 11 66 9 12 113.3 10 68 8 12 109.4 Man vill kunna avgöra vilken eller vilka av de fyra cementvariablerna som ska användas i en modell för att förutsäga värmeutvecklingen. Man ansätter en multipel linjär regressionsmodell där varme är responsvariabel och cementvariablerna oberoende variabler. Problemet är att vissa av de fyra cementvariablerna samvarierar kraftigt med varandra vilket kommer att påverka regressionsanalysen. Undersök om det finns någon samvariation mellan de fem olika variablerna genom att t.ex. beräkna korrelationsmatrisen mellan variablerna (corrcoef). Med kommandot corrcoef([cem1 cem2 cem3 cem4 varme]) får du en matris där elementen på t.ex. rad 2 är korrelationskoefficienterna mellan cem2 och variablerna cem1, cem2, cem3, cem4 respektive varme. Plotta i tvådimensionella diagram de variabler mot varandra som verkar samvariera. Beräkna först en full regressionsmodell med varme som responsvariabel och samtliga fyra cementvariabler som förklarande variabler (använd regress och kom ihåg att designmatrisen X ska inledas med en kolumn av ettor). Vilka koefficienter är signifikant skilda från noll? Enligt detta resultat, vilka variabler ska vara med i modellen? Är svaret rimligt? Pröva olika kombinationer av förklarande variabler i regressionsmodellen (använd den nyss beräknade korrelationsmatrisen för att gissa vilka variabler som bör vara med). Jämför konfidensintervallen för -koefficienterna, skattningen av och residualerna för de olika modellerna. Vilka cementvariabler verkar vara de viktigaste för att förutsäga värmeutvecklingen? Funktionenstepwise kan vara till stor hjälp vid modellvalet, sehelp stepwise. Skriv t ex >> stepwise([cem1 cem2 cem3 cem4],varme) 19

13 POLYNOMREGRESSION ETT SPECIALFALL AV MULTIPEL LINJÄR REGRESSION 13 Polynomregression ett specialfall av multipel linjär regression Att illustrera polynomregression. Olbjer kap 11.9 1. Hur ser modellen ut vid polynomregression; 2. jämför modellen med en multipel linjär regressionsmodell! 13.1 Kontroll av cyanid Följande problem presenteras i Meier & Zund: Statistical methods in analytical chemistry. Vid en kemisk industri ville man utveckla en metod för att undersöka mängden av cyanid (CN ) i avloppsvattnet. I litteraturen fann man en fotometrisk metod som verkade vara lämplig och nästa steg var att finna en lämplig kalibreringsfunktion. En cyanidlösning gjordes och en elektromekanisk automat användes för att erhålla en spädningsserie med 10, 30,..., 250Ñg CN /100 ml. Till 10 ml av kalibreringslösningen tillsattes 90 ml av den färggivande reagentlösningen varefter absorbansen mättes (1 cm kyvett). Data finns i fil cyanid. Beskriver en linjär kalibreringskurva sambandet väl? Ansätt istället en kvadratisk kalibreringskurva: y = 0 + 1x + 2x 2 +. Denna modell är ett specialfall av en multipel linjär regressionsmodell; vilka är de två oberoende variablerna? Använd kommandot regress för att pröva denna modell på data och jämför med den linjära kalibreringskurvan. Vilken av dem passar bäst till data? Bokens författare ger följande kemiska förklaring: Stray light in the photometer dominates at high absorbances, which can be responsible for lower slopes at high concentrations. The chemical workup can also produce lower yields of the chromophore at higher concentrations. 13.2 Anpassning av polynom i Matlab Med hjälp av funktionen reggui kan man interaktivt, med hjälp av minsta kvadratmetoden, anpassa polynom av olika gradtal till ett datamaterial. Pröva reggui på data från föregående exempel för att snabbt jämföra de två olika modellerna ovan. 13.3 Simulering av sjökalkning I en laboration, där sjökalkning skulle simuleras i en tankreaktor, ville man undersöka hur upplösningshastigheten för kalkstensmjöl kunde beskrivas som funktion av vätejonskoncentrationen. I filen kalk finns för olika ph-värden uppmätt logaritmerad reaktionshastighet för kornstorlekar 71-90Ñm. Användreggui för att undersöka sambandet mellan de två variablerna.

15 NITRERINGSPROCESS 14 Brödbak Att illustrera 2 2 -försök; att visa på betydelsen av att studera samspel mellan faktorer; att varna för försöksupplägget variera en faktor i taget. Olbjer kap 12.1-12.3 1. Hur ser modellen ut vid ett 2 2 -försök? 2. Hur tolkas effekterna A, B och (AB) och hur gör man konfidensintervall för dem? 3. Vad skiljer ett faktorförsök från ett variera en faktor i taget försök. Vilka slutsatser kan du dra från respektive försök? Vid framställning av vetemjöl ämnat för brödbak ville man undersöka hur tillsats av två mindre ingredienser (A och B) påverkade vetemjölets bakegenskaper. Vid ett experiment bakades ett antal limpor av standardsort på 4 olika sätt (lite/mycket tillsats av A, lite/mycket tillsats av B) varefter brödets volymitet ((dm) 3 /kg) bestämdes. Marknadsundersökningar har visat att medelkonsumenten föredrar höga, fluffiga bröd vilket motsvarar hög volymitet. Resultat (finns i filbak): A B volymitet (1) lite lite 2.36 2.03 2.31 (a) mycket lite 2.00 2.34 2.28 (b) lite mycket 1.70 2.01 1.83 (ab) mycket mycket 3.22 2.98 2.76 Undersök, genom att göra lämpliga konfidensintervall, vilka effekter tillsats av A och B har på brödets volymitet. Personen K tänker lägga upp sitt försök något annorlunda. Från grundtillståndet (lite A och lite B) studerar han var som händer då man dels tillsätter mycket A och dels tillsätter mycket B. Han betraktar alltså enbart de tre översta raderna i ovanstående schema. Vilka slutsatser kommer K att dra om A:s och B:s inverkan på brödets volymitet? Vilka argument kan du använda för att övertyga K om det olämpliga i hans försöksplan? 15 Nitreringsprocess Att illustrera 2 3 -försök; att visa på betydelsen av att studera samspel mellan faktorer. Olbjer kap 12.4 21

16 RESPONSYTOR 1. Hur ser modellen ut vid ett 2 3 -försök? 2. Hur skattas 2 om du har n replikat i varje nivåkombination? 3. Hur skattas 2 om du endast har en observation i varje nivåkombination? På ett laboratorium undersökte man hur utbytet av en nitreringsprocess påverkades av följande faktorer: A tid för salpetersyratillsats, B omrörningstid, C bottensatsförekomst. Faktorn C togs med i laboratorieförsöket därför att det är vanligt i fabrikstillverkning att man inte rengör processkärlet för varje tillverkningsomgång utan låter en bottensats kvarstå till nästa omgång. Varje faktor har två nivåer. Utbytet (i procent) vid de olika nivåkombinationerna anges i nedanstående tabell (Finns i filnitrer). A B C utbyte 1 utbyte 2 (1) 2 0.5 utan 87.1 87.3 (a) 7 0.5 utan 88.3 88.6 (b) 2 4.0 utan 81.8 82.1 (c) 2 0.5 med 86.5 86.6 (ab) 7 4.0 utan 82.9 83.1 (ac) 7 0.5 med 89.0 89.3 (bc) 2 4.0 med 83.3 83.6 (abc) 7 4.0 med 83.7 83.8 Analysera försöket genom att skatta olika effekter. Hur påverkar de tre olika faktorerna processen? Man trodde sig vara så pass förtrogen med den kemiska reaktionen ifråga att man kunde anta att samspelseffekterna var ringa. Stämmer det? I en kommande försöksuppsättning av nitreringsprocessen vill man spara tid och pengar genom att för varje nivåkombination enbart mäta ett utbyte. Tycker du detta är lämpligt? 16 Responsytor Att illustrera skattningar av responsytor; att illustrera optimering i kemiska system Olbjer kap 12.10 1. Vad är en responsyta? 2. Hur kan problemet att skatta en responsyta överföras till ett multipel linjärt regressionsproblem? 3. Vilka problemställningar är av intresse vid optimering av en responsyta? 22

16 RESPONSYTOR För olika typer av kemiska system där en responsvariabel y beror på variabler x 1 och x 2, y = f (x 1, x 2 ), kan responsytan f ofta lämpligt beskrivas med hjälp av en andra ordningens polynommodell: Om y i är responsvariabeln vid försök i (t ex absorbans) och x 1 och x 2 är faktorer eller experimentella variabler (t ex koncentrationerna av två olika ämnen) ges modellen av (1) y i = 0 + 1x 1i + 2x 2i + 11x 2 1i + 22x 2 2i + 12x 1i x 2i + i Modell är alltså en multipel linjär regressionsmodell med 5 oberoende variabler, x 1, x 2, x 2 1, x2 2 och x 1x 2 och där slumpvariablerna i antas vara oberoende och normalfördelade N(0, 2 ). Några responsytor med respektive polynom: y 100 100 0 x2 0 0 x1 100 y 100 100 0 x2 0 0 x1 100 y 100 100 0 x2 0 0 x1 100 Responsyta 1: y = 96.7 1.68x 1 2.18x 2 + 0.013x 2 1 + 0.018x2 2 + 0.01x 1x 2 Responsyta 2: y = 3.35+1.68x 1 + 2.18x 2 0.013x 2 1 0.018x2 2 0.01x 1x 2 Responsyta 3: y = 93.3 0.37x 1 1.37x 2 0.005x 2 1 + 0.005x2 2 + 0.02x 1x 2 Fundera en stund på hur parametrarna 0, 1,..., 12 ska tolkas. (Jämför med funktionerna i figurerna ovan.) Hur påverkar storleken på 11 och 22 responsytan? Hur ser ytan ut om både 11 och 22 är positiva? eller om båda är negativa? Parametern 12 är ofta av speciellt intresse eftersom den uttrycker samspelet mellan variablerna x 1 och x 2. I responsyta 3 är parametern 12 signifikant skild från 0. Vad händer med responsvaribeln y då x 1 är fixerad till 0 men x 2 ökar? Vad händer om x 1 i stället fixeras till 100? Ett experiment med vanadin I en artikel i Journal of Chemical Education 69, 7 (1992), 5-563 beskrivs ett experiment där man undersöker hur y absorbans hos en lösning av vanadinsulfat påverkas av x 1 antal droppar av 1% H 2 O 2 23

16 RESPONSYTOR samt av x 2 antal droppar av % H 2 SO 4. Add dropwise the amounts of 1% H 2 O 2 and % H 2 SO 4, in that order, that are specified by the experimental design to drops of stock VOSO 4 solution (about 0.1 g dissolved in 250 ml of distilled water). Stir the resulting mixture, and allow it to equilibrate for 5 min after the addition of H 2 SO 4. Then measure the percent transmittance at 4 nm using a visible spectrophotometer (eg. Bausch & Lomb Spectronic.) Calculate the absorbance. The procedure is a modification of a vanadium spot test used in organic analysis. Försöket är upplagt så att både x 1 och x 2 undersöks på lägsta nivå, låg nivå, mellan nivå, hög nivå och högsta nivå. Motsvarande antal droppar är då 8, 10, 15, och 22. (Denna försöksplan kallas central composite design) Resultat (finns i filvanadin): x 1 x 2 y antal dr H 2 O 2 antal dr H 2 SO 4 absorbans 15 8 0.397 10 10 0.4 10 0.359 15 15 0.334 15 15 0.336 15 15 0.346 15 15 0.323 8 15 0.367 22 15 0.319 0.330 10 0.293 15 22 0.327 Kemisk kommentar till experimentet En sur lösning av VOSO 4 innehåller vanadin(iv) i joner VO 2+ (vanadyl(iv)-joner). När några droppar H 2 O 2 sätts till en sådan lösning, bildas i första hand den kraftigt röda lösliga föreningen (VO 2 ) 2 (SO 4 ) 3, som är en peroxoförening av vanadin(v). H 2 O 2 har här fungerat både som oxidationsmedel och som ligand: 2VO 2+ + 3H 2 O 2 + 3HSO 4 (VO 2) 2 (SO 4 ) 3 + 4H 2 O+H + röd Vanadin(V) kan emellertid koordinera totalt 4 st peroxo- eller oxodigander i blandade oxoperoxovandat(v)- joner, som t ex V (O 2 )O3 3, V (O 2) 2 O2 3 etc. Sedan väl allt vanadin oxiderats till femvärt, kan således den starkt färgade (VO 2 ) 2 (SO 4 ) 3, som troligen ger den maximala absorbansen vid 4 nm, till större eller mindre del övergå till diverse, ljusare gula, väteoxoperoxovandat(v)-joner allt beroende på mängden tillsatt H 2 O 2 och H 2 SO 4. Som typexempel kan följande jämvikt tjäna: (VO 2 ) 2 (SO 4 ) 3 + 2H 2 O 2 + 4H 2 O 2H 2 V (O 2 ) 2 O 2 + 3HSO 4 + 5H+ Tillsats av H 2 O 2 förskjuter jämvikten åt höger(färgen avtar); tillsats av H 2 SO 4 förskjuter den åt vänster (färgen djupnar). 24

16 RESPONSYTOR Statistisk analys Data från experimentet finns i filvanadin. Gör en tvådimensionell plot över x1 och x2 för att se vilken försöksuppläggning man använt sig av. Kan du komma på någon fördel med denna uppläggning? (Tänk på avsnittet med kolinjära x-variabler) Skatta en responsyta med hjälp avrespons (se help respons), skatta parametrarna i modell (1) och studera dess konfidensintervall. (Eftersom modell (1) är en multipel linjär regressionsmodell bygger responsyteskattningen på kommandotregress. Bör alla variablerna vara med? Hur ser den slutliga modellen ut? Rita upp den slutligt skattade responsytan. Stämde den skattade responsytan med den kemiska tolkningen? Finns det andra värden på x 1 och x 2 du skulle vilja pröva i experimentet? Vilka i så fall och varför? 25