Föreläsning 14: Försöksplanering

Relevanta dokument
Föreläsning 13: Multipel Regression

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Föreläsning 9: Hypotesprövning

Föreläsning 15: Faktorförsök

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Statistik 1 för biologer, logopeder och psykologer

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Regression med kvalitativa variabler. Jesper Rydén

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

Laboration 3: Modellval i multipel regression

Möbiustransformationer.

Föreläsning 12: Linjär regression

Tränarguide del 1. Mattelek.

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

1. Frekvensfunktionen nedan är given. (3p)

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Matematisk statistik för B, K, N, BME och Kemister

Uppgift

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i Tillämpad matematisk statistik LMA521 för EPI och MI den 14 dec 2011

För övrigt fullständig överensstämmelse kvalitativt sett för båda proverna. Alla lab som analyserat P-CCP ak på prov 18/D rapporterar ett starkt

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Idag. Hur vet vi att vår databas är tillräckligt bra?

Avsikt På ett lekfullt sätt färdighetsträna, utveckla elevers känsla för hur vårt talsystem är uppbyggt samt hitta mönster som uppkommer.

Ekvationssystem, Matriser och Eliminationsmetoden

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Vi skall skriva uppsats

Statistik och epidemiologi T5

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Fristående förskolor totalt Antal svar samtliga fristående förskolor: 360 (57 %)

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Systematiskt kvalitetsarbete

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

parametriska test Mätning Ordinalskala: Nominalskala:

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Stella Nova förskola

4-6 Trianglar Namn:..

Grundläggande biostatistik. Jenny Selander

Enkätresultat för elever i år 2 i Nösnäsgymnasiet 2 i Stenungsund våren 2014

Enkät i förskoleklass

Träning i bevisföring

Experimentell metodik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Tentamen i Linjär algebra (TATA31/TEN1) ,

Enkätresultat för elever i år 2 i Mega Musik gymnasium hösten Antal elever: 47 Antal svarande: 46 Svarsfrekvens: 98% Klasser: MM13

LPP laboration. Förmågor: Centralt innehåll: Kunskapskrav:

Enkätresultat för elever i år 2 i Praktiska Skövde i Praktiska Sverige AB hösten 2014

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Medarbetarenkäten 2016 handledning för förbättringsarbete

Hur utvecklar man användbara system? Utvärdering. Användbarhet handlar om kvalitet. Utvärdering. Empiriska mätningar. Metoder

Avd. Matematisk statistik

Mätosäkerhet vid förstörande provning

SEPARABLA DIFFERENTIALEKVATIONER

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Får nyanlända samma chans i den svenska skolan?

Mätning av effekter. Vad är elektrisk effekt? Vad är aktiv-, skenbar- reaktiv- medel- och direkteffekt samt effektfaktor?

Stockholm stad Förskoleundersökning Förskolan Pärlan

Kriterium Kvalitet 1 Kvalitet 2 Kvalitet 3 Kvalitet 4 Använda, Utveckla och uttrycka

Introduktion till Komplexa tal

SF1620 Matematik och modeller

Ha det kul med att förmedla och utveckla ett knepigt område!

Datorövning 3: Icke-parametriska test

DEMOKRATI 3 DEMOKRATINS VILLKOR

Övningshäfte i matematik för. Kemistuderande BL 05

Sammanfatta era aktiviteter och effekten av dem i rutorna under punkt 1 på arbetsbladet.

Riktlinjer - Rekryteringsprocesser inom Föreningen Ekonomerna skall vara genomtänkta och välplanerade i syfte att säkerhetsställa professionalism.

Uppdrag: Huset. Fundera på: Vilka delar i ditt hus samverkar för att elen ska fungera?

Statsbidrag för läxhjälp till huvudmän 2016

David Wessman, Lund, 30 oktober 2014 Statistisk Termodynamik - Kapitel 5. Sammanfattning av Gunnar Ohléns bok Statistisk Termodynamik.

Boll-lek om normer. Nyckelord: likabehandling, hbt, normer/stereotyper, skolmiljö. Innehåll

När jag har arbetat klart med det här området ska jag:

UPPGIFT: SKRIV EN DEBATTARTIKEL

Texturbild. Lagerpaletten du kommer arbeta med ser du till höger. 1. Kopiera bakgrunden till ett nytt lager och gör den svartvit.

3.9 Biologi. Syfte. Grundskolans läroplan Kursplan i ämnet biologi

BRA VIBRATIONER. Namn: Klass: Ett ämnesövergripande område i Bi,Fy,Tk 8a,8b och 8e ht.2012.

Två konstiga klockor

Nedskräpning på trottoarer i centrala staden

Rapport uppdrag. Advisory board

Tandhälsan Barn och Ungdom Västmanland 2015 Barn och ungdomar undersökta 2015

Lab 31 - Lauekamera TFFM08 - Experimentell Fysik

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Planering - LPP Fjällen år 5 ht-16

Tillståndsmaskiner. 1 Konvertering mellan Mealy och Moore. Ola Dahl och Mattias Krysander Linköpings tekniska högskola, ISY, Datorteknik

Modul 6: Integraler och tillämpningar

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Övningshäfte Algebra, ekvationssystem och geometri

Resultatet läggs in i ladok senast 13 juni 2014.

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Mötesnoteringar från PTS arbetsgruppmöte om 90-serien

Verksamhetsplan HT -09 och VT -10

Subtraktion - Analys och bedömning av elevarbeten

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Transkript:

Föreläsning 14: Försöksplanering Matematisk statistik Chalmers University of Technology Oktober 14, 2015

Modellbeskrivning Vi har gjort mätningar av en responsvariabel Y för fixerade värden på förklarande variabler x 1,..., x p, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x 1,i,..., x p,i ), i = 1,..., n: Y i = β 0 + β 1 x 1,i +... + β p x p,i + ε i (1) där ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet och β i är parametrar som beskriver beroendet. Vi kan formulera modellen på matrisform som där Y 1 Y =. Y n X = Y = Xβ + E 1 x 1,1 x p,1...... 1 x 1,n x p,n E = ε 1. ε n β = β 0. β p Multipel linjär regression

Parameterskattning Sats Givet att X T X är inverterbar fås minstakvadrat-skattningen av β som β = (X T X) 1 X T Y. Skattningarna är väntevärdesriktiga och vi har V (β i ) = σ 2 (diagonalelement nummer i+1 i (X T X) 1 ). Vidare är s 2 = Q 0 /(n p 1) där Q 0 = n (y i β0 β1x 1,i... βpx p,i ) 2 = Y T Y β T X T Y. i=1 Sats Med µ Y (x 0) = β 0 + β 1 x 0,1 + + β p x 0,p är V(µ Y (x 0)) = σ 2 x 0 T (X T X) 1 x 0 Multipel linjär regression

Egenskaper hos skattningarna Om ε i är normalfördelade är också βi normalfördelade. (n p 1)s 2 /σ 2 χ 2 (n p 1). med θ = β i eller µ Y (x 0 ) gäller (θ θ)/d(θ ) t(n p 1). Ett konfidensintervall för θ är I θ = [θ ± t α/2 (n p 1)d(θ )] För att testa H 0 : θ = θ 0 mot H 1 : θ θ 0 används teststorheten T = (θ θ 0 )/d(θ ) som har kritiskt område C α = {T : T > t α/2 (n p 1)}. Ett prediktionsintervall för en framtida observation Y (x 0 ) ges av [ ] I Y (x0 ) = µ Y (x 0 ) ± t α/2 (n p 1) s 1 + x T0 (XT X) 1 x 0 Multipel linjär regression

Polynomregression 250 200 150 100 50 0 50 10 8 6 4 2 0 2 4 6 8 10 Multipel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x. Ansätt modellen Y i = β 0 + β 1 x i + β 2 x 2 i +... + β p x p i + ε i (2) Specialfall av multipel regerssion med x k = x k.

Förklaringsgrad och modellval För en given modell har vi Q 0 = Y T Y β T X T Y = S yy SSR Alltså kan den totala variationen i datan, S yy delas upp i en del som förklaras av linjen, SSR, och en del som är residualvariationen: S yy = Q 0 + SSR Andelen av variationen som förklaras av modellen brukar betecknas R 2 = SSR S yy. En viktig fråga är hur vi väljer vilka förklarande variabler som ska ingå i en multipel regressionsmodell. För att undersöka om x p bör tas med kan vi utföra hypotestest H 0 : β p = 0 H 1 : β p 0 genom att bilda teststorheten β p/d(β p) med kritiskt område C α = {T : T > t α/2 (n p 1)}. Multipel linjär regression

Stegvis regression (I) Låt (β 0, β i, β j ) beteckna modellen Y = β 0 + β i x i + β j x j + ε och låt Q 0 (β 0, β i, β j ) vara residualvariationen för modellen. Steg 1 Välj (β 0, β i1 ) där i 1 = arg min i Q 0 (β 0, β i ). Om β i1 är signifikant, gå till Steg 2a, annars välj (β 0 ) som modell och avsluta modellval. Steg 2a Välj (β 0, β i1, β i2 ) där i 2 = arg min i Q 0 (β 0, β i1, β i ). Om β i2 är signifikant, gå till Steg 2b, annars välj (β 0, β i1 ) som modell och avsluta modellval. Steg 2b Testa om β i1 är signifikant i (β 0, β i1, β i2 ). Behåll modellen om så är fallet, annars välj (β 0, β i2 ). Gå till steg 3a. Multipel linjär regression

Stegvis regression (II) Fortsätt iterera stegen i modellvalet: Steg m:a Aktuell modell är (β 0, β i1,..., β ik ). Välj (β 0, β i1,..., β ik, β ik+1 ) där i k+1 = arg min i Q 0 (β 0, β i1,..., β ik, β i ). Om β ik+1 är signifikant, gå till Steg m:a, annars välj (β 0, β i1,..., β ik ) som modell och avsluta modellval. Steg m:b Testa om någon parameter β j är icke-signifikant i (β 0, β i1,..., β ik, β ik+1 ). Om så är fallet, välj bort den med lägst värde på teststorheten, annars behåll alla parametrar. Gå till Steg (m + 1) : a. Multipel linjär regression

Massignifikans En invändning mot stegvis regression är att det inte alltid går att komma fram till en bra modell genom att endast lägga till en förklarande variabel i taget. En annan invändning är att valet av α i testerna i viss mån godtyckligt eftersom vi gör upprepade tester. Detta brukar kallas massignifikansproblemet: Multipel linjär regression

Multipel linjär regression

Multipel linjär regression

Multipel linjär regression

Statistiska undersökningar Vi kan dela in statistiska undersökningar i två huvudkategorier: Deskriptiva: Syftar till att beskriva egenskaper hos någon population. Analytiska: Fokuserar på att jämföra hur olika förklarande variabler (eller behandlingar) påverkar en population. Analytiska studier kan i sin tur delas upp i olika typer: Experimentella: Man kan på förhand bestämma vilka enheter som utsätts för viken behandling. Detta är viktigt för att kunna dra slutsatser om hur olika förklarande variabler påverkar processen. Observationsstudier: Det är på förhand givet vilka enheter som får vilken behandling. Dessa är oftast enklare att få data för men är mycket svårare att analysera. Statistiska undersökningar

Experimentella undersökningar Vi har tidigare undersökt hur vi kan skatta polynomiella (tex linjära eller kvadratiska) samband mellan en responsvariabel och en eller flera förklarande variabler. Vi ska nu undersöka mer generella situationer: Sambandet behöver inte beskrivas av någon enkel funktion Förklarande variabler kan vara både numeriska och kategoriska Ibland delar man upp variabler som kan påverka processen i olika kategorier: Faktorer: Variabler som vi kan styra själva under experimentet. Kovariater: Variabler som vi kan mäta men ej styra. Övriga variabler som har en systematisk påverkan på processen. Ett experiment där man undersöker flera faktorer kallas ett faktorförsök. De olika nivåerna som används för de olika faktorerna kallas för faktornivåer. Statistiska undersökningar

Experimentella undersökningar Målsättningar för en bra experimentell undersökning bör vara: Den ska eliminera systematiska fel. Den ska vara effektiv, dvs ge goda parameterskattningar med rimligt antal observationer. Den ska tillåta tillräckligt generella slutsatser. Det finns flera sätt att uppnå dessa mål: Randomisering: Låt till exempel slumpen bestämma vilka enheter som får vilken behandling. Detta är en viktig teknik, men kan vara svårt att genomföra i praktiken, och kan ge låg precision vid små populationer. Undersök en homogen delpopulation för att minska variationen, tex genom att hålla vissa faktorer konstanta. En nackdel är att detta kan minska förmågan att dra generella slutsatser. Blockindelning/stratifiering: Dela in i homogena delpopulationer och gör jämförelser separat inom varje delpopulation, väg sedan samman till ett slutgiltigt resultat. Studera flera faktorer samtidigt i ett flerfaktorförsök. Statistiska undersökningar

Undersökning av en faktor i taget Ofta undersöker man i ett experiment endast en faktor. Vill man undersöka en ny faktor görs sedan ett nytt försök. Detta är ofta en dålig ieé! Ett problemet är att vi har svårt att upptäcka samspelseffekter. Samspel innebär att effekten av en viss faktor varierar beroende på värdet av andra faktorer. Även om inga samspelseffekter finns så kräver flerfaktorförsök färre mätningar för samma precision. Det är dessutom svårt att hitta optimala värden på faktorerna om de undersöks separat. Statistiska undersökningar

Teckentabell för 2 3 -försök Försök Medel µ A B C AB AC BC ABC (1) ȳ 111 + - - - + + + - a ȳ 211 + + - - - + + + b ȳ 121 + - + - - - - + ab ȳ 221 + + + - + - - - c ȳ 112 + - - + + - - + ac ȳ 212 + + - + - - - - bc ȳ 122 + - + + - + + - abc ȳ 222 + + + + + + + + Statistiska undersökningar

Yates schema Vid räkning för hand på ett 2 k -försök kan beräkningarna underlättas avsevärt genom att använda Yates schema: 1 Skriv effekterna i standardordning i en kolumn (tex (1), a, b, ab, c, ac, bc, abc) 2 Skriv ner motvarande medelvärden i en ny kolumn och para värdena. 3 Bilda en ny kolumn (1) där första hälften av värdena är alla parsummor av värden i föregående kolumn, och där andra hälften av värdena är alla pardifferenser. Para värdena. 4 Bilda en ny kolumn (2) genom att upprepa Steg 3, fortsätt med detta tills kolumn (k) bildats. 5 Dela värdena i kolumn (k) för att få skattningarnas värde i standardordningen. Statistiska undersökningar

Yates schema (exempel) Försök Medel (1) (2) (3) Effekt Skattning (1) 522 1068 - - - - a 546 - - - - - b 557 - - - - - ab 581 - - - - - c 567 - - - - - ac 579 - - - - - bc 597 - - - - - abc 609 - - - - - Statistiska undersökningar

Yates schema (exempel) Försök Medel (1) (2) (3) Effekt Skattning (1) 522 1068 - - - - a 546 1138 - - - - b 557 - - - - - ab 581 - - - - - c 567 - - - - - ac 579 - - - - - bc 597 - - - - - abc 609 - - - - - Statistiska undersökningar

Yates schema (exempel) Försök Medel (1) (2) (3) Effekt Skattning (1) 522 1068 - - - - a 546 1138 - - - - b 557 1146 - - - - ab 581 - - - - - c 567 - - - - - ac 579 - - - - - bc 597 - - - - - abc 609 - - - - - Statistiska undersökningar

Yates schema (exempel) Försök Medel (1) (2) (3) Effekt Skattning (1) 522 1068 - - - - a 546 1138 - - - - b 557 1146 - - - - ab 581 1206 - - - - c 567 - - - - - ac 579 - - - - - bc 597 - - - - - abc 609 - - - - - Statistiska undersökningar

Yates schema (exempel) Försök Medel (1) (2) (3) Effekt Skattning (1) 522 1068 - - - - a 546 1138 - - - - b 557 1146 - - - - ab 581 1206 - - - - c 567 24 - - - - ac 579 - - - - - bc 597 - - - - - abc 609 - - - - - Statistiska undersökningar

Yates schema (exempel) Försök Medel (1) (2) (3) Effekt Skattning (1) 522 1068 2206 4558 ˆµ 569.75 a 546 1138 2352 72  9 b 557 1146 48 130 ˆB 16.25 ab 581 1206 24 0 AB ˆ 0 c 567 24 70 146 Ĉ 18.25 ac 579 24 60-24 AC ˆ -3 bc 597 12 0-10 BC ˆ -1.25 abc 609 12 0 0 ABC ˆ 0 Statistiska undersökningar