Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar

Relevanta dokument
Föreläsning 12: Regression

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Jämförelse av två populationer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistisk försöksplanering

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Matematisk statistik för B, K, N, BME och Kemister

Konfidensintervall, Hypotestest

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Statistisk försöksplanering

7.5 Experiment with a single factor having more than two levels

Medicinsk statistik II

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Föreläsning 12: Repetition

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

ANOVA Mellangruppsdesign

Föreläsning 15: Faktorförsök

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Att välja statistisk metod

F22, Icke-parametriska metoder.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Parade och oparade test

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik 1 för biologer, logopeder och psykologer

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Medicinsk statistik II

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Statistik och epidemiologi T5

2. Test av hypotes rörande medianen i en population.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Föreläsning G70 Statistik A

Gamla tentor (forts) ( x. x ) ) 2 x1

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Hur skriver man statistikavsnittet i en ansökan?

MSG830 Statistisk analys och experimentplanering

Fråga nr a b c d 2 D

Repetitionsföreläsning

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Matematisk statistik för B, K, N, BME och Kemister

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Sannolikheter och kombinatorik

Statistik och epidemiologi T5

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Studietyper, inferens och konfidensintervall

MVE051/MSG Föreläsning 7

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning 7: Punktskattningar

7.5 Experiment with a single factor having more than two levels

8 Inferens om väntevärdet (och variansen) av en fördelning

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Inferensstatistik. Hypostesprövning - Signifikanstest

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

7.3.3 Nonparametric Mann-Whitney test

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Samplingfördelningar 1

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 7: Punktskattningar

Formler och tabeller till kursen MSG830

Uppgift a b c d e Vet inte Poäng

Uppgift a b c d e f (vet ej) Poäng

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Regressions- och Tidsserieanalys - F1

10.1 Enkel linjär regression

Föreläsning 7: Punktskattningar

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Statistik Termin 10, Läkarprogrammet, HT16

Föreläsning 7. Statistikens grunder.

Föreläsning 11: Mer om jämförelser och inferens

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Industriell matematik och statistik, LMA /14

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

F9 SAMPLINGFÖRDELNINGAR (NCT

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Transkript:

Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar Marina Axelson-Fisk 23 maj, 2016

Tillämpningsområden Regression (Kap 11-12) Variansanalys och försöksplanering (Kap 13-14) Enkätanalyser Kategoriska data (Kap 15) Icke-parametriska metoder

REGRESSION Chalmers University of Technology

Korrelation Korrelation är ett mått på det linjära beroendet mellan två stokastiska variabler X och Y (, ) = ( ) där 1 1 och =±1 betyder ett linjärt beroende på formen = +

Linjär regression I linjär regression försöker man modellera den här typen av beroende. För två stickprov,, och,, = + + där och är konstanter och (0, ) är den slumpmässiga avvikelsen/felet.

Exempel 1: linjär regression Florida Game and Fish Water comission vill uppskatta vikten hos alligatorer mha visuell uppskattning av dess längd. Data: Alligator 1 2 3 4 5 6 7 8 X = längd (m) 2.4 1.9 1.5 2.2 2.4 1.6 2.2 1.8 Y = vikt (kg) 58 23 13 36 50 15 41 16

Ex. 1 (forts) = 62.92+47.21

Den skattade linjen = = 62.92 = ( )( ) ( ) Test-statistika = =47.21 = 0 /

Test av relationens styrka : =0(lutningen) : >0 Test-statistikan =8.34 jämförs mot =,. =3.143, och eftersom >,. förkastar vi. Det finns ett signifikant, positivt samband mellan vikt och längd.

Regression användningsområden Modellera samband mellan variabler Mäta styrkan i relationen: hypotestest, styrkeberäkning Prediktion och prognoser: för ett nytt värde vad är den troligaste observationen på?

Ex. 1 (forts) För en alligator med längden 2.3 m, vad är den troligaste vikten? = 62.92+47.21 = 62.92+47.27 2.3 =45.66 kg Observera dock att för små längder, fungerar inte den här relationen

Ex. 1 (forts) Chalmers University of Technology

FÖRSÖKSPLANERING Chalmers University of Technology

Försöksplanering För få ut så mycket information som möjligt ur ett experiment är det viktigt att planera hela processen i förväg. Hur ska experimentet genomföras och analyseras. Typisk vill man mäta eventuell effekt av någon slags behandling på någon typ av objekt (tex människor, djur, växter, maskiner, processer)

Försöksplanering Vad vill vi undersöka? (hypotes) Hur ser populationen ut som vi testar på? Hur drar vi vårt stickprov? (sampling) Behöver data rensas? Hur ska vi analysera data? Hur ska vi presentera resultaten?

Vanliga samplingmetoder Metod Enkel sampling Stratifierad sampling Klustersampling Systematisk sampling Multi-stegssampling Beskrivning Hela populationen är tillgänglig och objekt dras med lika sannolikhet. När sub-populationer påverkar mätdata på olika sätt. När enkel sampling är svår pga otillgängliga eller utspridda populationer. När populationen är inhomogen. Istället ordnas populationen enligt något kriterium och var n:te objekt dras. Sampling i rekursiva steg.

Datarensning Titta på data för att identifiera olika typer av fel. identifiera felaktiga outliers. kolla att antagandena i din analysmetod är uppfyllda. upptäcka andra fel som duplicerade värden, omöjliga värden, beroenden, etc. Titta INTE på data för att välja hypotes!

Titta på data för att identifiera fel. Kön Frekvens: 1: 17 2: 12 3: 1 1 2 3

Titta på data för att identifiera outliers. Ålder Ålder Freq 0-25 6 Medelv: 64 25-50 18 Median: 55 50-75 22 75-100 17 200-225 1 0 25 50 75 100 150 200

Olika experimentupplägg Randomiserade försök Behandling - kontroll Faktorförsök Sekventiella försök

Randomiserade försök Slumpmässigt dragna stickprov eller slumpmässig tilldelning av behandling av objekten. För att undvika effekter som beror på andra faktorer än de man testar. Resultat kan endast generaliseras till hela populationen om stickprovet är slumpmässigt och representativt

Behandling kontroll En grupp får behandling, en får ingen, placebo eller standard-behandling Båda grupperna ska vara lika representativa från samma population randomisering till behandlingsgrupper av ett stickprov tvillingstudier randomisering inom par

Faktorförsök Mäter effekter och samspel mellan ett antal faktorer som tros ha någon effekt på en responsvariabel. Faktorerna ställs in på olika nivåer. Effektivare än att mäta varje faktor för sig, särskilt om det finns samspel också. Ett komplett faktorförsök gör mätningar på alla kombinationer av faktorer och nivåer. Vanligast: 2 nivåer per faktor, tex låg (-), hög (+)

Sekventiella försök Istället för ett enda stort experiment, med alla faktorer och nivåer på en gång, kan det vara bättre att bryta upp i flera steg iterativt Beroenden mellan ett försök till nästa Stegvis genom processen

Ex. 2: faktorförsök Försök: klädtvättning Motivering: Det finns en mängd olika inställningar på tvättmaskinerna och en uppsjö av olika tvättmedel och fläckborttagninsprodukter. Dagens tvättmedel påstår dessutom sig ha lika stor effekt i lägre temperaturer. Vilka faktorer har effekt? Vilka inställningar på dessa faktorer är effektivast?

Ex. 2: faktorer och nivåer Faktor Låg nivå (-) Hög nivå (+) : Tvättmedel Billigast (Eldorado) Dyrast (Via Sparkling) : Tvättmedelsmängd 0.25 dl 1 dl : Vattentemperatur 40 C 95 C Responsfaktor Y: skala 1-10, från smutsig till helt ren. 4 olika behandlingar: nyponsoppa, blåbärssoppa, banan, ketchup (dvs 4 separata försök).

-faktorförsök försöksplan Försök 1 2 + + 3 + 4 + + 5 + Faktor 6 + + 7 + + 8 + + + Faktor + + Faktor

Linjär modell -faktorförsök Responsvariabel: (, ) Faktorer:,, - 2 nivåer på varje Modell = + + + + + + + + + Huvudeffekter:,, Samspelseffekter: och Mätfel: (0, )

Analys av faktorförsök Regression ANOVA ANalysis Of VAriance (variansanalys)

ANOVA (variansanalys) Används för att testa skillnader i väntevärde E Y = mellan olika grupper (tex olika faktornivåer). Hypotestest: ingen skillnad mellan grupper, tex : = = = :någon skillnad för I olika grupper. Testet påvisar skillnad mellan grupperna men ger inte vilken grupp som skiljer sig.

En-vägs ANOVA Exempel: Vi har I olika populationer, och vill testa om de skiljer sig åt i något visst avseende. Ett stickprov av storlek n dras ur varje population (totalt = objekt). Vi vill testa effekten av I olika behandlingar på objekt, som slumpmässigt delas in i I grupper, en för varje behandling.

En-vägs ANOVA Behandling 1 Behandling 2,, Skattning av stickprovets väntevärde och varians. Behandling 3,

En-vägs ANOVA En faktor på flera olika nivåer/behandlingar Linjär modell: = + där i är behandling, och j är försöksobjekt. (0, ) och oberoende. är väntevärde för behandling i.

Sum-of-squares ANOVA delar upp den totala variationen i två delar: = + = + för I grupper och n objekt i varje grupp.

En-vägs ANOVA Kom ihåg stickprovsvariansen för ett stickprov,, = 1 1 Sum-of-squares

En-vägs ANOVA Populationsvariansen kan skattas på två sätt: Mean square treatment ( ) variansskattning mellan behandlingar Mean square error ( ) variansskattning inom varje behandling Om är sann, ingen skillnad mellan grupper, borde. Om falsk borde >

Hypotestest Test-statistika = /( 1) /( 1) =, där förkastas om 1.

Två-vägs ANOVA Två faktorer på olika nivåer = + där i är nivåer för faktor 1, j nivåer för faktor 2, och k är index för försöksobjekt. 0, och oberoende.

Två-vägs ANOVA Hypotestest: Ingen effekt på faktor 1 : = = = Ingen effekt på faktor 2 : = = = Inget samspel mellan faktorer : = = =

Sum-of-squares Sum-of-squares = + + + där för hela stickprovet och för vardera faktor för varje samspelskombination inom varje faktorkombination

ANOVA-tabell Variation df Faktor 1 (I-1) Faktor 2 (J-1) Samspel 12 Within/ Error Sum-ofsquares (I-1)(J- 1) IJ(n-1) Totalt N-1 Mean Square (MS) = = = = F-value = = = p-value (F-distr) Förkasta om p-värdet >

Ex. 2: uppmätta responser ( ) 7.91 7.09 + 5.72 4.91 = mängd 5.59 4.78 + 3.41 2.59 = märke + = temp

Ex. 2 (forts) Variation Sum-ofsquares df Mean Square (MS) F-value ( / ) p-value (F-distr) Faktor 1 2.64 1 2.64 2.96 0.1133 Faktor 2 21.39 1 21.39 23.98 0.0005 Faktor 3 19.14 1 19.14 21.46 0.0007 Within/ Error 9.81 11 0.89 Totalt 52.98 15 Förkasta för faktor 2 (tvättmedelsmängd) och faktor 3 (temp).

Enkätundersökningar Kartläggning av åsikter, inställningar, kunskaper Testa quality of life, före och efter en behandling Används ofta inom psykologi, socialvetenskap, och ekonomisk forskning.

Datatyper Nominalskala grupperingar utan inbördes ordning, tex kön, yrke, djurart, blodtyp Ordinalskala finns en rangordning, men kan inte kvantifieras för övrigt, tex bra, bättre, bäst Intervallskala numeriskt värde, skillnader kan kvantifieras Kvotskala numeriskt värde relativt ett entydigt nollvärde Kategorisk data Numerisk data

Viktigt att tänka på Vad vill du mäta/testa och vad är din hypotes? Upplägg och utformning, bra frågor som inte missförstås och som mäter rätt saker Representativa urval Hantering av bortfall (missing data) Pilotstudier kan indikera brister i enkäter

Ordinalskalor Tex i hur stor utsträckning håller du med om följande påstående X: 1 = håller inte alls med 2 = håller delvis inte med 3 = neutral 4 = håller med delvis 5 = håller helt med

Ordinalskalor Värden kan inte behandlas aritmetiskt: Försiktig 1 2 3 4 5 1 2 3 4 5 Djärvare 1 2 3 4 5 Positiv 1 2 3 4 5

Ordinalskalor Medelvärde blir meningslöst Mätningarna är inte ekvidistanta dvs 5-4 är inte samma som 3-2 skillnader mellan individer skillnader mellan frågor för samma individ Använd metoder baserade på rangordning

Data-analys Deskriptiv statistik Kvantitativ analys Parametriska metoder för numeriska värden Icke-parametriska metoder för kategoriska värden

Deskriptiv statistik Plottar: cirkeldiagram, histogram, regressionslinjer Medelvärde, median Standardavvikelse, kvartiler

Kvantitativ analys Korrelation mellan grupper, mellan frågor Numerisk data: Pearson (den vanliga ) Kategorisk data: Spearman, Kendall Hypotestest av skillnader mellan grupper Numerisk data: t-test, ANOVA Kategorisk data: Wilcoxon, Kruskal-Wallis, binomialtest av proportioner, kontingenstabeller

ICKE-PARAMETRISKA METODER

Parametriskt ickeparametriskt En parametrisk metod gör antaganden om underliggande fördelning (parametrar) i. Icke-parametriska metoder gör inga sådana antaganden.

Antaganden i parametriska test Slumpmässiga och oberoende stickprov. Underliggande fördelning är normal. Ungefär samma varians mellan stickprov.

Parametriskt-ickeparametriskt Parametric Nonparametric Underliggande fördelning Normal Godtycklig Variansantagande Homogen Godtycklig Typisk datatyp Kvantitativ, kontinuerlig Centralt mått Medelvärde Median Data-antaganden Oberoende Inga Ordinal eller nominal Fördelar Starkare test Enklare, mindre känsliga

Anledningar att använda parametriska metoder Chalmers University of Technology Starkare test. Större möjlighet att upptäcka effekter. Kan fungera för inhomogena varianser också. Kan fungera på icke-normal data.

Anledningar att använda ickeparametriska metoder Chalmers University of Technology Din data representeras bättre av medianen än medelvärdet. Observationerna är beroende. Stickprovet är litet. Datan är ordinal eller categorisk. Det finns outliers som inte kan tas bort.

Icke-parametriska metoder Wilcoxon rank test: testar om två grupper kommer från samma population baserat på ordinalskalor Kruskal-Wallis: en-vägs variansanalys av ordinaldata Teckentest: test av matchade par (tex föreefter)

t-test kontra tecken-test För ett stickprov,, t-test: Test av väntevärdet: : =, : Fördelning: normal. Teststatistika: funktion av stickprovet. Jämför teststatistikan med -fördelningen. Teckentest: Test av medianen. : =, : Fördelning: okänd. Teststatistika: baseras på =#{ : >0} Jämför teststatistikan med (, ) där =0.5.

Exempel: teckentest Test av medianen: : =3.7, : 3.7. Sign 1 5.0 1.3 + 2 3.9 0.2 + 3 4.8 1.1 + 4 6.1 2.4 + 5 2.6-1.1 =4, =1 Under är antal + binomialfördelade.

2-stickprov t-test kontra Mann-Whitney För två oberoende stickprov,, och,, 2-stickprov t-test: Test av två väntevärden: : =, : Fördelning: normal, samma varians. Teststatistika: funktion av stickproven. Jämför teststatistikan med -fördelningen. Mann-Whitney test: Test av två väntevärden: : =, : Fördelning: okänd Teststatistika: baseras på rangsummor och när alla + obs rangordnas tillsammans. Jämför teststatistikan med tabell över kritiska värden.

Exempel: Mann-Whitney Mätvärden Gr 1 Gr 2 6.4 2.5 9.1 3.9 7.2 8.1 9.7 3.3 Ranger Gr 1 Gr 2 4 1 7 3 5 6 8 2 Rangsumma 24 12 Rang-medelvärde 6 3