Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Relevanta dokument
Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

7.5 Experiment with a single factor having more than two levels

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning G60 Statistiska metoder

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

7.3.3 Nonparametric Mann-Whitney test

Statistik för teknologer, 5 poäng Skrivtid:

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Hypotestestning och repetition

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Gamla tentor (forts) ( x. x ) ) 2 x1

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Parade och oparade test

Statistik och epidemiologi T5

2 Dataanalys och beskrivande statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Forskningsmetodik 2006 lektion 2

Statistik 1 för biologer, logopeder och psykologer

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

2.1 Minitab-introduktion

Uppgift 1. Produktmomentkorrelationskoefficienten

Hur skriver man statistikavsnittet i en ansökan?

Statistik Termin 10, Läkarprogrammet, HT16

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

13.1 Matematisk statistik

Bearbetning och Presentation

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Följande resultat erhålls (enhet: 1000psi):

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Metod och teori. Statistik för naturvetare Umeå universitet

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

EXAMINATION KVANTITATIV METOD vt-11 (110204)

OBS! Vi har nya rutiner.

Beskrivande statistik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

SOPA62 - Kunskapsproduktion i socialt arbete

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Kvantitativ strategi Univariat analys 2. Wieland Wermke

7.5 Experiment with a single factor having more than two levels

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

MVE051/MSG Föreläsning 7

FACIT (korrekta svar i röd fetstil)

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Statistiska undersökningar

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Uppgift a b c d e Vet inte Poäng

F3 Introduktion Stickprov

Examinationsuppgift 2014

OBS! Vi har nya rutiner.

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Tentamen i matematisk statistik

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Tentamen i matematisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

ANOVA Mellangruppsdesign

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i matematisk statistik

Föreläsning G60 Statistiska metoder

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Medicinsk statistik I

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Mata in data i Excel och bearbeta i SPSS

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

EXTRA ÖVNINGSUPPGIFTER MED SVAR

Studietyper, inferens och konfidensintervall

OBS! Vi har nya rutiner.

Transkript:

EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Kamratgranskning Analys Exempel: exekveringstid Hur analysera data? Hur vet man om man kan lita på skillnader och mönster som man observerar? Beskrivande statistik Signifikans outliers Exec.time..ns. 0 500000 1000000 1500000 2000000 2500000 0 100 200 300 400 500 600 Measure Vanliga steg i analysfasen av ett experiment Sannolikhet olika sätt att använda begreppet 1. Deskriptiv analys 2. Identifiera och behandla potentiella outliers 3. Statistisk analys 4. Dra slutsatser Subjektiv bedömning Sannolikt vinner MFF på söndag i mer matematiska/teoretiska termer I en perfekt kortlek' som är perfekt blandad så är sannolikheten ¼ att man drar ett hjärter baserad på relativa frekvenser skatta sannolikheten att en händelse inträffat genom att studera hur många gånger den inträffat jämfört med hur många försök man gjort 1

forts Histogram för slumptal Beskrivs som ett värde mellan 0 och 1 0: det händer aldrig 1: det händer varje gång T ex: P(klave) = 1/2 frekvens 0.0 0.5 1.0 1.5 2.0 frekvens 0 100 200 300 400 500 0 2 4 6 8 10 slumptal 10 slumptal 0 2 4 6 8 10 slumptal 5000 slumptal det verkar finnas en teoretisk fördelning bakom de observationer vi gör Normalfördelning, täthetsfunktion Deskriptiv analys 0.000 0.005 0.010 0.015 0.020 0.025 f(x) = 1 p 2 e (x µ) 2 2 2 T ex Centralitet Spridning men också grafisk analys som diagram etc 40 60 80 100 120 140 160 Centralitet Medelvärde x = 1 n nx i=1 x i Median, mittersta värdet (eller medelvärdet av de två mittersta om det är ett jämnt antal värden) Spridningsmått Standardavvikelse Variationsvidd v u s = t 1 nx (x i x) n 1 2 R = max x i i i=1 min x i i Typvärde / modalvärde / mode : vanligaste värdet Visa i terminal Exempel-data: 1, 2, 3, 4, 20 Medelvärde: 6 Median 3 2

Skalor (repetition) När bör man använda vilket mått? Nominell Ordinal Intervall Ratio Mått / Skala Nominell Ordinal Intervall Ratio Medelvärde ok ok Median ok ok ok Typvärde Standardavvikelse Variationsvidd ok ok ok ok ok ok Grafisk presentation, två exempel Fler alternativ Pie-chart Histogram Sorterat histogram Scatter plot Vanlig plot > plot(x, y, type = l ) 3

Box-plot Potentiella "outliers" Exempel Median Medianen av alla värden Övre kvartil (u) Medianen av alla värdena över medianen Nedre kvartil (l) Medianen av alla värdena under medianen Övre svans Det största värdet som inte är större u + 3 2d, där d = u l är boxstorleken Nedre svans Det minsta värdet som inte är 3 mindre l 2d, där d = u l är boxstorleken Potentiella outliers De värden som är större än övre svansen eller mindre än nedre svansen Övre svans Övre kvartil Median Nedre kvartil Nedre svans No. of Found Risks 18 16 14 12 10 8 Potentiell "outlier" 1 2 TRA PBRA Outliers Konfidensintervall Identifiera Boxplot Scatter plot Vad göra? Ta bort? Behålla? Exec.time..ns. 2000000 2500000 3000000 3500000 Hur säkra är vi på (det bakomliggande) medelvärdet? Vi vill ange ett intervall som vi kan lova att medelvärdet ligger inom. Sannolikheten att det bakomliggande medelvärdet ligger inom intervallet är (t ex) 95%. 0 100 200 300 400 500 600 Measure Exempel med påhittade observationer confidenceinterval <- function(x, confidencelevel=0.95) > source("/usr/local/cs/edaa35/r_resources.r") > x <- c(4, 5, 4, 4) > confidenceinterval(x) lower upper 3.454388 5.045612 > x <- c(4, 5, 4, 4, 4, 5, 4, 4, 4, 5, 4, 4, 4, 5, 4, 4) > confidenceinterval(x) lower upper 4.011697 4.488303 > forts Ju fler datapunkter desto mindre intervall Ju större underliggande spridning desto större intervall Ju större krav på säkerhet (t ex 95%) desto större intervall Bygger på ett antal antaganden! (se statistikkursen) 4

Jämförande studie - Experiment Jämförande studie där man vill ta reda på effekten av ett antal variabler på ett antal andra variabler Exempel Undersöka effekten av checklista vid granskning Oberoende variabler Experiment Beroende variabler Person Teknik Antal fel Tid (min) A Checklista 34 87 B Ad-hoc 22 121 C Checklista 43 90 D Ad-hoc 30 87 E Checklista 35 81 F Ad-hoc 21 99 G Checklista 45 104 H Ad-hoc 39 78 I Checklista 32 89 J Ad-hoc 32 66 Exempel 2 Experiment viktiga aktiviteter Jämföra hur lång tid två olika implementationer tar att exekvera Körning Implementation Tid (ms) 1 A 145 2 B 122 3 A 155 4 B 145 5 A 150 6 B 156 7 A 145 8 B 151 9 A 144 10 B 143 Definition av population, sampling (när det är relevant) Randomisering dela upp i grupper Genomför, gör mätningar Analysera mätningar Dra slutsatser Exempel (ad-hoc checklista) forts Data (hypotetisk exempledata) Checklist: 34, 43, 35, 45, 32, 44, 29, 39, 41, 29, 33, 39 Ad-hoc: 22, 30, 21, 39, 32, 36, 37, 38, 22, 23, 25, 0 forts En granskning genomfördes felaktigt à ta bort den Vad kan vi säga nu? Kan vi lova att checklista är bra? 5

T-test > t.test(checklist, Adhoc) Welch Two Sample t-test data: Checklist and Adhoc t = 2.7156, df = 19.07, p-value = 0.01369 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.691264 13.051160 sample estimates: mean of x mean of y 36.91667 29.54545 T-test, några viktiga begrepp H 0 : nollhypotes ingen skillnad (underliggande medelvärdena är samma) H a : Alternativ hypotes Testet går ut på att se om man kan förkasta H 0 Typ-I-fel: P(förkasta H 0 även om H 0 är sann) Typ-II-fel: P(inte förkasta H 0 även om H 0 är falsk) Bygger på att antal antagande! (se statistikkurs) Visa i terminalen Några exempel på andra test Design Parametriska Icke-parametriska En oberoende variabel med två nivåer, varje person gör en sak En oberoende variabel med två nivåer, varje person gör båda sakerna En oberoende variabel med mer än två nivåer Mer än en oberoende variabel t-test paired t-test ANOVA ANOVA Mann-Whitney Wilcoxon Kruskal-Wallis Kamratgranskning viktigt att förstå under vilka förutsättningar olika test kan användas! Kamratgranskning På lab 5 och projektet Varje rapport ska granskas av tre andra studenter/grupper Alla ska sammanfatta granskningskommentarer och uppdatera baserat på kommentarerna Granskningsmall Är målsättningen med den rapporterade studien tydlig? Är den övergripande metoden som används tydligt beskriven och motiverad? Är det tydligt vilken data som samlats in och hur den har samlats in? Presenteras tillräckligt mycket av den data som samlats in? Är analysmetoderna rätt valda och lämpliga för studien? Är analysen korrekt genomförd och kan man lita på resultaten? Finns det en beskrivning av hur validitetshot tagits om hand och en diskussion om eventuella kvarvarande validitetshot? Är slutsatserna tydliga och svarar de på den målsättning som finns med studien? Är språket lätt att förstå och av tillräckligt hög kvalitet? Följer rapporten en lämplig struktur? Finns det numrerade figurtexter till alla figurer och numrerade tabelltexter till alla tabeller, samt är alla figurer och tabeller refererade i texten? 6

Hur? (I Moodle) Varför? 1. Man lär sig mycket genom att granska 2. Man får många kommentarer Två uppgifter att diskutera i smågrupper Fråga 1 (2018) 1. Vad ska man tänka på när man ger kommentarer till en annan student? 2. Vad ska man tänka på när man tar emot kommentarer från andra studenter? Fråga 2 (2018) 7