Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Relevanta dokument
Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

7.5 Experiment with a single factor having more than two levels

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning G60 Statistiska metoder

7.3.3 Nonparametric Mann-Whitney test

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Statistik för teknologer, 5 poäng Skrivtid:

Hypotestestning och repetition

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistik och epidemiologi T5

Gamla tentor (forts) ( x. x ) ) 2 x1

Parade och oparade test

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Statistik 1 för biologer, logopeder och psykologer

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

2 Dataanalys och beskrivande statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Forskningsmetodik 2006 lektion 2

13.1 Matematisk statistik

Hur skriver man statistikavsnittet i en ansökan?

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Bearbetning och Presentation

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Följande resultat erhålls (enhet: 1000psi):

2.1 Minitab-introduktion

Statistik Termin 10, Läkarprogrammet, HT16

Uppgift 1. Produktmomentkorrelationskoefficienten

FACIT (korrekta svar i röd fetstil)

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Metod och teori. Statistik för naturvetare Umeå universitet

OBS! Vi har nya rutiner.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Idag. EDAA35: Utvärdering av programvarusystem. Mål. Innehåll. Kursmoment. Lärare

Examinationsuppgift 2014

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Beskrivande statistik

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

MVE051/MSG Föreläsning 7

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Uppgift a b c d e Vet inte Poäng

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Datorlaboration 2 Konfidensintervall & hypotesprövning

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

F3 Introduktion Stickprov

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

SOPA62 - Kunskapsproduktion i socialt arbete

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

OBS! Vi har nya rutiner.

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Statistiska undersökningar

7.5 Experiment with a single factor having more than two levels

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

LABORATION 1. Syfte: Syftet med laborationen är att

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Projektet. EDAA35 Föreläsning 7. Krav på uppgiften. Ert projektförslag. Inlämning av förslag. Egna idéer är välkomna!

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

ANOVA Mellangruppsdesign

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning G60 Statistiska metoder

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Vetenskaplig metod och statistik

Medicinsk statistik I

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

TMS136. Föreläsning 7

Datorövning 1: Fördelningar

Transkript:

EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Slump och slumptal Analys Boxplot Konfidensintervall Experiment och test Kamratgranskning Kursmeddelanden Analys Om laborationer: alla labbar ska vara godkända för att bli godkänd på kursen En restlabb kommer att ordnas efter ordinarie laborationer om det behövs. Ett extra tillfälle att presentera lab 4 kommer att ordnas om det behövs Labbarna görs i grupper om två Hur analysera data? Hur vet man om man kan lita på skillnader och mönster som man observerar? Beskrivande statistik Signifikans outliers Exempel: exekveringstid Vanliga steg i analysfasen av ett experiment Exec.time..ns. 0 500000 1000000 1500000 2000000 2500000 1. Deskriptiv analys 2. Identifiera och behandla potentiella outliers 3. Statistisk analys 4. Dra slutsatser 0 100 200 300 400 500 600 Measure 1

Sannolikhet olika sätt att använda begreppet forts Subjektiv bedömning Sannolikt vinner MFF på söndag i mer matematiska/teoretiska termer I en perfekt kortlek' som är perfekt blandad så är sannolikheten ¼ att man drar ett hjärter baserad på relativa frekvenser skatta sannolikheten att en händelse inträffat genom att studera hur många gånger den inträffat jämfört med hur många försök man gjort Beskrivs som ett värde mellan 0 och 1 0: det händer aldrig 1: det händer varje gång T ex: P(klave) = 1/2 Histogram för slumptal Normalfördelning, täthetsfunktion frekvens 0.0 0.5 1.0 1.5 2.0 0 2 4 6 8 10 slumptal 10 slumptal frekvens 0 100 200 300 400 500 0 2 4 6 8 10 slumptal 5000 slumptal 0.000 0.005 0.010 0.015 0.020 0.025 f(x) = 1 p 2 e (x µ) 2 2 2 det verkar finnas en teoretisk fördelning bakom de observationer vi gör 40 60 80 100 120 140 160 Deskriptiv analys T ex Centralitet Spridning men också grafisk analys som diagram etc Centralitet Medelvärde x = 1 n Median, mittersta värdet (eller medelvärdet av de två mittersta om det är ett jämnt antal värden) Typvärde / modalvärde / mode : vanligaste värdet nx i=1 x i Exempel-data: 1, 2, 3, 4, 20 Medelvärde: 6 Median 3 2

Spridningsmått Standardavvikelse Variationsvidd v u s = t 1 nx (x i x) n 1 2 R = max x i i i=1 min x i i Skalor (repetition) Nominell Ordinal Intervall Ratio När bör man använda vilket mått? Grafisk presentation, två exempel Mått / Skala Nominell Ordinal Intervall Ratio Medelvärde ok ok Median ok ok ok Typvärde Standardavvikelse Variationsvidd ok ok ok ok ok ok Pie-chart Scatter plot Fler alternativ Vanlig plot Histogram Sorterat histogram > plot(x, y, type = l ) 3

Box-plot Potentiella "outliers" Median Medianen av alla värden Övre kvartil (u) Medianen av alla värdena över medianen Nedre kvartil (l) Medianen av alla värdena under medianen Övre svans Det största värdet som inte är större u + 3 2d, där d = u l är boxstorleken Nedre svans Det minsta värdet som inte är 3 mindre l 2d, där d = u l är boxstorleken Potentiella outliers De värden som är större än övre svansen eller mindre än nedre svansen Övre svans Övre kvartil Median Nedre kvartil Nedre svans Potentiell "outlier" Exempel No. of Found Risks 18 16 14 12 Outliers Identifiera Boxplot Scatter plot Vad göra? Ta bort? Behålla? 10 8 1 2 TRA PBRA Konfidensintervall Exempel med påhittade observationer confidenceinterval <- function(x, confidencelevel=0.95) > source("/usr/local/cs/edaa35/r_resources.r") > x <- c(4, 5, 4, 4) Exec.time..ns. 2000000 2500000 3000000 3500000 0 100 200 300 400 500 600 Measure Hur säkra är vi på (det bakomliggande) medelvärdet? Vi vill ange ett intervall som vi kan lova att medelvärdet ligger inom. Sannolikheten att det bakomliggande medelvärdet ligger inom intervallet är (t ex) 95%. > confidenceinterval(x) lower upper 3.454388 5.045612 > x <- c(4, 5, 4, 4, 4, 5, 4, 4, 4, 5, 4, 4, 4, 5, 4, 4) > confidenceinterval(x) lower upper 4.011697 4.488303 > 4

forts Jämförande studie - Experiment Ju fler datapunkter desto mindre intervall Ju större underliggande spridning desto större intervall Ju större krav på säkerhet (t ex 95%) desto större intervall Bygger på ett antal antaganden! (se statistikkursen) Jämförande studie där man vill ta reda på effekten av ett antal variabler på ett antal andra variabler Oberoende variabler Experiment Beroende variabler Exempel Exempel 2 Undersöka effekten av checklista vid granskning Jämföra hur lång tid två olika implementationer tar att exekvera Person Teknik Antal fel Tid (min) A Checklista 34 87 B Ad-hoc 22 121 C Checklista 43 90 D Ad-hoc 30 87 E Checklista 35 81 F Ad-hoc 21 99 G Checklista 45 104 H Ad-hoc 39 78 I Checklista 32 89 J Ad-hoc 32 66 Körning Implementation Tid (ms) 1 A 145 2 B 122 3 A 155 4 B 145 5 A 150 6 B 156 7 A 145 8 B 151 9 A 144 10 B 143 Experiment viktiga aktiviteter Definition av population, sampling (när det är relevant) Randomisering dela upp i grupper Genomför, gör mätningar Analysera mätningar Dra slutsatser Exempel (ad-hoc checklista) forts Data (hypotetisk exempledata) Checklist: 34, 43, 35, 45, 32, 44, 29, 39, 41, 29, 33, 39 Ad-hoc: 22, 30, 21, 39, 32, 36, 37, 38, 22, 23, 25, 0 5

forts En granskning genomfördes felaktigt à ta bort den T-test > t.test(checklist, Adhoc) Welch Two Sample t-test Vad kan vi säga nu? Kan vi lova att checklista är bra? data: Checklist and Adhoc t = 2.7156, df = 19.07, p-value = 0.01369 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.691264 13.051160 sample estimates: mean of x mean of y 36.91667 29.54545 T-test, några viktiga begrepp Några exempel på andra test H 0 : nollhypotes ingen skillnad (underliggande medelvärdena är samma) H a : Alternativ hypotes Testet går ut på att se om man kan förkasta H 0 Typ-I-fel: P(förkasta H 0 även om H 0 är sann) Typ-II-fel: P(inte förkasta H 0 även om H 0 är falsk) Bygger på att antal antagande! (se statistikkurs) Design Parametriska Icke-parametriska En oberoende variabel med två nivåer, varje person gör en sak En oberoende variabel med två nivåer, varje person gör båda sakerna En oberoende variabel med mer än två nivåer Mer än en oberoende variabel t-test paired t-test ANOVA ANOVA Mann-Whitney Wilcoxon Kruskal-Wallis viktigt att förstå under vilka förutsättningar olika test kan användas! Kamratgranskning Kamratgranskning På lab 5 och projektet Varje rapport ska granskas av tre andra studenter/grupper Labb-rapport granskas individuellt, projektrapport granskas av projektgrupperna Alla ska sammanfatta granskningskommentarer och uppdatera baserat på kommentarerna 6

2017-02-09 Granskningsmall Hur? (I Moodle) Är målsättningen med den rapporterade studien tydlig? Är den övergripande metoden som används tydligt beskriven och motiverad? Är det tydligt vilken data som samlats in och hur den har samlats in? Presenteras tillräckligt mycket av den data som samlats in? Är analysmetoderna rätt valda och lämpliga för studien? Är analysen korrekt genomförd och kan man lita på resultaten? Finns det en beskrivning av hur validitetshot tagits om hand och en diskussion om eventuella kvarvarande validitetshot? Är slutsatserna tydliga och svarar de på den målsättning som finns med studien? Är språket lätt att förstå och av tillräckligt hög kvalitet? Följer rapporten en lämplig struktur? Finns det numrerade figurtexter till alla figurer och numrerade tabelltexter till alla tabeller, samt är alla figurer och tabeller refererade i texten? Varför? Två uppgifter att diskutera i smågrupper 1. Man lär sig mycket genom att granska 1. Vad ska man tänka på när man ger kommentarer till en annan grupp? 2. Man får många kommentarer 2. Vad ska man tänka på när man tar emot kommentarer från andra grupper? Fråga 1 Fråga 2 7