SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3. 1 Problem 1 - Fördelning av nukleotider i DNA

Relevanta dokument
SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

1 Förberedelseuppgifter

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Datorlaboration 2 Konfidensintervall & hypotesprövning

MVE051/MSG Föreläsning 7

Laboration 2: Styrkefunktion samt Regression

DATORLABORATION: JÄMFÖRELSE AV FLERA STICKPROV.

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

3 Maximum Likelihoodestimering

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 12: Linjär regression

Instruktion för laboration 1

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Statistisk försöksplanering

Datorövning 1 Fördelningar

Statistisk försöksplanering

MVE051/MSG Föreläsning 14

Sannolikhet och statistik 1MS005

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

Instruktion för laboration 1

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Datorövning 1: Fördelningar

Föreläsning G60 Statistiska metoder

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

GMM och Estimationsfunktioner

Föreläsning 12: Regression

Logik och Jämförelser. Styrsatser: Villkorssatsen if och repetitonssatsen for. Scriptfiler. Kommentarer. Tillämpningar: Ett enkelt filter.

FACIT (korrekta svar i röd fetstil)

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen MVE301 Sannolikhet, statistik och risk

KURSPROGRAM HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER, FMSF70 & MASB02

SF1901: SANNOLIKHETSTEORI OCH STATISTIK GRUNDLÄGGANDE SANNOLIKHETSTEORI, KORT OM BESKRIVANDE STATISTIK. Tatjana Pavlenko.

Matematisk statistik, Föreläsning 5

LABORATION 3 - Regressionsanalys

MMA132: Laboration 2 Matriser i MATLAB

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

Dagens program. Programmeringsteknik och Matlab. Administrativt. Viktiga datum. Kort introduktion till matlab. Övningsgrupp 2 (Sal Q22/E32)

Matematisk analys för ingenjörer Matlabövning 3 Numerisk lösning av differentialekvationer

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Föreläsning G60 Statistiska metoder

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Instruktioner till arbetet med miniprojekt II

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

EXAMINATION KVANTITATIV METOD

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

Introduktion till kursen och MATLAB

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Avd. Matematisk statistik

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

1.1 Diskret (Sannolikhets-)fördelning

Matematisk statistik för B, K, N, BME och Kemister

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Laboration 2: Statistisk hypotesprövning

Matematisk statistik KTH. Formelsamling i matematisk statistik

FK2005 Datorövning 3

LABORATION 3 - Regressionsanalys

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Studiehandledning S0001M Matematisk statistik Läsperiod 2, HT 2017

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Fö relä sning 1, Kö system vä ren 2014

Föreläsning 8: Konfidensintervall

Kurser inom profilen Teknisk matematik (Y)

TSBB14 Laboration: Intro till Matlab 1D

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

PC-teknik, 5 p LABORATION ASSEMBLERINTRODUKTION

Statistiska metoder för säkerhetsanalys

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Statistik 1 för biologer, logopeder och psykologer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Matematisk statistik för B, K, N, BME och Kemister

Transkript:

Matematisk Statistik Introduktion SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3 Detta är handledningen till Laboration 3, ta med en en utskriven kopia av den till laborationen. Läs handledningen två gånger. Försäkra dig om att du förstår hur de MATLAB-kommandon som finns i den bifogade koden fungerar. Laborationen bedöms som godkänd eller ej godkänd. För att få deltaga i laborationen skall svar på förberedelseuppgifter kunna redovisas individuellt. Arbete i grupp är tillåtet med högst två, personer per grupp. Godkänd laboration ger 3 poäng till ordinarie tentamenstillfälle. 1 Problem 1 - Fördelning av nukleotider i DNA För DNA sekvenser så är det ibland av intresse att undersöka om fördelningen av nukleotiderna är uniform, dvs att alla relativa frekvenser av A,T, G, C i en sekvens är lika med 0.25. I filen dnadat.mat på hemsidan finns en sekvens av DNA (j.f.r. Problem 10.1.8 i övningarna). Undersök med χ 2 test om fördelningen är kan anses vara uniform på signfikansnivån 5 %.. Sida 1 av 5

2 Problem 2 - Logistisk Regression & statistisk validering av prediktionsförmåga För den här uppgiften behövs filerna logisticmle.m och kappa.m ifrån hemsidan. Koden nedanför slumpar fram data med logistisk fördelning enligt metoden som presenterats på föreläsning 13 och övningarna 11.1.2-1.1.2. De riktiga parametrarna för modellen kan ändras och finns i variabeln realbeta. Kör koden och se att ni får betaestimate som är nära realbeta. realbeta=[2 3]; n=10000; p=unifrnd(0,1,[1,n]); e=log(p./(1-p)); x=normrnd(0,1,[1,n]); y1=realbeta(1)+realbeta(2)*x+e; y=(sign(y1)+1)/2; oneoutcomefrequency=sum(y)/n %Calculate the frequency of 1s in the outcomes [betaestimate,stderr,phat,deviance] = logisticmle(y,x); betaestimate Precis som med linjär regression går det att beräkna konfidensintervall och p-värde för modellens parametrar. I den här uppgiften ska vi dock använda ett annan metod för att utv rdera modellen. Vi använder modellen för att prediktera utfallen på en annan datamängd, kallas för testsett/ testmängd, som inte använts för att bygga modellen. Datamängden som användes för att optimera modellen kallas träningssett. Testsettet har precis som datamängden, som modellen byggdes ifrån, kända utfall (x, Y ). Genom att jämföra de av modellen predikterade utfallen med de kända så, går det att få fram ett mått på modellens prediktionsförmåga. Anledningen till att ha ett separat testsett är att vi inte kan testa modellen på, samma data som modellen optimerades för när den byggdes, eftersom det inte testar modellens förmåga att generalisera d.v.s behandla nya data. Det är inte heller svårt att göra en modell med 100% träffsäkerhet för data som den använt. En sådan modell är oftast väldigt dålig på att generalisera d.v.s en dylik modell är skräddarsydd för de data som användes för att estimera den och kan ej förklara annat. Testmängden skapas genom att (slumpmässigt) välja stickprov ur datamängden att antingen läggas i träningssätett eller testsettet. Det är viktigt att samma dataobjekt inte ingår i båda. Sida 2 av 5

I praktiken brukar s.k. korsvalidering användas. Datasettet delas slumpvis upp i n lika stora delar, ofta 10 stycken. Varje del används sedan en gång som testsett för en modell som byggts med de övriga delarna. Det gör att allt data används en gång som testsett. I det här fallet kan skapar vi ett helt ny datamängd samt prediktionerna av den binära variabeln Y för att använda som testsett med koden nedanför: ptest=unifrnd(0,1,[1,n]); xtest=normrnd(0,1,[1,n]); etest=log(ptest./(1-ptest)); ytestreal=realbeta(1)+realbeta(2)*xtest+etest; ytestreal=(sign(ytestreal)+1)/2; ytestpred=betaestimate(1)+betaestimate(2)*xtest; ytestpred=(sign(ytestpred)+1)/2; För kategori data är det enklaste sättet att mäta prediktionsförmågan genom att använda träffsäkerheten (accuracy), dvs andelen som predikteras till rätt kategori i testsettet. Ett annat sätt är Cohen s kappa, betecknat med κ, vilket tar hänsyn till hur många som kan bli rätt på grund av slump. Detta gör att κ blir mer robust än träffsäkerhet men det blir också svårare att tolka. Formeln för κ är : κ = p o p e 1 p e = 1 1 p o 1 p e där p o är accuracy, och p e den hypotetiska sannolikheten att få rätt, m.h.a de observerade data (den explicita formeln utelämnas, men framgår av koden nedan). Om slumpen avgör prediktionsförmågan, är κ 0. Koden nedanför ger träffsäkerheten och Cohen s kappa för testsettet. Det andra stycket av koden ger samma sak men för en modell som predikterar att allt får samma utfall. diff=ytestreal-ytestpred; Sida 3 av 5

modelaccuracy=1-(sum(diff==1)+sum(diff==-1))/n cross=crosstab(ytestpred,ytestreal); kappa(cross) onemodelaccuracy=1-(sum((1-ytestreal)==1)+sum((1-ytestreal)==-1))/n cross2=crosstab(zeros(n,1)+1,ytestreal); cross2=[0, 0 ; cross2(1) cross2(2)]; kappa(cross2) Pröva med olika värden på de riktiga beta parametrarna och jämför modellen som predikterar att allt får samma utfall med den 1logistiska modellen. Vad händer med måtten träffsäkerhet och kappa? Sida 4 av 5

3 Problem 3 - ANOVA Börja med att ladda ner clouds.txt ifrån hemsidan. Filen innehåller mätningar på mängden regn i fem områden i Tasmanien mellan 1964 och 1971. Man undersökte i experimentet om användningen av cloud-seeding på verkade mängden regn. Använd tre-vägs ANOVA för att testa effekten av område, season och seeded. Jämför modellerna med och utan interaktionstermen. MATLABs funktion för n-vägs ANOVA är anovan. För att kunna använda funktionen så behöver mätningarna och deras kategorier läggas i vektorer. En vektor som innehåller allt mätdata ifrån alla områden och sen en vektor per variabel som innehåller vilken kategori som mätpunkten tillhör, dvs en för område, en för season och en för seeded. Kod för läsa in datat och spara det i varsin vektor finns nedan: clouds=dlmread( clouds.txt, \t,1,0); rain=[clouds(:,4) ; clouds(:,5) ; clouds(:,6) ; clouds(:,7) ; clouds(:,8)]; seeded=[clouds(:,2) ; clouds(:,2) ; clouds(:,2) ; clouds(:,2) ; clouds(:,2)]; season=[clouds(:,3) ; clouds(:,3) ; clouds(:,3) ; clouds(:,3) ; clouds(:,3)]; area=[zeros(108,1) ; zeros(108,1)+1 ; zeros(108,1)+2 ; zeros(108,1)+3... ; zeros(108,1)+4]; Sida 5 av 5