DATORÖVNING MED R: ANALYS AV KORSTABELLER, RANGSUMMETEST, ÅTERSAMPLINGSMETODER



Relevanta dokument
DATORÖVNING MED R: ANALYS AV KORSTABELLER, RANGSUMMETEST, ÅTERSAMPLINGSMETODER

Statistik 1 för biologer, logopeder och psykologer

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Föreläsning 9: Hypotesprövning

1. Frekvensfunktionen nedan är given. (3p)

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Individuellt Mjukvaruutvecklingsprojekt

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Datorövning 2 Statistik med Excel (Office 2003, engelska)

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

parametriska test Mätning Ordinalskala: Nominalskala:

Regression med kvalitativa variabler. Jesper Rydén

Datorövning 2 Diskret fördelning och betingning

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Ekvationssystem, Matriser och Eliminationsmetoden

TIMREDOVISNINGSSYSTEM

Innehåll. Normalfördelning och t-test. Vanliga statistiska mått 2/11/2014. Vad är punktskattningar? Figurer somvisarmedelochsd, SE ochki (ellerci)

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Statistik Lars Valter

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Uppgift

Grundläggande biostatistik. Jenny Selander

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Lokal pedagogisk planering i matematik för årskurs 8

TIMREDOVISNINGSSYSTEM

Jo, Den Talande Boken har så många möjligheter inbyggda, att den kan användas från förskoleklassen och ända upp på högstadiet.

Vi skall skriva uppsats

Arbeta bäst där du är Dialect Unified Mi

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Axiell Arena. Samarbeta om bilder Regionbiblioteket i Kalmar län

Sammanfattning på lättläst svenska

DOP-matematik Copyright Tord Persson. Bråktal Läs av vilka tal på tallinjen, som pilarna pekar på. Uppgift nr

Laborationspecifikation

4-6 Trianglar Namn:..

Något om permutationer

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

Snabbslumpade uppgifter från flera moment.

Avgift efter prestation? Komplettering och förtydligande av rapport om fondbolagens avgifter

INLÄMNINGSUPPGIFT 2 (Del 2, MATEMATISK STATISTIK) Kurs: MATEMATIK OCH MATEMATISK STATISTIK 6H3000

Systematiskt kvalitetsarbete

Uppdrag: Huset. Fundera på: Vilka delar i ditt hus samverkar för att elen ska fungera?

SANNOLIKHET. Sannolikhet är: Hur stor chans (eller risk) att något inträffar.

Utveckla arbetsmiljö och verksamhet genom samverkan

Antal grodor i varje familj Antal hopp tills alla bytt plats Ökning

Praktisk programmering

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

NATIONELLA MATEMATIKTÄVLING

Mätningar på op-förstärkare. Del 3, växelspänningsförstärkning med balanserad ingång.

Lathund, procent med bråk, åk 8

Kriterium Kvalitet 1 Kvalitet 2 Kvalitet 3 Kvalitet 4 Använda, Utveckla och uttrycka

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Skogsbruk på ren svenska Lektion 4: Mästare på både förnyelse och återvinning. Tema: Återvinning Ämne: Biologi, Kemi Årskurs: 7-9

Boken om Teknik. Boken om Teknik är en grundbok i Teknik för åk 4 6.

UPPGIFT: SKRIV EN DEBATTARTIKEL

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Introduktion till Open 2012

Procent - procentenheter

Presentationsövningar

Får nyanlända samma chans i den svenska skolan?

Manpower Work Life: 2014:1. Manpower Work Life. Rapport Mångfald på jobbet

Väga paket och jämföra priser

ATT KUNNA TILL. MA1050 Matte Grund Vuxenutbildningen Dennis Jonsson

Facit åk 6 Prima Formula

Statistik och epidemiologi T5

Elektronen och laddning

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

STATISTIK. Statistik är: 1. Insamling av data 2. Analys av data 3. Presentation av data.

Hävarmen. Peter Kock

Elever och studieresultat i sfi 2013

Handledning för digitala verktyg Talsyntes och rättstavningsprogram. Vital, StavaRex och SpellRight

ANVÄND NAVIGATIONEN I CAPITEX SÄLJSTÖD

Avd. Matematisk statistik

Tränarguide del 1. Mattelek.

Bild Engelska Idrott

Avsikt På ett lekfullt sätt färdighetsträna, utveckla elevers känsla för hur vårt talsystem är uppbyggt samt hitta mönster som uppkommer.

Kvantitativ metod enkäter, tabeller och figurer. Religionsbeteendevetenskap B1: Metod och gemensam teori 11 mars 2009 Marta Axner

Söktryck i folkhögskolan. Höstterminen 2009

Datorövning 3: Icke-parametriska test

Tentamen i Matematisk statistik Kurskod S0001M

Partnerskapsförord. giftorättsgods görs till enskild egendom 1, 2. Parter 3. Partnerskapsförordets innehåll: 4

För dig som är valutaväxlare. Så här följer du reglerna om penningtvätt i din dagliga verksamhet INFORMATION FRÅN FINANSINSPEKTIONEN

Lösningar s. 8 Perspek9v s. 7

Bedömningsanvisningar Del I vt 2010 Skolverket har den beslutat att provet i matematik A för vt 2010 inte ska återanvändas.

KURSPLAN,! KUNSKAPSKRAV! ELEVARBETEN!

Laboration 1. I. Matlabs fönster, hjälp, variabler och enkla beräkningar. Introduktion

Rapport Agilityverksamhetens framtid

Matris för Hem och Konsumentkunskap åk.6 8 Nivå 1 Nivå 2 Nivå 3 Nivå 4

Syftet med en personlig handlingsplan

Webb-bidrag. Sök bidrag på webben Gäller från

Fakta om Malala Yousafzai

ANVÄNDARHANDLEDNING FÖR

Föreläsning 5: Rekursion

Skriva B gammalt nationellt prov

Ungdomsindikator: Avgångna ledamöter

Transkript:

UPPSALA UNIVERSITET Matematiska institutionen Jesper Rydén Matematisk statistik 1MS026 vt 2014 DATORÖVNING MED R: ANALYS AV KORSTABELLER, RANGSUMMETEST, ÅTERSAMPLINGSMETODER I denna datorövning studerar vi hur olika typer av χ 2 -test och rangsummetest kan utföras med R, samt tittar avslutningsvis på några enkla exempel på återsampling, det senare ett exempel på s.k. datorintensiv statistisk metod. I det senare fallet används en färdig rutin (ett s.k. script) som får laddas ned: resamp.r. 1 Analys av korstabeller Vid statistisk analys där χ 2 -metoder används är det centrala kommandot chisq.test. Vi skall här studera några typexempel. 1.1 Enkelt χ 2 -test Vid ett korsningsförsök med en viss blomma förekommer färgerna purpur, röd och vit. Enligt en genetisk teori som bygger på vissa antaganden ska färgerna förekomma i proportionerna 27:9:28. Detta medför att p 1 = P(Purpurfärgad blomma) = 27 27 + 9 + 28 = 27 64 och analogt gäller p 2 = 9/64 och p 3 = 28/64 för röd resp. vit avkomma. En empirisk studie resulterade i följande tabell: Pröva på felrisknivån 5% hypotesen Med R gör vi som följer: blomfarg <- c(158,19,123) ph0 <- c(27/64,9/64,28/64) chisq.test(blomfarg, p=ph0) Tolka på sedvanligt vis resultatet. Färg Purpur Röd Vit Antal 158 19 123 H 0 : p 1 = 27 64, p 2 = 9 64, p 3 = 28 64

1.2 Homogenitetstest Betrakta följande sammanställning av data för hästkrafter: Stark Medel Svag Summa Fjordhäst 12 8 3 23 Dölehäst 13 13 5 31 Islandshäst 9 8 12 29 Arab 3 5 8 16 Summa 37 34 28 99 För att analysera korstabellen med ett homogenitetstest anropas återigen chisq.test. Kommandon som följer: horses <- matrix(c(12,13,9,3,8,13,8,5,3,5,12,8),ncol=3) chisq.test(horses) Vilken slutsats kan dras om huruvida fördelningen över kraft är densamma för alla hästraser? 2 Rangsummetest 2.1 Två oberoende stickprov Vi återvänder till datamaterialet från datorövning 1, mtcars; detta finns inbyggt i R och läses in genom data(mtcars). Man är nu intresserad av att undersöka om någon skillnad finns i bränsleförbrukning mellan bilar med manuell växellåda, jämfört med bilar med automat. Den kvantitativa variabeln av intresse är mpg, medan den binära variabeln am endast antar värdena 0 och 1 och anger typ av växellåda. Nollhypotes: Bränsleförbrukningen kommer från samma fördelning, oavsett typ av växellåda. Vi använder Wilcoxons rangsummetest, wilcox.test, då vi kanske inte är säkra på antagande om normalfördelning. Studera med hjälpkommandot anropsparametrarna till wilcox.test, t.ex. hur ensidigt vs. tvåsidigt test kan hanteras. Lägg märke till att data här är sparat enligt strukturen data.frame (jämför datorövning 1). Vi presenterar här två tillvägagångssätt att R-tekniskt hantera data. Alt. 1. Idén är här att först söka ut bilar med avseende på växellådstyp och spara i två objekt; huvudrutinen för sökningen är subset. Ur dessa kan sedan extraheras variabeln mpg varefter Wilcoxons test appliceras. Koden blir som följer: aut <- subset(mtcars,am==0) man <- subset(mtcars,am==1) wilcox.test(aut$mpg,man$mpg) Slutsats från testet? Alt. 2. I just detta fall, där man har en binär variabel som delar in i fall, kan man göra anropet utan att spara i separata objekt som ovan: wilcox.test(mpg~am,mtcars) Jämför med svaret från Alt. 1. Arbete med symbolen används flitigt i regressionsanalys med R, mer om det i senare datorövningar.

2.2 Parade stickprov Vi studerar nu resultaten av odling av korn under två olika år (1931 och 1932). Ladda in data och läs närmare information genom följande kommandosekvens: library(mass) data(immer)?immer Man vill jämföra avkastningen mellan de två åren, och dåflera olika platser anges är det viktigt att använda en parvis modell. Nollhypotes: Fördelningen för avkastning av korn är densamma för de bägge åren. Anrop i R: wilcox.test(immer$y1, immer$y2, paired=true) Slutsats? Vi studerar nu exempel 8.15 i kursboken (sid. 392). Det rör sig där om ett parat stickprov, men vi kan inte se ursprungsdata eftersom differenserna är givna direkt. Man var intresserad av en mothypotes av ensidig typ (ny komponent bättre, minskar CO-nivån). Det finns här två sätt angripa: x <-c(1.1,2.4,-1.8,1.2,3.4,-0.7,4.1,1.0,2.5,1.2,2.4,1.3,-2.3, 1.3,1.9, -1.7,3.9,-1.6,4.4,-0.5,2.7,1.2,-1.2,3.4) wilcox.test(x,alternative="greater") Blir det signifikant resultat på nivån 0.01? Jämför det erhållna p-värdet i R med bokens räkningar; p-värdet kan beräknas därur som Φ( 2.56) vilket beräknas i R med pnorm(-2.56). Det kan skilja någon decimal mellan resultaten; R varnar för ties, dvs. dubletter (alltså inte slipsar). Angreppssätt 2: Om man mer ortodoxt vill uppfatta data som två stickprov kan man skapa en andra parad vektor och därefter återigen utföra testet med wilcox.test, fast med något ändrade anropsparametrar: x <- c(1.1,2.4,-1.8,1.2,3.4,-0.7,4.1,1.0,2.5,1.2,2.4,1.3,-2.3, 1.3,1.9,-1.7,3.9,-1.6,4.4,-0.5,2.7,1.2,-1.2,3.4) y <- rep(0,length(x)) wilcox.test(x,y,paired=true,alternative="greater") Verifiera att p-värdet blir detsamma som ovan. 3 Återsamplingsmetoder Vi hänvisar till kursboken, kap. 8, för bakgrund till metoderna. Läs igenom nämnda avsnitt innan du ger dig i kast med datorarbetet!

3.1 Inledande exempel Givet ett stickprov kan återsampling ske med kommandot sample. Här är ett fingerat stickprov om 5 observationer, säg kroppslängder i cm: x <- c(165,182,170,173,190) sample(x,replace=t) Prova att anropa med sample några gånger och se hur utfallet varierar från gång till gång. Ett centralt inslag för återsamplingsmetoder är att kunna utföra dragningen från stickprovet många gånger. Vi bygger ut exemplet ovan och simulerar 10 stickprov. Dessa lagras i matrisen simdat. print( simdat <- matrix(sample(x,size=10*5,replace=t),nrow=10) ) 3.2 Inferens för väntevärde Ladda ned rutinen resamp.r till lämplig katalog, öppna den i en editor och försök förstå de olika stegen! Hur används t.ex. den viktiga funktionen sample? Vi ska nu studera bootstrapskattningar för väntevärde och relaterade konfidensintervall för två datamaterial. Dels ska vi analysera ett simulerat datamaterial där vi känner fördelningen, dels ska vi undersöka ett verkligt datamaterial. Simulerade data från normalfördelning Först ska vi simulera från en normalfördelning, dvs. vi vet väntevärde och varians, men i ett praktiskt fall är givetvis dessa parametrar okända och endast normalfördelning förutsätts. I sådant fall finns den grundläggande teorin för inferens kring väntevärde i normalfördelning, och ett intervall fås lätt med R genom att använda t.test. Följande kommandosekvens skapar ett simulerat datamaterial om 10 observationer, aktiverar rutinen resamp samt gör anrop till denna (med B = 5000). Sist sker en beräkning av konfidensintervall på klassiskt sätt. x <- rnorm(10,50,5) source("resamp.r") boot.result <- resamp(x,b=5000,theta=mean) boot.result t.test(x) Jämför resultaten. Bootstrap-proceduren verkar fungera bra i det här exemplet, eller hur? Varför den till synes enkla principen fungerar kan motiveras och bevisas teoretiskt, men det innebär (minst) en egen kurs i sig. En fördel med metodiken är att man kan få en visuell uppfattning om fördelningen för den skattade parametern. Rita helt enkelt upp ett histogram över resultaten från alla B simulerade stickprov: hist(boot.result$thetastar)

Datamaterial: Tider mellan jordbävningar Vi ska nu studera ett datamaterial vilket utgörs av tidsintervall mellan större jordbävningar världen över. Med större avses en magnitud på minst 7.5 på Richterskalan eller mer än 1000 förolyckade personer. Datamaterialet är insamlat under tidsperioden 16 december 1902 till 4 mars 1977. Ladda ned filen quakeper.dat, läs in den i R och starta med ett rita ett histogram. quakeper <- read.table("quakeper.dat") hist(quakeper$v1) Reflektera över fördelningen. Kan normalfördelning anses gälla? Kan man klassiskt beräkna ett intervall för väntevärdet (skattat med x) trots allt? Svaret är ja, om stickprovet är tillräckligt stort (centrala gränsvärdessatsen). Beräkna nu punktskattning för väntevärde samt intervall som ovan: boot.result <- resamp(quakeper$v1,b=5000,theta=mean) boot.result t.test(quakeper$v1) Jämför resultaten: datorintensivt vs. klassiskt. Avslutande kommentar: I exemplen vi studerat gick det att på klassiskt vis beräkna intervall för punktskattningarna och dessa visade sig stämma väl överens med motsvarande intervall erhållna med återsamplingsteknik. Styrkan hos bootstrapmetoderna ligger dock i att kunna göra inferens för mer komplicerade storheter, t.ex. median eller mer allmänt kvantiler, korrelationskoefficienter, osv.