DATORÖVNING 2: STATISTISK INFERENS.

Relevanta dokument
DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS.

DATORÖVNING 3: MER OM STATISTISK INFERENS.

DATORÖVNING 3: MER OM STATISTISK INFERENS.

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

Datorövning 1 Introduktion till Minitab och Excel

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Laboration med Minitab

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Obligatorisk uppgift, del 1

Lektionsanteckningar 11-12: Normalfördelningen

Introduktion och laboration : Minitab

Föreläsning G60 Statistiska metoder

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

F9 SAMPLINGFÖRDELNINGAR (NCT

Slumpmässiga urval med Minitab LWn /

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

DATORÖVNING 3: EXPERIMENT MED

Datorövning 1 Enkel linjär regressionsanalys

TAMS28 DATORÖVNING VT1

LABORATION 1. Syfte: Syftet med laborationen är att

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Samplingfördelningar 1

Arbeta med normalfördelningar

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Datorövning 2 Multipel regressionsanalys, del 1

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Demonstration av laboration 2, SF1901

F3 Introduktion Stickprov

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Föreläsning G60 Statistiska metoder

Föreläsning 4. Kapitel 5, sid Stickprovsteori

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Datorövning 1: Fördelningar

Beskrivande statistik

TMS136. Föreläsning 7

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Datorövning 5 Exponentiella modeller och elasticitetssamband

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Föreläsning 7: Punktskattningar

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Föreläsning 5. Kapitel 6, sid Inferens om en population

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Datorövning 1 Fördelningar

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

FÖRELÄSNING 7:

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Introduktion till statistik för statsvetare

F10 Problemlösning och mer om konfidensintervall

F9 Konfidensintervall

Intro till SPSS Kimmo Sorjonen (0811)

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 7: Punktskattningar

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

bli bekant med summor av stokastiska variabler.

En introduktion till och första övning for Excel

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Laboration 2 Inferens S0005M VT18

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Studietyper, inferens och konfidensintervall

Parade och oparade test

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Introduktion till. Minitab version 14

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

, s a. , s b. personer från Alingsås och n b

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Handledning för konstruktion av tabeller och diagram med Excel

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

*****************************************************************************

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

Laboration 2 multipel linjär regression

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Richard Öhrvall, 1

DATORÖVNING 2: TABELLER OCH STANDARD-

Föreläsning 12: Regression

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

7.3.3 Nonparametric Mann-Whitney test

Statistik 1 för biologer, logopeder och psykologer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Följande resultat erhålls (enhet: 1000psi):

Examinationsuppgifter del 2

Mer om konfidensintervall + repetition

Laboration 3: Urval och skattningar

Transkript:

DATORÖVNING 2: STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). CENTRALA GRÄNSVÄRDESSATSEN Enligt Centrala gränsvärdessatsen (CGS) skall en summa av slumpvariabler bli ungefär normalfördelad om antalet variabler i summan är tillräckligt stort. Vidare gäller att dessa variabler skall vara av samma sort, man brukar säga likafördelade, och inte bero av varandra. Det enklaste exemplet på detta är att man gjort ett urval om n observationer. Var och en av dessa är som regel oberoende tagna. Detta gäller om populationen är oändligt stor eller åtminstone mycket stor. Varje enskild observation är ju när den skall göras ett oskrivet kort och detta brukar modelleras med att det värde man får är en observation av en slumpvariabel, som gäller enbart just för denna observation. Antag t ex att vi skall göra ett urval av n personer bosatta i Sverige och undersöka hur många syskon de har. För varje urvalsdragning är antalet syskon en slumpvariabel och det innebär att vi har totalt n slumpvariabler i vårt urval. Innan vi har valt en person och frågat honom/henne om antalet syskon vet vi ju inte hur många de är och det gör detta till en slumpvariabel. Om vi nu vill göra en bedömning av det totala antalet angivna syskon i vårt urval kan vi skriva n detta som i=1 X i där X 1 är en slumpvariabel som mäter antal syskon för den första utvalda personen i vårt urval, X 2 är en slumpvariabel som mäter antal syskon för den andra utvalda personen i vårt urval o.s.v. för var och en av de n personerna. Denna summa är nu enligt CGS ungefär normalfördelad med väntevärde n och standardavvikelse n där och är medeltal och standardavvikelse för antalet syskon i hela populationen, dvs bland antalet bosatta i Sverige, om n är tillräckligt stor. (Vi bryr oss i detta fall inte om det faktum att två eller flera personer i populationen kan vara syskon och därmed ha lika många syskon, vilket egentligen komplicerar det hela men kan bedömas vara ett mindre problem eftersom populationen är så stor.) Vidare gäller att urvalsmedeltalet av antalet syskon, dvs X 1 n n X i i 1 blir ungefär normalfördelad med väntevärde och standardavvikelse σ/ n. 1

Man kan (och ska) naturligtvis lita på dessa resultat, eftersom det handlar om ganska lång tids forskning och matematiskt ovedersägliga resultat, men det är ändå nyttigt att empiriskt studera hur bra denna approximation är och vad ett stort n kan vara. Börja med att mata in värdena 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 och 10 i kolumn C1 i Minitab. Antag att detta är det antal syskon som kan förekomma i en viss population, dvs ingen i populationen har fler än 10 syskon, och det finns de som inte har några syskon alls. Antag vidare att följande proportioner gäller: Antal syskon Frekvens i populationen 0 16% 1 35% 2 29% 3 10% 4 6% 5 2% 6 0,5% 7 0,5% 8 0,4% 9 0,4% 10 0,2% Med hjälp av denna frekvenstabell, räkna för hand ut medeltalet,, och standardavvikelsen,, i populationen av antalet syskon. Notera dessa värden. Lägg nu proportionerna som decimaltal i kolumnen C2, dvs. mata in värdena 0,16, 0,35 etc. i C2. Antag nu att vi skall göra ett urval om 10 personer från populationen och bestämma hur många syskon var och en av dessa har. Via slumpvariabelbegreppet kan detta utföras genom att slumpmässigt generera 10 observationer från den slumpvariabel som antar värdena i C1 med sannolikheter motsvarande värdena i C2. Praktiskt kan vi göra detta med kommandot random enligt följande: MTB > random 10 c3; SUBC> discrete c1 c2. Kommandot innebär att vi slumpar 10 observationer från kolumnen C1 och lägger dessa i C3 och att slumpningen görs så att varje värde dras med en sannolikhet som motsvarar värdet i C2. Ni 2

bör därför få observationer i C3 som till större delen är något av värdena 0, 1, 2, 3 och 4, eftersom dessa värden har betydligt högre sannolikheter än de övriga (motsvarar högre frekvenser i populationen). Beräkna sedan medelvärdet av värdena i C3 och lagra detta i första raden av C4 med följande kommando: MTB > let c4(1)=mean(c3) Stämmer detta medelvärde någorlunda överens med medeltalet i populationen? Borde det göra det? För att se hur väl CGS stämmer måste vi på något sätt uppskatta samplingfördelningen hos detta urvalsmedeltal och då krävs att vi upprepar urvalsförfarandet ett stort antal gånger. Kunde vi till exempel skapa 10000 urval av detta slag borde motsvarande urvalsmedeltal ge en hyfsad bild över hur ett urvalsmedeltal kan variera. Nu är det ganska arbetskrävande att upprepa ovanstående 10000 gånger varför det åter är dags för ett makro. Öppna Notepad (Start All programs Accessories Notepad) och skriv in följande rader: gmacro syskon_cgs do k20=1:10000 let c5(1)=k20 random 10 c3; discrete c1 c2. let c4(k20)=mean(c3) enddo endmacro Studera raderna i detta makro och försök förstå dem. Vad gör till exempel raden let c5(1)=k20? Var framgår det att det är 10000 urval som skall göras? Var beräknas medeltalet? I vilken kolumn sparar vi de 10000 medeltalen? Spara makrot (välj Save as type: All files ) med namnet syskon_cgs.mac på din hemarea (Z:\). Se till att Minitabs arbetsmapp är din hemarea genom att ge kommandot cd z: (detta behöver du bara göra en gång under en och samma Minitab-session). Kör nu makrot med kommandot %syskon_cgs. Det tar en liten stund för Minitab att göra alla 10000 urval. När makrot är klart ska du ha 10000 medeltal i C4. Gör ett histogram över dessa. Ser histogrammet ut att motsvara en normalfördelning? Beräkna vidare medelvärdet och standardavvikelsen av värdena i C4 med hjälp av kommandona mean och stdev. Verkar medelvärdet överensstämma någorlunda med populationsmedeltalet? Verkar 3

standardavvikelsen överensstämma någorlunda med 10? Teorin säger ju att dessa överensstämmelser skall finnas, och detta gäller oavsett om populationen är normalfördelad eller ej. Redigera makrot så att du i tur och ordning får urvalsstorlekarna a) 30 observationer b) 50 observationer c) 100 observationer Kör makrot för varje fall och jämför fördelningsform, medelvärde och standardavvikelse med motsvarande värden i den teoretiska normalfördelningen. Försök säga något om från och med vilken urvalsstorlek CGS verkar fungera. Spara Minitab-projektet under FILE SAVE PROJECT AS... STATISTISK INFERENS MED DATORNS HJÄLP Starta ett nytt projekt i Minitab genom FILE NEW MINITAB PROJECT. Vi skall nu utnyttja ett hyggligt stort datamaterial. Datamaterialet finns i en fil inlagd på hemsidan i Excelformat och heter HUS.xls. Öppna Excelfilen och kopiera hela datafilen. Ställ dig sedan högst upp (i den grå raden i kolumn C1) i Minitabs datablad och klistra in. Datamaterialet innehåller 11 kolumner och antalet observationer (rader) är 522. Datamaterialet avser försäljning av bostadshus i en stad i USA år 2002, och man var främst intresserad av att se samband mellan försäljningspriserna och ett antal variabler som beskriver huset och dess omgivning. I filen ingår följande variabler i tur och ordning. 1. Löpnummer (identifikationsnummer) 2. Försäljningspris (dollar) 3. Bostadsyta (kvadratfot) 4. Antal sovrum 5. Antal badrum 6. Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars 7. Antal bilar som garaget är konstruerat för 8. Förekomst av pool, 1 = pool finns, 0 annars 9. Byggår 10. Byggkonstruktionens kvalitet, 1 = hög, 2 = medium, 3 = låg 4

11. Tomtstorlek (kvadratfot) I Minitab, under Basic Statistics, hittar du 1-Sample t, som kan användas för att beräkna konfidensintervall. UPPGIFT 1 Vi ska börja med att granska data. a) Rita lämpliga diagram för att studera variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitets fördelning. b) Beräkna lämpliga beskrivande mått för variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitet. UPPGIFT 2 a) Vi vill undersöka om det förväntade försäljningspriset kan vara 250 000 eller inte. Beräkna ett 99%igt konfidensintervall för det sanna försäljningsmedelvärdet. Använd 1- Sample t (var måste du gå in och ändra konfidensgraden från 95 till 99?). Studera konfidensintervallet. Hur tolkar du det? b) Vi vill nu göra ett enkelsidigt intervall, där vi vill uttala oss om att medelvärdet är större än 250 000. Beräkna ett 99%igt enkelsidigt konfidensintervall genom att göra lämplig justering under Options. Hur tolkar du intervallet? UPPGIFT 3 Vi vill nu bilda konfidensintervall för försäljningspriset för dels villor med hög konstruktionskvalitet (kod 1) och dels de som inte har denna kvalitet (kod 2 och 3). a) Vi måste därför koda om kvalitetsvariabeln (den näst sista kolumnen) till en ny variabel där t.ex. 1 kan betyda hög kvalitet medan 0 betyder att kvaliteten är lägre. För att göra denna omkodning kan du utnyttja fliken Data och under den Code-Numeric to Numeric. Kolla att den nya kolumnen fick bara värdena 0 och 1 och att det ser korrekt ut. Ge den ett lämpligt namn. b) Vi vill nu ha två kolumner, där den ena innehåller försäljningspriser för alla objekt med kvalitet 1 och den andra priserna för objekt med kvalitet 0. Utnyttja under fliken Data kommandot Copy-Columns to Columns. Ange i rutan Copy from columns Försäljningspris och tryck sedan på knappen Subset the Data. Markera Rows that match och tryck sedan på knappen Condition. Fyll nu i rutan som öppnar sig så att Minitab kopierar de rader där den nya kvalitetsvariabeln antar värdet 1. Tryck OK och sedan OK igen. Under rutan Store Copied Data in Columns, välj In current worksheet, in columns och skriv sedan in den kolumn som ni vill spara de utsorterade försäljningspriserna i. Tryck OK. Gör om för kvalitet 0. Sätt lämpliga rubriker på kolumnerna. c) Beräkna ett 95% konfidensintervall för det förväntade försäljningspriset vid kvalitet 1 och vid kvalitet 0. Utnyttja t-fördelningen och observera att båda beräkningarna kan 5

göras i samma körning. Studera resultaten. Verkligen stor skillnad mellan intervallen, eller hur? (högst naturligt) UPPGIFT 4 Vi går nu över till att göra konfidensintervall för andelar. Vi är intresserade av förekomsten av pool och vill se om denna förekomst är olika beroende på husens kvalitet. Åter är det Basic Statistics som kan utnyttjas och under den 1 Proportion. Beräkna ett 99% konfidensintervall för andelen hus med pool. Tolka resultatet. 6