Statistik 1 för biologer, logopeder och psykologer



Relevanta dokument
Uppgift

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Föreläsning 9: Hypotesprövning

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

parametriska test Mätning Ordinalskala: Nominalskala:

1. Frekvensfunktionen nedan är given. (3p)

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Statistik 1 för biologer, logopeder och psykologer

SF1901: Övningshäfte

INLÄMNINGSUPPGIFT 2 (Del 2, MATEMATISK STATISTIK) Kurs: MATEMATIK OCH MATEMATISK STATISTIK 6H3000

Grundläggande biostatistik. Jenny Selander

Innehåll. Normalfördelning och t-test. Vanliga statistiska mått 2/11/2014. Vad är punktskattningar? Figurer somvisarmedelochsd, SE ochki (ellerci)

Föreläsning 14: Försöksplanering

Extrauppgifter. Uppgifter. 1. Den stokastiska variabeln Y t(10). Bestäm c så att P ( c < Y < c) = 0.95.

Datorövning 2 Diskret fördelning och betingning

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 25 augusti 2004, Kl

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Ekvationssystem, Matriser och Eliminationsmetoden

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

Tentamen i Tillämpad matematisk statistik LMA521 för EPI och MI den 14 dec 2011

Statistiska metoder för säkerhetsanalys

SF1620 Matematik och modeller

Skrivning i statistik med beslutsteori för Brandingenjörer tisdag 26 maj 2009

SF1625 Envariabelanalys

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Sammanfattning på lättläst svenska

Möbiustransformationer.

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Lathund, procent med bråk, åk 8

SEPARABLA DIFFERENTIALEKVATIONER

3.1 Linjens ekvation med riktningskoefficient. y = kx + l.

Modul 6: Integraler och tillämpningar

OM KOMPLEXA TAL. 1 Om a är ett positivt reellt tal så betecknar a det positiva reella tal vars kvadrat är a men det är

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Fristående förskolor totalt Antal svar samtliga fristående förskolor: 360 (57 %)

SF1901 Sannolikhetsteori och statistik I

Väga paket och jämföra priser

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Stella Nova förskola

Vi skall skriva uppsats

Denna talesmannapolicy gäller tillsammans med AcadeMedias kommunikationspolicy. I kommuniaktionspolicyn finns följande formulering:

Presentationsövningar

Avd. Matematisk statistik

Tränarguide del 1. Mattelek.

Bered en buffertlösning. Niklas Dahrén

Statsbidrag för läxhjälp till huvudmän 2016

Individuellt Mjukvaruutvecklingsprojekt

Modell för diskontering av framtida kassaflöde att tillämpas för Trafikljuset

Volymer av n dimensionella klot

Övningshäfte i matematik för. Kemistuderande BL 05

Information sid 2 4. Beställning sid 5. Ändring/Nytt SIM sid 6. Avsluta abonnemang sid 7. Fakturafråga sid 8. Felanmälan/fråga sid 9.

När du som vårdpersonal vill ta del av information som finns hos en annan vårdgivare krävs det att:

Sammanfattning av kursdag 2, i Stra ngna s och Eskilstuna

Avgifter i skolan. Informationsblad

Ha det kul med att förmedla och utveckla ett knepigt område!

4-6 Trianglar Namn:..

Strukturen i en naturvetenskaplig rapport

Resultat av enkät till assistansberättigade

Figur 1: R e g r e s s i o n A n a l y s i s : S k u l d v e r s u s t. The r e g r e s s i o n e q u a t i o n i s S k u l d = 2,94 0,861 t

Spelregler. 2-4 deltagare från 10 år. Med hjälp av bokstavsbrickor och god uppfinningsrikedom

Diskussionsfrågor till version 1 och 2

Regression med kvalitativa variabler. Jesper Rydén

Något om permutationer

Tentamen i Linjär algebra (TATA31/TEN1) ,

Friskoleurval med segregation som resultat

Laborationspecifikation

Index vid lastbilstransporter

Tankar om elevtankar. HÖJMA-projektet

TMS136. Föreläsning 10

Enkätresultat för elever i år 2 i Nösnäsgymnasiet 2 i Stenungsund våren 2014

För övrigt fullständig överensstämmelse kvalitativt sett för båda proverna. Alla lab som analyserat P-CCP ak på prov 18/D rapporterar ett starkt

1 Navier-Stokes ekvationer

Enkätresultat för elever i år 2 i Mega Musik gymnasium hösten Antal elever: 47 Antal svarande: 46 Svarsfrekvens: 98% Klasser: MM13

Enkätresultat för elever i år 2 i Praktiska Skövde i Praktiska Sverige AB hösten 2014

Boll-lek om normer. Nyckelord: likabehandling, hbt, normer/stereotyper, skolmiljö. Innehåll

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

1. INLEDNING. 1.1 Statistisk- att lära sig något från observationer

Anpassning av sjukpenninggrundande inkomst (SGI) efter löneutvecklingen inom yrkesområdet för arbetslösa

NATIONELLA MATEMATIKTÄVLING

MRSA. Information till patienter och närstående

Träning i bevisföring

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Utdrag ur protokoll vid sammanträde

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Riktlinjer - Rekryteringsprocesser inom Föreningen Ekonomerna skall vara genomtänkta och välplanerade i syfte att säkerhetsställa professionalism.

Säkert att förvara kärnavfall i berggrunden

Beräkna substansmängd, molmassa och massa. Niklas Dahrén

Idag. Hur vet vi att vår databas är tillräckligt bra?

Att bli förmögen är något för alla, en egen portföljförvaltare för envar.

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Om erbjudandet för din pensionsförsäkring med traditionell förvaltning.

Snabbslumpade uppgifter från flera moment.

Allmän teori, linjära system

Funktionsbegreppet. Kapitel Introduktion till funktioner. Definition av funktion

Kursbeskrivning för Statistikens grunder, GN, 15 högskolepoäng (kvällskurs)

Pesach Laksman är lärarutbildare i matematik och matematikdidaktik vid Malmö högskola.

Hävarmen. Peter Kock

Transkript:

Innehåll 1 Punktskattning och kondensintervall

Innehåll 1 Punktskattning och kondensintervall

Population Punktskattning och kondensintervall Vi har en population vars någon mätbar egenskap X vi är intresserade av. Den mätbara egenskapen har inom populationen en fördelning som kan beskrivas med någon lämplig parameter, t.ex.: väntevärdet µ standardavvikelsen σ andelen p av individer i populationen som har någon egenskap av intresse.

Stickprov Punktskattning och kondensintervall I praktiken kan man oftast inte göra observationer på en hel population. I stället har man ofta tillgång till ett stickprov, dvs. ett slumpmässigt urval av n st individer från populationen. Utgående från stickprovet försöker man dra slutsatser om populationsfördelningens okända parametrar. Detta kallas statistisk inferens.

Från sannolikhetslära till inferens Med hjälp av sannolikhetslära kan vi dra slutsatser om ett stickprov från en population med vissa kända egenskaper. I statistisk inferens vänder vi på frågeställningen: vad kan vi säga om en population på basen av ett stickprov? Bl.a. innefattar statistisk inferens punktskattning intervallskattning (=beräkning av kondensintervall) hypotesprövning.

Från sannolikhetslära till inferens

Punktskattning Punktskattning och kondensintervall I punktskattning använder man data från ett stickprov för att räkna ut ett värde som fungerar som en gissning på det okända värdet på en populationsparameter av intresse. Exempel. För väntevärdet µ andvänder man som punktskattning oftast stickprovsmedelvärdet x. För populationsstandardavvikelsen σ andvänder man som punktskattning oftast stickprovsstandardavvikelsen s. För proportionen p av individer i en population med en viss egenskap använder man proportionen ˆp i stickprovet med samma egenskap.

Stickprovsfördelningen Eftersom värdet på en punktskattning avgörs slumpmässigt beroende på vilka individer som kommer med i stickprovet kan en skattning betraktas som en slumpvariabel. Följaktligen har punktskattningen en sannolikhetsfördelning. Vi kallar denna fördelning stickprovsfördelningen (även samplingfördelningen). Stickprovsfördelningen talar om för oss hur skattningarna skulle variera om vi hade tillgång till ett mycket stort (oändligt) antal lika stora stickprov? Ju större vårt stickprov är, desto mindre spridning har stickprovsfördelningen och desto pålitligare är skattningen.

Kondensintervall Eftersom en punktskattning inte ger en bild av hur pålitlig skattningen är, vill man vanligtvis också bestämma ett sk. kondensintervall för en parameter. Ett kondensintervall är ett intervall som med en bestämd sannolikhet 1 α täcker det sanna parametervärdet. Sannolikheten kallas kondensgrad. Kondensgraden väljs ofta så att 1 α är lika med 0.95 eller 0.99 (kan även anges i procent, t.ex. 95% eller 99%). Då man bestämmer ett kondensintervall för en parameter måste man känna till vissa egenskaper hos stickprovsfördelningen för dess punktskattning.

Medelvärdesfördelningen För att kunna härleda ett kondensintervall för väntevärdet µ måste vi först ta en närmare titt på stickprovsfördelningen för medelvärdet X, även kallad medelvärdesfördelningen. Medelvärdesfördelningen är centrerad kring populationens väntevärde µ. har standardavvikelsen σ/ n. är approximativt normalfördelad (oavsett hur populationen är fördelad) om stickprovsstorleken n är tillräckligt stor. Sammanfattningsvis: Tar vi ett stort antal stickprov på n observationer från en godtyckligt fördelad population och räknar ett medelvärde x för varje stickprov, kommer medelvärdena att vara ungefär fördelade enligt N(µ, σ/ n).

Medelvärdesfördelningen För att själv experimentera med medelvärdesfördelningar dragna ur olika populationer, se http://ccl.northwestern.edu/curriculum/problab/ CentralLimitTheorem.html.

Kondensintervall för väntevärde Vi ska i följande härleda oss till ett 95% kondensintervall för väntevärdet µ: Vi vet från sannolikhetslära att 95% av värdena i en allmän normalfördelning N(µ, σ) ligger mellan µ 1.96 σ och µ + 1.96 σ, dvs. P(µ 1.96 σ X µ + 1.96 σ) = 0.95. På motsvarande sätt gäller för medelvärdesfördelningen N(µ, σ/ n) att P(µ 1.96 σ/ n X µ + 1.96 σ/ n) = 0.95.

Kondensintervall för väntevärde Vi vet nu att avståndet mellan medelvärdet x och väntevärdet µ med 95% sannolikhet är högst 1.96 σ/ n. Likväl kan vi då säga att intervallet x ± 1.96 σ n med 95% sannolikhet täcker det okända väntevärdet µ. Vi har alltså konstruerat ett 95% kondensintervall för µ.

Kondensintervall för väntevärde Hundra st. 95% kondensintervall för väntevärdet µ från en och samma population. Vi ser att ca 95% av intervallen täcker det sanna parametervärdet.

Kondensintervall för väntevärde Ett allmänt kondensintervall för väntevärdet µ med kondensgraden 1 α ges av formeln x ± z σ n, där z är ett sådant värde från den standardiserade normalfördelningen att P( z Z z) = 1 α. Ofta använda kondensgrader med motsvarande värden för z är 1 α z 0.95 1.96 0.99 2.54 0.999 3.29

Kondensintervall för väntevärde Exempel. Vi har en population som följer en normalfördelning med okänt väntevärde µ och standardavvikelsen σ = 3. Då vi drar ett stickprov om 36 observationer från populationen får vi att medelvärdet är x = 10.0. Ett 95% kondensintervall räknas då enligt µ = 10 ± 1.96 = 10 ± 1. 3 36 Låt oss nu anta att vi i stället vill bestämma ett 99% kondensintervall för µ. Vi får då µ = 10 ± 2.54 = 10 ± 1.29. 3 36 Genom att öka kondensgraden blir intervallet bredare!

Kondensintervall för väntevärde Vi har vid beräkning av kondensintervall hittils antagit att populationens standardavvikelse σ är känd. I praktiken är detta sällan fallet och vi måste i stället andvända oss av standardavvikelsen från stickprovet, s. Då det nu förutom osäkerheten i skattningen x har tillkommit en osäkerhet form av skattninen s, kommer kondensintervallet att bli bredare.

Student's t-fördelning Vid härledning av kondensintervallet för µ utgår man från variablen X som efter standardisering följer en standardiserad normalfördelning, dvs. X µ σ/ n N(0, 1). Om vi nu ersätter σ med skattningen s följer den motsvarande variabeln X µ s/ n inte längre en normalfördelning, utan i stället en sk. Student's t-fördelning.

Student's t-fördelning Student's t-fördelning (eller bara t-fördelningen): liknar den standardiserade normalfördelninen men är något bredare är precis som den standardiserade normalfördelningen alltid centrerad kring 0 bestäms fullt av frihetsgraderna f = n 1, där n är antalet observationer i ett stickprov.

Kondensintervall för väntevärde då σ är okänd Ett allmänt kondensintervall för väntevärdet µ med kondensgraden 1 α, då σ är okänd, ges av formeln x ± t s n, där t är ett sådant värde från Student's t-fördelning att P( t T t) = 1 α. Eftersom t-fördelningens exakta form beror på antalet observationer n måste det aktuella värdet t alltid slås upp i en tabell eller bestämmas med hjälp av ett statistiskt programpaket. Användning av t-fördelningen förutsätter att populationen är någorlunda normalfördelad, speciellt om vi har ett litet stickprov.

Kondensintervall för väntevärde då σ är okänd Exempel. Vi har en population som följer en normalfördelning, där väntevärdet µ och standardavvikelsen σ är okända. Då vi drar ett stickprov om 9 observationer från populationen får vi medelvärdet x = 148.0 och standardavvikelsen s = 4.87. Ett 99% kondensintervall räknas då enligt µ = 148.0 ± t 4.87 9, där t är ett värde motsvarande kondensgraden 99% från en t-fördelning med frihetsgraderna f = 9 1 = 8. Då t = 3.36 blir det sökta kondensintervallet µ = 148.0 ± 3.36 4.87 9 = 148.0 ± 5.5.

Kondensintervall för proportioner Parametern p anger proportionen eller andelen individer med en viss egenskap i en population. T.ex. kan vi vara intresserade av andelen diabetiker bland den vuxna befolkningen i Finland. Vi har tidigare talat om proportionen p i samband med binomialfördelningen. T.ex. om vi vet att var tionde vuxen i Finland är diabetiker kan vi med hjälp av binomialfördelningen räkna ut vad sannolikheten är att ett stickprov om n = 1000 individer ska innehålla mellan 90 och 110 diabetiker. Då n är tillräckligt stort och X Bin(n, p) får vi approximativt att X N ( np, np(1 p) ).

Kondensintervall för proportioner Om nu X nu står för antalet individer med t.ex. diabetes i ett stickprov på n individer, får vi andelen av diabetiker i stickprovet med att dividera X med n. Fördelningen för proportionen blir då ( X n N p, ) p(1 p), n vilket alltså är stickprovsfördelningen för proportionen ˆP = X n.

Kondensintervall för proportioner I princip kan vi nu använda oss av samma logik som tidigare för att bilda ett kondensintervall för p, dvs. p = ˆp ± z p(1 p)/n, men......eftersom p är parametern vi försöker skatta och alltså är okänd för oss, måste vi i kavadratroten ersätta p med den från stickprovet skattade proportionen ˆp. Kondensintervallet för en okänd proportion p kan nu slutligen skrivas som ˆp(1 ˆp) p = ˆp ± z. n

Kondensintervall för proportioner Exempel. I en liten stad nns 8820 hushåll av vilka man plockar ett stickprov på 200 hushåll. Av dessa visar det sig att 60 har en tavel-tv. Vi beräknar nu ett 95% kondensintervall för andelen hushåll i hela staden med tavel-tv. Då andelen hushåll med tavel-tv i stickprovet är ˆp = 60/200 = 0.30, blir kondensintervallet 0.3 0.7 p = 0.3 ± 1.96 200 = 0.3 ± 0.06. Med 95% sannolikhet nns det alltså mellan 2100 och 3200 hushåll med tavel-tv i staden.

Egenskaper hos kondensintervall För kondensintervall gäller allmänt: Om vi ökar konndensgraden (från t.ex. 95% till 99%) blir kondensintervallet bredare. Om vi ökar stickprovsstorleken n blir kondensintervallet smalare.