732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Relevanta dokument
Föreläsning G70 Statistik A

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning G04: Surveymetodik

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

F10 ESTIMATION (NCT )

4.2.3 Normalfördelningen

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

1. Test av anpassning.

Grundläggande matematisk statistik

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Föreläsning G70 Statistik A

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

θx θ 1 om 0 x 1 f(x) = 0 annars

S0005M V18, Föreläsning 10

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

a) Beräkna E (W ). (2 p)

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

Tentamen i Matematisk statistik för V2 den 28 maj 2010

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

Föreläsning G70 Statistik A

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Tolkning av sannolikhet. Statistikens grunder, 15p dagtid. Lite mängdlära. Lite mängdlära, forts. Frekventistisk n A /n P(A) då n

Formelblad Sannolikhetsteori 1

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

Borel-Cantellis sats och stora talens lag

Datorövning 2 Fördelningar inom säkerhetsanalys

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Datorövning 2 Fördelningar inom säkerhetsanalys

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

Föreläsning 2: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

2. Konfidensintervall för skillnaden mellan två proportioner.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

F6 Uppskattning. Statistikens grunder 2 dagtid. Beteckningar, symboler, notation. Grekiskt-romerskt

Avd. Matematisk statistik

Introduktion till statistik för statsvetare

TMS136: Dataanalys och statistik Tentamen med lösningar

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Föreläsning 4. Kapitel 5, sid Stickprovsteori

b 1 och har för olika värden på den reella konstanten a.

Sannolikhetslära. c 2015 Eric Järpe Högskolan i Halmstad

Föreläsning 5. Kapitel 6, sid Inferens om en population

Stokastiska variabler

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Tentamen i Sannolikhetsteori III 13 januari 2000

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

95%-igt konfidensintervall för andel kalsongbärare i populationen: Slutsats: Med 95% säkerhet finns andelen kalsongbärare i intervallet 38-48%

Följande begrepp används ofta vid beskrivning av ett statistiskt material:

Tentamen i matematisk statistik

Statistik för ingenjörer 1MS008

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Föreläsning G70 Statistik A

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 5

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Lösningsförslag

TENTAMEN I MATEMATISK STATISTIK

DEL I. Matematiska Institutionen KTH

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

Lösningar och kommentarer till uppgifter i 1.1

Matematisk statistik TMS063 Tentamen

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Genomsnittligt sökdjup i binära sökträd

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Transkript:

73G70 Statistik A Föreläsigsuderlag skapad av Karl Wahli Föreläsigsslides uppdaterade av Bertil Wegma Istitutioe för dataveteskap (IDA) Liköpigs uiversitet vt 06

Kapitel Populatioer, stickprov och variabler Sid -46

Populatio De samlig eheter (exempelvis idivider) som vi vill dra slutsatser om. Populatioe defiieras på logisk väg med utgågspukt frå de frågeställig vi vill besvara. Exempel: - Studerade vid Liköpigs uiversitet, Campus Valla - Röstberättigade i Sverige Atalet eheter i populatioe beteckas med N.

Ädliga och oädliga populatioer Iom statistike är det valigt att ma talar om ädliga respektive oädliga populatioer. E oädlig populatio föreklar räkearbetet, eftersom de eheter som väljs ut ur stickprovet då ka betraktas som oberoede. Exempel: Vi har e skål med 5 kulor, vilke vi betraktar som e populatio. Ur populatioe vill vi dra ett urval om 3 kulor. Saolikhete för e specifik kula att bli utvald som de första är /5. Nu fis det bara fyra kulor kvar i skåle. Saolikhete för e specifik kula av de fyra som är kvar att bli utvald som de adra är /4. Saolikhete för e specifik kula av de tre resterade att bli de sista kula är /3. Vi ser att saolikhetera förädras mella varje dragig med statistiskt språkbruk säger vi att det råder ett beroede mella dragigara. Om skåle istället hade iehållit 0000 kulor och vi skulle välja 3 hade saolikhete för e specifik kula att bli utvald som de första varit /0000, som de adra /9999 och som de tredje /9998. De praktiska skillade i saolikhet mella varje dragig är så lite att de ka betraktas som försumbar, och vi ka betrakta dragigara som oberoede. Ett valigt sätt att betrakta oädliga respektive ädliga populatioer är geom dragig med eller uta återläggig. Ett exempel på dragig med återläggig är tärigskast: saolikhete för sexa vid tärigskast förädras ite oavsett hur måga gåger vi kastar tärige. E valig tumregel är att populatioe ur statistiskt perspektiv ka betraktas som oädlig om urvalet utgör midre ä 0% av populatiosstorleke. 4

Stickprov (Slumpmässigt) urval av eheter ur populatioe. Det fis måga olika metoder för att dra stickprov (detta behadlas seare i kurse) me gemesamt för dem är att stickprovet ska vara så represetativt för populatioe som möjligt. Atalet eheter i stickprovet beteckas med.

Variabel Variabel = resultatet av upprepade mätigar eller observatioer av ett feome Kvalitativa variabler: variabler som ej mäts umeriskt (i sifferform) Exempel: Natioalitet Kvatitativa variabler: variabler som direkt mäts umeriskt Diskreta kvatitativa variabler: kvatitativa variabler som edast atar heltalsvärde Kotiuerliga kvatitativa variabler: kvatitativa variabler som ka mätas med måga decimalers oggrahet Exempel: Atal aställda vid ett företag (diskret kvatitativ variabel) E persos lägd (kotiuerlig kvatitativ variabel) E variabel beteckas (oftast) med X (stort X), och de värde som observeras för variabel beteckas x, x, (små x)

Nomialskala Hos kvalitativa variabler. När variabels möjliga värde bara ka betraktas som ickeumeriska grupper uta ibördes ordig Exempel: Bedömer Du att geeralidex kommer att stiga uder april måad? Variabel ( )Ja ( )Nej Variabels möjliga värde

Ordialskala Hos kvalitativa eller kvatitativa variabler. När variabels möjliga värde ka betraktas som grupper, atige umeriska eller ej, som ka ragordas. Exempel kvalitativ variabel på ordialskala: Hur bedömer Du Di ärmaste chefs ledaregeskaper? ( ) Mycket goda ( ) Gaska goda ( ) Varke bra eller dåliga ( ) Gaska dåliga ( ) Mycket dåliga Exempel kvatitativ variabel på ordialskala: Hur måga aställda har Ert företag? ( )0-5 ( )6-5 ( )6-50 ( )5-

Itervallskala Hos kvatitativa variabler. Variabel mäts i umeriska värde och avståde är desamma mella variabels värde. Exempel: De dagliga försäljige i e butik... 0-0-9 6530 kr 0-0-0 465 kr 0-0- 897 kr.. Uppdaterad av Bertil Wegma

E variabels fördelig E variabels fördelig är e sammaställig över vilka värde variabel ka ata och hur ofta respektive värde atas. Fördeligar beskrivs oftast i diagramform. Olika agreppssätt aväds för att beskriva fördeligar för Kvalitativa variabler Kvatitativa diskreta variabler Kvatitativa kotiuerliga variabler

Exempel Företagshälsovårde vid ett företag säder ut e ekät där de aställda blad aat får svara på fråga Hur bedömer Du Di ärmaste chefs ledaregeskaper? ( ) Mycket goda ( ) Gaska goda ( ) Varke bra eller dåliga ( ) Gaska dåliga ( ) Mycket dåliga Resultate sammaställs i följade tabell Åsikt (x) Atal (f) Mycket goda 4 Gaska goda 6 Varke bra eller dåliga 84 Gaska dåliga 3 Mycket dåliga 0 Totalt 0

Att åskådliggöra fördelige för e kvalitativ variabel: stapeldiagram 45% 40% 35% 30% 5% 0% 5% 0% 5% 0% Mycket goda Gaska goda Varke bra eller dåliga Gaska dåliga Mycket dåliga

Alterativ metodik för att åskådliggöra fördelige för e kvalitativ variabel: cirkeldiagram Mycket goda Varke bra eller dåliga Mycket dåliga Gaska goda Gaska dåliga 5% 0% 9% 38% 8%

Exempel E aa fråga på ekäte löd Hur måga dagar i vecka motioerar Du? ( ) Ige ( ) ( ) ( ) 3 ( ) 4 ( ) 5 ( ) 6 ( ) 7 Resultate sammaställs eligt Atal dagar (x) Atal (f) Adel (%) 0 84 38 4 9 5 3 3 0 4 8 4 5 6 3 6 5 7 3 Totalt 0 00%

Att åskådliggöra fördelige för e diskret kvatitativ variabel: stolpdiagram 45% 40% 35% 30% 5% 0% 5% 0% 5% 0% 0 3 4 5 6 7 Atal motiosdagar per vecka Stolpdiagrammet är likt stapeldiagrammet, me ritas med smalare staplar

Exempel Dygsmedeltemperatur (grader Celsius) i cetrala Liköpig uder juli måad 0. Dag 3 4 5 6 7 Temp 0.9 0.7 9. 6.6 8.7 9.8 9. Dag 8 9 0 3 4 Temp 9. 8.6 8.4 7.3 7.8 6.0 4.7 Dag 5 6 7 8 9 0 Temp 6. 6.7 8. 5.6 8.7 9.0 8.6 Dag 3 4 5 6 7 8 Temp 9.7 0. 7.0 9. 8.4 8.4 0.8 Dag 9 30 3 Temp 0. 9.0 9.9

Att åskådliggöra fördelige för e kotiuerlig kvatitativ variabel: histogram 35% 30% 5% 0% 5% 0% 5% 0% -5.9 6.0-6.9 7.0-7.9 8.0-8.9 9.0-9.9 0.0- Dygsmedeltemperatur (grader Celsius)

Stam- och bladdiagram Vi har samlat i iformatio om atalet timmar tio timaställda vid ett företag arbetat uder e viss vecka. 5 9 5 8 3 34 37 4 49 Åskådliggör fördelige för atalet timmar de timaställda arbetade vid företaget de aktuella vecka. 5 9 5 8 3 4 7 4 9 Stam Blad 8

Beskrivade mått Stickprovsmedelvärde beräkat på rådata x i x i Populatiosmedelvärde beräkat på rådata N N i x i Exempel: Vi har oterat lägde (i cm) på ett slumpmässigt urval om fem persoer ur e populatio. 65 88 59 70 98 x 5 5 i xi 76 5 65 88 59 70 98 cm

Beskrivade mått Stickprovsmedelvärde beräkat på frekvestabell (vägt medeltal) x g i f i x i Populatiosmedelvärde beräkat på frekvestabell g i f i N x i där g är atalet klasser i frekvestabelle Exempel: Vi betraktar återige dygsmedeltemperature i juli måad 0. Beräka geomsittstemperature i juli 0! Klass -5.9 6.0-6.9 4 7.0-7.9 3 8.0-8.9 8 9.0-9.9 9 0.0-5 Atal (f)

Beskrivade mått Stickprovsstadardavvikelse beräkat på rådata s x i x i Populatiosstadardavvikelse beräkat på rådata Exempel: Vi har oterat lägde (i cm) på ett slumpmässigt urval om fem persoer ur e populatio. 65 88 59 70 98 s 5 N x i N i 5 I populatiosstadardavvikelse dividerar vi med N istället för. Det kommer sig av att populatiosmedelvärdet är e kostat och ite e variabel såsom stickprovsmedelvärdet 6. 4 5 i x i x 65 76 88 76... 98 76

Beskrivade mått Stickprovsstadardavvikelse beräkat på frekvestabell: Populatiosstadardavvikelse beräkat på frekvestabell: x f x f x x f s g i g i i i i i g i i i N N x f x f x f N g i g i i i i i g i i i Exempel: Vi betraktar återige dygsmedeltemperature i juli måad 0. Klass Atal (f) -5.9 6.0-6.9 4 7.0-7.9 3 8.0-8.9 8 9.0-9.9 9 0.0-5

Beskrivade mått Stickprovsadel: p atal eheter i stickprovet med studerad stickprovsstorlek egeskap Populatiosadel: atal eheter i populatioe med studerad populatiosstorlek egeskap Exempel: Företagshälsovårde vid ett företag gör e udersökig om rökvaor. För ett stickprov om 550 aställda uppgav 87 att de röker. Stickprovsadele rökare är p = 87/550 = 0.34 Adelar uttrycks ofta i procet, och vi drar därför slutsatse att 34% av de aställda som besvarade ekäte är rökare.

Beskrivade mått Media beräkat på rådata: Om atalet observatioer i fördelige är udda, så letar vi upp det mittersta värdet i det storleksordade materialet Om atalet observatioer i fördelige är jämt, så måste vi räka ut mediae som medelvärdet av de två mittersta värdea i det storleksordade materialet Mediae ligger alltid på positio i ett storleksordat datamaterial Exempel: Vi har oterat lägde (i cm) på ett stickprov om fem persoer som dragits slumpmässigt ur e populatio. 59 65 70 88 98 (värdea har storleksordats) Exempel: Vi har vägt fyra persoer: 53 6 70 85

Beskrivade mått Media beräkat på frekvestabell: M U M F f M M B M = stickprovsstorlek U M = udre klassgräs för mediaklasse F M- = kumulativ frekves i klasse före mediaklasse f M = frekves för mediaklasse B M = klassbredd (övre udre gräs) för mediaklasse Exempel: Följade tabell redovisar åldrara på de 80 medlemmara i e idrottsföreig. Ålder (år) Atal persoer -9 5 0-4 3 5-9 4 30-39 4 40-4 Bestäm mediaålder i idrottsföreige!

Beskrivade mått Kvartiler första kvartil (Q) = mittersta värdet i första halva av det storleksordade materialet tredje kvartil (Q3) = mittersta värdet i adra halva av det storleksordade materialet Exempel: Vi har oterat lägde (i cm) på ett stickprov om fem persoer som dragits slumpmässigt ur e populatio. 59 65 70 88 98 (värdea har storleksordats) Typvärde det valigast förekommade värdet i e fördelig Exempel: Vi studerar valet av adraspåk blad ett urval gymasister: Fraska Spaska Spaska Tyska

När bör vi aväda vilka beskrivade mått? Kvalitativ variabel Diskret kvatitativ variabel Typvärde Media Medelvärde Kotiuerlig kvatitativ variabel Media Kvartiler Stadardavvikelse Kvartiler Adelar Medelvärde Stadardavvikelse Adelar

Stadardvägig Exempel: Ett fackförbud öskar jämföra medellöe vid två företag iom samma verksamhetsområde. Följade iformatio samlas i. Bolag A Bolag B Befattig Atal persoer Medellö (tkr) Atal persoer Medellö (tkr) Mellachef/chef 6 36.6 5 34.5 Tjästemä 77 0.4 34 9.8 Admiistrativ persoal 89 7. 7. Jämför medellöe vid de två bolage! Stadardvägig: metod för att kompesera för att fördelige av eheter är olika över kategoriera i de grupper som udersöks. Räka som med vägda medeltal me välj vikter eligt totalatalet persoer i respektive radkategori. 8

Kapitel 3 Saolikhetsteori Sid 47-80 Uppdaterad av Bertil Wegma

Mägdlära Iom statistike avät som e metod för att hatera och åskådliggöra saolikheter, me ur ett bredare perspektiv e viktig byggste iom matematik och logik. S = utfallsrum = samtliga möjliga utfall vid ett experimet. Exempel: När vi kastar e tärig fis det 6 möjliga utfall: vi defiierar utfallsrummet S som S = {,, 3, 4, 5, 6} Varje bestådsdel i utfallsrummet kallas för ett elemet. Låt A = hädelse udda atal ögo upp vid tärigskast B = hädelse högst 3 ögo upp vid tärigskast Om mägde A igår i S säger vi att A är e delmägd av S och teckar detta som A S. 30

Sitt och uio Låt A och B vara två delmägder av S. Sitt Sittet ger de elemet som tillhör både A och B: teckas A B Uio Uioe ger de elemet som tillhör A eller B (eller båda): teckas A B 6 4 S 6 4 S B A AᴖB 3 5 B A 3 5 Sitt av A och B Uio av A och B 3

Disjukta (oföreliga) hädelser Hädelser som ite har ågo gemesam mägd Exempel: Vi drar ett kort ur e kortlek. Låt A = hädelse att kortet är ett hjärter B = hädelse att kortet är ett spader S Disjukta hädelser framträder i Vediagrammet som område som ite har ågo överlappade yta 3

Oberoede hädelser Att hädelser är oberoede iebär att saolikhete för att e hädelse ska iträffa ite påverkas av att e aa hädelse reda iträffat eller ite iträffat. Att hädelser är oberoede ka ma ite se i Vediagrammet, uta här får vi göra ett teoretiskt övervägade (seare ska vi dock studera matematiska metoder) för att bestämma om hädelsera är oberoede eller ej. Exempel: Kasta tärig två gåger och defiiera hädelsera A = hädelse att första kastet ger 6 ögo upp B = hädelse att adra kastet ger 6 ögo upp Då är hädelsera A och B oberoede, eftersom de två tärigskaste ite ka påverka varadra. Om hädelsera A och B är disjukta så är de ite oberoede! Detta stämmer därför att är A iträffat så vet vi att B ite ka iträffa. Alltså påverkar de varadra, och följaktlige är de ite oberoede. 33

Kombiatorik Kombiatorik är e gre iom matematik som hadlar om att beräka på hur måga sätt ett givet atal elemet ka ordas i mägder. Multiplikatiospricipe Kombiatioer uta återläggig Kombiatioer med återläggig Permutatioer uta återläggig Permutatioer med återläggig Permutatioer uta återläggig är vissa elemet är lika Uppdaterad av Bertil Wegma

Multiplikatiospricipe Exempel: Atag att e bilfabrikat låter kudera välja på röd, svart, blå eller grö lack, svart, grå eller beige iredig och stora eller små fälgar. På hur måga sätt ka e bilspekulat kompoera si bil? Multiplikatiospricipe aväds är vi i tur och ordig ska utföra k operatioer, och vill veta på hur måga sätt operatioera totalt ka utföras på. k Multiplikatiospricipe åskådliggörs ofta i träddiagram. Exempel: Kombiatioe grö lack och beige iredig tillverkas ite. På hur måga sätt ka e bilspekulat kompoera si bil? Uppdaterad av Bertil Wegma

Kombiatioer uta återläggig Exempel: E skål iehåller 4 alfapetbrickor, med bokstävera A D O S Vi drar slumpmässigt och uta återläggig brickor ur skåle. Hur måga kombiatioer av två bokstäver ka vi få? När vi uta häsy till ordige blad totalt elemet väljer ut e delmägd om k elemet. Varje elemet ka bara väljas ut e gåg. Atalet kombiatioer uta återläggig är k elemet väljs ut blad är k =! k! k! Uppdaterad av Bertil Wegma

Kombiatioer med återläggig Exempel: Vi tar tre skopor glass och för varje skopa ka vi välja mella 5 olika smaker. På hur måga sätt ka e glass kostrueras? E kombiatio med återläggig gäller är vi uta häsy till ordige blad totalt elemet väljer ut e delmägd om k elemet och där varje elemet ka väljas ut mer ä e gåg. Atalet kombiatioer med återläggig är k elemet väljs ut blad är + k k = + k! k!! Uppdaterad av Bertil Wegma

Permutatioer uta/med återläggig Exempel: I e ura fis det 4 spelkulor i olika färger: e röd, e gul, e blå och e grö. Vi väljer uta/med återläggig ut kulor. På hur måga sätt ka det göras, om ordige på de utvalda kulora har betydelse? E permutatio fås är vi med häsy till ordige väljer ut e delmägd om k elemet blad totalt elemet. Atalet permutatioer uta återläggig är k elemet väljs ut blad är! k! Atalet permutatioer med återläggig är k elemet väljs ut blad är k Uppdaterad av Bertil Wegma

Permutatioer uta återläggig är vissa elemet är lika Exempel: I e ura fis det 4 spelkulor i olika färger: e gul, e blå och två röda. Vi väljer uta återläggig ut alla 4 kulora. På hur måga sätt ka det göras, om ordige på de utvalda kulora har betydelse? Atalet permutatioer av elemet är k är av e typ, k är av e aa typ, osv, är! k! k! Uppdaterad av Bertil Wegma

Itroduktio till saolikhetslära Saolikhetslära: område iom statistike där vi studerar experimet vars utfall beror av slumpe Saolikhet: umeriskt värde (mella 0 och ) som talar om för oss hur troligt det är att hädelse vi studerar ska iträffa Regler för saolikheter:. E saolikhet ligger alltid mella 0 och. Saolikhete för alla disjukta hädelser som igår i utfallsrummet kommer tillsammas att summera till 3. Om vi vet att saolikhete för hädelse A är Pr(A), så är saolikhete för att A ite ska iträffa Pr(A) 40

Relativ frekves Relativ frekves 0.3 0.5 0. 0.5 0. 0.05 0 Tärigskast 00 00 300 400 500 600 700 800 900 4

Additiossatse för disjukta hädelser För två hädelser A och B som är disjukta, så gäller att saolikhete för att A eller B ska iträffa är Pr( A B) Låt A = hädelse att ehete tillhör gruppe för stora B = hädelse att ehete tillhör gruppe för små Pr(A) = 0.05 Pr(B) = 0.5 Pr( A) Pr( B) Exempel: Blad ehetera som produceras vid ett löpade bad klassificeras 5 procet som för stora, 80 procet som lagom och 5 procet som för små. Slumpmässigt väljs e ehet ur produktioe. Bestäm saolikhete för att de utvalda ehete är för stor eller för lite. Pr( A B) Pr( A) Pr( B) 0.05 0.5 0.0 4

Additiossatse för icke disjukta hädelser För två hädelser A och B som ite är disjukta, så gäller att saolikhete för att A eller B ska iträffa är Pr( A B) Pr( A) Pr( B) Pr( A B) Exempel: E perso har oterat att är ma befier sig i offetlig miljö så hör ma 40 procet av tide hudskall och 50 procet av tide skrikade bar. 0 procet av tide hör ma både hudskall och skrikade bar. Vad är saolikhete för att ma vid ett visst tillfälle i offetlig miljö hör atige hudskall eller skrikade bar? 43

Multiplikatiossatse för oberoede hädelser Vad är saolikhete att både hädelsera A och B ska iträffa? Givet att A och B är oberoede gäller att Pr( A B) Vi defiierar A = hädelse att första kastet ger kroa B = hädelse att adra kastet ger kroa Pr(A) = Pr(B) = 0.5 Pr( A) Pr( B) Exempel: Vi siglar slat två gåger. Vad är saolikhete för två kroa i rad? Pr( A B) Pr( A) Pr( B) 0.50.5 0.5 44

Betigad saolikhet Saolikhete för att hädelse A ska iträffa givet att hädelse B reda iträffat beräkas Pr( A B ) Pr( A B ) Pr( B ) Exempel: Ma drar ett slumpmässigt urval av medlemmar ur e stor politiskt oberoede orgaisatio, och frågar dels om kö, dels om politisk tillhörighet (väster eller höger). Kö Väster Höger Totalt Kvia 98 4 39 Ma 67 59 6 Totalt 65 00 365 Vad är saolikhete för att e slumpmässigt vald perso är kvia, om vi vet att persoe sympatiserar med högerblocket? Om Pr(A B) = Pr(A) eller Pr(B A) = Pr(B) så är hädelsera A och B oberoede 45

Multiplikatiossatse för beroede hädelser Vad är saolikhete att både hädelsera A och B ska iträffa? Om A och B är beroede gäller att Pr Låt A B PrA PrB A PrB PrA B PrB A Exempel: E skål iehåller 0 röda och 5 blå kulor. Vi väljer slumpmässigt och uta återläggig kulor. Vad är saolikhete för att bägge är blå? A = hädelse att de första utvalda kula är blå B = hädelse att de adra utvalda kula är blå Pr Pr 5 5 A PrB A 4 4 5 5 4 4 A B PrA PrB A 0. 0 Saolikhete för att de adra utvalda kula är blå, givet att de första var blå 46

Exempel Exempel: Efter stägig e börsdag på de sveska börse ka geeralidex ha stigit, varit oförädrat eller sjukit. Det fis ett starkt sambad med NASDAQ-börses geeralidex: om de samma dag (me NASDAQ-börse stäger tidigare) har stigit, varit oförädrad eller sjukit så är chase stor att samma sak häder på de sveska börse. Ma studerar börskursera uder e lägre tid och beräkar då följade. Stigit 0.6 Oförädrat 0. Sjukit 0. Adel dagar NASDAQ:s geeralidex Ma kartlägger äve saolikhete för att sveska geeralidex ska stiga givet hur det gått på NASDAQ samma dag, och sammaställer följade. NASDAQ stigit 0.75 NASDAQ oförädrat 0.5 NASDAQ sjukit 0.0 Saolikhet för att sveskt geeralidex stigit givet att Vi studerar e slumpmässigt vald dag. Vad är saolikhete för att det sveska geeralidex stigit de dage? 47

Satse om total saolikhet Om A,, A g är g parvis disjukta hädelser, vars uio bildar hela utfallsrummet, är saolikhete för hädelse B Pr g B PrA PrB i i A i 48

Bayes sats Exempel (fortsättig): E viss dag har det sveska geeralidex stigit. Vad är saolikhete för att NASDAQ:s geeralidex stigit samma dag? Om A,, A g är g parvis disjukta hädelser vars uio bildar hela utfallsrummet gäller att saolikhete för hädelse A j givet att hädelse B iträffat är Pr A j B g Pr i A PrB A Pr j A PrB A i j i 49

Kapitel 4 Saolikhetsfördeligar Sid 8-6 Uppdaterad av Bertil Wegma

Slumpvariabel E variabel för vilke slumpe bestämmer hur ofta respektive värde i utfallsrummet atas. Exempel: Slatsiglig, tärigskast, lägde på e slumpmässigt utvald perso Vätevärde: Varias: E X x px Var g i i g i X px x x px i i i g i i i Stadardavvikelse: Var X 5

Exempel Vistplae för e ormalserie om 6 miljoer Trisslotter ser ut på följade sätt. Vist (kr) Atal Vist (kr) Atal 500000 8 750 00 000000 8 500 600 50000 40 50 4000 00000 8 00 3600 00000 6 50 0000 0000 6 00 7500 0000 30 75 38400 000 0 50 67800 000 680 5 336000 5

Lijära variabeltrasformatioer Låt X vara e variabel med vätevärde E(X) och stadardavvikelse σ X och låt e aa variabel Y a b X Då gäller att E Y Y Ea b X a b X Y Vara b X b Var Y X Exempel: Sveska Spel fuderar på att höja priset på e Trisslott till 30 kr och samtidigt öka vistera med 40 procet. Vad blir de förvätade viste efter dea förädrig? 53

Saolikhetsfördelig Sammaställig av vilka värde e slumpvariabel ka ata och saolikhete för att respektive värde ska atas. Geom att på teoretisk väg eller geom att studera ett stickprovs fördelig för e variabel ka vi härleda variabel till att tillhöra e viss saolikhetsfördelig. Detta möjliggör aars mycket komplicerade saolikhetsberäkigar vilket i si tur ger möjlighet att dra slutsatser om populatioe som stickprovet dragits ur. Diskret saolikhetsfördelig: är slumpvariabel edast ka ata heltalsvärde Kotiuerlig saolikhetsfördelig: är slumpvariabel ka mätas med flera decimalers oggrahet 54

Diskret saolikhetsfördelig Diskreta saolikhetsfördeligar är saolikhetsfördeligar för variabler som edast ka ata heltalsvärde. De valigaste diskreta saolikhetsfördeligara är uppbyggda av ett eller flera delförsök och för varje delförsök studerar vi om experimetet har lyckats eller ite. Varje delförsök sägs följa Beroullifördelige me ma aväder äve beteckige tvåpuktsfördelig eller säger att utfallet av varje delförsök är biärt. Iebörde är att varje delförsök edast ka ata ett av två möjliga värde (lyckat eller misslyckat delförsök). Exempel: Vi defiierar hädelse A = sex ögo upp vid tärigskast och kastar e tärig. Varje tärigskast är då ett delförsök som atige ka lyckas (sex ögo upp) eller ite lyckas (ej sex ögo upp) och ka därmed betraktas som Beroullifördelat. 55

Biomialfördelig Exempel: Grobarhete hos e viss typ av frö är 60%. Vi platerar 5 frö uder samma förutsättigar och frågar oss: vad är saolikhete för att två av fröa gror? Låt X vara e slumpvariabel. Givet att följade krav är uppfyllda:. alla delförsök är oberoede av varadra. varje delförsök är Beroullifördelat gäller att X är biomialfördelad eligt X ~ bi(; π) Saolikhete för k lyckade utfall blad beräkas då eligt k Pr( X k) k k Beskrivade mått för e biomialfördelad slumpvariabel: E X VarX 56

Hypergeometrisk fördelig Exempel: Erfarehetsmässigt vet admiistratöre vid e arbetsplats med 30 aställda att 60% av de som amäler sig till ett möte dyker upp och vill ha fika. Till ett visst möte amäler sig 5 persoer. Vad är saolikhete för att det räcker för admiistratöre att beställa fika till persoer? Givet att. varje delförsök är Beroullifördelat. stickprovet dras uta återläggig och utgör mer ä 0% av populatioe gäller att slumpvariabel X är hypergeometriskt fördelad eligt X ~ hyp(; π; N) Saolikhete för k lyckade utfall blad beräkas då eligt N N N Beskrivade mått: EX k k Pr X k Var X N N N 57

Poissofördelig Uderlättar beräkig av saolikhete för k lyckade utfall blad för e biomialfördelad slumpvariabel X är är stort (mist 0) och π är litet (midre ä 0.05). X ~ poi(µ) där µ = π Saolikhete för k lyckade utfall blad beräkas eligt Pr( X k) k k! e Exempel: Eligt SCB:s statistik fas det de 4 oktober 0 757 persoer i Sverige med efteramet Gustafsso. Vid samma tidpukt var atalet sveska medborgare 9 48 054 persoer. Vi drar ett slumpmässigt urval om 000 persoer ur befolkigsregistret. Vad är saolikhete för att mist av dessa heter Gustafsso i efteram? Beskrivade mått: E X VarX 58

Geometrisk fördelig Exempel: E perso siglar slat, tills ho första gåge får kroa. Ställ upp saolikhetsfördelige för detta experimet för de första 3 slatsigligara. Givet att. alla delförsök är oberoede av varadra. varje delförsök är Beroullifördelat är slumpvariabel X geometriskt fördelad eligt X ~ geo(π) Saolikhete för att försöket lyckas vid delförsök k bestäms eligt Pr( X k) k Beskrivade mått: E X Var X Krave är desamma vid biomialfördelig och geometrisk fördelig, me frågeställigara olika! 59

Kotiuerlig saolikhetsfördelig Kotiuerliga saolikhetsfördeligar är fördeligar för variabler som ka mätas med måga decimalers oggrahet. Vi käer till att fördelige för e kotiuerlig kvatitativ variabel beskrivs med histogram. Histogramme baseras dock i allmähet på stickprov, me geom att utgå frå histogrammets utseede ka ma sammafatta variabels utseede med e matematisk fuktio, i syfte att geeralisera resultate till populatioe och göra saolikhetsberäkigar om dea. Det ma gör ka likas vid att lägga e mjuk kurva över histogrammet. Kurva kallas för e täthetsfuktio. Vi ka uppfatta täthetsfuktioe som ett histogram, där varje stapel är oädligt tu och där staplara ligger oädligt tätt itill varadra. Täthetsfuktioe kostrueras så att area uder kurva blir : detta gör det möjligt att aväda de för saolikhetsberäkigar. 60

Normalfördelige E mycket viktig kotiuerlig fördelig, därför att de väldigt ofta återkommer i statistiska beräkigar och spelar e mycket stor roll iom statistike. Normalfördelige är symmetrisk krig sitt vätevärde - 3 - - + + + 3 f ( x) e x De fuktio som beskriver ormalfördelige 6

Att söka e saolikhet för givet X Normalfördelig X = avstådet (i mm) frå bollträff till cetrum på putter X ~ N.5; 0 Exempel: Träffar iom 0 mm frå cetrum leder till e bra putt. Hur stor adel av puttara ka förvätas bli bra?

Stadardiserad ormalfördelig E stadardiserad ormalfördelig är e ormalfördelig med vätevärde 0 och stadardavvikelse : Z ~ N 0; Stadardiserigsformel: z x där µ och σ är de ormalfördelade variabel X parametrar och x är det värde vi är itresserade av. 63

Att söka X för e give saolikhet Exempel: Parkerigsgaraget uder ett köpcetrum rymmer ett mycket stort atal bilar. Geom ipasserigssystemet vet ma att det geomsittliga atalet bilar som är ie i garaget vid samma tidpukt är 455, med e stadardavvikelse om 60 bilar. Ma vet också att atalet bilar i garaget går att betrakta som e ormalfördelad slumpvariabel. Ma skulle vilja ta utrymme frå garaget för att utöka butiksyta. Hur måga platser ska ma läma kvar om ma vill att det 95 procet av tide ska fias lediga platser?

Normalfördeligsapproximatio av biomialfördelig Låt X vara e biomialfördelad slumpvariabel eligt X ~ bi(; π) Givet att π( π) > 5 ka X approximeras eligt X N ; Approximatioes syfte: uderlätta beräkigar som aars skulle vara mycket tuga. Exempel: Vi defiierar hädelse A = sexa vid tärigskast och kastar tärig 00 gåger. Vad är saolikhete för att vi ska få sexa fler ä 0 gåger? 65

Normalfördeligsapproximatio av biomialfördelig 5 0 5 0 5 30 X Kotiuitetskorrektio: Metod för att förbättra approximatioe. Take bakom kotiuitetskorrektio är att betrakta varje värde hos de biomialfördelade variabel som ett itervall. Om vi exempelvis vill beräka saolikhete för att fler ä 0 av 00 försök lyckas, så betraktar vi talet som ett itervall [0.5;.5]. Pricipe är att vi ikluderar hela itervallet i saolikhetsberäkige. 66

Kapitel 5 Stickprovsteori Sid 7-5 Uppdaterad av Bertil Wegma

Statistisk iferes Populatio (äve målpopulatio) = de (på logisk väg defiierade) grupp av eheter (ofta idivider) som vi vill udersöka Urvalsram (äve rampopulatio) = förteckig över ehetera i populatioe, ofta ett register Stickprov = de av ehetera i populatioe som vi faktiskt udersöker Urvalseheter = de eheter som blivit utvalda i stickprovet Koste att dra slutsatser om e populatio baserat på ett stickprov (statistisk iferes eller statistisk slutledig) är e av grudpelara iom statistike! Det är också vad merparte av dea kurs kommer att hadla om. 68

Obudet slumpmässigt urval (OSU) (egelska Simple Radom Sample) Stickprovsdragig på ett sådat sätt att alla eheter i populatioe har samma saolikhet N att bli utvalda. Exempel: Vår populatio är alla studeter i ett klassrum, och vi vill udersöka geomsittsvikte i klasse. Att väga alla skulle ta låg tid, och ma vill därför dra ett stickprov om 0 persoer. Det eklaste sättet att göra ett OSU skulle då vara att skriva ed allas am på lappar, lägga dem i e låda och dra 0 lappar ur låda. Då har slumpe valt ut 0 persoer åt oss och alla har lika stor chas att bli utvalda.

På sta-urval E praktisk tillämpig av OSU. Pricipe för ett på sta-urval är att aktivt söka upp respodetera, exempelvis geom att stå på e välfylld gata och tillfråga mäiskor som passerar förbi. Det gäller dock att ta slumpe till hjälp för att få ett slumpmässigt urval! Detta ka vi göra geom att exempelvis tillfråga var tiode perso som passerar oss. Syftet med det är förstås att göra ett urval blad alla idivider som passerar förbi, ite bara de som ser väliga ut och som verkar ha tid. 70

Stratifierat urval (egelska Stratified Radom Sample) När vi vill dra slutsatser om e heteroge populatio (e populatio som ka delas i i udergrupper med avseede på ågo egeskap som vi tror påverkar det som vi vill udersöka). Varje såda grupp kallas för ett stratum, och vi drar ett OSU ur varje stratum och väger ihop resultate. Stratifierat urval ger, om populatioe är heteroge, ormalt lägre stadardavvikelse ä ett OSU och därmed säkrare slutsatser om populatioe. Exempel (forts): Vi delar upp populatioe i kvior och mä, och lägger seda lappara med am i e låda för kvior och e för mä. Seda drar vi 0 lappar ur varje låda.

Felkällor vid stickprovsudersökigar Övertäckig: är det fis eheter i urvalsrame som egetlige ite tillhör målpopulatioe Exempel: Vid studie av vikter blad studeter i ett klassrum aväds klasslista som urvalsram. Me vissa studeter har hoppat av utbildige seda klasslista trycktes de tillhör ite lägre målpopulatioe uta utgör övertäckig. Udertäckig: är det fis eheter i målpopulatioe som sakas i urvalsrame Exempel: Vissa studeter har påbörjat si utbildig seda klasslista trycktes. De tillhör därför målpopulatioe me har ige chas att bli utvalda och utgör därför udertäckig. 7

Felkällor vid stickprovsudersökigar Bortfall: är eheter ite vill (eller ka) mätas. Skilj på Partiellt bortfall: är ehete har åtts, me vi ite fått all iformatio (exempelvis att ite alla frågor på e ekät besvarats) Totalbortfall: är ige iformatio erhållits alls frå ehete Bortfallet ka delas i ytterligare i Slumpmässigt bortfall Systematiskt bortfall Exempel: Socialstyrelse utsäder e ekät om tobaks- och alkoholvaor. Ma ka då täka sig att ykterister och ickerökare är mer beäga att besvara ekäte ä adra. Slutsatser draga frå ekäte riskerar att bli sedvrida eftersom bortfallet ite är slumpmässigt. 73

Felkällor vid stickprovsudersökigar Replikat Replikat beteckar problemet att samma ehet igår flera gåger i urvalsrame. Detta iebär att saolikhete för att de replikerade ehete ska bli utvald är större ä för övriga eheter. Exempel: Om vi avser att studera e populatio av hushåll, me väljer e urvalsram som består av idivider fis det risk för replikat i och med att flera persoer ka tillhöra samma hushåll. 74

Relatio mella populatio och stickprov Populatiosparametrar: beskrivade mått för populatioe. Okäda, och de som vi öskar dra slutsatser om Stickprovsstatistikor: skattigar av populatiosparametrara baserat på stickprov Medelvärde Varias Adel Populatiosparameter x N x N Stickprovsstatistika x x s P x x Tabelle visar vätevärdesriktiga (egelska ubiased) skattigar av populatiosparametrara. 75

Vätevärdesriktighet Vi studerar u relatioe mella stickprovsstatistikor och populatiosparametrar geom att fokusera på relatioe mella stickprovsmedelvärde och populatiosmedelvärde. Låt X vara e slumpvariabel med vilke fördelig som helst. Ia stickprovet har dragits är de första observatioe vi ska göra, X, också e slumpvariabel, med vätevärde E och varias Samma sak gäller för X, X 3,, X : de har vart och ett vätevärde och varias Var X X EX EX E... Var 3 X VarX VarX 3... Vi atar u att vi för variabel X har observerat värdea X, X,, X. X 76

Vätevärdesriktighet (forts) Vi utyttjar räkereglera för lijära variabeltrasformatioer: E X E X i E X X... X EX X... X i... Vi ser att vätevärdet för stickprovsmedelvärdet är populatiosmedelvärdet! Vi har visat att stickprovsmedelvärdet är e vätevärdesriktig skattig av populatiosmedelvärdet. Iebörde i vätevärdesriktighet är alltså att iga systematiska fel görs är stickprovsstatistika aväds för att uppskatta populatiosparameter. På motsvarade sätt ka det visas att S E EP Dock är ite stickprovsstadardavvikelse e vätevärdesriktig skattig av populatiosstadardavvikelse! Felet, som är e systematisk uderskattig, är dock litet och stickprovsstadardavvikelse aväds därför ädå som e skattig av populatiosstadardavvikelse. 77

Medelfel Vilket fel gör vi i geomsitt är vi aväder e stickprovsstatistika som e uppskattig av populatiosparameter? Återige eligt reglera för lijära variabeltrasformatioer: Var X Var X i Var X X... X i VarX VarX... VarX... Härledige visar att är stickprovsstorleke ökar så miskar stickprovsmedelvärdets varias fördelige för stickprovsmedelvärdet blir mer och mer kocetrerad krig. Medelfel för stickprovsmedelvärdet: X Medelfelet är e uppskattig av de geomsittliga osäkerhete är vi aväder e stickprovsstatistika för att uppskatta populatiosparameter 78

Egeskaper hos stickprovsstatistikora Stickprovsmedelvärde Stickprovssumma Stickprovsadel Lägesmått Spridig Medelfel EX VarX E X Var X E P Var P X X P Eftersom respektive i allmähet är okäda skattas de med s respektive p. Exempel stickprovssumma: Flygbolag räkar med att medelvikte på e passagerare är 80 kg med e stadardavvikelse om 5 kg. E viss flygplastyp rymmer 90 passagerare. Totalvikte blad dessa 90 passagerare är exempel på e stickprovssumma. 79

De stora tales lag Ju större stickprov vi drar, desto mer lika blir stickprovsstatistikora populatiosparametrara 80

Sampligfördelig Hur ofta kommer vårt stickprovsmedelvärde att överesstämma med populatiosmedelvärdet, om vi skulle dra måga OSU ur samma populatio? Exempel: Vi studerar ett företag med 00 aställda, och vi är itresserade av medelikomste blad de aställda. Företagets aställda utgör alltså vår populatio, och med hjälp av företagets ekoomiavdelig ka vi faktiskt plocka fram löeivå för samtliga 00 aställda vid e viss tidpukt. Vi åskådliggör löefördelige vid företaget i ett histogram: 35 30 5 Ur löestatistike bestäms medellöe vid företaget till = 465 kr Percet 0 5 0 Histogrammet visar tydligt att populatioe lö för de aställda vid företaget ite ka betraktas som ormalfördelad! 5 0 0 0 30 40 Ikomst (tkr) 50 60 Vilke medellö skulle ett stickprov ge? 8

Sampligfördelig (forts) Låt oss u göra ett teoretiskt experimet: vi drar 50 oberoede stickprov om storleke = 0, beräkar de 50 stickprovsmedelvärdea och åskådliggör stickprovsmedelvärdea i ett histogram. Följade resultat erhålles. x 438 kr Notera beteckige för medelvärde av medelvärde 9.5.0.5 4.0 5.5 7.0 Medelvärde Ikomst i stickprovet (tkr) (tkr) 8.5 30.0 8

Sampligfördelig (forts) Experimetet upprepas för 50 oberoede stickprov om storleke = 0: x 434 kr 3 4 Medelvärde Ikomst i stickprovet (tkr) (tkr) 5 6 83

Sampligfördelig (forts) Slutlige upprepas experimetet för 50 oberoede stickprov om storleke = 30: x 499 kr.6.8 4.0 5. Medelvärde Ikomst i stickprovet (tkr) (tkr) 6.4 84

Sampligfördelig (forts) Fördelige för stickprovsmedelvärdea kallas för e urvalsfördelig. Urvalsfördelige är alltså e förteckig över vilka värde vi ka förväta oss få i vårt urval, och hur ofta de ka förvätas förekomma. Vi ka betrakta urvalsfördelige som e uppskattig av de fördelig som skulle fås om vi åskådliggjorde stickprovsmedelvärdea för samtliga möjliga stickprov av e viss storlek ur populatioe, vilket kallas för e sampligfördelig. 85

Cetrala gräsvärdessatse sampligfördelige blir mer och mer lik e ormalfördelig (trots att populatioe som stickprove drogs ur ite alls var ormalfördelad!) är stickprovsstorleke ökar sampligfördeliges medelvärde hamar allt ärmare populatiosmedelvärdet är stickprovsstorleke ökar Cetrala gräsvärdessatse säger Sampligfördelige för summor eller medelvärde av oberoede slumpvariabler med samma fördelig är approximativt ormalfördelad om är tillräckligt stort Valig tumregel: 30 86

Fördelig för lijära variabeltrasformatioer Lijära variabeltrasformatioer av ormalfördelade slumpvariabler är också ormalfördelade Iebörde i detta är att sampligfördelige för medelvärde, summor och adelar beräkade på observatioer som följer ormalfördelige, geom att de dragits ur e populatio som är ormalfördelad, också är ormalfördelade, och detta oavsett stickprovets storlek. 87

Stickprovsstatistikors fördelig Om 30 gäller, tack vare cetrala gräsvärdessatse oavsett vilke fördelig populatioe som stickprovet dragits ur har, att Stickprovsmedelvärdet X N ; X X Stickprovssumma X N X ; X Om < 30 krävs att populatioe som stickprovet dragits ur är ormalfördelad. Då gäller fortfarade ovaståede formler eftersom lijära variabeltrasformatioer av ormalfördelade slumpvariabler också är ormalfördelade. 88

Stickprovsstatistikors fördelig (forts) För e stickprovsadel där X = atalet eheter i stickprovet med studerad egeskap gäller, givet att p(-p) > 5, att P N P ; P P Detta motiveras eligt följade: X beteckar atalet eheter i stickprovet med studerad egeskap, eller med adra ord atalet lyckade delförsök blad de totalt delförsök som stickprovet utgör. Givet att populatioe som stickprovet har dragits ur är tillräckligt stor gäller då att X är biomialfördelad. Frå kapitel 4 käer vi att biomialfördelige kovergerar mot ormalfördelige är är tillräckligt stor, och att ormalfördeligsapproximatio av biomialfördelige är möjlig om 5 Vi skattar de okäda populatiosadele med P, och sätter alltså som tumregel att sampligfördelige för e stickprovsadel går att betrakta som approximativt ormalfördelad om p p 5 X 89

Exempel Vikte hos jordgubbar har vätevärde 50 gram och stadardavvikelse 5 gram. E låda iehåller 35 jordgubbar. Vad är saolikhete för att de sammalagda vikte av de 35 jordgubbara och låda överstiger 000 gram om låda själv väger 00 gram? 90

Kapitel 6 Iferes om e populatio Sid 53-85 Uppdaterad av Bertil Wegma

Puktskattig och itervallskattig Statistisk iferes om populatiosmedelvärde Puktskattig: att aväda e stickprovsstatistika som e uppskattig av motsvarade populatiosparameter Dock: stickprovsstatistikor är slumpvariabler och atar olika värde för varje stickprov. Hur ska vi hatera de osäkerhete? Vi börjar med att göra två atagade:. stickprovet är draget som ett OSU. Detta garaterar oberoede mella observatioera, vilket är de egeskap vi eftersöker här.. sampligfördelige för stickprovsmedelvärdet ka betraktas som ormalfördelad Om stickprovet är stort (eligt tumregel beståede av mist 30 eheter) ka vi tillämpa cetrala gräsvärdessatse (kapitel 5), vilke säger att sampligfördelige för summor eller medelvärde av oberoede slumpvariabler med samma fördelig är approximativt ormalfördelad om är tillräckligt stort. Om stickprovet är litet, eligt tumregel färre ä 30 eheter, krävs att populatioe som stickprovet dragits ur ka betraktas som ormalfördelad. Ett OSU draget ur e ormalfördelad populatio ger, som vi har lärt oss i kapitel 5, att sampligfördelige för stickprovsmedelvärdet också blir ormalfördelad, och detta oavsett stickprovets storlek. 9

Puktskattig och itervallskattig Statistisk iferes om populatiosmedelvärde Om krave är uppfyllda ka vi bilda ett kofidesitervall för populatiosmedelvärdet: vi lägger ett osäkerhetsitervall krig puktskattige vilket tillåter oss att med e viss säkerhet säga att de okäda populatiosparameter täcks av itervallet. 93

Dubbelsidigt kofidesitervall för populatiosmedelvärde är σ är okäd Givet att stickprovet är draget som ett OSU sampligfördelige för stickprovsstatistika ka betraktas som ormalfördelad bildas ett dubbelsidigt kofidesitervall för populatiosmedelvärdet µ eligt x t ; / s där värdet på t hämtas ur t-fördelige (Appedix B) 94

t-fördelige t-fördelige aväds för att lösa likade typer av problem som ormalfördelige, me lämpar sig är stickprovet är relativt litet och populatiosstadardavvikelse är okäd. t-fördelige är precis som ormalfördelige symmetrisk. t-fördelige defiieras av atalet frihetsgrader, eller eklare uttryckt atalet oberoede bitar av iformatio. Atalet frihetsgrader bestäms av hur mycket data ma har och hur måga bitar av iformatio som de statistiska metodik ma aväder sig av kräver. E viktig egeskap hos t-fördelige är att de ärmar sig (kovergerar mot) ormalfördelige är atalet frihetsgrader ökar. E valig tumregel är att betrakta t-fördelige som approximativt ormalfördelad om stickprovet består av 30 eheter eller fler. Frihetsgrader 5 50 5000 95-5 -4-3 - - 0 3 4 5

Exempel Ett slumpmässigt urval om 40 studeter vid Liköpigs uiversitet ger medelålder. år och stadardavvikelse 4.4 år. Bestäm ett itervall som med 95 procets säkerhet täcker de saa medelålder blad studerade vid Liköpigs uiversitet. 96

Ekelsidiga kofidesitervall för populatiosmedelvärde är är okäd Nedåt begräsat kofidesitervall: Uppåt begräsat kofidesitervall: x t ; x t ; Exempel: Styrelse i e bostadsrättsföreig får i klagomål på att golvvärme i badrumme är för låg. Ma drar ett OSU om 30 badrum blad de omkrig 400 badrum som fis i föreiges fastigheter och mäter golvvärme där. Medeltemperature beräkas till grader och stadardavvikelse till.6 grader. Eergimydighete rekommederar att golvvärme ska ligga på mist 0 grader för att ma ska udkomma problem med fuktskador. Föreligger risk för fuktskador i föreiges badrum? s s 97

Kofidesitervall för populatiosadel Givet att. stickprovet är draget som ett OSU. det gäller att p(-p) > 5 bildas dubbelsidigt kofidesitervall för populatiosadele π eligt p p p z / där värdet på z hämtas ur ormalfördeligstabelle (Appedix B) Nedåt begräsat kofidesitervall: p p p z Uppåt begräsat kofidesitervall: p z p p 98

Exempel I e hälsoekät tillfrågades 00 slumpmässigt utvalda aställda vid ett stort företag om huruvida ma regelbudet motioerar eller ej. Svar erhölls frå 84 aställda och av dessa svarade 65 ja. Bestäm ett 95-procetigt kofidesitervall för adele av de aställda vid det stora företaget som regelbudet motioerar. 99

Hypotesprövig för populatiosmedelvärde är σ är okäd Förutsätts att. stickprovet är draget som ett OSU. sampligfördelige för stickprovsstatistika ka betraktas som ormalfördelad Exempel: I ett OSU omfattade 40 persoer blad medlemmara i ett politiskt parti i e regio är medelålder 4.3 år och stadardavvikelse 7. år. Testa på 5% sigifikasivå om medelålder blad medlemmara i partiet överstiger 45 år. 00

Hypotesprövig om populatiosmedelvärde är σ är okäd Steg : Formulera hypoteser och välj sigifikasivå H 0 : µ = µ 0 Nollhypotes H a : µ > µ 0 H a : µ < µ 0 Tre sorters mothypoteser. Valet av ekelsidig eller dubbelsidig mothypotes bestäms av frågeställige H a : µ µ 0 α = sigifikasivå = riske att förkasta H0 trots att H 0 är sa Valiga värde på α: 5%, % eller 0% (jämför kofidesivå 95%, 99% eller 90%) 0

Hypotesprövig om populatiosmedelvärde är σ är okäd Steg : Bestäm testvariabel t x 0 s / Steg 3: Ska vi tro på H 0 eller H a? Udersök om testvariabel faller i acceptasområde (förkasta ej H 0 ) eller i kritiskt område (förkasta H 0 ) Om H a : µ < µ 0 ligger det kritiska området till väster om det kritiska värdet t -;α Om H a : µ > µ 0 ligger det kritiska området till höger om det kritiska värdet t -;-α Om H a : µ µ 0 har vi kritiska område både till väster och höger om de kritiska värdea som är t -;α/ respektive t -;-α/ Steg 4: Dra slutsats 0

Hypotesprövig för populatiosadel Förutsätter att. Stickprovet dragits som ett OSU. p(-p) > 5 Steg : Formulera hypoteser och välj sigifikasivå H 0 : π = π 0 H a : π > π 0 H a : π < π 0 H a : π π 0 Steg : Bestäm testvariabel z p 0 0 0 03

Hypotesprövig för populatiosadel Steg 3: Ska vi tro på H 0 eller H a? Om H a : π < π 0 ligger det kritiska området till väster om det kritiska värdet z α Om H a : π > π 0 ligger det kritiska området till höger om det kritiska värdet z -α Om H a : π π 0 har vi kritiska område både till väster och höger om de kritiska värdea som är z α/ respektive z -α/ Steg 4: Dra slutsats 04

Exempel I e hälsoekät tillfrågades 00 slumpmässigt utvalda aställda vid ett stort företag om huruvida ma regelbudet motioerar eller ej. Svar erhölls frå 84 aställda och av dessa svarade 65 ja. Udersök om det på 5% sigifikasivå fis belägg för påståedet att adele regelbuda motioärer blad de aställda vid företaget uderstiger 85%. 05

Kofidesitervall för populatiosmedelvärde är σ är käd Förutsätter att. populatiosstadardavvikelse är käd. stickprovet är draget som ett OSU 3. sampligfördelige för stickprovsmedelvärdet går att betrakta som ormalfördelad Dubbelsidigt kofidesitervall: Nedåt begräsat itervall: Uppåt begräsat itervall: I praktike ovaligt att populatiosstadardavvikelse σ är käd! x z / x z x z 06

Hypotesprövig för populatiosmedelvärde är σ är käd Förutsätter samma krav som kofidesitervall för populatiosmedelvärde är σ är käd. Testvariabel z x / 0 Om H a : µ < µ 0 ligger det kritiska området till väster om det kritiska värdet z α Om H a : µ > µ 0 ligger det kritiska området till höger om det kritiska värdet z -α Om H a : µ µ 0 har vi kritiska område både till väster och höger och de kritiska värdea som är z α/ respektive z -α/ 07

Ska vi tro på H0 eller Ha? p-värdesmetode p-värde = saolikhete för att vår testvariabel ska ata ett värde som det vi observerat eller äu lägre ifrå μ 0 sett i de riktig som mothypotese pekar. p-värdet ka tolkas som de gräs (mätt som e saolikhet) mella var vi ka och ite ka förkasta H 0. Om p-värdet är litet är H 0 osaolik: vi är då mer beäga att tro på H a Beslutsregel: om p-värdet < sigifikasivå förkastas H 0 Vid dubbelsidig mothypotes beräkas p-värdet * Exempel: I e hälsoekät tillfrågades 00 slumpmässigt utvalda aställda vid ett stort företag om huruvida ma regelbudet motioerar eller ej. Svar erhölls frå 84 aställda och av dessa svarade 65 ja. Udersök om det på 5% sigifikasivå fis belägg för påståedet att adele regelbuda motioärer blad de aställda vid företaget uderstiger 85% geom att beräka testets p-värde. 08

Relatio mella hypotesprövig och kofidesitervall Om µ 0 (för adelar π 0 ) igår i itervallet ka H 0 ej förkastas. Vid H a : µ < µ 0 (för adelar H a : π < π 0 ) udersöker vi om µ 0 (π 0 ) igår i ett uppåt begräsat kofidesitervall Vid H a : µ > µ 0 (för adelar H a : π > π 0 ) udersöker vi om µ 0 (π 0 ) igår i ett edåt begräsat kofidesitervall Vid H a : µ µ 0 (för adelar H a : π π 0 ) udersöker vi om µ 0 (π 0 ) igår i ett dubbelsidigt kofidesitervall 09

Feltyper och styrka Typ I-fel: Att förkasta H 0 fast H 0 faktiskt är sa Typ II-fel: Att ite förkasta H 0 fast H a faktiskt är sa Sigifikasivå = α: saolikhete (riske) för typ I-fel Beslut baserat på stickprov Saig om populatioe H0 sa H a sa Förkasta H0 Typ I-fel Korrekt beslut Acceptera H0 Korrekt beslut Typ II-fel Det råder ett motsatsförhållade mella riske för Typ I-fel och riske för Typ II-fel: miskar vi sigifikasivå (= riske för Typ I-fel) ökar riske för Typ II-fel. Iom samhällsveteskapera brukar ma ase att α = 0.05, 0.0 eller 0.0 ger e bra avvägig mella typera av fel. 0

Kapitel 7 Jämförelse av två populatioer Sid 86-09

Exempel I ett mediciskt experimet sammakallade ma 80 friska medelålders persoer, som uder tre måader fick pröva ett ytt mediciskt preparat. Syftet med studie var att utreda om preparatet ger förhöjt blodtryck som e biverkig. 40 av persoera fick preparatet, meda 40 fick placebo (ett verkigslöst preparat). Varke patiet eller försöksledare visste uder studietide vem som fick vilket preparat (e så kallad dubbelblid studie). Varje perso fick varje dag mäta sitt blodtryck, och efter tre måader sammaställdes iformatioe och räkades om till geomsittligt blodtryck och stadardavvikelse i respektive grupp. Grupp Atal persoer Geomsittligt blodtryck Aktivt preparat 40 4.5 4.8 Placebo 40 35.9.4 Stadardavvikelse Går det, på 95% kofidesivå, att påvisa ågra skillader i geomsittligt blodtryck mella persoer som fick aktivt preparat och de som fick placebo?

Kofidesitervall för jämförelse av populatiosmedelvärde 3 Krav: vi har dragit två OSU sampligfördeligara för de två stickprovsmedelvärdea ka betraktas som ormalfördelade Dubbelsidigt kofidesitervall: där värdet på t hämtas ur t-fördeliges kolum α/ och med * - frihetsgrader, där * är de mista av och Nedåt begräsat itervall: Uppåt begräsat itervall: / ; * s s t x x ; * s s t x x ; * s s t x x

Kofidesitervall för jämförelse av adelar i två populatioer Krav: vi har dragit två OSU p( p) > 5 för båda stickprove Dubbelsidigt kofidesitervall: där värdet på z hämtas ur ormalfördeligstabelle Nedåt begräsat itervall: Uppåt begräsat itervall: 4 / p p p p z p p p p p p z p p p p p p z p p

Exempel I utvärderige av det ya preparatet (se tidigare exempel) så udersökte ma äve förekomste av sömsvårigheter. Blad de 40 persoera som fått de aktiva substase (grupp ) uppgav 9 att de haft regelbuda sömsvårigheter uder studieperiode. Blad persoera i placebogruppe (grupp ) var motsvarade siffra 6 persoer. Går det på 99% kofidesivå att påvisa att adele persoer med sömsvårigheter är större i gruppe som fått de aktiva substase? 5

Hypotesprövig för jämförelse av populatiosmedelvärde Krav: vi har dragit två OSU sampligfördeligara för de två stickprovsmedelvärdea ka betraktas som ormalfördelade Steg : Välj sigifikasivå och formulera hypoteser H 0 : µ - µ = d 0 där d 0 är de differes vi testar för (ofta sätts d 0 = 0) H a : µ - µ < d 0 H a : µ - µ > d 0 Valet av mothypotes bestäms av problemställige H a : µ - µ d 0 Ofta formuleras ollhypotese så att de tillsammas med mothypotese täcker i hela utfallsrummet. 6

Hypotesprövig för jämförelse av populatiosmedelvärde Steg : Bestäm testvariabel t x x s d s 0 Steg 3: Ska vi tro på H 0 eller H a? Kom ihåg: * är de mista av och Om H a : µ - µ < d 0 ligger det kritiska området till väster om det kritiska värdet t *-; α Om H a : µ - µ > d 0 ligger det kritiska området till höger om det kritiska värdet t *-; -α Om H a : µ - µ d 0 har vi kritiska område både till väster och höger om de kritiska värdea som är t *-; α/ respektive t *-; -α/ Om testvariabel faller i kritiskt område förkastas ollhypotese. Steg 4: Dra slutsats 7

Exempel I ett mediciskt experimet sammakallade ma 80 friska medelålders persoer, som uder tre måader fick pröva ett ytt mediciskt preparat. Syftet med studie var att utreda om preparatet ger förhöjt blodtryck som e biverkig. 40 av persoera fick preparatet, meda 40 fick placebo (ett verkigslöst preparat). Varke patiet eller försöksledare visste uder studietide vem som fick vilket preparat (e så kallad dubbelblid studie). Varje perso fick varje dag mäta sitt blodtryck, och efter tre måader sammaställdes iformatioe och räkades om till geomsittligt blodtryck och stadardavvikelse i respektive grupp. Grupp Atal persoer Geomsittligt blodtryck Aktivt preparat 40 4.5 4.8 Placebo 40 35.9.4 Går det, på 5% sigifikasivå, att påvisa att det geomsittliga blodtrycket är högre i gruppe som fått aktivt preparat? Stadardavvikelse 8