Normalfördelning. Modeller Vi har alla stött på modeller i olika sammanhang. Ex:

Relevanta dokument
Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

S0005M, Föreläsning 2

LUNDS TEKNISKA HÖGSKOLA Institutionen för Elektro- och Informationsteknik

7.5 Experiment with a single factor having more than two levels

Bearbetning och Presentation

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Workplan Food. Spring term 2016 Year 7. Name:

Tentamen MVE301 Sannolikhet, statistik och risk

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Att stödja starka elever genom kreativ matte.

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Lektionsanteckningar 11-12: Normalfördelningen

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Eternal Employment Financial Feasibility Study

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

PRESS FÄLLKONSTRUKTION FOLDING INSTRUCTIONS

Webbregistrering pa kurs och termin

Tentamen i Matematik 2: M0030M.

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

PRESS FÄLLKONSTRUKTION FOLDING INSTRUCTIONS

Writing with context. Att skriva med sammanhang

Webbreg öppen: 26/ /

Arbeta med normalfördelningar

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Högskolan i Skövde (SK, JS) Svensk version Tentamen i matematik

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Quicksort. Koffman & Wolfgang kapitel 8, avsnitt 9

Statistical Quality Control Statistisk kvalitetsstyrning. 7,5 högskolepoäng. Ladok code: 41T05A, Name: Personal number:

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Isolda Purchase - EDI

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

LABORATION 1. Syfte: Syftet med laborationen är att

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Föreläsning G60 Statistiska metoder

Tänder din grill på sextio sekunder. Lights your grill in sixty seconds.

Kurskod: TAMS11 Provkod: TENB 12 January 2015, 08:00-12:00. English Version

Bridging the gap - state-of-the-art testing research, Explanea, and why you should care

F ξ (x) = f(y, x)dydx = 1. We say that a random variable ξ has a distribution F (x), if. F (x) =

Provlektion Just Stuff B Textbook Just Stuff B Workbook

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Grafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:

Tentamen MVE301 Sannolikhet, statistik och risk

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Uttagning för D21E och H21E

Gamla tentor (forts) ( x. x ) ) 2 x1

Tentamen MVE302 Sannolikhet och statistik

ASSEMBLY INSTRUCTIONS SCALE SQUARE - STANDARD

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Exempel på uppgifter från 2010, 2011 och 2012 års ämnesprov i matematik för årskurs 3. Engelsk version

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Tentamen MVE301 Sannolikhet, statistik och risk

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Styrteknik: Binära tal, talsystem och koder D3:1

Rastercell. Digital Rastrering. AM & FM Raster. Rastercell. AM & FM Raster. Sasan Gooran (VT 2007) Rastrering. Rastercell. Konventionellt, AM

Forskningsmetodik 2006 lektion 2

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

EXPERT SURVEY OF THE NEWS MEDIA

STORSEMINARIET 3. Amplitud. frekvens. frekvens uppgift 9.4 (cylindriskt rör)

Hur fattar samhället beslut när forskarna är oeniga?

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

8 < x 1 + x 2 x 3 = 1, x 1 +2x 2 + x 4 = 0, x 1 +2x 3 + x 4 = 2. x 1 2x 12 1A är inverterbar, och bestäm i så fall dess invers.

Assigning Ethical Weights to Clinical Signs Observed During Toxicity Testing

ASSEMBLY INSTRUCTIONS SCALE CIRCLE - STANDARD

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Grafisk teknik IMCDP. Sasan Gooran (HT 2006) Assumptions:

Preschool Kindergarten

Module 6: Integrals and applications

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Module 1: Functions, Limits, Continuity

Rep MEK föreläsning 2

ASSEMBLY INSTRUCTIONS SCALE - SYSTEM

- den bredaste guiden om Mallorca på svenska! -

F9 SAMPLINGFÖRDELNINGAR (NCT

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

LUNDS TEKNISKA HÖGSKOLA Inst. for Elektro- och Informationsteknik. SIGNALBEHANDLING I MULTIMEDIA, ETI265 Inlämningsuppgift 1 (av 2), Task 1 (out of 2)

Metod och teori. Statistik för naturvetare Umeå universitet

Klyvklingor / Ripping Blades.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Support Manual HoistLocatel Electronic Locks

Grundläggande matematisk statistik

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Appendix 1. Swedish translation of the Gastrointestinal Quality of Life Index (GIQLI)

Transkript:

Normalfördelning 1 Modeller Vi har alla stött på modeller i olika sammanhang. Ex: Leksaksbilar Modelljärnvägar Dockskåp 2 En leksaksbil är i vissa avseenden en kopia av en riktig bil. Men den skiljer sig också ifrån en riktig bil på vissa punkter: i regel inte lika stor dörrarna kanske inte kan öppnas motor kanske saknas osv 3 1

Leksaksbilen kan sägas vara en förenkling av en riktig bil, men måste ändå vara tillräckligt naturtrogen på just de punkter som krävs för att vi skall kunna använda den på önskat sätt 4 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall använda modellen till. 5 Exempel Kartor är modeller av den geografiska verkligheten. Vad som finns med på en karta beror på användningsområde. Vi har t.ex. vägkartor ekonomiska kartor topografiska kartor sjökort 6 2

Flygplansmodell i vindtunnel En cirkel som en modell för ett runt bord för att t.ex. beräkna bordets yta Tiden = sträckan / hastigheten Efterfrågefunktion för att beskriva hur efterfrågan på en vara (Y) beror på varans pris (X): Y X, 0 7 Vetenskapliga modeller Modellen utformas så att den baserar sig på och sammanfattar vår teoretiska kunskap om verklighetsområdet Modellen består av ett antal teoretiska begrepp och en beskrivning av hur dessa begrepp är relaterade till varandra 8 Parametriska fördelningar Ibland kan man beskriva variationen i en population genom att använda en matematisk modell. Ett exempel på en sådan modell är normalfördelningen. 9 3

Fördelningarna bestäms ofta av ett fåtal tal, s.k. parametrar. Vet vi t.ex. att en variabels variation i en population på ett tillfredsställande sätt kan beskrivas av en normalfördelning, räcker det med att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en komplett bild av hur stor andel av populationen som finns inom vissa intervall. 10 Normalfördelningsmodellen Den kurva som beskriver hur stor proportion av en population som ligger inom vissa intervall (hur tätt observationerna ligger) kallas för en täthetsfunktion. Andelar räknas som ytor under denna täthetsfunktion. Första gissning: empirisk täthetskurva (dvs histogram) är ungefärlig klockformad normalfördelning är en lämplig modell. 11 Normalfördelning,, Täthetsfunktion (analytisk, överkurs!) En normalfördelad variabel (egenskap), ~,, med medelvärde och standardavvikelse har följande täthetsfunktion. 2 x 1 (1/ 2) f ( x ) e 2 där 3.14159... och x e 2.71828... 12 4

Täthetsfunktion, (grafiskt) Normalfördelningen är klockformad och symmetrisk runt medelvärdet. 13 Effekter av olika medelvärden och standardavvikelser Så här påverkas kurvans utseende av olika standardavvikelser = 2 =3 =4 Så här påverkar olika medelvärden kurvans läge. = 10 = 11 = 12 14 För en normalfördelning gäller följande: Ungefär 68% av fördelningen ligger inom en standardavvikelse från medelvärdet. Ungefär 95% av fördelningen ligger inom två standardavvikelser från medelvärdet (kom ihåg detta!). Ungefär 99.7% av fördelningen ligger inom tre standardavvikelser från medelvärdet. 15 5

Exempel: Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. Då vet vi att ungefär 68% av populationen ligger mellan 85 och 115, ungefär 95 % av populationen mellan 70 och 130 och ungefär 99.7 % av populationen mellan 55 och 145 Ytan till vänster om 70 är ungefär 0.025, dvs andelen under 70 är ungefär 2.5 % 70 100 16 Exempel: Antag att fördelningen av såväl kvinnors som mäns längd i en population kan beskrivas av normalfördelningsmodellen. Kvinnornas medellängd är 165 cm och standardavvikelsen är 6.2 cm. Männens medellängd är 177.4 cm. Hur stor andel av kvinnorna är längre än männens medellängd? Lösning: 95% av kvinnorna ligger max 2 standardavvikelser (2x6.2=12.4) cm ifrån 165 cm. Dvs 95% av kvinnorna har en längd som ligger mellan 152.6 cm och 177.4 cm. Detta innebär att ungefär 2.5% är kortare än 152.6 cm och ungefär 2.5% är längre än 177.4 cm. 17 z värden Antal standardavvikelser som ett värde ligger ifrån medelvärdet kallas ibland för ett z värde. En observation som ligger en standardavvikelse under medelvärdet får alltså z värdet 1. En observation som ligger en standardavvikelse över medelvärdet får z värdet +1. 18 6

Exempel: Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. Ett värde på 70 innebär alltså z= 2. Ett värde på 100 innebär att z blir 0, osv. Ungefär 95% av alla observationerna har ett z värde mellan 2 och +2. 19 Exempel: Jämförelser av IQ Ett vanligt använt IQ test är The Wechsler Adult Intelligence Scale (WAIS). Värden på WAIS för åldersgruppen 20 34 år är approximativt normalfördelade med medelvärdet 110 och standardavvikelsen 25. Även för åldersgruppen 60 64 är värdena approximativt normalfördelade, men med medelvärdet 90 och standardavvikelsen 25. Sarah, som är 30 år, får värdet 135 på WAIS, medan hennes mor, som är 60 år, får värdet 120. Vem av de två har, enligt detta test, högst IQ? Vem av de två ligger högst relativt övriga i sin egen åldersgrupp? 20 Lösning: Sarah har högst IQ. Sarahs IQ ligger en standardavvikelse ovanför medelvärdet, dvs. z=1. Sarahs mors IQ ligger 1.2 standardavvikelser över medelvärdet i hennes åldersgrupp, dvs. z=1.2. (Kan räknas ut på följande sätt: (135 110)/25=1 och (120 90)/25=1.2). Alltså ligger Sarahs mor relativt högre än Sarah. 21 7

Standardnormalfördelningen Om variabeln X är normalfördelad,, så gäller att variabeln Z=(X )/ är standardnormalfördelad, 0,1. Detta innebär att Z är normalfördelad med medelvärdet 0 och standardavvikelsen 1. För standardnormalfördelningen 0,1 finns tabeller med beräknade areor. 22 Exempel: Fortsättning på jämförelse av IQ. Sarah fick x=135, vilket motsvarar z=1.0. Hur stor andel av populationen 20 34 har en IQ som är lägre än Sarahs? Titta i tabellen på bokpärmens insida. Vi ser att z=1.0 ger en yta (dvs. andel) som är 0.8413. Dvs. 84.13 % har en IQ som är lägre än Sarahs. Mamman fick x=120, vilket motsvarar z=1.2. Hur stor andel av populationen 60 64 har en IQ som är lägre än mammans? Titta i tabellen. Vi ser att z=1.2 ger en yta (dvs. andel) som är 0.8849. Dvs. 88.49% har en IQ som är lägre än mammans. 23 The Standard Normal Table Because all Normal distributions are the same when we standardize, we can find areas under any Normal curve from a single table. The Standard Normal Table Table A is a table of areas under the standard Normal curve. The table entry for each value z is the area under the curve to the left of z. 24 8

The Standard Normal Table Suppose we want to find the proportion of observations from the standard Normal distribution that are less than 0.81. We can use Table A: P(z < 0.81) =.7910 Z.00.01.02 0.7.7580.7611.7642 0.8.7881.7910.7939 0.9.8159.8186.8212 25 Normal Calculations Find the proportion of observations from the standard Normal distribution that are between 1.25 and 0.81. Can you find the same proportion using a different approach? 1 (0.1056+0.2090) = 1 0.3146 26 = 0.6854 Normal Calculations How to Solve Problems Involving Normal Distributions Express the problem in terms of the observed variable x. Draw a picture of the distribution and shade the area of interest under the curve. Perform calculations. Standardize x to restate the problem in terms of a standard Normal variable z. Use Table A and the fact that the total area under the curve is 1 to find the required area under the standard Normal curve. Write your conclusion in the context of the problem. 27 9

Inverse Normal Calculations According to the Health and Nutrition Examination Study of 1976 1980, the heights (in inches) of adult men aged 18 24 are N(70, 2.8). How tall must a man be in the lower 10% for men aged 18 24? N(70, 2.8).10? 70 28 Inverse Normal Calculations How tall must a man be in the lower 10% for men aged 18 24?.10 N(70, 2.8) Look up the closest probability (closest to 0.10) in the table. Find the corresponding standardized score. The value you seek is that many standard deviations from the mean.? 70 z.07.08.09 1.3.0853.0838.0823-1.2.1020.1003.0985 1.1.1210.1190.1170 29 Z = 1.28 Inverse Normal Calculations How tall must a man be in the lower 10% for men aged 18 24? N(70, 2.8) Z = 1.28.10? 70 We need to unstandardize the z-score to find the observed value (x): x z x x = 70 + z(2.8) = 70 + [(1.28 ) (2.8)] = 70 + (3.58) = 66.42 z A man would have to be approximately 66.42 inches tall or less to place 30 in the lower 10% of all men in the population. 10

Normal Quantile Plots One way to assess if a distribution is indeed approximately normal is to plot the data on a normal quantile plot. The data points are ranked and the percentile ranks are converted to z-scores with Table A. The z-scores are then used for the x axis against which the data are plotted on the y axis of the normal quantile plot. 31 If the distribution is indeed normal the plot will show a straight line, indicating a good match between the data and a normal distribution. Systematic deviations from a straight line indicate a nonnormal distribution. Outliers appear as points that are far away from the overall pattern of the plot. Normal quantile plot Ordna data från minsta till största. Exempel: Antag att vi har 20 observationer. Låt oss beteckna dem x 1, x 2,,x 20, där x 1 är minst och x 20 störst. Antag vidare att x 1 = 165 och x 2 = 167. Beräkna varje observations percentil. Forts. exempel: x 1 = 165 är femte percentilen, x 2 = 167 är tionde percentilen, osv. Beräkna motsvarande percentiler i standardnormalfördelningen. Forts. exempel: z 1 = 1,645 är femte percentilen, z 2 = 1,282, osv. Plotta x värdena (på y axeln) mot z värdena (på x axeln). Forts. exempel: Vi plottar alltså 165 mot 1,645, 167 mot 1,282, osv. Om normalfördelningen är en bra modell för att beskriva våra data så bör observationerna i vårt diagram ligga ungefär efter en rät linje. 32 Normal Quantile Plots Good fit to a straight line: the Curved pattern: the data are not distribution of rainwater ph normally distributed. Instead, it values is close to normal. shows a right skew: a few individuals have particularly long survival times. Normal quantile plots are complex to do by hand, but they are standard features in most statistical software. 33 11

Hur vet vi om normalfördelningen är en bra modell? Några verktyg som vi kan använda: Histogram. Ser fördelningen ut som en normalfördelning? Stam blad diagram. Ser fördelningen ut som en normalfördelning? Normal Quantile Plot (så kallade QQ plot or PPplot). 34 12