Normalfördelning 1 Modeller Vi har alla stött på modeller i olika sammanhang. Ex: Leksaksbilar Modelljärnvägar Dockskåp 2 En leksaksbil är i vissa avseenden en kopia av en riktig bil. Men den skiljer sig också ifrån en riktig bil på vissa punkter: i regel inte lika stor dörrarna kanske inte kan öppnas motor kanske saknas osv 3 1
Leksaksbilen kan sägas vara en förenkling av en riktig bil, men måste ändå vara tillräckligt naturtrogen på just de punkter som krävs för att vi skall kunna använda den på önskat sätt 4 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall använda modellen till. 5 Exempel Kartor är modeller av den geografiska verkligheten. Vad som finns med på en karta beror på användningsområde. Vi har t.ex. vägkartor ekonomiska kartor topografiska kartor sjökort 6 2
Flygplansmodell i vindtunnel En cirkel som en modell för ett runt bord för att t.ex. beräkna bordets yta Tiden = sträckan / hastigheten Efterfrågefunktion för att beskriva hur efterfrågan på en vara (Y) beror på varans pris (X): Y X, 0 7 Vetenskapliga modeller Modellen utformas så att den baserar sig på och sammanfattar vår teoretiska kunskap om verklighetsområdet Modellen består av ett antal teoretiska begrepp och en beskrivning av hur dessa begrepp är relaterade till varandra 8 Parametriska fördelningar Ibland kan man beskriva variationen i en population genom att använda en matematisk modell. Ett exempel på en sådan modell är normalfördelningen. 9 3
Fördelningarna bestäms ofta av ett fåtal tal, s.k. parametrar. Vet vi t.ex. att en variabels variation i en population på ett tillfredsställande sätt kan beskrivas av en normalfördelning, räcker det med att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en komplett bild av hur stor andel av populationen som finns inom vissa intervall. 10 Normalfördelningsmodellen Den kurva som beskriver hur stor proportion av en population som ligger inom vissa intervall (hur tätt observationerna ligger) kallas för en täthetsfunktion. Andelar räknas som ytor under denna täthetsfunktion. Första gissning: empirisk täthetskurva (dvs histogram) är ungefärlig klockformad normalfördelning är en lämplig modell. 11 Normalfördelning,, Täthetsfunktion (analytisk, överkurs!) En normalfördelad variabel (egenskap), ~,, med medelvärde och standardavvikelse har följande täthetsfunktion. 2 x 1 (1/ 2) f ( x ) e 2 där 3.14159... och x e 2.71828... 12 4
Täthetsfunktion, (grafiskt) Normalfördelningen är klockformad och symmetrisk runt medelvärdet. 13 Effekter av olika medelvärden och standardavvikelser Så här påverkas kurvans utseende av olika standardavvikelser = 2 =3 =4 Så här påverkar olika medelvärden kurvans läge. = 10 = 11 = 12 14 För en normalfördelning gäller följande: Ungefär 68% av fördelningen ligger inom en standardavvikelse från medelvärdet. Ungefär 95% av fördelningen ligger inom två standardavvikelser från medelvärdet (kom ihåg detta!). Ungefär 99.7% av fördelningen ligger inom tre standardavvikelser från medelvärdet. 15 5
Exempel: Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. Då vet vi att ungefär 68% av populationen ligger mellan 85 och 115, ungefär 95 % av populationen mellan 70 och 130 och ungefär 99.7 % av populationen mellan 55 och 145 Ytan till vänster om 70 är ungefär 0.025, dvs andelen under 70 är ungefär 2.5 % 70 100 16 Exempel: Antag att fördelningen av såväl kvinnors som mäns längd i en population kan beskrivas av normalfördelningsmodellen. Kvinnornas medellängd är 165 cm och standardavvikelsen är 6.2 cm. Männens medellängd är 177.4 cm. Hur stor andel av kvinnorna är längre än männens medellängd? Lösning: 95% av kvinnorna ligger max 2 standardavvikelser (2x6.2=12.4) cm ifrån 165 cm. Dvs 95% av kvinnorna har en längd som ligger mellan 152.6 cm och 177.4 cm. Detta innebär att ungefär 2.5% är kortare än 152.6 cm och ungefär 2.5% är längre än 177.4 cm. 17 z värden Antal standardavvikelser som ett värde ligger ifrån medelvärdet kallas ibland för ett z värde. En observation som ligger en standardavvikelse under medelvärdet får alltså z värdet 1. En observation som ligger en standardavvikelse över medelvärdet får z värdet +1. 18 6
Exempel: Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. Ett värde på 70 innebär alltså z= 2. Ett värde på 100 innebär att z blir 0, osv. Ungefär 95% av alla observationerna har ett z värde mellan 2 och +2. 19 Exempel: Jämförelser av IQ Ett vanligt använt IQ test är The Wechsler Adult Intelligence Scale (WAIS). Värden på WAIS för åldersgruppen 20 34 år är approximativt normalfördelade med medelvärdet 110 och standardavvikelsen 25. Även för åldersgruppen 60 64 är värdena approximativt normalfördelade, men med medelvärdet 90 och standardavvikelsen 25. Sarah, som är 30 år, får värdet 135 på WAIS, medan hennes mor, som är 60 år, får värdet 120. Vem av de två har, enligt detta test, högst IQ? Vem av de två ligger högst relativt övriga i sin egen åldersgrupp? 20 Lösning: Sarah har högst IQ. Sarahs IQ ligger en standardavvikelse ovanför medelvärdet, dvs. z=1. Sarahs mors IQ ligger 1.2 standardavvikelser över medelvärdet i hennes åldersgrupp, dvs. z=1.2. (Kan räknas ut på följande sätt: (135 110)/25=1 och (120 90)/25=1.2). Alltså ligger Sarahs mor relativt högre än Sarah. 21 7
Standardnormalfördelningen Om variabeln X är normalfördelad,, så gäller att variabeln Z=(X )/ är standardnormalfördelad, 0,1. Detta innebär att Z är normalfördelad med medelvärdet 0 och standardavvikelsen 1. För standardnormalfördelningen 0,1 finns tabeller med beräknade areor. 22 Exempel: Fortsättning på jämförelse av IQ. Sarah fick x=135, vilket motsvarar z=1.0. Hur stor andel av populationen 20 34 har en IQ som är lägre än Sarahs? Titta i tabellen på bokpärmens insida. Vi ser att z=1.0 ger en yta (dvs. andel) som är 0.8413. Dvs. 84.13 % har en IQ som är lägre än Sarahs. Mamman fick x=120, vilket motsvarar z=1.2. Hur stor andel av populationen 60 64 har en IQ som är lägre än mammans? Titta i tabellen. Vi ser att z=1.2 ger en yta (dvs. andel) som är 0.8849. Dvs. 88.49% har en IQ som är lägre än mammans. 23 The Standard Normal Table Because all Normal distributions are the same when we standardize, we can find areas under any Normal curve from a single table. The Standard Normal Table Table A is a table of areas under the standard Normal curve. The table entry for each value z is the area under the curve to the left of z. 24 8
The Standard Normal Table Suppose we want to find the proportion of observations from the standard Normal distribution that are less than 0.81. We can use Table A: P(z < 0.81) =.7910 Z.00.01.02 0.7.7580.7611.7642 0.8.7881.7910.7939 0.9.8159.8186.8212 25 Normal Calculations Find the proportion of observations from the standard Normal distribution that are between 1.25 and 0.81. Can you find the same proportion using a different approach? 1 (0.1056+0.2090) = 1 0.3146 26 = 0.6854 Normal Calculations How to Solve Problems Involving Normal Distributions Express the problem in terms of the observed variable x. Draw a picture of the distribution and shade the area of interest under the curve. Perform calculations. Standardize x to restate the problem in terms of a standard Normal variable z. Use Table A and the fact that the total area under the curve is 1 to find the required area under the standard Normal curve. Write your conclusion in the context of the problem. 27 9
Inverse Normal Calculations According to the Health and Nutrition Examination Study of 1976 1980, the heights (in inches) of adult men aged 18 24 are N(70, 2.8). How tall must a man be in the lower 10% for men aged 18 24? N(70, 2.8).10? 70 28 Inverse Normal Calculations How tall must a man be in the lower 10% for men aged 18 24?.10 N(70, 2.8) Look up the closest probability (closest to 0.10) in the table. Find the corresponding standardized score. The value you seek is that many standard deviations from the mean.? 70 z.07.08.09 1.3.0853.0838.0823-1.2.1020.1003.0985 1.1.1210.1190.1170 29 Z = 1.28 Inverse Normal Calculations How tall must a man be in the lower 10% for men aged 18 24? N(70, 2.8) Z = 1.28.10? 70 We need to unstandardize the z-score to find the observed value (x): x z x x = 70 + z(2.8) = 70 + [(1.28 ) (2.8)] = 70 + (3.58) = 66.42 z A man would have to be approximately 66.42 inches tall or less to place 30 in the lower 10% of all men in the population. 10
Normal Quantile Plots One way to assess if a distribution is indeed approximately normal is to plot the data on a normal quantile plot. The data points are ranked and the percentile ranks are converted to z-scores with Table A. The z-scores are then used for the x axis against which the data are plotted on the y axis of the normal quantile plot. 31 If the distribution is indeed normal the plot will show a straight line, indicating a good match between the data and a normal distribution. Systematic deviations from a straight line indicate a nonnormal distribution. Outliers appear as points that are far away from the overall pattern of the plot. Normal quantile plot Ordna data från minsta till största. Exempel: Antag att vi har 20 observationer. Låt oss beteckna dem x 1, x 2,,x 20, där x 1 är minst och x 20 störst. Antag vidare att x 1 = 165 och x 2 = 167. Beräkna varje observations percentil. Forts. exempel: x 1 = 165 är femte percentilen, x 2 = 167 är tionde percentilen, osv. Beräkna motsvarande percentiler i standardnormalfördelningen. Forts. exempel: z 1 = 1,645 är femte percentilen, z 2 = 1,282, osv. Plotta x värdena (på y axeln) mot z värdena (på x axeln). Forts. exempel: Vi plottar alltså 165 mot 1,645, 167 mot 1,282, osv. Om normalfördelningen är en bra modell för att beskriva våra data så bör observationerna i vårt diagram ligga ungefär efter en rät linje. 32 Normal Quantile Plots Good fit to a straight line: the Curved pattern: the data are not distribution of rainwater ph normally distributed. Instead, it values is close to normal. shows a right skew: a few individuals have particularly long survival times. Normal quantile plots are complex to do by hand, but they are standard features in most statistical software. 33 11
Hur vet vi om normalfördelningen är en bra modell? Några verktyg som vi kan använda: Histogram. Ser fördelningen ut som en normalfördelning? Stam blad diagram. Ser fördelningen ut som en normalfördelning? Normal Quantile Plot (så kallade QQ plot or PPplot). 34 12