Viktade medelvärden igen statistiska + systematiska fel Korrelationer Icke-linjära funktioner Enheter sammanfattning Dimensionsanalys Residualplottar 2010-10-05 Fysikexperiment, 7.5 hp 1 1
Viktat medelvärde (rep) Problem 7.5 i läroboken Student A: Student B: R = w R i w 1 dr = w i i i R A = 72 ± 8 Ω R B = 78 ± 5 Ω 75 78 + 2 2 = 8 5 = 76,3 1 1 + 2 2 8 5 1 = = 4,2 1 1 + 2 2 8 5 Vikt. medelv. R = 76,3 ± 4,2 Ω % Comsol snutt % Viktat medelvärde: r=[72 78]; dr=[8 5]; w=1./dr.^2; wr=w.*r; R=sum(wr)/sum(w) dr=1/sqrt(sum(w)) Uppgift 7.5b A hade mätt 10 gånger, dvs 8 = x / 10 Antag att felet skall minskas från 8 till 5, dvs 5 = x / N. Vad bör då N vara? Vi får att N = 8 2 / 5 2 * 10 = 25,6 Svar: A bör göra 26 mätningar. Anm. Obs att x är standardavvikelsen som (teoretiskt) har samma värde oberoende av antalet mätningar. 2010-10-05 Fysikexperiment, 7.5 hp 2 Ett enkelt exempel på beräkning av ett viktat medelvärde. Det är mycket vanligt att man i förväg måste beräkna hur många mätningar som krävs för en viss precision. Detta skall ni kunna! Skriv också en generell funktion i ComsolScript som läser in en godtyckligt lång datavektor och felvektor och som beräknar det viktade medelvärdet och dess fel. Vad gör vi om vi känner storleken av ett systematiskt fel i våra data? 2
Motivering för kvadratisk addition Systematiskt + statistiskt fel g = 9.83 ± 0.46 ± 2 ( stat) 0.39( syst) m/s Nytt fel : 0.46 2 + 0.39 g = 9.83 ± 0.60 m/s Den kvadratiska additionsregeln motiveras av att om de systematiska felen i många experiment fördelar sig 50-50 runt medelvärdet så utgör den blå och den röda grenen en approximation av den gröna fördelningen med bredden ~0,6. 2 2 50 exp. 8 st < 9 = 0.60 100 exp. 9.83±0.6 8 st i svansarna 0.6 0.46 stat. 50 exp. 8 st > 10.7 2 x 0.39 2010-10-05 Fysikexperiment, 7.5 hp syst. fel 3 Antag att vi har en fördelning av 50 försök (blå eller röd kurva). Nu antar vi att där finns ett systematiskt fel på 0,39. Hade vi vetat storlek och tecken på det systematiska felet skulle våra mätningar ha resulterat i den blå eller den röda fördelningen. Betrakta den gröna fördelningen (100 försök) vars medelvärde sammanfaller med det sanna värdet (den gröna fördelningen innehåller således inget systematiskt fel). Notera att den röda(gröna) fördelningen har en standardavvikelse som är lika med det statistiska felet 0,46. Som synes av figuren har den gröna fördelningen getts den beräknade standardavvikelsen 0,60 (som beräknats genom en kvadratisk addition av felen). Som ett resultat av detta sammanfaller den gröna fördelningen med den röda och den blå i svansarna. Den procentuella andelen i intervallet ( t σ) 1,4 0,6 är 84%, dvs vi har 16 mätningar som hamnar utanför detta intervall (t-värdet har beräknats som 1,4 = (0,46 + 0,39)/0,6.). Detta motsvarar nära nog precis det antal mätningar som hamnar utanför -1 σ för den blå (8) och +1 σ för den röda (8) fördelningen. Med den kvadratiska additionen av felen får vi alltså i medeltal lika många mätningar som ligger utanför -1 σ för den blå och +1 σ för den röda fördelningen och den gröna kurvan med felet 0,6 kan alltså representera detta faktum. Notera även att vi inte från början kan veta på vilken sida vår fördelning (röd eller blå) kommer att ligga. Man kan således se det som att det gröna experimentet (100 försök) delats i två experiment med demokratiska 50 försök i varje. 3
Anpassning av rät linje Problem 8.2 i läroboken Här skall vi anpassa en rät linje till fyra givna punkter med hjälp av Comsol. % Fit a line to a number of measurements (unweighted) x=[-3-1 1 3]; y=[3 4 8 9]; n=length(x); % ej n=4; xs=sum(x); ys=sum(y); xys=sum(x.*y); xxs=sum(x.*x); d=n*xxs-xs^2; A=(xxs*ys-xs*xys)/d; B=(n*xys-xs*ys)/d; 2010-10-05 Fysikexperiment, 7.5 hp 4 Enkel ComsolScript kod för att lösa uppgiften. Det är god programmeringsstandard att låta N beror på längden av inputdata i stället för att ersätta N med 4 överallt i koden. På så sätt blir koden mer generell och kan återanvändas för godtyckligt långa inputdata. 4
Anpassning av rät linje Problem 8.2 i läroboken Anpassa funktionen y = A + Bx till datapunkterna punkter x y x*y x*x (y - A - B*x)^2 1-3 3-9 9 0,09 2-1 4-4 1 0,81 3 1 8 8 1 0,81 4 3 9 27 9 0,09 Summa 0 24 22 20 1,8 D= 80 A= 6 B= 1,1 sy= 0,948683 0,95 sa= 0,474342 sb= 0,212132 0,22 Oviktad, linjär anpassning av rät linje till fyra punkter kan enkelt utföras för hand eller i EXCEL. Felet i y = 1 (konstant). 2010-10-05 Fysikexperiment, 7.5 hp 5 Här har vi använt EXCEL och beräknar parametrarna A och B med hjälp av formlerna i läroboken. Vi beräknar även felen i A och B samt den bästa uppskattningen av osäkerheten i de enskilda y-värdena (s y enligt formel 8.15 i läroboken). 5
Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i ett spridningsdiagram (eng. scatterplot). Varje observationspar blir en punkt i diagrammet. De två variablerna i diagrammet nedan synes vara korrelerade. Korrelationen kan vara positiv eller negativ samt karakteriseras av ett visst mått: korrelationskoefficienten. Figur 9.1 i boken Exam score y 120 100 80 60 40 20 0 0 50 100 150 Homework score x När värdet på storheten på x-axeln ökar ser det ut som att även värdet på y-axeln ökar vi har en positiv korrelation! Men hur trovärdigt är detta samband? Finns det någon objektiv värdering? 2010-10-05 Fysikexperiment, 7.5 hp 6 Vi skall nu studera fördelningar som inte helt uppenbart är en entydigt linjär funktion om det inte finns en underliggande teori som säger att det skall vara ett linjärt samband. 6
Korrelationskoefficienten Med vilken grad av sannolikhet kan vi påstå att det finns ett samband? Svaret ges av korrelationskoefficientens (r) egenskaper. Vi definierar r genom: r = σ σ x xy σ y r = ( xi x )( yi y ) 2 ( x x ) ( y y ) eller ekvivalent som (se problem 9.10 i Taylor) r = i xi yi N x y 2 2 2 2 ( xi N x )( yi N y ) i 2 2010-10-05 Fysikexperiment, 7.5 hp 7 Den vanligaste korrelationskoefficenten är produktmomentkorrelationskoefficienten. Den kallas ofta Pearsons korrelationskoefficient efter upphovsmannen, den brittiske statistikern Karl Pearson (1857 1936). 7
Korrelationskoefficienten Korrelationskoefficienten, r, definieras som: σ xy r = σ σ x y = N i= 1 N ( x )( ) i= i x yi y 1 2 N ( x x) ( y y) i i= 1 För variabler som har en linjär relation kommer r att ligga nära ±1 (idealt exakt lika med ±1), linjära relationer med positiv riktningskoefficient har r = 1 (oavsett storleken på riktningskoefficienten) och samband med negativ riktningskoefficient har r = -1. i 2 2010-10-05 Fysikexperiment, 7.5 hp 8 Nu träder den bistra sanningen fram! De statistiska variablerna Homework score (som vi också skulle kunna kalla Home work ) och Examination score är inte okorrelerade! I detta fall finner vi det naturligt att ju mer arbete man lägger ner på en kurs hemma desto bättre går det på tentamen. I andra fall kan ett samband vara svårare att inse. För att avgöra om det finns ett sådant samband finns verktyget korrelationskoefficient som är definierat ovan. Storheten σ xy kallas kovariansen och definieras i analogi med varianserna σ. Vi noterar att då kovariansen är noll så är korrelationskoefficienten noll, dessutom ges korrelationskoefficientens tecken av tecknet på kovariansen. Den räta linjen är en oviktad anpassning till datapunkterna. 8
Exempel med stor spridning 8,0% 2010-10-05 Fysikexperiment, 7.5 hp 9 Finns det någon korrelation här (verkliga data hämtade från fysiklinjen)? Diagrammet anger tentamenspoäng i respektive ämnen. Bilden är lite oklar så vi måste göra en beräkning. 9
Exempel med stor spridning = 8,0% Över hälften av resultaten (7 av 12) visar en tydlig korrelation. Totalt är sannolikheten mindre än ca 8% för att r skall vara större än 0,53. Vi kan misstänka att det finns en korrelation med tillfälliga misslyckanden. Dags att studera Appendix C i läroboken 2010-10-05 Fysikexperiment, 7.5 hp 10 Korrelationskoefficienten blir 0,53. I den matematiska statistiken kan vi beräkna med vilken sannolikhet data är korrelerade med en given korrelationskoefficient och ett givet antal datapunkter. Det är dags att studera Appendix C i Taylor. Vi går in på raden med N = 12 och finner att sannolikheten är 9,8% för r = 0,5 0ch 3,9% för r = 0,6. Enkel interpolation ger oss värdet 8,0% för r = 0,53. Om r blir lite större, minskar sannolikheten för att data är okorrelerade. En konventionellt vald gräns för en sannolik (möjlig) korrelation går vid 5%, om sannolikheten kryper ner mot 1% talar vi om en signifikant (stark) korrelation. Våra data ligger på gränsen till en möjlig korrelation mellan betygen. 10
Exempel på beräkning av r Låt oss ta ett exempel: Korrelation mellan antal sidor per kapitel och antal problem (Taylor). Kapitel 2 3 4 5 6 7 8 9 10 11 12 N= 11 x Sidantal 23 35 18 34 6 6 19 14 15 12 18 x= 18.18 y Anta problem 31 50 28 37 7 9 26 16 22 21 17 y= 24.00 x^2 529 1225 324 1156 36 36 361 196 225 144 324 sum= 4556.00 y^2 961 2500 784 1369 49 81 676 256 484 441 289 sum= 7890.00 x*y 713 1750 504 1258 42 54 494 224 330 252 306 sum= 5927.00 r = 0.942736541 I diagramform: Antal problem per kapitel Taylors bok 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 Antal sidor per kapitel 2010-10-05 Fysikexperiment, 7.5 hp 11 Verifiera mina räkningar och visa att sannolikheten för att data är okorrelerade är (mycket) mindre än 0,3%. 11
Problem 9.12 i läroboken Den linjära korrelationskoefficienten (r) Studera följande tabell som anger sambandet mellan studieresultat och resultat från läxarbete eller i grafisk form Table 9.3. Student's scores Student, i 1 2 3 4 5 6 7 8 9 10 Homework, x i 90 60 45 100 15 23 52 30 71 88 Exam, yi 90 71 65 100 45 60 75 85 100 80 Figur 9.1 i boken Exam score y 120 100 80 60 40 20 0 0 50 100 150 Homework score x 2010-10-05 Fysikexperiment, 7.5 hp 12 Problem 9.12 i läroboken visualiserat. 12
Problem 9.12 i läroboken N x i y i x i 2 Exempel på uppställning av data för uträkning. Vi finner att r 10 = 0,78. Vad betyder det? Funktionen P N ( r > r N ) anger sannolikheten att r > r N för N datapunkter om dessa är fullständigt okorrelerade! Funktionen är vanligen tabellerad och vi finner från tabell C (sidan 291 i läroboken) sannolikheterna (i procent): 2010-10-05 Fysikexperiment, 7.5 hp 13 y i 2 x i y i 1 90 90 8100 8100 8100 2 60 71 3600 5041 4260 3 45 65 2025 4225 2925 4 100 100 10000 10000 10000 5 15 45 225 2025 675 6 23 60 529 3600 1380 7 52 75 2704 5625 3900 8 30 85 900 7225 2550 9 71 100 5041 10000 7100 10 88 80 7744 6400 7040 57,4 77,1 40868 62241 47930 r = 0,78 N 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 10 100 78 58 40 25 14 7 2 0,5 < 0,5 0 r 0 0,8% x y sum x 2 sum y 2 sum xy Om 1% < P N < 5% anser vi att vi har ett sannolikt samband! Om P N < 1% anser vi att vi har ett högst troligt samband! Räkningarna kan enkelt göras i EXCEL men skriv gärna en funktion i ComsolScript som gör samma beräkning. Observera interpolationen i tabellen 0,5+(0,8-0,78)*(2-0,5)/(0,8-0,7)=0,8. 13
Problem 9.14 i läroboken Uppgift 9.14 i läroboken. Korrelation mellan 100 m sprinterlopp och 1500 m lopp Spelare 1 2 3 4 5 6 7 8 N= x 100 m 12 11 13 14 12 15 12 16 x= y 1500 m 280 290 220 260 270 240 250 230 y= x^2 y^2 x*y sum= sum= sum= r = Problem 9.14 i Taylor 1500 m 310 290 270 250 230 210 190 y = -9,8204x + 383,89 170 150 10 12 14 16 18 100 m 2010-10-05 Fysikexperiment, 7.5 hp 14 Här kan ni träna själva! 14
Programmeringsuppgift Skriv en funktion i ComsolScript som beräknar parametrarna i den viktade minstakvadratmetoden (y = A + k x): Funktionen kallas med: [A da k dk]=linfitw(x,y,dy) I linfitw.m filen: function [A da k dk]=linfitw(x,y,dy) kod 2010-10-05 Fysikexperiment, 7.5 hp 15 En programmeringsuppgift. Denna funktion skall ni senare använda i laboration 2. 15
Exponentfunktioner I Följande exponentialfunktioner är exempel på ickelinjära funktion i x och vi kan inte direkt använda viktad linjär anpassning. I Q N = I 0 e = 0 Q e = N 0 e µ x tτ µ t (absorption av strålning) (RC-krets) (radioaktivt sönderfall) 2010-10-05 Fysikexperiment, 7.5 hp 16 Exempel på icke-linjära funktioner. De kan enkelt lineariseras genom logaritmering. 16
Linearisering genom logaritmering Ofta förekommer samband av typen: y = f(x) = aÿ x b, där a och b är konstanter som skall bestämmas. För fysikaliska samband är parametern b ofta ett hel- eller halvtal. Låt oss istället se på funktionen z = log y = log a + bÿ log x. Denna ekvation är linjär i de nya variablerna z och log x. En viktad linjär anpassning till denna funktion ger oss parametrarna A = log a med felet da, samt b med felet db. Hur beräknar du felet i a? 2010-10-05 Fysikexperiment, 7.5 hp 17 Observera att även om felen i variabeln y är konstanta, så är felen i variabeln z = ln y inte konstanta utan förändras med y och lika med dz = dy/y. Vad blir felet i parametern a? 17
Linjär anpassning Residualplott (Ex. 1) 2010-10-05 Fysikexperiment, 7.5 hp 18 Det händer ofta att datapunkterna ligger mycket nära den anpassade funktionen. Detta innebär att det är svårt att se hur bra anpassningen är. I det undre diagrammet har skillnaden mellan ett mätvärde och den anpassade räta linjens värde för motsvarande höjdvärde beräknats. Dessa avvikelser skall normalt sprida sig runt 0 och vara N(0,1) fördelade. Fördelen med denna residualplott är att y-skalan expanderar och avvikelserna och felen syns tydligt (i detta fall är emellertid felen stora nog för att synas även i den övre plotten). 18
Linjär anpassning Residualplott (Ex. 2) 2010-10-05 Fysikexperiment, 7.5 hp 19 Här är ett annat exempel. I den övre figuren kan man inte se hur punkterna ligger i förhållande till den anpassade linjen och inte heller felen. I residualplotten är dessa väl synliga och vi ser dessutom att datapunkterna inte ligger på en rät linje i detta fall. Ickelineariteten är mycket liten och syns inte med blotta ögat den finns där emellertid och visar på något (icke önskad) egenskap hos antingen mätutrustningen eller den fysikaliska storhet man mäter på. 19
Enheter och enhetssystem Storhet = Mätetal x enhet Längd (L) = 100 m Ström (I) = 0,529 A Hastighet (v) = 90 km/tim Enhetssystem (SI) Definitionen bör baseras på någon i naturen förekommande företeelse Internationellt användbara Relaterat till decimalsystemet 2010-10-05 Fysikexperiment, 7.5 hp 20 Lite repetition igen. 20
SI-systemets grundenheter Längd: En meter (m) är den sträcka, som ljuset tillryggalägger i absolut vakuum under 1/299 792 458 sekund. Massa: Ett kilogram (kg) är lika med massan av den internationella kilogramprototypen. Tid: En sekund (s) är varaktigheten av 9 192 631 770 perioder av den strålning, som motsvarar övergången mellan de två hyperfinnivåerna i grundtillståndet hos atomen cesium 133. Elektrisk ström: En ampere (A) är storleken av den konstanta elektriska ström som, då den genomflyter två parallella, raka ledare med oändlig längd och försumbart, cirkulärt tvärsnitt och placerade på ett avstånd av en meter från varandra i tomrum, åstadkommer mellan dessa ledare en kraft lika med 2 10-7 newton för varje meter ledare. Termodynamisk temperatur: En kelvin (K) är bråkdelen 1/273,16 av den termodynamiska temperaturen vid vattnets trippelpunkt. Ljusstyrka: En candela (cd) är ljusstyrkan i en given riktning från källa, som utsänder monokromatisk strålning med frekvensen 540 10 12 hertz och vars strålningsstyrka i denna riktning är 1/683 watt per steradian. Materiemängd: En mol (mol) är materiemängden i ett system innehållande lika många systemelement som det finns atomer i 0,012 kilogram kol 12. 2010-10-05 Fysikexperiment, 7.5 hp 21 21
Supplement till SI-systemet Supplement Planvinkel radian rad rymdvinkel steradian sr Härledda enheter Volym V = L 3 [m 3 ] Hastighet v = s/t [m/s] Kraft F = ma [kg m/s 2 = N] Arbete W=F L [Nm = J = Ws] Tryck p =F/A [N/m 2 = Pa] Tilläggsenheter Tid min, timme, dag Längd ljusår, ångström (Å) Volym liter Energi Ws, kwh 2010-10-05 Fysikexperiment, 7.5 hp 22 22
Dimensionsanalys Mycket ofta finner vi i fysiken samband av typen α y = a b där α, β, γ... kan vara antingen postiva eller negativa. Erfarenhetsmässigt är naturen "snäll"i den bemärkelsen att exponenterna är hel eller halvtal. Låt oss ta ett exempel: Tiden för en pendelrörelse - vi antar att den beror på pendelns längd, massa och tyngdaccelerationen: t = Al α m β g γ där A är en dimensionslös konstant. Fysikalisk storhet Symbol Dimension Enhet tid t T s längd l L m massa m M kg tyngdaccelerationen g L/T 2 m/s 2 γ 1 α β L α + γ β 2γ 1 α + γ β 2γ Vi får sambanden: T = L M = L M T eller s = m kg s 2 T 0 = α + γ 1 1 l 0 = β γ =, α = dvs t = A 2 2 g 1= 2γ 2010-10-05 Fysikexperiment, 7.5 hp 23 β c γ... Förberedande övning inför laboration 2. Notera att exponenten för massan blir 0 och M 0 1, dvs T är oberoende av massan. 23
Dimensionsanalys (forts) Ett kapillärrör sänks ner i en vätska. Experimentellt ser man att vätskan stiger i röret (om den väter glaset). Följande storheter bör vara relevanta för effekten: Fysikalisk storhet Symbol Dimension Enhet stighöjden h L m rörets radie r L m ytspänning γ M/T 2 kg/s 2 vätskans densitet ρ M/L 3 kg/m 3 tyngdaccelerationen g L/T 2 m/s 2 kontaktvinkel θ - - Identifiering av exponenterna ger : 1 = a 3c + d a = 1+ 2c 0 = b + c b = c 0 = 2b 2d d = c Vi söker ett samband : h a b c d e = Cr γ ρ g θ Vi har dimensionsambandet : a L = L ( MT ) ( ML ) ( LT 2 b 3 c 2 Vi kan alltså i princip nöja oss med att experimentellt undersöka hur stighöjden h beror av rörets radie r. Man finner att a γ = -1och h = C, (med C = 2cosθ från teorin) rρg ) d 2010-10-05 Fysikexperiment, 7.5 hp 24 Ett annat exempel. Man finner att alla variabler behöver inte varieras. 24
Atombombsexplosion ρ R R ET = k ρ 2 1 5 The Trinity explosion, 0.025 seconds after detonation. The fireball is about 200 meters wide. 2010-10-05 Fysikexperiment, 7.5 hp 25 Hur kan man uppskatta energin i en atombombsexplosion? Försök visa sambandet ovan. E är den utlösta energin, T är tiden för eldklotet att nå ut till radien R och rho är luftens densitet (det medium som står emot explosionen). Man kan tänka sig en motsvarande sfärisk utvidgning av energin under markytan, men nu med 1000 gånger högre densitet (rho). Trinity was the first test of technology for a nuclear weapon. It was conducted by the United States on July 16, 1945, at a location 35 miles (56 km) southeast of Socorro, New Mexico, on what is now White Sands Missile Range, headquartered near Alamogordo. Trinity was a test of an implosion-design plutonium bomb. The Fat Man bomb, using the same conceptual design, was dropped on Nagasaki, Japan, a few weeks later. The Trinity detonation was equivalent to the explosion of around 20 kilotons of TNT and is usually considered as the beginning of the Atomic Age. Trotyl eller trinitrotoluen (TNT) är ett explosivt, fast ämne som används som sprängmedel. 1 kg TNT motsvarar ca 4x10 6 J). 20 kton TNT motsvarar då 8x10 13 J (motsvarar medelenergibehovet för ca 1000 medelstor villor i Sverige under ett år). 25