Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som negativa, små fel vanligare än stora fel. Mätningar ligger symmetriskt runt sanna värdet.. Systematiska fel Ett systematiskt skift av mätningar på grund av något okänt fel, tex mätinstrumentet ej nollställt. Slumpmässig spridning runt en punkt som inte är det riktiga värdet Slumpmässig, stor spridning runt det riktiga värdet. Sant värde Sant värde Sant värde Slumpmässig spridning runt det riktiga värdet Slumpmässiga fel lättare att beräkna! Ex sidan 58
Medelvärde, median och typvärde Medelvärde = x = m + m +.+ m N N Medelvärdet skrivs även som µ = Summan antalet = N i= N m i Median delar en fördelning i mittenvärdet i en sorterad fördelning. Tex:, 4, 9,, 55, 9 ger median = (jämt antal mätpunkter),4,9,,4,55,9 ger median = (udda antal mätpunkter) Typvärdet är det vanligaste värdet i en fördelning Längden på forskningsmetodikstudenter N= 5,55,56,56,58,6,64,66,69,69,7,7,7,7,74,75,75,75,78,8,8,9,9 Medelvärde = x = =7,cm 5+55 +..+9 +9 = 9 Median Typvärde Median = 7cm Maxvärde(typvärde) = 75cm Medelvärde => Mean Median=> Median Typvärde => Mode Exempel 4,5 sidan 5
Extremvärden, utliggare, Outliers Extremvärden (outliers, på svenska kan man även se termen utliggare ) kan påverka medelvärdet men påverkar ofta inte median och typvärde Behandlingen av extremvärden är grannlaga. Oftast uppstår de p g a något mätfel, men de kan också dölja den stora upptäckten. Extremvärde Mätfel? Upptäckt? Exempel sidan 5
Viktade medelvärden När vissa mätvärden har större betydelse än andra använder man ett viktat medelvärde: (x i vikt i ) X viktat = vikt i i Viktade medelvärden används när man bestämt sig för att tillmäta vissa mätpunkter en större vikt än andra, det kan t.ex. röra sig om medelbetyg (där man kan välja att ge större vikt åt ämnen som är särskilt relevanta för en utbildning). Ett vanligt tillfälle då man använder sig av viktade medelvärden är när man lägger samman mätresultat med olika storlekar på felen, I det läget finns det en väl definierad procedur för hur dessa skall viktas samman, så att de värden som har den lägsta osäkerheten bidrar mest till det gemensamma medelvärdet. Exempel 7 sidan 54 Spridningen av en fördelning Spridningen av mätpunkterna ger information om mätningen Fullvidd, avståndet från lägsta till högsta värdet Kvartiler, delar upp datamängden i 4 lika stora delar Percentiler, delar upp datamängden i lika stora delar Slumpmässig, stor spridning runt det riktiga värdet. Sant värde Sant värde Sant värde Viktigaste måttet: Variansen = Slumpmässig spridning runt det riktiga värdet i (x x i ) N Exempel sidan 6 4
Undre kvartil Kvartiler Övre kvartil N= 5,55,56,56,58,6,64,66,69,69,7,7,7,7,74,75,75,75,78,8,8,9,9 Median Standardavvikelsen Standardavvikelsen är definierad som: stan dardavvikelsen(σ) = var iansen = σ(sigma) i (x x i ) N Standardavvikelsen har samma enhet (sort) som mätvärdena Exempel 4 sidan 7 5
Tumregel för standardavvikelsen Standardavvikelsen fullvidden/4 Vet vi standardavvikelsen är: Lägsta värdet medelvärde - *standardavvikelsen Högsta värdet medelvärde + *standardavvikelsen Exempel 6 sidan 75 Mät längden på en parkeringsficka Gör en mängd mätningar och observera fördelningen av mätningarna Sann längd 48, cm L 6
Efter 5 mätningar medel 45.85 sigma 8.9.5.5.5 4 6 8 4 4 44 46 48 5 5 Efter mätningar medel 4.6 sigma 8.5.5.5.5 4 6 8 4 4 44 46 48 5 5 7
5 Efter mätningar medel 44.4 sigma.5 4.5 4.5.5.5.5 4 6 8 4 4 44 46 48 5 5 7 Efter 5 mätningar medel 47. sigma 7.7 6 5 4 4 6 8 4 4 44 46 48 5 5 8
8 Efter 5 mätningar medel 48.69 sigma 6.9 7 6 5 4 4 6 8 4 4 44 46 48 5 5 5 Efter mätningar medel 48.56 sigma 6.8 5 5 4 6 8 4 4 44 46 48 5 5 9
Centrala Gränsvärdesatssen Om vi summerar ett stort antal slumpmässigt fördelade tal, så kommer den asymptotiska fördelningen för summan att gå mot en normalfördelning Detta gäller oberoende av hur fördelningen ser ut för de termer som ingår i summan!! Normalfördelningen: σ x f(x;µ,σ) = πσ exp (x µ) σ Centrala Gränsvärdesatssen Medelvärdet av fördelningen av medelvärden närmar sig det sanna medelvärdet, µ, för stora N Standardavvikelsen för fördelningen av medelvärden går mot σ µ = σ N De stora talens välsignelse
.5.5.5 Efter 5 mätningar medel 45.85 sigma 8.9 4 6 8 4 4 44 46 48 5 5 9 8 7 6 5 4.5.5.5 Efter mätningar medel 4.6 sigma 8.5 4 6 8 4 4 44 46 48 5 5..4.6.8..4.6.8 5 4.5 4.5.5.5.5 Efter mätningar medel 44.4 sigma.5 4 6 8 4 4 44 46 48 5 5 4 8 6 4 8 6 4....4.5.6.7.8.9 7 6 5 4 Efter 5 mätningar medel 47. sigma 7.7 4 6 8 4 4 44 46 48 5 5 9 8 7 6 5 4 8 7 6 5 4 Efter 5 mätningar medel 48.69 sigma 6.9 4 6 8 4 4 44 46 48 5 5 -.5 - -.5.5.5.5.5 5 5 5 Efter mätningar medel 48.56 sigma 6.8 4 6 8 4 4 44 46 48 5 5 σ 45 44 4 Standardavvikelse 4 4 4 4 6 8 45 σ µ = σ N 4 5.9 45 4 45 8. 4.5.5.7.4 4 Föreläsning 4Forskningsmetodik 6 HT 6 8 Exempel: Summera tal slumpvis fördelade mellan och Ursprungliga fördelningen Se figur 5.7 sidan! - - 4 5 6 Summan av två tal Summan av fem tal Summan av tjugo tal När kan man förvänta sig en normalfördelning?. De flesta värdena skall ligga nära medelvärdet.. Positiva avvikelser är lika vanliga som negativa.. Stora avvikelser är mindre sannolika än små. 4. Den totala avvikelsen för ett mätvärde är summan av en mängd slumpmässiga bidrag. (Strikt matematiskt kommer punkt 4, tack vare centrala gränsvärdessatsen leda till de övrig punkterna)
Föreläsning Forskningsmetodik HT 6 Normalfördelningen Maximum vid x=µ.8 Symmetrisk runt x= µ.6 Ytan under kurvan normaliserad till sigma= sigma=.5 sigma=..4..8.6.4. - Föreläsning - - Forskningsmetodik HT 6
Normalfördelningen För att förstå hur centralvärdessatsen sats kan hjälpa oss så kan vi betrakta resultatet av en mätning som beroende av det sanna värdet till vilket har adderats slumpvisa bidrag från ett stort antal okända (och en del kända) felkällor. Det totala felet i mätningen är då summan av alla dessa bidrag. Enligt centrala gränsvärdessatsen är då denna summa (= det totala mätfelet) normalfördelat. Resultatet av ett stort antal mätningar kommer då att spridas runt det sanna värdet, och fördelningen av mätningarna runt detta kommer att ha en form som ges av normalfördelningen. Eftersom normalfördelningen är normaliserad - så kan man tolka ytan under kurvan mellan två x-värden som den relativa frekvensen för att mätvärdena skall hamna I detta intervall. The 68-95-99,7 regel 68% av datapunkterna faller inom standardavvikelse från medelvärdet 95% av datapunkterna faller inom standardavvikelse från medelvärdet 99,7% av datapunkterna faller inom standardavvikelse från medelvärdet Exempel sid 99, ex sid
Ett standardiserat mått på avvikelsen ges av (mätvärdet - medelvärdet) / standardavvikelsen. I boken kallas detta mått standard score eller z-score. Vanligare i naturvetenskap är kanske termen pull z = mätvärde medelvärde stan dardavvikelsen z är antalet standardavvikelser som mätvärdet avviker från medelvärdet Exempel sidan 4