Statistik 1/18/2013. Det finns tre slags lögn: lögn, förbannad lögn och statistik. - vad, varför, hur, vem, när och jaså

Relevanta dokument
Lektionsanteckningar 11-12: Normalfördelningen

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Hypotestestning och repetition

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Parade och oparade test

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Hur skriver man statistikavsnittet i en ansökan?

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 12: Regression

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Statistik och epidemiologi T5

Följande resultat erhålls (enhet: 1000psi):

Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Musselmatematik eller Stormusselstatistik

7.5 Experiment with a single factor having more than two levels

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

F3 Introduktion Stickprov

Hur man tolkar statistiska resultat

Grundläggande matematisk statistik

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Samplingfördelningar 1

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Gamla tentor (forts) ( x. x ) ) 2 x1

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 12: Repetition

, s a. , s b. personer från Alingsås och n b

Repetitionsföreläsning

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Statistik för teknologer, 5 poäng Skrivtid:

Tentamen i matematisk statistik

Metod och teori. Statistik för naturvetare Umeå universitet

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik KTH. Formelsamling i matematisk statistik

FÖRELÄSNING 8:

7.3.3 Nonparametric Mann-Whitney test

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

F9 SAMPLINGFÖRDELNINGAR (NCT

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Examinationsuppgifter del 2

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

EXAMINATION KVANTITATIV METOD vt-11 (110204)

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Statistisk försöksplanering

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Medicinsk statistik II

Tentamen för kursen. Linjära statistiska modeller. 20 mars

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Multipel Regressionsmodellen

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Medicinsk statistik I

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Statistik 1 för biologer, logopeder och psykologer

Skrivning i ekonometri torsdagen den 8 februari 2007

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 7. Statistikens grunder.

2. Test av hypotes rörande medianen i en population.

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

TMS136. Föreläsning 11

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TMS136. Föreläsning 4

Transkript:

Statistik - vad, varför, hur, vem, när och jaså Lite historisk bakgrund Olika typer av data Olika typer av fördelningar Transformationer Hypotesprövning Variation och varians Från teori till verklighet Det finns tre slags lögn: lögn, förbannad lögn och statistik Samuel Langhorne Clemens (Mark Twain) 1835-1910 1

Benjamin Disraeli 1804-1881 Naturvetenskapen med sin statistik måste man lära sig att förstå. Människans tänkande kan lättare ta till sig resultatet av något vi själva provat, eller det grannen rekommenderar. Alltså spelar det ofta ingen roll vad vetenskapen säger.. Olav Hammer professor i religionshistoria vid Syddansk universitet i Odense 2

Psykologisk forskning visar att statistik är något av det mest ointuitiva som finns Olav Hammer professor i religionshistoria vid Syddansk universitet i Odense Statistik Statistik 3

Statistik Pierre de Fermat Mats Parner. Jakten på det kritiska antalet. Forskning och framsteg nr 6, 2000, sid 21-23. Sannolikhetslära http://www.matteboken.se (OERHÖRT grundläggande) http://www.miljostatistik.se/ http://stattrek.com/tutorials/statistics-tutorial.aspx http://www.math.yorku.ca/scs/statresource.html http://www.anselm.edu/homepage/jpitocch/biostats/biostatshist.html 4

Olika typer av data: Parametriska mätdata Ordinala mätdata Nominella värden Parametriska mätdata mätdata angivna på ett specifikt sätt där varje steg på mätskalan är lika stort. Exempel: ökningen (i centimeter) från 2 till 3 centimeter är lika stor som ökningen från 789 till 790 centimeter. Typiska parametriska variabler: Längd Vikt Tid Yta Antal Volym Temperatur Parametriska, men småluriga variabler: ph Decibel Parametriska mätdata Kontinuerliga variabler Diskreta variabler (categorical data) 5

Parametriska mätdata Kontinuerliga variabler kan anta ett obegränsat antal värden, lika gärna 8000 som 8,3333. Alla tänkbara tal kan finnas med. Typiska exempel är tätheter av öring vid elfiske eller längden på de enskilda fiskarna man fångat. Denna typ av variabler kallas också intervalldata eller kvantitativa data. Parametriska mätdata Diskreta variabler (categorical data). Variabler som bara kan anta vissa fixa värden. Ett exempel kan vara antalet fångade arter som bara kan anta heltalsvärden; 1, 2, 3 Men även för denna grupp av värden kan man beräkna ett medelvärde; om det fanns två arter vid ett tillfälle och tre vid ett annat kan man säga att det i medeltal fanns 2,5 arter, även om inga halva arter finns. Ordinala mätvärden mätvärden angivna på ett specifikt sätt men där stegen på mätskalan är olika stora. Exempel: klassning av lokaler (0=dåligt, 1=hyfsat, 2=bra), och dels sådana som bara betecknar olika saker som inte direkt kan sättas i en storleksmässig relation till varandra. Notera att för ordinala data finns olika punkter på skalan, men vi kan inte säga att ökningen från 0 till 1 är lika stor som från 1 till 2. 6

Ordinala mätvärden Luriga variabler ( pseudo-parametriska ): Mohrs hådhetsskala Beauforts skala Domarpoäng vid idrotter (t.ex. simhoppning) Trofiska nivåer VIX-klass VIX-klass?? Varför är det en lurig variabel? 1 2 3 4 5 0 0,081 0,274 0,467 0,749 1)Det är inte jämna steg i klassindelningen (finns anledning till detta) 2)Det blir gränsproblem om man räknar medel på klasserna. VIX-klass?? Varför är det en lurig variabel? 1 2 3 4 5 0 0,081 0,274 0,467 0,749 Antag att du elfiskat ett vatten i fem år och fått dessa värden för VIX: 0,25 0,26 0,35 0,24 0,26 medel=0,272 VIX-klass: 2 2 3 2 2 medel=2,2 7

VIX-klass?? Varför är det en lurig variabel? 1 2 3 4 5 0 0,081 0,274 0,467 0,749 Antag att du elfiskat ett vatten i fem år och fått dessa värden för VIX: 0,25 0,26 0,45 0,24 0,26 medel=0,292 VIX-klass: 2 2 3 2 2 medel=2,2 VIX-klass?? Varför är det en lurig variabel? 0.54 Råne älv 0.52 0.50 4 VIX 0.48 0.46 0.44 0.42 3 Medel av årsmedel Medel för 167 fisken 0.40 1994 1996 1998 2000 2002 2004 2006 2008 VIXklass, medel för 167 fisken: 2,47 VIXklass, medel av årsmedel: 3,47 Nominella värden (namnvariabler) värden utan inbördes ordning. Exempel: färg, fiskart, kön, vegetationstyp, krona/klave och liknande. 8

Parametriska data är alltid att föredra eftersom de kan hanteras med bättre och mer avancerade statistiska metoder, men det är inte alltid möjligt att använda dem eftersom fältdata inte är insamlade på det sättet.. Ett exempel: Det är besvärligt att mäta vattnets strömhastighet varje gång man är ute och elfiskar, och därför nöjer man sig med en skattning: lugnt-strömt-forsande Olika fördelningar 9

Sannolikhetsfördelningar (probability distributions) Abraham de Moivre 1738 Carl Friedrich Gauss 1809 Normalfördelning Z= 1 s 2p e -½[(Y-m)/s]2 Normalfördelning 1 Z= s 2p e -½[(Y-m)/s]2 Normalfördelningen har två delar som kan variera; medelvärdet (m) och standardavvikelsen (s). Det finns alltså oändligt många normalfördelningar, spetsiga, platta, smal, breda 10

0.8 Probability 0.7 0.6 0.5 0.4 0.3 s=0.5 s=1.0 0.2 0.1 0.0 s=2.0-4 -2 0 2 4 OBS! Vid stora stickprov 50% av fallen finns inom m±0.674s 95% av fallen finns inom m±1.960s 99% av fallen finns inom m±2.576s Normalfördelning Z= 1 s 2p e -½[(Y-m)/s]2 Varför bara vid stora stickprov? Jo, medelvärdet (m) och standardavvikelsen (s) gäller den stora totala (i teorin oändliga) populationen, vad vi vanligtvis har är en skattning av dessa parametrar, betecknas oftast x och s. 11

Varför bara vid stora stickprov? Vid små stickprov (under 120) gäller 95% av fallen finns inom x ± t 0.05 s Varför normalfördelning? Normalfördelningen förekommer ofta i naturen i samband med naturlig variation. Normalfördelningen är enkel att räkna på ur matematisk synpunkt. Normalfördelningen uppkommer ofta som en gränsfördelning, exempelvis säger centrala gränsvärdessatsen att medelvärden av stora stickprov ofta är normalfördelade. Begrepp som används för att beskriva fördelningar (i förhållande till normalfördelning) Skevhet (skewness) Skev åt höger Skev åt vänster 12

Begrepp som används för att beskriva fördelningar (i förhållande till normalfördelning) Toppighet (kurtosis) Spetsig leptokurtic Flack platykurtic Vad är det som ska vara normalfördelat? Om man tittar på detta så är ju inte totaldata normalfördelat, snarare bimodalfördelat. Hur i hela världen går detta ihop? Ett tal består av TR delar y= X + x + R Totalmedelvärdet Avvikelse för gruppens medelvärde från totalmedel-värdet Avvikelse från gruppens medelvärde = residual Och det är residualerna som ska vara normalfördelade!!!! 13

Ett exempel Du har två grupper som du vill jämföra Totalmedelvärdet = 4 Ena gruppens medelvärde = 3, avvikelse = -1 Andra gruppens medelvärde = 5, avvikelse =1 Du har ett värde = 7 från den ena gruppen: 7=4+(-1)+R = ena gruppens medelvärde Ett exempel Du har två grupper som du vill jämföra Totalmedelvärdet = 4 Ena gruppens medelvärde = 3, avvikelse = -1 Andra gruppens medelvärde = 5, avvikelse =1 Du har ett värde = 7 från den ena gruppen: 7=4+(-1)+4 = ena gruppens medelvärde Residualen är således = 4 Krångligt? Men då är det ju helt underbart att nästan alla statistikprogram räknar ut detta åt dig. Allt du behöver göra är att tala om att du vill ha residualerna. Sedan kan du plotta residualerna (stapeldiagram) och kolla på dem. Detta räcker oftast. Om man vill och har lust kan man använda något av programmens tester för normalfördelning. Om man gör det ska man veta att man testar huruvida det avviker från normalfördelning, här betyder således signifikans att det inte är normalfördelat. 14

Andra fördelningar än normalfördelning som är vanliga: 1. Binomialfördelning 2. Poissonfördelning 3. Gammafördelning 1. Binomialfördelning (OBS! ej att förväxla med bimodalfördelning) När det finns två möjliga utfall krona/klave, fångst/inte fångst, pojke/flicka, Analyseras med c2-test eller logistisk regression 2. Poissonfördelning Slumpmässig fördelning av antal (en riktig Poissonfördelning består endast av heltal) Antal per provruta, elfiskestation, etc. Analyseras med generalized linear models, men vanlig ANOVA kan oftast användas efter logtransformering. 15

2.0 Medel = 4/timme 1.5 Antal timmar 1.0 0.5 0.0 0 2 4 6 8 10 12 14 Antal/timme 2.0 Medel = 4/timme 1.5 Antal timmar 1.0 0.5 0.0 0 1 2 3 4 5 Antal/timme 6q 2.5 2.0 Medel = 4/provruta slump klump Antal provrutor 1.5 1.0 0.5 0.0 0 2 4 6 8 10 12 14 Antal/provruta 16

8 Medel = 4/provruta Antal provrutor 6 4 2 slump spridd 0 0 2 4 6 8 10 12 14 Antal/provruta 3. Gammafördelning Vid ackumulerande värden när dammar, sjöar eller vattendrag fylls på efter regn Analyseras med generalized linear models, men vanlig ANOVA kan användas särskilt vid stora stickprovsstorlekar (>120). Vid mindre stickprovstorlekar kan man log-transformera. 17

Transformationer 1,15685 14,35 2,66375 3,78814 205,92 Parametriska data Ordinala data Nominella data normalfördelade icke normalfördelade Variansanalys (ANOVA) Linjär regression t-test X X X c2-test X X X X Mann-Whitney U-test X X X Kolmogorov-Smirnov X X X (X) Sign test X X X (X) Matched-pair sign rank test X X X Mätdata måste vara normalfördelat för att man ska kunna använda parametriska metoder, det räcker inte med att det är parametriskt. Vad kan man göra om det inte är normalfördelat? Man kan transformera data. 18

Tätheter av öring (och andra arter) vid elfiske är ofta skevt fördelade åt höger, det vill säga det finns enstaka extremt höga värden. För att kunna bearbeta dessa data med parametriska metoder måste de transformeras (omformas) så att de bättre följer en normalfördelning. Har man datamaterial som är skeva åt höger brukar det hjälpa att logaritmera data. Då dras höga extremvärden närmare mitten. Det går dock inte att logaritmera 0. Därför lägger man till värdet 1 till alla data. De transformerade nya datavärdena erhålls alltså genom: Transformerad täthet = Log10(ursprunglig täthet + 1) 19

En del kanske inte är bekväma med att transformera data, är det inte att luras? Nix: 1. Man behandlar alla tal lika 2. Man ändrar inte talens inbördes ordning 3. Man kan använda ett bättre test (parametriskt) 4. Man talar om vad man gjort i publikationen Att transformera är egentligen inte värre än att konvertera Fahrenheit till Celsius C = ( F 32) 5/9 F = ( C 9/5) + 32 Hypotesprövning 20

Hypotesprövning I stort sett i all statistisk analys testar man något som kallas h 0 - hypotesen. Vad är då detta? Tänk dig att du ska jämföra två grupper. Såsom analyserna är uppbyggda testar man sannolikheten för att medelvärdena för de två grupperna är lika: x 1 x 2 = 0 h 0 -hypotesen är såldes att de två grupperna (eller alla grupperna om det är fler än två) är lika, det är ingen skillnad mellan dem, skillnaden = 0. Vad säger då ett signifikansvärde? Om p=0,05 betyder det att om de sanna medelvärdena för de två grupperna är lika så får man detta utfall eller värre/bättre utfall i 5% av fallen och detta bara av slumpen. 21

Eller tänk dig att du tar små stickprov från två stora populationer som är helt identiska, det är ingen skillnad mellan dem. Och du upprepar detta flera gånger (du har tydligen väldigt tråkigt ) Du kommer att få rackarns många värden för skillnaden mellan populationerna. Dessa värden kommer med största sannolikhet visa en normalfördelning runt medelvärdet = 0 (populationerna är ju helt identiska) 0.4 0.3 0.2 0.1 0.0-4 -2 0 2 4 0.4 0.3 2,5% 0.2 av värdena kommer att hamna här 0.1 och 2,5% av värdena kommer att hamna här 0.0-4 -2 0 2 4 22

0.4 0.3 0.2 0.1 0.0-4 -2 0 2 4 Tillsammans blir det 5% av observationerna som ligger i svansarna på fördelningen. Hamnar ett värde där säger vi att det är signifikant skillnad mellan populationerna. Varför har man fastnat för a=0,05??? Det innebär ju att man var 20:e gång förkastar en sann h 0 -hypotes. Man tar alltså en risk; det är ju faktiskt så att man i 5% av fallen säger att det är skillnad fast det kanske inte är det. Det finns två diken längs vägen 23

Noll-hypotes Accepteras Förkastas Noll-hypotes Sann Korrekt beslut Typ I fel Falsk Typ II fel Korrekt beslut Ej signifikant Signifikant Noll-hypotes Accepteras Förkastas Noll-hypotes Sann Korrekt beslut Typ I fel Falsk Typ II fel Korrekt beslut Om det är så att vi är livrädda för att förkasta en sann h 0 -hypotes så är detta lätt avhjälpt. Vi bara sänker a till 0.01, 0.001, eller ännu lägre. Men om det är så att det faktiskt finns en skillnad mellan de populationer man studerar, ökar risken - med minskande a - att man accepterar en falsk h 0 - hypotes. Denna sannolikhet betecknas med b. Noll-hypotes Accepteras Förkastas Noll-hypotes Sann Korrekt beslut Typ I fel Falsk Typ II fel Korrekt beslut 1 - b kallas power. Power uttrycks ofta i % och anger hur ofta man upptäcker skillnaden mellan populationer om den uppmätta skillnaden är sann, givet ett visst a-värde och en viss stickprovsstorlek. 24

Noll-hypotes Accepteras Förkastas Noll-hypotes Sann Korrekt beslut Typ I fel Falsk Typ II fel Korrekt beslut Det man kommit fram till är att a=0,05 och power = 80% är en bra avvägning. Hypotesprövning Egentligen ska man inte nöja sig med att acceptera eller förkasta h 0 -hypotesen. Man ska ha en alternativ hypotes, som man brukar beteckna med h 1. Men eftersom man i biologiskt arbete i stort sett alltid nöjer sig med att det är skillnad eller inte så hamnar detta ofta i bakgrunden. Variation och varians variation (latin varia tio 'omväxling', av va rio 'vara olika', 'förändra(s)'), inom biologi avser variation förekomsten av skillnader mellan individer eller mellan kategorier av individer. Den genetiska variationen är en av grundförutsättningarna för det naturliga urvalet och därmed för den biologiska utvecklingen (evolutionen). Nationalencyklopedin 25

Det som står över bråkstrecket kallas kvadratsumma [sum of squares (SS)] Variation och varians Variansen = Ett enskilt värde Medelvärdet Stickprovstorleken Variansen, ett spridningsmått Standardavvikelsen, också ett spridningsmått Medelvärdets standardfel, standard error of mean, inte ett spridningsmått Ponera; du har en stor population som du tar stickprov ur. Vad händer med s om du fördubblar din stickprovsstorlek och vad händer med S.E.??? 26

Däremot används S.E. för att beräkna konfidensnivåer (confidence levels) och det är himla behändigt. Anta att du har tre grupper och beräknar medelvärde och konfidensnivåerna (95%). Medelvärde nedre konf nivån övre konf nivån 3,5 2,9 4,1 4,4 3,9 4,9 5,6 5,0 6,2 Så plottar man det hela: Konfidensintervallet för grupp 3 överlappar varken med grupp 1 eller 2, det innebär att grupp 3 är signifikant skild från grupp 1 och 2 Konfidensintervallen överlappar mellan grupp 1 och 2, det innebär att de INTE är signifikant skilda åt. 6.5 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 1 2 3 Från teori till verklighet 27

Om det nu är så att man kan beräkna power utifrån a, stickprovstorlek, skillnader mellan medelvärden och spridningsmått - kan man då inte räkna baklänges, t.ex. beräkna hur stor stickprovsstorleken måste vara för att man ska kunna säga något om något? Eller hur många år måste man provfiska ett vattendrag för att kunna säga något säkerheten i bedömningen av antalet arter, VIX, mm.?? JAJAMENSAN! Hög Precision Låg Noggrannhet (träffsäkerhet) Hög Låg 28

VIX 167 år 6 år S.D. = 0,228 0,037 Ökad precision S.D. = 0,023 VIX 27 år S.D. = 0,078 Fy vad uppgivenhetsgrundande - måste man verkligen ha så hög precision? 0.8 0.7 Dybäcksån 0.6 VIX 0.5 0.4 0.3 0.2 0.1 1990 1992 1994 1996 1998 2000 2002 29

0.8 0.7 0.6 Dybäcksån r ² =0.047 VIX 0.5 0.4 0.3 0.2 0.1 1990 1992 1994 1996 1998 2000 2002 1.0 Dybäcksån 0.8 0,749 5 VIX 0.6 0.4 0,467 4 3 0.2 0.0 0,274 0,081 1990 1992 1994 1996 1998 2000 2002 2 1 1.0 Dybäcksån 0.8 0,749 5 VIX 0.6 0.4 0,467 4 3 0.2 0.0 0,274 0,081 1990 1992 1994 1996 1998 2000 2002 2 1 30

0.46 0.44 0.42 Dybäcksån VIX 0.40 0.38 0.36 0.34 0.32 1990 1992 1994 1996 1998 2000 2002 VIX (standardiserat) 1.0 0.5 0.0-0.5 Dybäcksån -1.0 1990 1992 1994 1996 1998 2000 2002 VIX (standardiserat) 1.0 0.5 0.0-0.5 Dybäcksån -1.0 1990 1992 1994 1996 1998 2000 2002 31

VIX 11 år Antal arter 8 år Vad betyder olika halva konfidensintervall egentligen?? 12 loggat medelvärde = 0.551 korrigerat medelvärde= 2.555 10 Antal arter 8 6 4 2 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Halva konfidensintervallet 32

Antal arter 7 år Är alla vattendrag lika? Är det lika lätt att uppnå hög precision i alla typer av vattendrag? VIX - halva konf.intervallet 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 r = -0.440 p<0.001 1 5 10 50 100 500 1000 Vattendragsbredd (m; log-skala) 33

Halva konf.intervallet 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 1 2 3 4 5 6 7 8 910 Antal arter (log-skala) r = -0.282 p < 0.001 Halva konf.intervallet 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 1 5 10 50 100 500 1000 Totalantal fiskar (log-skala) r = -0.186 p <0.001 Halva konf.intervallet 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 r = 0.056 p = 0.176 0 1 5 10 50 100 500 Öringtäthet (antal/100m 2 ; log-skala) 34

Strömmande - forsande b ab ab a ab ab 1 2 3 4 5 6 ty Substrat Variable Parameter estimate Partial r 2 t- Value Pr > t x-koord -2.9*10-7 0.081 106.4 <.0001 Totalantal ind. -0.012 0.065 91.38 <.0001 Andel sjö 0.0076 0.057 85.6 <.0001 Bredd -0.0043 0.0068 10.4 0.0013 y-koord 2.3*10-7 0.0053 8.11 0.0045 Artantal -0.008 0.0017 2.53 0.112 Oförklarat 0.784 35

Hög precision (stabila värden) för VIX är svårast att uppnå i små artfattiga vattendrag med låg individtäthet och hög andel sjö uppströms. Kopplingen med x- och ykoordinaterna är förmodligen en effekt av att artfattiga vattendrag mestadels återfinns norrut och västerut. Täthet öring 11 år Variabel Antal år VIX 11 Antal arter 5-8 Täthet öring 11 Täthet lax 15 Täthet simpor 14 Täthet percider 11 Täthet cyprinider 11 36

Ökande precision 1/18/2013 Detta är bättre än 167 år, men kan låta väldigt deprimerande i alla fall. Men kolla då på nästa bild: Precision (halva konf.intervall) 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Efter 5 år har man fördubblat precisionen jämfört med 3 år 5 10 15 20 25 Antal år Varje extra år ger en stor vinst i precision Precision (halva konf.intervall) 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Efter 11 år händer det inte mycket med precisionen. Man kan elfiska vattnet mer sällan för att kolla eventuella förändringar 5 10 15 20 25 Antal år 37

1.0 0.8 Farabolsån 5 VIX 0.6 0.4 4 3 0.2 0.0 1996 1998 2000 2002 2004 2006 2008 2010 2012 2 0.80 Sollumsån 0.75 5 0.70 VIX 0.65 0.60 4 0.55 0.50 0.45 0.40 2000 2002 2004 2006 2008 2010 2012 3 38