Datorlaboration 5: Genetisk populationsstruktur Syftet med denna laboration är att ni ska få prova på några vanligt förekommande statistiska analysmetoder som används vid studier av genetisk populationsstruktur. De program som används är GENEPOP ON THE WEB (mängd genetisk variation, F-statistik, test för HW-proportioner och allelfrekvens-skillnader, mm.), samt GENECLASS 1.0 (assignment av individer). Datafiler (mikrosatelliter analyserade hos torsk från områden väster och öster om Öresund) finns att hämta under rubriken internt på: http://www.zoologi.su.se/research/popgen/bevbiol10p Innan övningsuppgifterna följer en kortfattad beskrivning av hur ni använder programmen. Ytterligare anvisningar följer i samband med de enskilda övningsuppgifterna. Fråga om något är oklart! GENEPOP ON THE WEB Detta är en webb-baserad version av DOS-programmet GENEPOP (Raymond & Rousset 1995, J. Heredity 86:248-249). Starta din webbläsare (ex. Internet Explorer) och gå till http://genepop.curtin.edu.au På startsidan finns åtta s.k. "Options" att välja mellan: Vilken "Option" ni skall använda anges i respektive uppgift. Här följer ett exempel på hur det ser ut när man väljer Option 1 ("Hardy-Weinberg Exact Tests"): 1
Under respektive "Option" finns ett antal valmöjligheter ("Suboptions"), av vilka ni väljer det alternativ som motsvarar den analys som ni ska utföra (även "Suboption" är angivet i respektive uppgift). Det finns även parametrar, för vilka värden redan finns ifyllda (dessa ska inte ändras under denna laboration). Under Output Format Delivery väljer ni HTML. Pricka även i 2-Digit Alleles under Input data. Leta fram den datafil som skall användas (anges i respektive uppgift) under rubriken Browse (alt. Bläddra). [Ibland fungerar detta inte starta då WORDPAD och öppna datafilen som skall användas. Kopiera all data och klistra sedan in det i textrutan (under texten... paste the datafile into the text box below )]. Tryck därefter på Submit data. Efter en stund får ni svaren på er analys presenterade direkt i webb-läsaren. OBS: Ibland kan ni behöva rulla sidledes till höger eller ner en bit på sidan för att hitta de resultat ni är intresserade av. 2
GENECLASS 1.0 (Cornuet et al. 1999. Genetics 153:1989 2000) När programmet startas visas följande fönster med fyra "meny-flikar" (bilden visar hur det ser ut under flik 1; Choose data files) 1. Tryck på knappen Select reference data file. Tala därefter om för programmet vilken datafil som innehåller era "baseline-data" (vidare instruktioner nedan). Leta er fram till den aktuella datafilen. Tips: välj filformat All files för att kunna se samtliga filer. 2. Se till att alternativet Assignation of unknown data using reference är förprickat 3. Med hjälp av knappen Select unknown data file anger ni vilken datafil som innehåller de individer vilka skall "assignas" till någon av populationerna i "baseline" filen. 4. Välj därefter flik 4 Select calculation algorithm... (vi bryr oss inte om flik 2-3 under denna lab) 5. Välj följande alternativ under flik 4: 3
6. Tryck på GO! Resultatet för varje individ i den okända datafilen presenteras på en egen rad. Observera att assignment-sannolikheterna ges som -LOG (prob.) vilket innebär att ett lågt värde representerar en hög sannolikhet och vice versa. 4
UPPGIFTER Torsk (Gadus morhua) förekommer både längs svenska västkusten och i Östersjön. Under denna laboration skall ni analysera genetiska data bestående av genotyper (8 mikrosatellit-loci) för torsk fångad på respektive sida av Öresund (från Carl André, Tjärnö Marinbiologiska Laboratorium). De data som skall analyseras finns lagrade i följande filer: Filnamn Kommentar cod_tot.txt Totalmaterialet - samtliga 149 individer (kodade som ett enda stickprov) cod_2pop.txt Samma individer, men nu uppdelade efter fångstplats ("West" 99 st, "Baltic 50 st) cod_west.txt Endast "West" (99 fiskar) cod_balt.txt Endast "Baltic" (50 fiskar) gross1.txt 10 individer från "torskgrossist 1" gross2.txt 10 individer från "torskgrossist 2" Laborationen består av två delar. Under den första delen skall ni använda GENEPOP ON THE WEB för att närmare undersöka den genetiska populationsstrukturen. Under den senare delen skall ni med hjälp av GENECLASS utföra s.k. assignmenttest för att försöka avslöja ev. "svartfiske". Uppgift 1-5: Genetisk populationsstruktur med hjälp av "GENEPOP ON THE WEB" 1: Börja med att beskriva mängden genetisk variation inom respektive stickprov. Data: cod_2pop.txt Option: 5 "Allele frequencies etc." Suboption: Antal alleler: 1 "Genotypic matrices, number obs/exp homozyg " Förv. het.: 2 "Gene Diversities and FIS/using allele identity" Hur många alleler finns representerade per locus och totalt? Vilken är den förväntade heterozygositeten (betecknas "1-Qinter" i programmet)? Fyll i tabellen Locus Antal alleler Förväntad heterozygositet ("1-Qinter") West Baltic Totalt West Baltic ms1 ms2 ms3 ms4 ms5 ms6 ms7 ms8 Samtliga loci 5
2: Testa för/kvantifiera avvikelser från HW-proportioner inom totalmaterialet (F IS /exakta test) Data: cod_tot.txt Option: 1 "Hardy-Weinberg Exact tests" Suboption: 3 "Probability test" Vilka avvikelser från H-W proportioner förekommer i totalmaterialet? Avviker något locus signifikant? I vilken riktning i så fall? Hur ser det ut sett över samtliga loci? Tolkning? Locus F IS (F IT ) Exakt P-värde ms1 ms2 ms3 ms4 ms5 ms6 ms7 ms8 Alla loci ----- 3: F-statistik Data: Option: Suboption: cod_2pop 6 "F ST and other correlations" 1 "Allele identity (F-statistics): For all populations" Locus F IS F ST F IT ms1 ms2 ms3 ms4 ms5 ms6 ms7 ms8 Alla loci OBS: Av matematiska orsaker blir skattningarna av F IT (d.v.s. måttet på avvikelsen från HWproportioner i totalmaterialet) i denna uppgift inte nödvändigtvis identiska med de i föregående uppgift. 6
4: Test av genetisk differentiering (allelfrekvens-skillnader) Data: cod_2pop Option: 3 "Population differentiation" Suboption 1 "Genic differentiation: For all populations" Är torsk från Östersjön och Västerhavet genetiskt lika? Locus ms1 ms2 ms3 ms4 ms5 ms6 ms7 ms8 Exakt P-värde Alla loci 5: Att fundera över... - Finns det någon genetisk struktur i materialet? - Förekommer genflöde mellan väst- och östkusttorsk? - Går det utifrån dessa data att svara på om torsken i Östersjön är lokalt anpassad (ex. till lägre salthalt och temperatur)? Uppgift 6-7: Assignment-test med hjälp av "GENECLASS" Följande uppgift har verklighetsbakgrund. I ett avsnitt av "Kalla Fakta", som sändes av TV4 i december 2002, användes bl.a. genetiska data för att avslöja att fiskgrossister sålde torsk fångad i Östersjön under beteckningen "Västerhavstorsk". Ni skall genomföra en s.k. assignment-analys av två mindre stickprov (om 10 torskar vardera) från (fiktiva) grossister, vilka båda hävdar att den fisk de säljer uteslutande kommer från västerhavet och inte representerar hotad östersjötorsk. Båda stickproven är analyserade med avseende på samma åtta mikrosatellit loci som tidigare. Er uppgift är att med hjälp av GENECLASS försöka svara på frågan: - Finns det genetiska belägg för att någon eller båda grossisterna far med oriktiga uppgifter? Använd följande filer: Reference data file ("baselinefil" med allelfrekvenser för de kända populationer till vilka de okända individerna skall assignas): cod_2pop.txt Unknown data file (två filer med individer vars genetiska ursprung skall analyseras): gross1.txt, gross2.txt 7
6: "Assigna" fisken i de båda grossistproven till population (West/Baltic). Fyll i tabellen (räcker med kryss): Stickprov Individ WEST BALTIC gross1 1 2 3 4 5 6 7 8 9 10 gross2 1 2 3 4 5 6 7 8 9 10 8: Hur trovärdiga är ovanstående resultat? Går de att "lita på"? Avsluta laborationen med att, istället för de okända grossistproverna, använda data där vi känner ursprunget som referensmaterial. Låt såväl cod_west.txt och cod_baltic.txt utgöra Unknown data file vid assignmentanalysen, och kontrollera hur stor andel av fiskarna som assignas korrekt. Fundera över resultatet! Sant ursprung West Antal assignade till: West Baltic Baltic 8