Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Relevanta dokument
Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

4. Kunna orientera sig mellan de olika fönstren

DATORÖVNING 2: STATISTISK INFERENS.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

LABORATION 1. Syfte: Syftet med laborationen är att

Mata in data i Excel och bearbeta i SPSS

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Föreläsning G60 Statistiska metoder

Laboration med Minitab

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

MVE051/MSG Föreläsning 7

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

2.1 Minitab-introduktion

Obligatorisk uppgift, del 1

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Richard Öhrvall, 1

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Intro till SPSS Kimmo Sorjonen (0811)

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Lektionsanteckningar 11-12: Normalfördelningen

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Laboration 1: Introduktion till R och Deskriptiv statistik

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Introduktion till Matlab

Introduktion till Matlab

En introduktion till och första övning for Excel

Marknadsinformationsmetodik Inlämningsuppgift

Kom igång med Stata. Introduktion

Introduktion till statistik för statsvetare

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Metod och teori. Statistik för naturvetare Umeå universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

InStat Exempel 4 Korrelation och Regression

Valresultat Riksdagen 2018

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

LABORATIONER. Det finns en introduktionsfilm till Minitab på

732G Linköpings universitet 732G11. Johan Jernlås. Översikt. Repetition. Muddy cards. Slingor

Att göra före det schemalagda labpasset.

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Datorövning 1 Fördelningar

DATORLABORATION: JÄMFÖRELSE AV FLERA STICKPROV.

Beskrivande statistik

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Statistik 1 för biologer, logopeder och psykologer

Datorövning 1: Fördelningar

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS.

Datorövning 1 Statistik med Excel (Office 2007, svenska)

F9 SAMPLINGFÖRDELNINGAR (NCT

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 13 november 2004, kl

Uppgift 1. Deskripitiv statistik. Lön

Laboration 2 Inferens S0005M VT18

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

2 Dataanalys och beskrivande statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Statistik för Brandingenjörer. Laboration 1

Följande resultat erhålls (enhet: 1000psi):

Naturliga populationers evolution och bevarande, 6hp

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistiska undersökningar

Marknadsinformationsmetodik Inlämningsuppgift

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Examinationsuppgift 2014

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Laboration 2 Inferens S0005M VT16

Introduktion och laboration : Minitab

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Alla filer som bearbetar PHP script ska avslutas med ändelsen.php, exempelvis ska en indexsida till en hemsida heta index.php

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Transkript:

Datorövning 1 Statistisk teori med tillämpningar Repetition av SAS Syfte Syftet med Datoröving 1 (D1) är att repetera de SAS-kunskaperna från tidigare kurser samt att ge en kort introduktion till de studenter som inte tidigare arbetat med SAS. Målet för D1 är att studenterna ska kunna följande: Läsa in och bearbeta data i SAS Använda några av de vanligaste PROC:arna Sammanställa och presentera data i tabeller och grafiskt Exempel Olika sätt att lägga in data Det finns många olika sätt att läsa in data i SAS. Det enklaste sättet är att skriva in data manuellt i ett DATA steg. Det kan till exempel gå till på följande sätt: data sales; /*Skapar datasetet sales*/ input year quarter sales; /*variabelnamn*/ datalines; 2010 1 382 2010 2 387 ; proc print data=sales noobs; *skriv ut datasetet på skärmen. Tillägget noobs gör att SAS inte numerear observationerna; 1

Om den data man vill använda sig av finns i en fil (t ex en.txt eller.xls-fil) kan man använda sig av PROC IMPORT. datafile= anger vilken datafil som ska läsas in, genom att ange exakt sökväg till filen. Prova att läsa in filen M:\fk\teori\d1\sales.xlsx enligt exempel nedan. proc import datafile=" " out=sales2 replace; /*efter datafile= skriver man den exakta sökvägen till filen, inom fnuttar. sales är namnet på det nya datasetet. replace gör så att sas skriver över ett eventuellt tidigare dataset med samma namn*/ I det här fallet blev filen (förhoppningsvis!) rätt inläst från början. Använd PROC PRINT för att skriva ut datasetet till output. Om resultatet ser konstigt ut kan man titta i hjälpen för PROC IMPORT ( förslagsvis går man in på Innehåll -> SAS Products ->SAS Procedures och väljer sedan den PROC man är intresserad av i bokstavsordningen). Man slår enkelt ihop dataseten med hjälp av ett data-steg. data sales3; set sales sales2; Använd PROC PRINT för att titta på resultatet. Berarbeta Data För att skapa nya variabler i ett dataset används ett data steg. 2

data new; data new; */ input x y; datalines; 1 2 2 3 3 4 4 5 7 8 set new; z=x+y; /*genom att ge det dataset vi skapar samma namn som ett gammalt skriver vi over det gamla*/ /* skapar den nya variabeln z, som summan av x och y Alla nya variabler som är en funktion av existerande variabler (exempelvis summor, produkter, logartimer osv) kan skapas på detta sätt. Om man istället vill skapa en indikatorvariabel, exempelvis en variabel som antar värdet 1 om x är strikt större än två, och 0 annars, kan man göra det med hjälp av IF-satser: data new2; proc print; set new; if x > 2 then do; w=1; end; else do; w=0; /* om vilkoret ovan inte är uppfyllt så är w=0 */ end /*varje do sats måste avslutas med end */ ;. Deskriptiv statistik Om man vill använda sina resultat från SAS i rapporter eller liknande är det ofta praktiskt att se till att de sparas som t ex html. Detta görs med hjälp 3

av följande kodbit som körs innan man skriver något till outputen (behöver bara göras en gång). ods html body='ht11_d1_results.html' style=sasweb; as a html file */ /* Save results Det som man sedan skriver till output kommer att sparas i en htmlfil i samma mapp som SAS senast sparade något i. Använd data-setet sashelp.class för att se hur det fungerar. proc print data=sashelp.class; title 'Student Data'; Det finns flera PROC:ar som kan användas för att ta fram deskriptiv statistik exempelvis PROC UNIVARIATE och PROC SUMMARY. Oftast kan man använda vilken som helst av dessa, men om man t ex vill använda output från någon av dem i någon annan PROC kan det skilja sig åt. Nedan finns ett exempel på hur PROC MEANS används för att ta fram några deskriptiva mått från datasetet sashelp.class. proc means data=sashelp.class n mean var stddev median Q1 Q3 min max; var weight height; title "Descriptive statistics for weight & height of students"; Efter man talat om vilket dataset SAS ska använda specifiseras vilka statistikor som ska tas fram, i det här fallet stickprovsstorlek (n), medelvärde (mean), varians (var) osv. var talar om vilka variabler i datasetet vi är intresserade av (vikt, längd). Titelraden anger rubriken för den tabell som hamnar i html-filen (se ovan). 4

Kortfattat om grafer Grafer är ofta ett bra sätt att ge en överskådlig bild av ett datamaterial. Precis som i fallet med deskriptiv statistik vill man att de grafer man producerar ska se bra ut i en rapport. Därför kan man köra denna bit kod innan man sätter igång: ods graphics on/ /* ODS GRAPHICS can help make graph in SAS with higher resolution*/ reset=all /* Reset all the current ODS GRAPHICS options to defaults */ imagefmt=jpeg /* Specify the image format used to generate image files. SAS default format is.png */ width=800px /* Specify the width of any graph */ height=600px; /* Specify the height of any graph */ För att rita lådagram (boxplots) kan man använda PROC SGPLOT (om SAS 9.2 används). Nedan ses ett exempel på detta: proc sgplot data=sashelp.class; title "Box Plot for weight of students"; vbox weight/ boxwidth=0.5; /* specificerar hur brett lådagrammet ska vara, ett tal mellan 0 och 1 */ För att jämföra median och spridningen i olika grupper kan man rita komparativa lådagram. Det görs genom att lägga till en rad som talar om vilken variabel som anger grupptillhörighet. För att jämföra vikten mellan män och kvinnor (alltså uppdelat efter variabeln "sex"), gör man på följande sätt: proc sgplot data=sashelp.class; title "Box Plot for weight of students by sex"; vbox weight/ category=sex boxwidth=0.5; 5

För att rita histogram över en variabel kan man använda PROC UNI- VARIATE. Följande kod ritar ett histogram över variabeln weight i datadetet sashelp.class proc univariate data=sashelp.class noprint; /*noprint förhindrar att sas skriver något i outputen*/ title "Histogram for Weight of Students"; histogram weight; Om man vill jämföra fördelningen mellan olika grupper, t ex mellan män och kvinnor, används, precis som i PROC SGPLOT, "class" för att tala om vilken variabel som uppdelningen sker efter: proc univariate data=sashelp.class noprint; title "Histogram for Weight of Students"; histogram weight; class sex; Ibland vill man jämföra fördelningen för den data man har med en viss sannolikhetsfördelning, exempelvis normalfördelning. För att undersöka detta grafiskt kan man då rita in en normalfördelningskruva "ovanpå" sitt histogram. Det finns flera sätt att göra detta på, men det enklaste är att göra ett tillägg i PROC UNIVARIATE proc univariate data=sashelp.class noprint; title "Histogram for Weight of Students with Density Curve"; histogram weight/ normal; Övningar 1. I filen M:\fk\teori\d1_ex1.xlsx finns data från en enkätundersökning om tonåringars alkoholvanor. 6

(a) Läs in datasetet i SAS med hjälp av PROC IMPORT. (b) Skapa en ny variabel, percent, som innehåller andelen flickor respektive pojkar som dricker alkohol (c) På vilken skola och vilken grupp (pojkar/flickor) är det störst andel som dricker alkohol? Använd exempelvis PROC SORT för att besvara frågan. (Att leta igenom hela datamaterialet är inte en godkänd lösning) (d) I hur stor andel av grupperna är det färre än 25% som dricker alkohol? Lös uppgiften genom att skapa en indikatorvariabel för de grupper där högst 25% dricker alkohol och ta reda på medelvärdet (=andelen) för denna variabel. 2. I filen M:\fk\teori\d1\weight_girls.xlsx finns data om vikten för flickor i tre skolklasser. Läs in datasetet i SAS. (a) Jämför medelvärde och standardavvikelse i de tre klasserna (b) Rita histogram över vikten i var och en av de tre klasserna. Rita histogramen så att det är lätt att jämföra fördelningen av vikten i de olika klasserna (c) Rita tre lådagram (boxplots) över de vikten i de tre klasserna. Placera lådagramen sida vid sida. (d) Kan man anta att variabeln vikt (i alla tre klasserna) är en normalfördelad variabel? Undersök detta grafiskt genom att jämföra histogramet med motsvarande normalfördelningskurva. 7