Kraftfullt statistikverktyg för forskare

Relevanta dokument
STATISTICA 10 ökar farten BIT

STATISTICA Kurskatalog Kunskap bär frukt

Statistikutbildning för effektivare forskning

HELT NY VERSION. Uppgradera till version 13. Statistica förvandlar data till information

Statistikutbildning för effektivare forskning

Statistikutbildning för effektivare forskning

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

2018/2019. Statistikutbildning för effektivare forskning. Spar tid med pedagogiska kurser i SPSS Statistica och R Commander. MEDICINSK STATISTIK

Statistikutbildning för effektivare forskning. Spar tid med pedagogiska kurser i SPSS Statistica och R Commander. MEDICINSK STATISTIK.

Högskoleämbetets omdömen av specialistsjuksköterske- och omvårdnadsutbildningar per universitet och högskola 2014:

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Uppgången för inresande studenters prestationsgrad fortsätter En analys av studenternas prestationsgrad för läsåren 2004/ /14

Inresande studenters prestationsgrad fortsätter att öka En analys av studenternas prestationsgrad för läsåren 2004/ /13.

Beslut om tilldelning av MFS-stipendier för år 2013, per lärosäte och institution Lärosäte Institution Interna Externa Totalt Stipendiebelopp*

Rapport 2013:6 Disciplinärenden 2012 vid universitet och högskolor

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Svensk författningssamling

Lärosätenas indirekta kostnader SUHF-statistiken 2018

Vi gör statistiken enkel

Ny version STATISTICA 9. Nya funktioner och förbättringar

Tabeller. Teckenförklaring Explanation of symbols. Noll Zero. Mindre än 0,5 Mindre än 0,05

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

2019/2020 NYHET! Vi gör statistiken enkel. Utbildning och konsultation EXCEL & SPSS SYNTAX. SPSS software R COMMANDER

Maximalt antal poäng för hela skrivningen är28 poäng. För Godkänt krävs minst 17 poäng. För Väl Godkänt krävs minst 22,5 poäng.

Medicinsk statistik II

Välkommen till dialogmöte 11 november 2016

Forskande och undervisande personal

Statistik 1 för biologer, logopeder och psykologer

Data mining. Data mining Skillnaden mellan observationella och experimentella data

Kvantitativa metoder och datainsamling

Rapport 2009:15 R. Disciplinärenden 2008 vid högskolor och universitet

250 år av erfarenhet. Innovation by Collaboration SNITTS Jan Sandred, VINNOVA

Beslut om tilldelning av MFS stipendier för år 2012, per lärosäte och institution.

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Beslut om MFS-stipendier 2009 per lärosäte och institution Beviljat 2009

En uppföljning av studenters aktivitet på kurs

78 procent av Umeå universitets granskade utbildningar är av hög kvalitet/mycket hög kvalitet

Rapport 2014:3 Disciplinärenden 2013 vid universitet och högskolor

Nationell statistik antagna till ämneslärarutbildning efter urval 2 i ämnen som finns i LNU

Skillnader i kursklassificering spelar en liten roll för lärosätenas möjligheter att nå sina takbelopp

Svensk författningssamling

Fler studenter och större överskott än någonsin tidigare

Fortsatt ökning av antalet nybörjare vid universitet och högskolor

behörighetsinformation på NyAwebben

Anvisningar till rapporter i psykologi på B-nivå

Klassificering av kurser vid universitet och högskolor 2008

Kurser inom profilen Teknisk matematik (Y)

Färre nybörjare, men antalet utexaminerade lärare ökar

Marie Kahlroth Analysavdelningen. Statistisk analys /7

Erasmusstatistik studenter till och med läsåret 2008/2009. Erasmusstatistik studenter till och med läsåret 2008/2009

för att komma fram till resultat och slutsatser

Statistik , Stansens PC-klass ASA-huset. Schema: mån ti ons to fre

Klassificering av kurser vid universitet och högskolor 2007

Hur skriver man statistikavsnittet i en ansökan?

Nuvarande lön för nyexade studenter. Nuvarande månadslön (meddellön) från bästa till sämsta placeringen.

Utlandstjänstgöring vanligast bland professorer och meriteringsanställda

Börja med resultatet om du vill designa en lyckad klinisk studie

OBS! Vi har nya rutiner.

Antalet examina ökar men för få är inriktade mot förskola

Bilaga 4. Enkät till lärosäten

Erasmusstatistik studenter till och med läsåret 2009/2010

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

EU och Högskolan i Halmstad. Thorsteinn Rögnvaldsson

Kantar Sifos anseendeindex för svenska lärosäten 2017

Bilaga 1 Utvärderade utbildningar/examina som erhållit omdömet mycket hög kvalitet

IT och. lärarstuderande. Attityder, tillgång och användning EN RAPPORT FRÅN KK-STIFTELSEN

Detta har vi gjort. Rapport från kommittén för FRÄMJANDE AV UTBILDNINGEN inom surveyområdet. Martin Eva Antonio Axelson Leander Marañon

Öppen tillgång till forskningsdata Forskarsamhället i förändring

Systemidentifiering för läkemedelsutveckling modeller, skattning och analys.

Universities in Sweden

Att välja statistisk metod

Kvinnor med en utbildning på forskarnivå. Per Gillström, Universitetskanslersämbetet, tfn ,

Fortsatt hög andel av nybörjarna vid universitet och högskolor har studerat i kommunal vuxenutbildning (komvux)

SCORECARD: SVERIGES LANTBRUKSUNIVERSITET

Matematisk statistik för B, K, N, BME och Kemister

Statistik i samband med sista ansökningsdag till vårterminen 2014 (VT 2014)

ITinstitutionen bit för bit

Analytisk statistik. Tony Pansell, optiker Universitetslektor

STAA30, Statistik: Grundkurs, 30 högskolepoäng Statistics: Basic Course, 30 credits Grundnivå / First Cycle

Andelen personal som har en utbildning på forskarnivå fortsätter att öka

Inbjudan att anmäla intresse om att anordna en särskild kompletterande pedagogisk utbildning för forskarutbildade

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Kursutbud Lärarlyftet II

VÅRA KURSER I

Disciplinärenden 2009 vid högskolor och universitet

Grundläggande programmering med matematikdidaktisk inriktning för lärare som undervisar i gy eller komvux gy nivå, 7,5 hp

Fler börjar studera vid universitet och högskolor igen

Sammanfattning fördelningsunderlag för 2011 Medelcitering index

Lärosätenas indirekta kostnader

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Preliminär rapport över enkät om intresset för surveymetodik Jan Wretman

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Glöm inte att söka medel från oss för klinisk forskning. Mer information om detta finns på vår hemsida. Dead-line för ansökan är 10/10.

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Andelen personal med utbildning på forskarnivå fortsätter att öka

Transkript:

TM Kraftfullt statistikverktyg för forskare Nu ingår hela programpaketet utan extra kostnad! Kampanj! Använd STATISTICA till och med 31/12 endast 945 kr

Vi kan STATISTICA! StatSoft satsar aktivt på den akademiska sektorn. Vi strävar efter att STATISTICA på bästa sätt ska hjälpa forskare knutna till universitet och högskolor. Förutom ett brett statistikprogram får du tillgång till support, utbildning och konsulthjälp hos oss. Kontakta oss! Tfn 018-21 00 45 e-post info@statsoft.se www.statsoft.se Våra användare finns bl a på: Försvarshögskolan Chalmers tekniska högskola Gymnastik- och idrottshögskolan Göteborgs universitet Högskolan i Borås Högskolan i Gävle Högskolan i Jönköping Högskolan i Skövde Högskolan Väst Karlstads universitet Karolinska Institutet Kungl. Tekniska högskolan (KTH) Linköpings universitet Linnéuniversitetet Luleå tekniska universitet Lunds universitet Malmö högskola Mittuniversitetet Mälardalens högskola Sophiahemmet Högskola Stockholms universitet Sveriges lantbruksuniversitet Södertörns högskola Umeå universitet Uppsala universitet Örebro universitet Högskolan på Gotland Helsingfors universitet Köpenhamns Universitet University of Tartu

STATISTICA ett ovärderligt stöd för forskare Sedan 1989 har STATISTICA hjälpt svenska forskare och studenter i deras vetenskapliga arbete. Målet är att förenkla och förkorta den tid du lägger ner på att bearbeta och presentera det statistiska materialet. Genom att kombinera en mängd kraftfulla analyser med stor användarvänlighet har STATISTICA fått stor utbredning och idag finns över 600 000 användare spridda över hela världen. STATISTICA är ett komplett statistikverktyg som innehåller allt från beskrivande dataanalys till avancerad statistisk modellering och datapresentation. Det finns många goda skäl att välja STATISTICA: Förstklassig grafik En av de största orsakerna till STATISTICAs popularitet är den oöverträffade grafiken. Du får snabb tillgång till en mängd diagram och grafer. Bredden och omfattningen av analytiska procedurer är unik. Nu ingår dessutom Data Miner, Text Miner, Variance (VEPAC) och Processoptimering när du tecknar STATISTICA Hyrlicens. Kraftfullt Lättanvänt Har du tidigare arbetat med Excel kommer du snabbt in i programmet. STATISTICA är väl integrerat med Officepaketet, t ex kan Excelark öppnas och analyseras direkt i STATISTICA. Hos StatSoft får du tillgång till både support, utbildning och konsultation. Support och utbildning STATISTICA Hyrlicens kampanjpris 945 kr exkl moms Nu kan du som är knuten till universitet eller högskola teckna STATISTICA Hyrlicens för endast 945 kr exkl. moms. Du får då STATISTICA till och med 31 december 2011. Du kan sedan förlänga abonnemanget med ett år i taget till ordinarie pris 1 890 kr/år exkl moms. Du får: Ett komplett STATISTICAprogram, inkl alla moduler Automatiska uppgraderingar till den senaste versionen Låg årskostnad Fri teknisk support Introduktionsmanual

Innehåll Base, den grundläggande statistiken 5 Advanced, mer avancerade statistiska metoder 5 Advanced models 5 ANOVA 5 Linjär regression 6 Ickelinjära modeller 6 Log-linjär analys 7 Tidsserieanalys 7 Överlevnadsanalys 8 SEPATH 9 PLS och NIPALS 9 Multivariate/Exploratory 9 Faktor- och Principalkomponentanalys 9 Klusteranalys 9 Diskriminantanalys 9 Korrespondensanalys 9 Kanonisk korrelation 10 Beslutsträd 10 Reliabilitetsanalys 10 Multidimensionell scaling 11 Power analysis 11 Distributions and simulation 11 Industristatistik 11 Kvalitetskontrolldiagram 11 Processoptimering 12 Försöksplanering 13 Variance (VEPAC) 13 Neurala nätverk 13 Data Miner 13 Text Miner 15 Grundat i USA 1984

Base, den grundläggande statistiken Den grundläggande delen av STATISTICA heter Base och innehåller de mest fundamentala och viktigaste delarna för att kunna göra bra statistik. Här finner du det som behövs för att ta fram deskriptiv och grundläggande statistik. Du kan även få fram all statistik och grafer som hör ihop med olika tabeller. Base innehåller även det mesta inom datahantering och grafer. Deskriptiv statistik Korrelationer T-test Tabeller och statistik Ickeparametriska metoder Grafer Datahantering ANOVA Regression Distribution fitting Exempel T-test Patienter med högt blodtryck väljs slumpvis ut till en placebogrupp och en behandlingsgrupp. Placebogruppen får ett inaktivt piller och behandlingsgruppen får ett nytt läkemedel som väntas sänka blodtrycket. Efter en tid tas blodtrycksmedelvärdena fram i de båda grupperna och ett t-test används för att avgöra om det finns någon skillnad mellan de två grupperna som inte beror på slumpen. Advanced, mer avancerade statistiska metoder En naturlig fortsättning på BASE är Advanced som innehåller mer och fler avancerade statistiska metoder. Denna modul har indelats i fyra delar som kallas för Advanced models, Multivariate/Exploratory, Power analysis och Distributions and simulations. Advanced models Advanced models är den mest använda delen i denna modul eftersom den innehåller allt du behöver för att jämföra grupper och hitta samband både i linjära och ickelinjära data. Den innehåller även mycket annat användbart och några exempel på innehåll och vad de kan användas till är följande: ANOVA ANOVA används exempelvis då man vill jämföra medelvärden mellan flera grupper eller flera upprepade mätningar. Kovariansanalys, Repeated measure Representerat i 24 länder i alla världsdelar 5

och Varianskomponenter är alla tre exempel på specialvarianter av ANOVA. Exempel Repeated measure ANOVA Två olika dieters effekter vad gäller viktreducering ska undersökas över tid och mellan kön. Två grupper delas upp, den ena gruppen ska få gå på diet A och den andra på diet B. Lika många män som kvinnor fördelas mellan de två grupperna. Sedan mäts allas vikt i början av studien och sedan en gång i månaden i tre månader då studien avslutas. I denna studie undersöks tre saker. Dels är man intresserad av att se om tiden har betydelse inom en grupp, dvs. minskar vikten för ett objekt under tiden som man går på dieten. Dels är man intresserad av om dieterna sinsemellan ger olika resultat samt om dieterna slår olika beroende på kön. Vid ett sådant här komplicerat designupplägg är man tvungen att använda Repeated measure ANOVA för att svara på frågeställningarna. Linjär regression Regression hjälper oss att förstå relationen mellan variabler och att förutsäga exempelvis en patients status när det gäller en viss variabel som är av intresse. Regressionsmodeller kan användas som stöd vid olika kliniska beslut genom att de i viss mån kan göra förutsägelser vid en viss given situation. På så sätt kan de underlätta vissa beslut. Multipeloch polynomregression är två vanliga varianter av regression Exempel Multipel regression Man har sett att ett nytt läkemedel sänker blodtrycket olika mycket hos olika patienter. För att ta reda på varför och vilka variabler som påverkar blodtrycket används multipel regression. Med hjälp av denna metod kan man se samband mellan olika variabler (patientens vikt, ålder, längd, kolesterol, blodsocker m.m.) och blodtrycket. Vilket kan hjälpa till att i framtiden förstå om en patients blodtryck kommer att sjunka eller inte när läkemedlet sätts in. Ickelinjära modeller Både ANOVA och regression fungerar bäst på normalfördelat och linjärt data. När kraven inte STATISTICA gör komplicerad statistik enkel Marius Kublickas är överläkare vid Centrum för fostermedicin på Karolinska Universitetssjukhuset i Huddinge. I sitt forskningsarbete behöver han ett statistikprogram som stöd vid analys av forskningsresultat samt hjälp med powerberäkningar och beräkningar av vilket antal patienter som krävs för en studie. Marius, som har använt programmet i ett femtontal år, säger att valet föll på STATISTICA mycket tack vare användargränssnittet. Mycket komplicerade statistiska metoder presenteras på ett så enkelt sätt att man sällan behöver använda manualen, menar Marius. Stöter man trots detta på patrull så är StatSofts support både snabb och effektiv, fortsätter Marius som är mycket nöjd och rekommenderar STATISTICA till nya användare. 6 På den svenska marknaden sedan 1989

uppfylls kan man använda olika ickelinjära varianter av dessa metoder. Logistisk och Poisson regression är två vanliga varianter. Exempel Logistisk regression I ett försök att ta reda på vilka faktorer som påverkar varför man får respektive inte får en viss sjukdom ska ett nyligen skett utbrott av denna sjukdom undersökas. Individer i staden där utbrottet skedde väljs slumpmässigt ut och intervjuas så att olika bakgrundsfaktorer kan samlas in, såsom ålder, socioekonomisk status och i vilken stadsdel individen bor. Eftersom själva utfallsvariabeln bara kan anta två värden (antingen fick man sjukdomen eller inte) används logistisk regression för att besvara frågeställningen. Log-linjär analys En grundläggande metod för analys av kategoriska data är via enkla 2x2 tabeller (även kallad fyrfältstabell). Vid större tabeller blir de grundläggande metoderna snabbt otillräckliga och log-linjär analys är ett mer sofistikerat sätt att se på dessa korstabeller. Den kan användas för att testa statistisk signifikans för olika faktorer och deras interaktioner samt på ett lättare sätt påvisa var skillnaderna finns i en större tabell. Tidsserieanalys Önskan om att se in i framtiden är väl lika gammal som människan (om inte äldre) och en gång i tiden (och viss mån även idag) litade vi på kristallkulor eller profeter. Vi har kommit en bit sedan dess och nu studeras tidsserier för att kunna se in i framtiden. Tidsserieanalys är en variant av regression där tiden har en avgörande betydelse. www.statsoft.se 7

Överlevnadsanalys Överlevnadsanalys (eller time-to-event/failure) är väl lämpad inom den medicinska forskningen då man är intresserad av att mäta tiden det tar till att något händer samt då man vill ta hänsyn till att alla observationer inte kommer att nå den händelse som man är intresserad av att mäta. Några metoder kan även användas då man är intresserad av vilka variabler som bidrar till en längre/kortare överlevnad. Det är speciellt två statistiska metoder som används inom överlevnadsanalys, Kaplan-Meier och Cox proportial hazard regression. I den senaste versionen av STATISTICA kom en extra modul för Cox Proportional Hazards. Traditionella Cox-modeller behandlar data för sk. single events. Alltså, då ett objekt når endast en endpoint. Nytt i modulen är att den kan behandla multiple events eller reaccuring events. Andra nyheter är att man nu kan precisera exakt hur modellen ska se ut med huvudeffekter och interaktionstermer (utan att behöva skapa egna). Det är också möjligt att låta programmet ta fram en bästa modell genom Best subset, Forward entry, Backward removal eller Stepwise och så är det nu möjligt att få konfidensintervall på överlevnadskurvorna. Exempel Cox proportional hazard regression Graviditetslängden hos 3000 kvinnor i Sverige ska undersökas och man har en hypotes om att det finns olika variabler (ålder, vikt, ifall man röker eller inte m.m.) som styr ifall kvinnans graviditetslängd blir normal, längre än normalt eller kortare än normalt. Eftersom utfallsvariabeln är tiden från graviditetens början till eventuell födelse samt att man är intresserad av vilka variabler som styr denna längd måste man använda Cox regression. STATISTICA Hyrlicens enkel, snabb och ekonomisk statistiklösning Claes Olerud är professor i ortopedi vid Karolinska Institutet och överläkare vid Stockholm Spine Center. Hans forskning behandlar degenerativa ryggbesvär och diskbråck i halsryggen. Sedan flera år använder han och ett antal doktorander i hans forskargrupp STATISTICA Hyrlicens. Orsakerna till att valet föll på STATISTICA var flera. STATISTICA ger enkel och snabb statistisk genomlysning av resultat av kliniska studier. Dessutom tillhandahåller STATISTICA bra tabeller och diagram som kan användas direkt i presentationer och publikationer, menar Claes Olerud. Genom att välja STATISTICA Hyrlicens fick man en kostnadseffektiv statistiklösning med fria uppgraderingar. 8 Är en av världens största leverantörer av statistisk mjukvara

SEPATH SEPATH är en förkortning på Structural Equation Modeling (SEM) and Path diagram. Denna metod är en bekräftande teknik som ska användas för att avgöra om en modell är giltig i jämförelse med tidigare forskning. Den ska inte användas för att hitta en lämplig modell då den inte är en förklarande teknik. PLS och NIPALS Partial Least Square (PLS) och Nonlinear Iterative Partial Least Squares (NIPALS) tillämpas allmänt inom kemometri där man vill optimera eller undersöka kemiska processer. Metoderna används också vid hjärnforskning och speciellt vid bedömning av data från hjärnavbildningar. PLS är en prediktiv teknik som är särskilt användbar när variablerna är starkt korrelerade eller när antalet variabler överstiger antalet observationer. Multivariate/Exploratory Inom denna modul finns en rad olika modeller som kan användas för att klassificera, verifiera eller reducera dimensioner i data. Några exempel på metoder och vad de kan användas till är följande: Faktor- och Principalkomponentanalys Principalkomponentanalys (PCA) och faktoranalys är nära besläktade och metoderna har två större användningsområden. Faktoranalys används för att hitta dolda variabler (faktorer) och PCA används för att variabelreducera data genom att omvandla ett antal korrelerade variabler till ett mindre antal okorrelerade variabler som kallas för principalkomponenter. Metoderna är väldigt användbara inom många olika områden. Klusteranalys En generell frågeställning som forskare inom många områden stöter på är hur man organiserar observerade data i meningsfulla strukturer. Till exempel måste biologer klassificera de olika djurarterna, för att en meningsfull beskrivning av skillnaderna ska bli möjlig. Klusteranalys är inte en typisk statistisk metod där man testar hypoteser med hjälp av signifikanser, istället är det en metod för att gruppera data och skapa hypoteser. Diskriminantanalys Diskriminantanalys har många likheter med multipel regression (speciellt logistisk regression) men med den skillnaden att utfallsvariabeln är kategorisk (grupperande) och metoden används i första hand för att klassificera observationer. Exempelvis kanske vi vill veta om en kvinnas graviditetslängd kommer att bli missfall, normal, för kort eller för lång. Eftersom utfallsvariabeln är kategorisk med fyra grupper skulle metoden kunna användas för att bygga en modell som klassificerar en kvinnas graviditetslängd med hjälp av olika karakteristikor (t.ex. vikt, längd). Korrespondensanalys Korrespondensanalys är en deskriptiv teknik för att analysera enkla korstabeller (där variablerna består av kategoriska data) eller mer avancerade tabeller som innehåller ett visst mått av överensstämmelse mellan rader och kolumner. Utgångspunkten för enkel korrespondensanalys är en korstabulering Exempel Faktoranalys En stor enkätundersökning (med hundratals frågor) har gjorts där deltagarna bland annat fått uppskatta hur mycket tid (procentuellt sett) de lägger på olika aktiviteter (jobba, diska, skjutsa barn, handla, sporta m.m.) under månad. Ett sätt att analysera den spenderade tiden är att med hjälp av faktoranalys försöka hitta dolda variabler.exempelvis kanske diska, städa och laga mat skulle kunna förklaras av en faktor för hemarbete. På så sätt skulle underliggande strukturer i data kunna hittas och i samma veva reduceras antalet variabler som ska tolkas. Erbjuder statistisk konsultation 9

av två kategoriska variabler. Resultatet är en uppsättning koordinater för variablernas kategorier, vilka på ett geometriskt sätt representerar hur dessa kategorier förhåller sig till varandra. Kategorier som korrespondensanalysen placerar nära varandra, har positivt samband med varandra, dvs. förekommer ofta samtidigt i materialet, medan det motsatta gäller för kategorier som ligger långt från varandra. Sammantaget gör detta att metoden är mycket bra på att visualisera korstabeller. Kanonisk korrelation Kanonisk analys kan användas när forskare vill analysera förhållandet mellan två olika delar av ett datamaterial med variabler. Till exempel kanske man vill förstå sambandet mellan kvinnors demografiska egenskaper å ena sidan (t.ex. ålder, utbildning) och deras användning av hälsofrämjande strategier under graviditet (t.ex. alkoholkonsumtion, rökning) å den andra. Denna metod kan också användas när alla variabler i den ena delen räknas som olika utfallsvariabler och variablerna i den andra delen av datamaterialet är förklaringsvariabler. Beslutsträd Klassifikationsträd, eller beslutsträd används för att förutsäga till vilken grupp/klass en observation eller objekt tillhör med hjälp av information från en eller flera variabler. Denna metod går att applicera på mängder av olika problem inom vitt skilda områden såsom medicin (diagnos), datalogi (datastrukturer), botanik (klassificering) och psykologi (beslutsteori). Metoden går att illustrera grafiskt vilket underlättar den annars komplexa tolkningen av analysen väldigt mycket. Reliabilitetsanalys Inom många forskningsområden innebär exakt mätning en utmaning i sig. Ett vanligt område är psykologi där det är svårt att exakt mäta variabler som reflekterar personlighet eller attityder. I alla sociala vetenskaper kommer otillförlitliga mätningar av människors uppfattningar eller attityder att försvåra både analyser och möjligheten att förutsäga beteenden. I dessa fall kan reliabilitetsanalys användas för att Doktoranderna har efter utbildningen hos StatSoft gjort enorma framsteg i sitt forskningsarbete Haile Mahteme är överläkare vid kirurgkliniken vid Akademiska sjukhuset i Uppsala. Sjukhuset är först i Norden med en ny metod för behandling av patienter med avancerad cancer som spridit sig till bukhinnan. Haile genomför operationer enligt denna metod samt ansvarar och driver forskning kring cancer i bukhinnan. Samtliga i forskargruppen kring Haile använder idag STATISTICA för sin forskning. Fördelarna med detta är flera. Genom att man använder samma program kan man stötta varandra. En annan fördel är att man upplever STATISTICA som mycket användarvänligt. För att kunna utnyttja programmet maximalt gick man en grundutbildning i STATISTICA. Doktoranderna har efter utbildningen gjort enorma framsteg i sitt forskningsarbete eftersom de känner sig trygga med programmet, säger Haile. Vi fick under kursen kunskaper om både statistik och STATISTICA. Jag vill också framhålla supporten från StatSoft som är unik, avslutar Haile. 10 www.statsoft.se

konstruera pålitliga mätskalorna, förbättra befintliga skalor eller utvärdera skalor som redan används. Programmet kommer att beräkna mått som tillåter användaren att bygga och utvärdera skalor. Multidimensionell skalning Multidimensionell skalning (MDS) kan anses vara ett alternativ till faktoranalys. I allmänhet är målet för analysen att upptäcka meningsfulla underliggande dimensioner som tillåter forskaren att förklara observerade likheter eller skillnader mellan de undersökta objekten. I faktoranalys är likheter mellan objekt (t.ex. variabler), uttryckt i korrelationsmatrisen. Med MDS kan du, förutom att se dessa i korrelationsmatriser, analysera andra former av matriser för lik- och olikhet. Power analysis Power och urvalsberäkningar är en viktig del av en studiedesign för utan dessa beräkningar kan stickprovsstorleken bli för stor eller för liten, vilket även påverkar powern. Om provstorleken är för låg, kommer experimentet att sakna precision för att ge tillförlitliga svar på de frågor man undersöker. Om provstorleken är för stor, slösar man både tid och resurser, ofta för en väldigt liten vinst. När man beräknar urvalsstorlekar måste man kunna de bakomliggande formlerna för den specifika metod som ska användas. Beroende på vilket problem du står inför så finns det i STATISTICA hjälpmedel för att kunna beräkna power/urvalsstorlek. Industristatistik Den tredje delen av STATISTICA kallas för industristatistik eftersom metoderna ursprungligen utvecklades inom industrin. Användningsområdena för dessa metoder sträcker sig dock långt utanför industrin. Kvalitetskontrolldiagram Kontrolldiagrammen går att dela upp i två större grupper. Den ena gruppen innehåller kontrolldiagram som följer en process i taget (univariate) och den andra innehåller diagram där processen tar hänsyn till andra variablers inflytande (multivariate). Distributions and simulation Syftet med denna modul är att ge ett allmänt verktyg för att utföra simuleringsstudier. Konkret kommer modulen ge dig en möjlighet att utföra experiment genom att simulera data till variabler från specifika distributioner. Dessa metoder har blivit populära inom olika områden, bland annat: 1. 2. 3. 4. 5. 6. Riskmodeller Försöksplanering (DOE) Multivariat processövervakning Tillförlitlighet Power analys Slutna system, stokastiska optimering Grundat av forskare för forskare 11

Det finns väldigt många olika kontrolldiagram, även kända som Shewhart diagram, inom statistisk processtyrning men i huvudsak är de verktyg som används för att avgöra om en tillverknings- eller affärsprocess är inom statistisk kontroll. Grunderna i ett vanligt kontrolldiagram är väldigt enkla men ger en tydlig bild av hur processen ser ut och ifall avvikande värden är inom eller utanför den statistiska felmarginalen. Processoptimering Processoptimering är den disciplin som justerar en process så att vissa parametrar optimeras utan att bryta mot uppsatta kravspecifikationer. De vanligaste målen är att minimera kostnaderna, maximera genomströmningen och/eller effektiviteten. Inom denna modul finns många olika metoder att använda men tre av dem är relativt allmängiltiga: STATISTICA gör det lätt för forskaren att förstå sina resultat Elisabeth Berg är statistiker och arbetar på Karolinska Institutet, vid avdelningen MedStat inom institutionen LIME (Lärande, Informatik, Management och Etik). MedStat tillhandahåller professionella tjänster inom medicinsk statistik och hjälper medicinska forskare och forskningsorganisationer. Elisabeth själv arbetar som statistiker med handledning, rådgivning och utvärdering av kliniska prövningar. Sedan ett femtontal år använder man STATISTICA för de flesta forskningsprojekt samt inom undervisning i medicinsk statistik. Tidigare använde man ett annat program men kände att man behövde något mer kraftfullt. Jag arbetar mycket med ANOVA-modeller och när jag fick STATISTICA demonstrerat för mig, vad det gäller just ANOVA-modulen, blev jag mycket imponerad. Modulen är väldigt flexibel och lättarbetad. Det kändes naturligt att gå över till STATISTICA. Det bästa med STATISTICA är att det går snabbt och lätt att få fram resultat, säger Elisabeth. Datahanteringen är väldigt smidig. Det är också enkelt att göra kluriga transformationer och spara resultat i rapportfiler. STATISTICAs fina grafer gör det så mycket lättare för forskaren att förstå sitt resultat, menar Elisabeth. På frågan om vad hon anser om STATISTICAs support skrattar Elisabeth. Jag har faktiskt aldrig behövt anlita supporten. Det måste väl vara ett gott tecken! avslutar Elisabeth med ett leende. 12 Vår mjukvara används vid universitet i 60 länder

Capability ratio for true position är en metod för att grafiskt se hur förhållandet mellan två variabler ser ut (true position) jämfört med vad den borde vara enligt uppsatta specifikationer. Weibull analysis and reliability/failure time analysis är en industriell variant av överlevnadsanalys och innehåller en hel del matnyttigt och intressant för den som räknar mycket på överlevnadsstatistik. Sampling plans for means, proportions and Poisson frequencies är en industriell minivariant av modulen power/urvalsberäkningar. Denna modul är mycket bra på grund av det pedagogiska upplägget. Den är ren och väldigt enkel att hantera vilket gör den attraktiv. Försöksplanering Design of experiments (DOE eller försöksplanering på svenska) är något som alla borde vara intresserade av och som alla på ett eller annat sätt gör inför en studie. Här finns en rad olika varianter på försök. Man kan antingen skapa en försöksplan (design) eller analysera redan insamlat data inom en viss design. Många av dessa känns igen från ANOVA. och randomiserade effekter. Används speciellt ofta inom Split-plot design som är en del av Design of experiments (DOE) modulen. Neurala nätverk Under de senaste två decennierna har intresset för neurala nätverk fullkomligt exploderat och tillämpas inom så skilda områden som ekonomi, medicin, teknik, geologi, och fysik. En av fördelarna med neurala nätverk är att modellen kan lära genom exempel. Detta betyder att modellerna i neurala nätverk själva kan lära sig genom att åberopa algoritmer som automatiskt lär sig strukturen av data. Även om användaren behöver ha kunskap om hur man väljer och förbereder data, hur man väljer lämpligt neurala nätverk, och hur man tolkar resultaten, är nivån på användarens kunskap för att framgångsrikt tillämpa neurala nätverk mycket lägre än vad som krävs i de flesta traditionella statistiska verktyg. Data Miner Variance (VEPAC) Data mining är ett arbetssätt och innebär vanligen ett arbete i tre steg som inte skiljer sig så mycket från vanligt statistikarbete. VEPAC är en förkortning på variance estimations and precision och är ett specialdesignat verktyg för att analysera ANOVA-modeller som innehåller både fixa Datainsamling Bearbetning, rensning och kontroll av data. Dataanalys och modellvalidering Presentation av resultat och applicering av analysmodell Erbjuder utbildning 13

I samband med introduktionen av datorer och databaser växte volymen av insamlad data. I och med att datamaterialen växte i storlek och komplexitet, så utvecklades nya kompletterande metoder till de som redan fanns. Exempel på dessa är neurala nätverk, klusteranalys, beslutsträd och support vector machines. Många av dessa metoder går även utmärkt att använda på mindre datamaterial. Generellt sett går det att dela in statistikmetoderna inom data mining i fyra grupper: Gruppering har till uppgift att upptäcka logiska grupper och strukturer i data utan att använda kända strukturer. Klassificering har till uppgift att generalisera data i kända strukturer och tillämpa dessa på nya STATISTICAs pedagogiska styrka är oöverträffad Tomas Thierfelder, forskare vid Sveriges Lantbruksuniversitet, är en erfaren användare av statistisk mjukvara. På hans institution konkurrerar STATISTICA med andra kända program. Sedan ett femtontal år använder Tomas, inom både forskning och undervisning, i första hand STATISTICA och har därför en gedigen kunskap om programmet. En av de stora fördelarna, anser Tomas, är STATISTICAs förmåga att vi su alisera data. Vi är många som anser att visualisering, på alla analysnivåer, är ett av de allra viktigaste statistiska instrumenten. Där ligger STATISTICA klart före sina konkurrenter, säger Tomas. I pedagogiska sammanhang är visualiseringsförmågan speciellt vik tig varför jag föredrar STATISTICA i de klassrum och datorsalar där jag undervisar, fortsätter han. En annan stor fördel, anser Tomas, är den självgenererande analysprocessen. Programmet förmår gripa tag i an vändaren redan i den inledande visu aliseringen, för att därpå föra ana lysen allt längre, och innan man vet ordet av så har man lärt sig något nytt. Här ligger programmets pedagogiska styrka och här skulle jag säga att det är oöverträffat, avslutar Tomas. 14 www.statsoft.se

En stor enkät där många frågor ställs finns redan och är idag ett sådant hjälpinstrument men problemet med många frågor är att man har märkt att just deprimerade inte alltid vill/orkar svara på en alltför stor enkät. Enkätmetoden har funnits en längre tid så historisk data finns och utgör nu vårt datamaterial. Ett första steg är att med hjälp av faktoranalys försöka minska antalet frågor i enkäten genom att hitta de frågor som går att slå ihop. Nästa steg blir att försöka bygga en modell som med hjälp av den mindre enkäten kan prediktera ifall en patient har depression eller inte. Ett klassiskt sätt att göra detta skulle vara med hjälp av logistisk regression men inom data mining finns en rad andra metoder som gör samma sak. Vi kan lätt inom modulen för data mining bygga många olika modeller samtidigt (Logistisk regression, C&RT, CHAID, Neurala nätverk, Boosted trees m.fl. ) för denna prediktion och sedan väljer vi den som är bäst för stunden. observationer. Till exempel kan ett e-postprogram försöka att klassificera ett meddelande från en okänd avsändare som legitimt eller spam. Mönster vanligen används någon slags regression för att hitta variabler som kan beskriva beteendemönster eller trender. Associationer kan användas för att söka efter relationer mellan variabler. Exempelvis kan en stormarknad samla in uppgifter om köpvanor hos kunder och använda dessa metoder för att se vilka produkter som ofta köps tillsammans och sedan använda denna information i marknadsföringssyfte. Eftersom metoderna ovan även går att tillämpa på mindre datamaterial skulle man kunna säga att modulen Data Miner ger dig tillgång till fler modellvalmöjligheter för statistiska problem. Metoderna är lämpliga inom alla verksamhetsområden där man har ett problem som skulle kunna lösas med gruppering, klassificering, mönster eller associationer. Exempel Data mining Vi vill ha ett bra instrument som hjälper till att klassificera ifall en patient är deprimerad eller inte. Ett sådant instrument skulle underlätta valet av terapimetod. Text Miner Syftet med text mining är att processa större mängder av ostrukturerad (text) information till meningsfull numeriska data och därmed göra informationen i texten tillgänglig för olika numeriska analysmetoder. Information som fås fram kan exempelvis analyseras ord för ord eller som kluster av ord. Man kan analysera olika dokument och avgöra likheter dem emellan. Andra användningsområden skulle kunna vara att analysera öppna enkätsvar, garantier, försäkringsfordringar, diagnoser eller intervjuer. Det går även att undersöka konkurrenter genom att analysera texten på deras webbplatser. Exempel Text mining Ett gammalt pappersjournalsystem ska digitaliseras. Plötsligt finns all information tillgänglig på ett helt annat sätt men det skulle fortfarande vara jobbigt att gå igenom journal för journal för att hitta något av intresse. Säg att vi är intresserade av alla patienter som har en speciell sjukdom. Vi kan då låta Text Miner leta igenom alla journaler och summera all text vid denna diagnos. Sedan kan den informationen ytterligare analyseras av någon numerisk metod för att exempelvis hitta intressanta grupperingar. Tillhandahåller support på svenska 15

Tyck till om STATISTICA! STATISTICA har över 600 000 användare spridda över hela världen. Vi frågade tre av dem: Hur använder du STATISTICA? Vad är det bästa med STATISTICA? Urban Alehagen, docent och överläkare vid Hjärtcentrum på Universitetssjukhuset i Linköping STATISTICA är ett av de viktigaste arbetsinstrumenten i min forskning kring biomarkörer. En av de frågeställningar som jag ofta försöker belysa är hur en biomarkör kan hjälpa till att identifiera en patientgrupp med hög risk för komplikationer. För att åskådliggöra risker utnyttjar jag både överlevnadsanalyser och Cox regressioner. Det bästa med programmet är den stabilitet som finns. Det näst viktigaste är att när man gjort en specifik analys får man svar på just den genomförda analysen inte en hel massa annan information som efter ett tag enbart ställer till irritation. Den tredje viktigaste faktorn med STATISTICA är de snygga och väl genomarbetade graferna. Det sista, men inte minst viktiga, är de snabba genvägar som finns för att få basal deskriptiv statistik ifrån en uppsättning data. Fraucke Ecke, docent i Landskapsekologi vid SLU och Luleå tekniska universitet Jag använder STATISTICA framförallt inom ekologin där jag kör multivariatstatistik och kontrollerar vilka effekter det blir av landskapsförändringar. Det bästa med STATISTICA är grafiken som är totalt överlägsen alla andra statistikprogram. Det är också ett väldigt användarvänligt program. Den senaste versionen är ännu bättre än tidigare. Jag gillar framförallt den nya funktionen bundles. Eftersom jag ofta arbetar med stora databaser och behöver upprepa olika analyser med samma variabler så är det jättesmidigt. Karin Sparring Björkstén, med dr överläkare och studierektor, Psykiatri Södra Stockholm. Jag forskar på epidemiologi vid självmord och hanterar då stora mängder data med såväl enkel som avancerad statistik i flera steg. STATISTICA är pålitligt, överskådligt och lätt att använda. Det är lätt att gå tillbaka och se vad man har gjort, och att man inte tappat bort några data på vägen. Oftast gör jag mina beräkningar i sommarstugan. Man behöver inte ha en dataexpert eller statistiker som gör jobbet åt en. Jag har alltid fått kompetent hjälp av StatSoft samma dag när jag haft frågor. Beställ STATISTICA Hyrlicens Nu kan du som är knuten till universitet eller högskola teckna STATISTICA Hyrlicens för endast 945 kr exkl. moms. Du får då STATISTICA till och med 31 december 2011. Du kan sedan förlänga abonnemanget med ett år i taget till ordinarie pris 1 890 kr/år exkl moms. Du får: Ett komplett STATISTICAprogram, inkl alla moduler Automatiska uppgraderingar till den senaste versionen Låg årskostnad Fri teknisk support Introduktionsmanual Enklast beställer du via vår hemsida www.statsoft.se/academic/bestall Du kan också nå oss via E-post order@statsoft.se Telefon 018-21 00 45 Fax 018-21 00 48