Elektronisk patientjournal Hippokrates Typer Tidsorienterad, problemorienterad samt källorienterad Varför? Stödja vården, legala skäl, forskning, utbildning. Data måste vara otvetydiga, strukturerade, lätt åtkomliga Inmatning av data Naturligt språk Strukturerad data inmatning (SDE) Ökning av informationsmängden Datamängder ökar i olika verksamheter Medicin Lab-prov, diagnoser, organisatoriska data Affärsverksamhet kunduppgifter, köpvanor Kreditkortsföretag transaktioner 1
Källor för hälsoinformation Health Information Resource (HIR) Införskaffande, lagring, analys och presentation av stora mängder (anonymt) data om friska människor och patienter. Införskaffande Formulär - optisk läsning capture at source Lagring Record linkage Duplicate Records Missing Data Analys Data mining Källor för hälsoinformation Datavaruhus (Data Warehouse) Affärssystem Relationsdatabas Normaliserat data Utrymmesbesparing Dynamiskt data som uppdateras Inom medicin elektronisk patientjournal Datavaruhus Flexibla analyser Integrerar data från flera källor Stora datamängder (tidsmässigt) Data ändras ej Denormaliserad Implementeras ofta som dimensionella databaser OLAP-kub 2
Källor för hälsoinformation Datavaruhus (Data Warehouse) ETL-verktyg (Extraction, Transformation and Loading) används ofta för att föra över data till datavaruhuset Läsning av data (Extraction) Konvertering av data till lämpligt format (Transformation) Laddning av data till datavaruhuset (Loading) Tvätta data Olika representationer I.B.M samma sak som IBM Datatypskonvertering Förkortningar t.ex. => till exempel Datastrukturen (tabeller) kan behöva ändras Nycklar Byt ut primärnyckel mot surrugatnyckel Data mining Vad är det? Sökandet efter intressanta samband i stora datamängder intressanta samband? if-then regler klustermönster funktionsapproximation misstag Varför benämningen data mining? Stort område, inte bara inom medicin Seti@home 3
Data mining Mer än regressionsanalys och databassökning? Normal vetenskaplig metodik 1. Bestäm problemet 2. Generera hypotes/modell (jmf hypotesprövning) 3. Samla data/genomför experiment för att få data 4. Testa modeller mot data 5. Använd resultat för att generera nya hypoteser Data mining vänder på resonemanget, börjar med data och sedan hypoteser/modeller. Data mining Motivation Varför välja modellen innan insamling av data (traditionell)? Kostnad Lagringsmedia har sjunkit i kostnad NASA rymdsond Köp på affär pris, varubeskrivning, sekund, plats osv. Information overflow (överflöde av information) Utför alla stegen automatiskt Se på data innan modellen -tänkande, naturligt för datorer? Schack, bevisning 4
Data mining Omfattning Automatiserad förutsägning av trender och beteenden konkurs reklam grupp av befolkning som reagerar lika för ett given händelse, exempelvis behandling med viss medicin Automatiserad upptäckt av tidigare okända mönster relevans? där kontinentalplattor möts och ökat risk för jordbävningar pepsi-bryggerier och risk för jordbävningar Data mining Hur fungerar data mining? 1. Utgå från svart låda med stor, slumpmässigt vald datamängd (jmf samples inom statistik) 2. Undersök (tusentals) möjliga samband 3. Välj mellan de bästa (neurala nät, genetiska algoritmer eller metoder speciellt lämpade för stora databaser) Första ansats; testa alla möjliga modeller (iterera över olika kombinationer av variabler) Problem vid stora datamängder Vanligast är någon form av symbolisk AI (t.ex. beslutsträd) 5
Metoder Symboliska Rule-induction If-then rules Rough sets Association rules Ripple down rules Case-based reasoning Subsymboliska Instance-based learning Neural networks Bayesian classifier Rough sets 6
Fuzzy sets Varför är data mining svårt? Storleksproblem Hela datamängden i minnet? Dimensionalitet if-then testning, 15 variabler; low, medium och high-nivåer för varje variabel. => 2^30 kombinationer Statistikproblem Regression 1000 modeller på olika data => (slump) 50 accepteras med 95% tillförlitlighet testa många modeller på samma data ännu värre konfidensintervall, p-values; klarar bara några få hypoteser 7
Varför är data mining svårt? Konceptuella problem data mining användes ursprungligen av statistiker som en nedsättande benämning för att få dåliga resultat av att prövat för många modeller. Slumpmässiga samband nummer på bostadshuset vs hårfärg större problem inom data mining än inom traditionell hypotesprövning Gömda variabler Data mining bättre Dåligt val av datamassa garbage in, garbage out Case study: A datawarehouse for LUTS patients Cooperation with Umeå University Hospital,Urology dept Lower Urinary Tract Symptoms IBM BMS Cross - patient record system Example analysis task How has IPSS changed? How has QULIFE changed? (quality assurance) 8