Hur man kan tillämpa Data Science och AI i säkerhetsarbetet Magnus Sahlgren
FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare (många olika bakgrunder) Uppdragsfinansierade Data science-gruppen (enheten för beslutsstödssystem)
FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare (många olika bakgrunder) Uppdragsfinansierade Data science-gruppen (enheten för beslutsstödssystem)
FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare (många olika bakgrunder) Uppdragsfinansierade Data science-gruppen (enheten för beslutsstödssystem)
FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare (många olika bakgrunder) Uppdragsfinansierade Data science-gruppen (enheten för beslutsstödssystem)
FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare (många olika bakgrunder) Uppdragsfinansierade Data science-gruppen (enheten för beslutsstödssystem)
FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare (många olika bakgrunder) Uppdragsfinansierade Data science-gruppen (enheten för beslutsstödssystem)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Fokus Datorstöd för textanalys (öppna källor) - Mer information - Ny information (magneter för att lösa nålen-i-höstacken-problem) Teoridrivet vs. datadrivet Tvärvetenskapligt angreppssätt (kombinera det maskiner är bra på med det människor är bra på)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
Tekniker Datorlingvistik (språkteknologi) (Natural Language Processing, NLP) Maskininlärning (Machine Learning, ML) (Deep Learning, DL) Data Science (Data Mining)
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL...
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
AI, NLP, ML, DS, DL... AI = datorprogram som kan utföra intelligenta handlingar (vad är intelligent?) (använda maskininlärning och datorlingvistik för att förstå språk) (vad är förstå?) Data science = utvinna ny kunskap ur data (använda statistik, maskininlärning och datorlingvistik för att förstå data)
Exempel på tillämpningar Våldsbejakande extremism och radikalisering Ensamagerande våldsverkare Hot och hat Profilering Informationspåverkan
Exempel på tillämpningar Våldsbejakande extremism och radikalisering Ensamagerande våldsverkare Hot och hat Profilering Informationspåverkan
Exempel på tillämpningar Våldsbejakande extremism och radikalisering Ensamagerande våldsverkare Hot och hat Profilering Informationspåverkan
Exempel på tillämpningar Våldsbejakande extremism och radikalisering Ensamagerande våldsverkare Hot och hat Profilering Informationspåverkan
Exempel på tillämpningar Våldsbejakande extremism och radikalisering Ensamagerande våldsverkare Hot och hat Profilering Informationspåverkan
Exempel på tillämpningar Våldsbejakande extremism och radikalisering Ensamagerande våldsverkare Hot och hat Profilering Informationspåverkan
Tillvägagångssätt Varningsbeteenden och indikatorer (lingvistiska markörer och metadata) Inlärning från kända exempel
Tillvägagångssätt Varningsbeteenden och indikatorer (lingvistiska markörer och metadata) Inlärning från kända exempel
Tillvägagångssätt Varningsbeteenden och indikatorer (lingvistiska markörer och metadata) Inlärning från kända exempel
Tillvägagångssätt Varningsbeteenden och indikatorer (lingvistiska markörer och metadata) Inlärning från kända exempel
Varningsbeteenden Definierade av domänexperter - Ensamagerande våldsverkare (ex. fixering vid en person eller en sakfråga, läckage av avsikt till tredje part) - Extremism och radikalisering (ex. en tydlig utgrupp/fiendegrupp, en dikotom tankestil) - Informationspåverkan (ex. påståenden om lögner, olika narrativer) Språkliga markörer som manifesterar dessa beteenden
Varningsbeteenden Definierade av domänexperter - Ensamagerande våldsverkare (ex. fixering vid en person eller en sakfråga, läckage av avsikt till tredje part) - Extremism och radikalisering (ex. en tydlig utgrupp/fiendegrupp, en dikotom tankestil) - Informationspåverkan (ex. påståenden om lögner, olika narrativer) Språkliga markörer som manifesterar dessa beteenden
Varningsbeteenden Definierade av domänexperter - Ensamagerande våldsverkare (ex. fixering vid en person eller en sakfråga, läckage av avsikt till tredje part) - Extremism och radikalisering (ex. en tydlig utgrupp/fiendegrupp, en dikotom tankestil) - Informationspåverkan (ex. påståenden om lögner, olika narrativer) Språkliga markörer som manifesterar dessa beteenden
Varningsbeteenden Definierade av domänexperter - Ensamagerande våldsverkare (ex. fixering vid en person eller en sakfråga, läckage av avsikt till tredje part) - Extremism och radikalisering (ex. en tydlig utgrupp/fiendegrupp, en dikotom tankestil) - Informationspåverkan (ex. påståenden om lögner, olika narrativer) Språkliga markörer som manifesterar dessa beteenden
Varningsbeteenden Definierade av domänexperter - Ensamagerande våldsverkare (ex. fixering vid en person eller en sakfråga, läckage av avsikt till tredje part) - Extremism och radikalisering (ex. en tydlig utgrupp/fiendegrupp, en dikotom tankestil) - Informationspåverkan (ex. påståenden om lögner, olika narrativer) Språkliga markörer som manifesterar dessa beteenden
Varningsbeteenden Definierade av domänexperter - Ensamagerande våldsverkare (ex. fixering vid en person eller en sakfråga, läckage av avsikt till tredje part) - Extremism och radikalisering (ex. en tydlig utgrupp/fiendegrupp, en dikotom tankestil) - Informationspåverkan (ex. påståenden om lögner, olika narrativer) Språkliga markörer som manifesterar dessa beteenden
Språkliga markörer Ordlistor Vokabulärvariabilitet (synonymi) Semantiska minnen
Språkliga markörer Ordlistor Vokabulärvariabilitet (synonymi) Semantiska minnen
Språkliga markörer Ordlistor Vokabulärvariabilitet (synonymi) Semantiska minnen
Semantiska minnen
Ordlistor
Tematisk analys Definiera ordlistor [BRUTALITY: execute, punish, behead...] Räkna förekomster av ord i data Följ teman över källor och över tid
Tematisk analys Definiera ordlistor [BRUTALITY: execute, punish, behead...] Räkna förekomster av ord i data Följ teman över källor och över tid
Tematisk analys Definiera ordlistor [BRUTALITY: execute, punish, behead...] Räkna förekomster av ord i data Följ teman över källor och över tid
Tematisk analys Definiera ordlistor [BRUTALITY: execute, punish, behead...] Räkna förekomster av ord i data Följ teman över källor och över tid
Tematisk analys Definiera ordlistor [BRUTALITY: execute, punish, behead...] Räkna förekomster av ord i data Följ teman över källor och över tid
Tematisk analys
Tematisk analys Överskattning: polysemi ( execute )
Tematisk analys Överskattning: polysemi ( execute ) Underskattning: synonymi ( IS/ISIS/ISIL/Daesh )
Tematisk analys Överskattning: polysemi ( execute ) Disambiguering Underskattning: synonymi ( IS/ISIS/ISIL/Daesh )
Tematisk analys Överskattning: polysemi ( execute ) Underskattning: synonymi ( IS/ISIS/ISIL/Daesh ) Disambiguering Semantiska minnen
Tematisk analys av IS-propaganda Dabiq 1 15, Rumiyah 16 28 Word frequency 0.010 0.005 Category Death Explosive Family Knife Prohibition Slave Vehicles 0.000 0 10 20 Magazine nr
Teman på Nordfront
Teman på Nordfront
Maskininlärning Lära en dator känna igen text baserat på exempeltexter Kräver tillräckligt många, och tillräckligt representativa, exempel Annotering = samla exempel
Maskininlärning Lära en dator känna igen text baserat på exempeltexter Kräver tillräckligt många, och tillräckligt representativa, exempel Annotering = samla exempel
Maskininlärning Lära en dator känna igen text baserat på exempeltexter Kräver tillräckligt många, och tillräckligt representativa, exempel Annotering = samla exempel
Maskininlärning Lära en dator känna igen text baserat på exempeltexter Kräver tillräckligt många, och tillräckligt representativa, exempel Annotering = samla exempel
Annoteringsverktyg
Hur svårt är annotering? Ordklasser Korrelation som mått på överrensstämmelse (>0.8 räknas som tillförlitligt) 0.92 (Gimpel et al., 2011) 0.90 (Plank et al., 2014)
Hur svårt är annotering? Ordklasser Korrelation som mått på överrensstämmelse (>0.8 räknas som tillförlitligt) 0.92 (Gimpel et al., 2011) 0.90 (Plank et al., 2014)
Hur svårt är annotering? Ordklasser Korrelation som mått på överrensstämmelse (>0.8 räknas som tillförlitligt) 0.92 (Gimpel et al., 2011) 0.90 (Plank et al., 2014)
Hur svårt är annotering? Ordklasser Korrelation som mått på överrensstämmelse (>0.8 räknas som tillförlitligt) 0.92 (Gimpel et al., 2011) 0.90 (Plank et al., 2014)
Hur svårt är annotering? Sentiment 0.91 (Kim and Hovy, 2004) 0.70 0.80 (Gamon and Aue, 2005) 0.78 (Strappavara and Mihalcea, 2007) 0.42 (Bermingham and Smeaton, 2009) 0.65 (Diakopoulos and Shamma, 2010) 0.52 0.72 (Momtazi, 2012) 0.76 (Saif et al., 2013) 0.44 (Maynard and Bontcheva, 2016)
Hur svårt är annotering? Sentiment 0.91 (Kim and Hovy, 2004) 0.70 0.80 (Gamon and Aue, 2005) 0.78 (Strappavara and Mihalcea, 2007) 0.42 (Bermingham and Smeaton, 2009) 0.65 (Diakopoulos and Shamma, 2010) 0.52 0.72 (Momtazi, 2012) 0.76 (Saif et al., 2013) 0.44 (Maynard and Bontcheva, 2016)
Hur svårt är annotering? Hate speech 0.18 0.38 (Ross et al., 2016) 0.34 0.57 (Waseem, 2016) 0.21 0.84 (Nobata et al., 2016) 0.84 (Waseem and Hovy, 2016) 0.92 (Davidson et al., 2017)
Hur svårt är annotering? Hate speech 0.18 0.38 (Ross et al., 2016) 0.34 0.57 (Waseem, 2016) 0.21 0.84 (Nobata et al., 2016) 0.84 (Waseem and Hovy, 2016) 0.92 (Davidson et al., 2017)
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Annotering av svensk data Teoridrivet baserat på kategorier: - Svordomar - Ilska - Elakheter - Generella hot - Dödshot - Sexism
Hat och hot Person Swearw. Anger Naught. Gen. threat Death threat Sexism Ylva Johansson 2.95 1.43 1.9 0.83 0.46 0.07 Stefan Löfven 0.98 3.29 16.49 2.65 3.15 0.46 Morgan Johansson 1.16 2.82 2.77 2.32 0.93 0.14 Margot Wallström 1.5 2.32 3.12 1.41 0.79 0.12 Mikael Damberg 0.77 0.83 0.12 0.09 0.05 0.01
Hat och hot Person Swearw. Anger Naught. Gen. threat Death threat Sexism Ylva Johansson 2.95 1.43 1.9 0.83 0.46 0.07 Stefan Löfven 0.98 3.29 16.49 2.65 3.15 0.46 Morgan Johansson 1.16 2.82 2.77 2.32 0.93 0.14 Margot Wallström 1.5 2.32 3.12 1.41 0.79 0.12 Mikael Damberg 0.77 0.83 0.12 0.09 0.05 0.01
Hat och hot Person Swearw. Anger Naught. Gen. threat Death threat Sexism Ylva Johansson 2.95 1.43 1.9 0.83 0.46 0.07 Stefan Löfven 0.98 3.29 16.49 2.65 3.15 0.46 Morgan Johansson 1.16 2.82 2.77 2.32 0.93 0.14 Margot Wallström 1.5 2.32 3.12 1.41 0.79 0.12 Mikael Damberg 0.77 0.83 0.12 0.09 0.05 0.01
Hat och hot Person Swearw. Anger Naught. Gen. threat Death threat Sexism Ylva Johansson 2.95 1.43 1.9 0.83 0.46 0.07 Stefan Löfven 0.98 3.29 16.49 2.65 3.15 0.46 Morgan Johansson 1.16 2.82 2.77 2.32 0.93 0.14 Margot Wallström 1.5 2.32 3.12 1.41 0.79 0.12 Mikael Damberg 0.77 0.83 0.12 0.09 0.05 0.01
Våldsuttryck 0.04 Relativ termfrekvens 0.03 0.02 sep 04 sep 11 sep 18 sep 25 okt 02
Profilering Avgöra särdrag hos författaren (författarbestämning, aliasmatchning) Demografiska: kön, ålder, härkomst Sociopolitiska: utbildningsnivå, politisk/ideologisk tillhörighet
Profilering Avgöra särdrag hos författaren (författarbestämning, aliasmatchning) Demografiska: kön, ålder, härkomst Sociopolitiska: utbildningsnivå, politisk/ideologisk tillhörighet
Profilering Avgöra särdrag hos författaren (författarbestämning, aliasmatchning) Demografiska: kön, ålder, härkomst Sociopolitiska: utbildningsnivå, politisk/ideologisk tillhörighet
Profilering Avgöra särdrag hos författaren (författarbestämning, aliasmatchning) Demografiska: kön, ålder, härkomst Sociopolitiska: utbildningsnivå, politisk/ideologisk tillhörighet
Profilering Avgöra särdrag hos författaren (författarbestämning, aliasmatchning) Demografiska: kön, ålder, härkomst Sociopolitiska: utbildningsnivå, politisk/ideologisk tillhörighet
Profilering
Profilering
Ramverk
Ramverk
Ramverk