Grundläggande textanalys, VT2013

Storlek: px
Starta visningen från sidan:

Download "Grundläggande textanalys, VT2013"

Transkript

1 Grundläggande textanalys, VT2013 Rum (Tack till Sofia Gustafson-Capkovâ för material.)

2 Idag - Preprocessing - Tokeniserings- och segmenteringsproblematik - Strategier för att förbättra tokeniseringen - Laboration 1 2

3 Preprocessing 3

4 Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. 4

5 Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 5

6 Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 2. Ta bort oönskad kodning, till exempel html-taggar 6

7 Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 2. Ta bort oönskad kodning, till exempel html-taggar 3. Ta bort skräp dubbla mellanslag, tabbar avvikande radbrytningar CRLF = Carriage Return Line Feed (ger en extra nyrad)

8 Grefenstette och Tapanainen Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. 8

9 Grefenstette och Tapanainen Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. - Material: Brown Corpus (Frances och Kucera, 1961) - 1 miljon ord på amerikansk engelska - balanserad korpus dvs sammansatt med eftertanke material från press, facklitteratur och skönlitteratur 9

10 Grefenstette och Tapanainen Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. - Material: Brown Corpus (Frances och Kucera, 1961) - 1 miljon ord på amerikansk engelska - balanserad korpus dvs sammansatt med eftertanke material från press, facklitteratur och skönlitteratur - Metod: Filter uttryckta med reguljära uttryck 10

11 Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra 11

12 Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. 12

13 Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown radslut, varav (12 %) slutar med bokstav och bindestreck. 13

14 Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown radslut, varav (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* 14

15 Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown radslut, varav (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* Detta gav korrekta sammanfogningar och 615 felaktiga, dvs ca 95 % av sammanfogningarna blev rätt. 15

16 Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown radslut, varav (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* Detta gav korrekta sammanfogningar och 615 felaktiga, dvs ca 95 % av sammanfogningarna blev rätt. - De felaktiga sammanfogningarna bestod av ord som inte fanns i orginaltexten, till exempel sciencefiction. 16

17 Tokeniserings- och segmenteringsproblematik 17

18 Vad är meningssegmentering? Meningssegmentering innebär att man delar upp en text i dess meningar, dvs: - Före meningssegmenteringen kan man se teckensträngen som en enda lång sträng. Detta är en mening. Detta är en till mening. - Efter meningssegmenteringen har vi delat in strängen i meningar: Detta är en mening. Detta är en till mening. 18

19 Vad är tokensiering? Tokensering innebär att man delar upp en text i ordliknande enheter, dvs: - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. - Efter tokeniseringen har vi delat in strängen i token, dvs ordliknande enheter. En lång sträng. 19

20 Tokeniserings- och segmenteringsproblematik - Mellanslag - Apostrofer - Punkter - Förkortning namn - Vi kan lätt skilja på tokenisering och segmentering i teorin I praktiken är det svårare, eftersom områdena är olika sidor av problem. - Vi ska först titta närmare på problemen och därefter på Grefenstette och Tapanainens experiment. 20

21 Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. 21

22 Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company 22

23 Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York 23

24 Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall 24

25 Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall - sifferuttryck:

26 Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall - sifferuttryck: Några fall att fundera över: - BMW 535i - Mercedes 300E (5-18) 26

27 Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. 27

28 Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. - Kan fungera som citationstecken eller som del att ordet: 'the boys' vs the boys' toys 28

29 Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. - Kan fungera som citationstecken eller som del att ordet: 'the boys' vs the boys' toys - Ska man betrakta isn't som ett eller flera ord? isn't vs is n't Hur motiverar man sitt val? 29

30 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. 30

31 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: , ,50 31

32 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: , ,50 - Postnummer:

33 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: , ,50 - Postnummer: Telefonnummer: 0290/ /

34 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: , ,50 - Postnummer: Telefonnummer: 0290/ / Valutor/priser: 50,50 20:- 34

35 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: , ,50 - Postnummer: Telefonnummer: 0290/ / Valutor/priser: 50,50 20:- - Tidsangivelser: 13:30 35

36 Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: , ,50 - Postnummer: Telefonnummer: 0290/ / Valutor/priser: 50,50 20:- - Tidsangivelser: 13:30 - Vi kan utforma filter med reguljära uttryck som känner igen våra sifferuttryck och inte råkar dela upp dem. 36

37 Tokeniseringsproblematik Sifferuttryck - Grefenstette och Tapaninens förslag: reguljärt uttryck som fångar upp den engelska versionen av tal: ([0-9]+[,])*[0-9]([.][0-9]+)? 37

38 Tokeniseringsproblematik Sifferuttryck - Grefenstette och Tapaninens förslag: reguljärt uttryck som fångar upp den engelska versionen av tal: ([0-9]+[,])*[0-9]([.][0-9]+)? Detta reguljära uttryck fångar upp datum: [0-9]+(\/[0-9])+)+ 38

39 Tokeniseringsproblematik punkter - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. 39

40 Tokeniseringsproblematik punkter - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. - Efter tokeniseringen har vi delat in strängen i token, dvs ordliknande enheter. En lång sträng. - En mening som slutar med skiljertecken och! och? är entydliga sådana tecken. Men. är ambiguöst och svår att tokenisera rätt. 40

41 Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut 41

42 Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. 42

43 Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. 43

44 Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. Ph.D, google.com 44

45 Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. Ph.D, google.com sifferuttryck: datum( ), tal(25.6, 100, eller ,10) 45

46 Tokeniseringsproblematik punkter - I Brown finns det meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. 46

47 Tokeniseringsproblematik punkter - I Brown finns det meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. 47

48 Tokeniseringsproblematik punkter - I Brown finns det meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. - Men hur kommer vi åt punkten i förkortningarna? 48

49 Tokeniseringsproblematik punkter - I Brown finns det meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. - Men hur kommer vi åt punkten i förkortningarna? Jo, med hjälp av reguljära uttryck. 49

50 Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: 50

51 Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. 51

52 Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. [A-Za-z]\.[A-Za-z]\. En sekvens av bokstav-punkt-bokstav-punkt. U.S. m.p.h i.e. 52

53 Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. [A-Za-z]\.[A-Za-z]\. En sekvens av bokstav-punkt-bokstav-punkt. U.S. m.p.h i.e. [A-Z][bcdfghj-np-tvwxz]+\. En versal följd av konsonanter och punkt, Mrs. Mr. St. 53

54 Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\ [A-Za-z]\ [A-Z][bcdfghj-np-tvwxz]+\ Totalt

55 Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\ [A-Za-z]\ [A-Z][bcdfghj-np-tvwxz]+\ Totalt Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. 55

56 Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\ [A-Za-z]\ [A-Z][bcdfghj-np-tvwxz]+\ Totalt Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. 56

57 Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\ [A-Za-z]\ [A-Z][bcdfghj-np-tvwxz]+\ Totalt Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. - Vi hitttar 3876 instanser av totalt 4819 förkortningar. 57

58 Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\ [A-Za-z]\ [A-Z][bcdfghj-np-tvwxz]+\ Totalt Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. - Vi hitttar 3876 instanser av totalt 4819 förkortningar. - Om vi använder dessa reguljära uttryck kommer vi att meningssegmentera korrekt i fall , dvs 97,7 %. 58

59 Strategier för att förbättra tokeniseringen 59

60 Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. 60

61 Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. Idé: Alla ord som förekommer utan punkt på andra ställen i korpusen bör vara token, dvs punkten hör inte till den föregående strängen. stol... stol. stol är ett token 61

62 Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. Idé: Alla ord som förekommer utan punkt på andra ställen i korpusen bör vara token, dvs punkten hör inte till den föregående strängen. stol... stol. stol är ett token Grefenstetter och Tapanainen rapporterar följande: - om man använder korpusen som lexikon, - och om matchar de misstänkta förkortningarna med de reguljära uttrycken, - så ökar man graden av korrekthet från 97,7 % till 97,9 %. 62

63 Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) 63

64 Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. 64

65 Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck 65

66 Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck - Vid tokenisering: Låt punkterna sitta kvar på sitt ord och skicka till morfologisk analys. 66

67 Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck - Vid tokenisering: Låt punkterna sitta kvar på sitt ord och skicka till morfologisk analys. - Morfologisk analysator och filter: Materialet bearbetas i en morfologisk analysator och med ett filter(nästa bild) 67

68 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 68

69 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 69

70 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 70

71 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 71

72 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 72

73 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 5. om strängen börjar med en versal och förekommer endast en eller två gånger Antag att det inte är en förkortning 73

74 Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 5. om strängen börjar med en versal och förekommer endast en eller två gånger Antag att det inte är en förkortning 6. Antag i övriga fall att det är en förkortning 74

75 Med lexikon - filter - Med reguljära uttryck som motsvarar denna algoritm blev resultatet 99,7% för segmenteringen. (Tidigare siffror var 97,7% och 97,9%.) 75

76 Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. 76

77 Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 77

78 Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 78

79 Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 3. Antag i övriga fall att det inte är en förkortning. 79

80 Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 3. Antag i övriga fall att det inte är en förkortning. Resultat: Endast 53 ord av möjliga förkortningar i Brown blev felklassificerade. 80

81 Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: 81

82 Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna 82

83 Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna - Detta beror bland annat på den höga ambiguiteten hos punkten. 83

84 Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna - Detta beror bland annat på den höga ambiguiteten hos punkten. - Det är inte lika problematiskt med övriga skiljetecken, men jämför: Menar du det? sa han. 84

85 Textnormalisering inför ordklasstaggning HunPos, TnT-taggaren: - ett ord per rad - tom rad markerar meningsslut. We 're going. Are you? 85

86 Textnormalisering inför ordklasstaggning Brill-taggaren: - en mening per rad - separera skiljetecken från ord We 're going today, are you? '' I 'm hungry, '' he said. 86

87 Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. 87

88 Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. - Texten ska expanderas för att spegla uttalet (t.ex. till exempel m.m. med mera) - Akronoymer (IKEA, FN, NLP) - Sifferuttryck(1902, 1750 hur ska vi uttala?) 88

89 Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. - Texten ska expanderas för att spegla uttalet (t.ex. till exempel m.m. med mera) - Akronoymer (IKEA, FN, NLP) - Sifferuttryck(1902, 1750 hur ska vi uttala?) - För att mappa text mot uttal kan man använda transduktorer på liknande sätt som man gör vid morfologisk analys. 89

90 Laboration 1 90

91 Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. 91

92 Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. - Grefenstette och Tapanainen exemplifierar detta på Brown-korpusen. 92

93 Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. - Grefenstette och Tapanainen exemplifierar detta på Brown-korpusen. - I Laboration 1 kommer vi att arbeta med liknande exepriment på SUC-korpusen. 93

94 Laborationsrapporten - Laborationsrapporten ska innehålla följande: 1. En kort abstrakt med en sammanfattning av det viktigaste i rapporten. 2. En Inledning/bakgrund som innehåller följande: - beskrivning av uppgiften - kort redogörelse för ämnet (referera till den litteratur vi haft. I bakgrundsavsnittet gör du ett refererat/ en genomgång av tidigare forskning). 3. Ett avsnitt om utförande: - Beskriv hur du gick tillväga för att lösa uppgiften 4. Ett avsnitt där du redovisar resultatet 94

95 Laborationsrapporten - Laborationsrapporten ska innehålla följande: 5. Ett avsnitt där du diskutterar resultatet: Varför blev det som det blev? Vad skulle kunna förbättras och hur? Hur relaterar dina resultat till det du läst i litteraturen? 6. En kort slutsats 7. Litteraturlista 95

96 Att referera När man refererar återger du MED EGNA ORD vad en forskare formulerat, i t. ex., en artikel. Det är viktigt att du: - är noggrann och gör ett rättvist referat, dvs inte återger något som artikeln inte ger stöd för inte underlåter/missar poängen med artikeln - visar varifrån du fått din information så att läsaren inte tror att det är dina idéer som presenteras visa alltid med referens/källanvisning varifrån informationen kommer kontrollera alltid att alla källor finns med i referenslistan - INTE SKRIVER AV ELLER ÖVERSÄTTER RAKT AV EFTERSOM DET RÄKNAS SOM PLAGIAT!!!! - Man behöver inte fullständigt redogöra för alla tekniska detaljer när man återger en poäng. 96

97 Att citera Om man vill återge något exakt använder man ett citat. När man citerar anger man detta med citattecken( ) Om man citerar ett långt stycker skriver man citatet I ett indraget stycke och använder citattecken( ) ange källan/referensen till citatet Tänk på följande: - Ange sidan där du hittat citatet - Man får citera 15 rader utan tillstånd från upphovsrättsinnehavaren 97

98 Referenser Referenser skall innehålla information om Författare titel årtal publikation (tidskrift, samlingsverk) utgivare 98

99 Referenser Referenser skall innehålla information om Författare titel årtal publikation (tidskrift, samlingsverk) utgivare Det finns olika system för hur referenserna skall behandlas. Harvardsystemet är vanligast: - I texten: (Ejerhed et al., 1992) Ejerhed et al. (1992) - I referenslistan: Ejerhed F., Källgren, G. Wennstedt, O., Åström, M The Linguistic Annotation System of the Stockholm-Umeå Corpus Project. DGL-UUM-R-32, report no. 33. Department of Linguistics, Umeå University. Om man vill veta mer om referenssystem kan man läsa Backman: Backman, J., Rapporter och uppsatser, Studentlitteratur, Lund 99

100 Nästa gång - Ordklasstaggning (Sätta ordklass på ord) - Laboration 2 100

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Korpussökning och korpusmått 1(44)

Korpussökning och korpusmått 1(44) Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer

Läs mer

STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar

STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar STRÄNGAR En av de mest avancerade av de normala datatyperna är. Här skall vi grundläggande gå igenom hur den datatypen fungerar och vidare flertalet funktioner som hör till datatypen. Låt oss kasta oss

Läs mer

Anvisningar till skribenter

Anvisningar till skribenter Välkommen som skribent i Medusa! Medusa riktar sig till alla antikintresserade men också till andra, allmänt kulturintresserade läsare. Tidningen för i populär form ut forskning och sprider kunskap om

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek Referera rätt Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek Det hör till god vetenskaplig praxis att redovisa de källor som använts. Det måste alltid framgå av texten vem som

Läs mer

Att citera och referera

Att citera och referera Att citera och referera Studieguide Hvitfeldtska gymnasiet Vanliga frågor Vad är en referens? En referens är en beskrivning av en källa du använt i ditt arbete. Varför ska du referera? Det ska vara väldigt

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära

Läs mer

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT Ditt gymnasiearbete ska bygga kring den frågeställning du kommit fram till i slutet av vårterminen i årskurs 2 och du ska i ditt arbete besvara din frågeställning

Läs mer

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer

Läs mer

REFERENSHANTERING. Svenska Jonathan Thorsell

REFERENSHANTERING. Svenska Jonathan Thorsell REFERENSHANTERING Svenska 1 2013-03-11 Jonathan Thorsell Varför referenser? Refererar du till någon annans arbete måste källan anges (referensen). Läsaren ska lätt kunna hitta materialet för att läsa mer

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality Lathund till PEP Databasen PEP (Psychoanalytic Electronic Publishing) innehåller 59 tidskrifter och 96 klassiska böcker inom psykoanalys. Dessutom innehåller PEP fulltext och redaktörskommentarer till

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Rapportskrivning. Innehållsförteckning, källhänvisning, referenssystem, sidnumrering

Rapportskrivning. Innehållsförteckning, källhänvisning, referenssystem, sidnumrering Rapportskrivning Innehållsförteckning, källhänvisning, referenssystem, sidnumrering Innehållsförteckning 1. Markera alla huvudrubriker en i taget (Ctrl) och klicka på Rubrik 1, som finns uppe i menyraden.

Läs mer

Noter och referenser - Oxfordsystemet

Noter och referenser - Oxfordsystemet Noter och referenser - Oxfordsystemet Centrum för barnkulturforskning Centrum för barnkulturforskning Vårterminen 2012 Noter och referenser - Oxfordsystemet Noter och referenser Oxfordsystemet Det finns

Läs mer

Referenser med SLUs Harvardsystem i Sharelatex - användning av Zotero och Biblatex

Referenser med SLUs Harvardsystem i Sharelatex - användning av Zotero och Biblatex Referenser med SLUs Harvardsystem i Sharelatex - användning av Zotero och Biblatex Maria Helin, Juni 2018 Innehåll 1 Harvardsystemet enligt Sveriges Lantbruksuniversitet (SLU) 2 2 Att använda Zotero i

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar

Läs mer

Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk

Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk Labb 1 - Textbearbetning med reguljära uttryck Textbearbetning: Dela upp en text i meningar Hitta alla namn i en text Hitta adjektiv i superlativ Lektion reguljära uttryck re modulen i Python Formella

Läs mer

Anvisningar till rapporter i psykologi på B-nivå

Anvisningar till rapporter i psykologi på B-nivå Anvisningar till rapporter i psykologi på B-nivå En rapport i psykologi är det enklaste formatet för att rapportera en vetenskaplig undersökning inom psykologins forskningsfält. Något som kännetecknar

Läs mer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort

Läs mer

När man använder någon annans text

När man använder någon annans text Kursmaterial om hänvisningar, från kursen FÖ1002 Företagsekonomi A, Handelshögskolan, Örebro universitet, läsåret 2010/11 När man använder någon annans text Citat Ett citat återger exakt originaltexten,

Läs mer

Lathund för rapportskrivning

Lathund för rapportskrivning Lathund för rapportskrivning Magnus Merkel, Ulrika Andersson, Malin Lundquist och Britta Önnegren Linköping Linköpings universitet 2004-11-10 En akademisk text? Ny frågeställning Ny kunskap Analysera resultat

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Källuppgifter i fysik FAFA55

Källuppgifter i fysik FAFA55 Källuppgifter i fysik FAFA55 Varför är vi här? Kursmål: korrekta källuppgifter på universitetsnivå Projekt under LP 1 - Att hitta information - Korrekta källuppgifter i fysikformat Gäller även labbrapport

Läs mer

Att skriva sakprosa och facktext Några viktiga anvisningar för studenter på grundnivå Senast reviderade HT 2011 av Ann Boglind och Hans Landqvist

Att skriva sakprosa och facktext Några viktiga anvisningar för studenter på grundnivå Senast reviderade HT 2011 av Ann Boglind och Hans Landqvist 1 Institutionen för svenska språket Institutionen för litteratur, idéhistoria och religion Att skriva sakprosa och facktext Några viktiga anvisningar för studenter på grundnivå Senast reviderade HT 2011

Läs mer

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog Fonetisk text och förkortningar i Dialog Nova och Polycom Dialog Fonetisk text och förkortningar i Dialog Nova och Polycom Dialog Version: 3.1 Dok.nr: 10.0183 A1 Producerat av: Polycom Technologies AB

Läs mer

Grundläggande textanalys, VT2012

Grundläggande textanalys, VT2012 Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket

Läs mer

Data visualization on Android

Data visualization on Android Datavetenskap Opponenter: Tobias Eriksson, Agni Rizk Respondent: Victor Ulhagen Data visualization on Android Oppositionsrapport, C/D-nivå 2010:xx 1 Sammanfattat omdöme av examensarbetet Rapporten är bra

Läs mer

Rapporter En lathund för studenter

Rapporter En lathund för studenter Rapporter En lathund för studenter Magnus Merkel Reviderad av Ulrika Andersson, Malin Lundquist och Britta Önnegren Linköping Linköpings universitet 2002-08-20 Vem skriver du för? Varför? En akademisk

Läs mer

5 TIPS. om skiljetecken från Lotten Bergman

5 TIPS. om skiljetecken från Lotten Bergman 5 TIPS om skiljetecken från Lotten Bergman BERGMANS BOKSTÄVER AB Gillbergavägen 113 A 632 36 Eskilstuna 016-48 08 48 info@bergman.com www.bergman.com www.lotten.se 1. Glöm satskommateringen! Kommateringsregler.

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Lektion inför Laboration 1 vt15 Lars Ahrenberg Plan för lektionen Grupperingar Substitutioner Strängfunktioner i Python (kort repetition) Reguljära uttryck i Python

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

Att skriva PM. En promemoria ska innehålla följande:

Att skriva PM. En promemoria ska innehålla följande: Att skriva PM En promemoria ska innehålla följande: Innehållsförteckning: Samtliga avsnitt i texten med sidhänvisning, förteckning över tabeller och figurer. Notera dock att kortare PM, upp till 5 sidor

Läs mer

Mälardalens högskola

Mälardalens högskola Teknisk rapportskrivning - en kortfattad handledning (Version 1.2) Mälardalens högskola Institutionen för datateknik (IDt) Thomas Larsson 10 september 1998 Västerås Sammanfattning En mycket viktig del

Läs mer

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport Eventuell underrubrik Förnamn Efternamn Klass Skola Kurs/ämnen Termin Handledare Abstract/Sammanfattning Du skall skriva en kort

Läs mer

Publikationstyp Artikel i tidskrift, Artikel, forskningsöversikt och Artikel, recension

Publikationstyp Artikel i tidskrift, Artikel, forskningsöversikt och Artikel, recension Publikationstyp Artikel i tidskrift, Artikel, forskningsöversikt och Artikel, recension 1. Underkategori Underkategori finns för publikationstypen Artikel i tidskrift, och används till exempel för artiklar

Läs mer

EXAMENSARBETE för Nationell montessoriexamen

EXAMENSARBETE för Nationell montessoriexamen EXAMENSARBETE för Nationell montessoriexamen Examensarbetet ska anknyta till montessoripedagogiken och omfatta en enkel vetenskaplig undersökning (ex litteraturstudie, intervju, observation eller enkät),

Läs mer

Praktiska skrivråd för hassleholm.se

Praktiska skrivråd för hassleholm.se SÅ HÄR SKRIVER VI PÅ WEBBEN 1(6) Datum 2015-04-01 Praktiska skrivråd för hassleholm.se Vi som arbetar med webben har ett ansvar för hur kommunens texter ser ut. Att skriva lättbegripligt klarspråk är att

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

RAPPORTSKRIVNING. Skolans namn Program, kurs, läsår Undervisande lärares namn. (titel på arbetet)

RAPPORTSKRIVNING. Skolans namn Program, kurs, läsår Undervisande lärares namn. (titel på arbetet) Skolans namn Program, kurs, läsår Undervisande lärares namn RAPPORTSKRIVNING (titel på arbetet) Ort och datum Författare(om det är flera skrivs namnen i bokstavsordning) Innehåll 1. Inledning(kapitelrubrik)...3

Läs mer

UTBILDNING & ARBETE Uppsatsskrivandets ABC

UTBILDNING & ARBETE Uppsatsskrivandets ABC UTBILDNING & ARBETE Uppsatsskrivandets ABC Borgarskolan Polhemsskolan Vasaskolan 1 Innehåll Abstract... 1 Analys... 1 Argument... 1 Bilagor... 1 Citat... 1 Enkät... 1 Fotnot... 1 Frågeställning... 1 Innehållsförteckning...

Läs mer

(Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet)

(Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet) INSTRUKTIONER FÖR REFERENSHANTERING (Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet) 2012-01-10 Katarina Ayton När du skriver en examination,

Läs mer

Standard Template Library

Standard Template Library Linköpings Universitet Institutionen för datavetenskap (IDA) UPP-gruppen 2015-11-01 Standard Template Library Mål Denna laboration går ut på att öva på att använda de givna klasser och algoritmer som finns

Läs mer

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK Sökning, källkritik och referenshantering EITA55 2018-09-07 LINA AHLGREN & OLA HEDBÄCK Agenda Sökprocessen Söktjänster Referenshantering Sökprocessen Problemställning Källkritik Sökord Sökresultat Söktjänster

Läs mer

Språkets struktur och funktion, 7,5 hp

Språkets struktur och funktion, 7,5 hp Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag

Läs mer

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet Kursens mål Efter avslutad kurs skall studenten kunna planera, genomföra, sammanställa och försvara ett eget projekt samt kunna granska och opponera på annan students projekt. Studenten ska även kunna

Läs mer

Uppsatsskrivandets ABC

Uppsatsskrivandets ABC UTBILDNING GÄVLE GYMNASIEBIBLIOTEKARIERNA Uppsatsskrivandets ABC Borgarskolan Polhemsskolan Vasaskolan 1 Innehåll Abstract... 1 Analys... 1 Argument... 1 Bilagor... 1 Bilder... 1 Citat... 2 Enkät... 2

Läs mer

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Litteraturstudie Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Vad är en litteraturstudie? Till skillnad från empiriska studier söker man i litteraturstudier svar på syftet

Läs mer

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP SKRIVREGLER FÖR SKOLPORTENS ARTIKELSERIE LEDA & LÄRA

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP SKRIVREGLER FÖR SKOLPORTENS ARTIKELSERIE LEDA & LÄRA SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP SKRIVREGLER FÖR SKOLPORTENS ARTIKELSERIE LEDA & LÄRA SKRIVREGLER FÖR SKOLPORTENS ARTIKELSERIE LEDA & LÄRA DEN HÄR INSTRUKTIONEN

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

DAB760: Språk och logik

DAB760: Språk och logik DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg

Läs mer

Att skriva rapporten för examensarbetet & sammanfattning av IMRAD. Ville Jalkanen TFE, UmU

Att skriva rapporten för examensarbetet & sammanfattning av IMRAD. Ville Jalkanen TFE, UmU Att skriva rapporten för examensarbetet & sammanfattning av IMRAD Ville Jalkanen TFE, UmU 2017-04-20 1 Att skriva och presentera rapporter http://www.teknat.umu.se/digitalassets/50/50357_att_skriva_rapport_umth_klar.pdf

Läs mer

Registrera/publicera avhandling (sammanläggningsavhandling)

Registrera/publicera avhandling (sammanläggningsavhandling) Registrera/publicera avhandling (sammanläggningsavhandling) Inför spikningen ska både avhandlingens delarbeten (artiklar och manuskript) och ramberättelsen (kappan) registreras i DiVA. Registreringen sker

Läs mer

Att skriva en vetenskaplig rapport

Att skriva en vetenskaplig rapport Birgittaskolan Att skriva en vetenskaplig rapport Eventuell underrubrik Förnamn Efternamn Klass Skola Kurs/ämnen Termin Handledare Abstract/Sammanfattning Du skall skriva en kort sammanfattning som är

Läs mer

PM P R O M E M O R I A

PM P R O M E M O R I A PM P R O M E M O R I A PM är en kortform av det latinska pro memoria som betyder för minnet. Disposition Hur du strukturerar texten i ditt PM (1) Rubrik Om utrymme ges för att själv välja rubrik: Välj

Läs mer

Kapitel 12. Mer om program. 12.1 Att rapportera buggar och problem. 12.2 make

Kapitel 12. Mer om program. 12.1 Att rapportera buggar och problem. 12.2 make Kapitel 12 Mer om program 12.1 Att rapportera buggar och problem När man rapporterar buggar eller andra problem i program så är det några saker att tänka på för att ens rapport ska vara användbar för den

Läs mer

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater Programmering för språkteknologer II OH-serie: ändliga automater reguljära uttryck i Java Mats Dahllöf Ändliga automater Abstrakt maskin, tillståndsmaskin, transitionssystem. (Den enklaste typ man brukar

Läs mer

Modevetenskap II. Vetenskapligt skrivande, 7,5 hp, VT-16 Kursbeskrivning och Litteraturlista. Kursansvarig: Louise Wallenberg

Modevetenskap II. Vetenskapligt skrivande, 7,5 hp, VT-16 Kursbeskrivning och Litteraturlista. Kursansvarig: Louise Wallenberg 1 (5) Modevetenskap II Vetenskapligt skrivande, 7,5 hp, VT-16 Kursbeskrivning och Litteraturlista Kursansvarig: Louise Wallenberg Kursens innehåll och syften Kursen i vetenskapligt skrivande ger dig övning

Läs mer

Både förslag till manuskript och färdiga manuskript ska skickas till redaktionen som elektronisk post. E-postadressen är:

Både förslag till manuskript och färdiga manuskript ska skickas till redaktionen som elektronisk post. E-postadressen är: Författarvägledning Både förslag till manuskript och färdiga manuskript ska skickas till redaktionen som elektronisk post. E-postadressen är: uod.red@oru.se Antagna artiklar måste förses med en överenskommelse

Läs mer

F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson!

F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson! F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Von Neumann-arkitekturen Gemensamt minne för programinstruktioner och data. Sekventiell exekvering av instruktionerna.

Läs mer

Harvardmetoden en liten lathund

Harvardmetoden en liten lathund Harvardmetoden en liten lathund Thomas Rosenfall och Christina Grundström Industriell marknadsföring Institutionen för ekonomisk och industriell utveckling Linköpings universitet Version 2017-01-27 Innehåll

Läs mer

Plagiatpolicy för den medicinska fakulteten

Plagiatpolicy för den medicinska fakulteten UMEÅ UNIVERSITET Medicinska fakulteten Grundutbildningsrådet 901 87 Umeå Fastställd vid sammanträdet 2004-10-11 Plagiatpolicy för den medicinska fakulteten Nedan följer medicinska fakultetens policy vid

Läs mer

F2 Datarepresentation talbaser, dataformat och teckenkodning

F2 Datarepresentation talbaser, dataformat och teckenkodning F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Jonas Wisbrant Datarepresentation I en dator lagras och behandlas all information i form av binära tal ettor och nollor.

Läs mer

Publikationstyp Kapitel i bok, del av antologi

Publikationstyp Kapitel i bok, del av antologi Publikationstyp Kapitel i bok, del av antologi 1. Författare Fyll i lokalt användarid. ORCID-id är ett internationellt, unikt forskar-id. Ett ORCID-id innehåller 16 siffror: 0000-0002-1825-0097. Organisationstillhörighet

Läs mer

Skrivguide. Tillhör:

Skrivguide. Tillhör: Skrivguide Tillhör: Inledning Den här skrivguiden är till för att vägleda dig när du gör skriftliga arbeten här på Sven Eriksonsgymnasiet. Vilket ämne du än skriver om är alltid målet att du ska utöka

Läs mer

Anvisningar för skriftliga arbeten på Pol Kand-programmet samt kurser i statsvetenskap och nationalekonomi

Anvisningar för skriftliga arbeten på Pol Kand-programmet samt kurser i statsvetenskap och nationalekonomi LINKÖPINGS UNIVERSITET Institutionen för ekonomisk och industriell utveckling Anvisningar för skriftliga arbeten på Pol Kand-programmet samt kurser i statsvetenskap och nationalekonomi Peter Andersson

Läs mer

LTH Ingenjörshögskolan

LTH Ingenjörshögskolan Vad händer idag? Lunds Tekniska Högskola LUNDS UNIVERSITET Ing Ingenjörsmässigt skrivande Studieverkstaden Paus + röstning Årets Ingenjörsbild Fusk, plagiat, feedback Grupp, team, projekt Prisutdelning

Läs mer

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport Eventuell underrubrik Förnamn Efternamn Klass Skola Kurs/ämnen Termin & årtal Handledare: namn Abstract/Sammanfattning Du skall skriva

Läs mer

Att skriva en vetenskaplig rapport

Att skriva en vetenskaplig rapport Att skriva en vetenskaplig rapport Eventuell underrubrik Förnamn Efternamn Klass Skola Kurs/ämnen Termin Handledare Abstract/Sammanfattning Du skall skriva en kort sammanfattning som är en koncentrerad

Läs mer

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen Kursen Hälsa, Etik och Lärande 1-8p, T1, Vt 2006 Hälsouniversitetet i Linköping 0 Fältstudien om hälsans villkor i ett avgränsat

Läs mer

Studiehandledning. 7,5 högskolepoäng KURSKOD: DIA47F. Vårterminen 2014

Studiehandledning. 7,5 högskolepoäng KURSKOD: DIA47F. Vårterminen 2014 Institutionen för didaktik och pedagogik Studiehandledning Montessoripedagogikens didaktiska teori 1 7,5 högskolepoäng KURSKOD: DIA47F Vårterminen 2014 Besöksadress: Postadress: Fakturaadress: Frescativägen

Läs mer

Projektarbetet 100p L I T E O M I N T E R V J U E R L I T E O M S K R I V A N D E T A V A R B E T E T S A M T L I T E F O R M A L I A

Projektarbetet 100p L I T E O M I N T E R V J U E R L I T E O M S K R I V A N D E T A V A R B E T E T S A M T L I T E F O R M A L I A Projektarbetet 100p 1 L I T E O M I N T E R V J U E R L I T E O M S K R I V A N D E T A V A R B E T E T S A M T L I T E F O R M A L I A Metoder Intervju Power Point Innehåll En vetenskaplig rapport Struktur,

Läs mer

TITEL -ev.undertitel-

TITEL -ev.undertitel- Teknikum Klass Projektarbetet VT-XX TITEL -ev.undertitel- ÅÅMMDD Namn: Handledare: SAMMANFATTNING (ABSTRACT) Här sammanfattar du hela arbetet (gärna på engelska). Syftet med sammanfattningen är att snabbt

Läs mer

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator version 2014-09-10 Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator Studentens namn Handledares namn Examinerande

Läs mer

LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110

LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110 GÖTEBORGS UNIVERSITET Utbildningsprogrammet i datalingvistik Robert Andersson 14 november 2006 LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110 Inledning Samlingar

Läs mer

Värderingsförmåga och förhållningssätt Reflektera över värdet av normer för det akademiska samtalet

Värderingsförmåga och förhållningssätt Reflektera över värdet av normer för det akademiska samtalet Grunder i akademiskt skrivande (ej poänggivande) Lärandemål: Studenten ska efter aktivt deltagande kunna: Kunskap och förståelse Visa grundläggande insikter i skillnader mellan informellt och formellt

Läs mer

Seminarium: Att skriva en akademisk uppsats. LT200X Stefan Stenbom

Seminarium: Att skriva en akademisk uppsats. LT200X Stefan Stenbom Seminarium: Att skriva en akademisk uppsats LT200X Stefan Stenbom Berätta om ditt exjobb! Vad skall du skriva om... Agenda Läsa och analysera kursens mål och kriterier. Svenska eller Engelska Rapportstruktur

Läs mer

Akademiskt skrivande I

Akademiskt skrivande I Akademiskt skrivande I Idag: Vad är akademiskt skrivande? Referatsystem att ange källa Citat och referat Akademiskt skrivande Den akademiska texten bygger på tidigare kunskap. Det vetenskapliga sättet

Läs mer

Att skriva akademisk text. referatteknik. Studieverkstaden Campus Helsingborg (E204b) Lunds universitet Ulla Urde

Att skriva akademisk text. referatteknik. Studieverkstaden Campus Helsingborg (E204b) Lunds universitet Ulla Urde Att skriva akademisk text referatteknik Studieverkstaden Campus Helsingborg (E204b) Lunds universitet Ulla Urde STUDIEVERKSTADEN Lunds universitet Studieverkstaden Individuell handledning, kurser, föreläsningar

Läs mer

Arbetarhistoria anvisningar för utformning av manuskript

Arbetarhistoria anvisningar för utformning av manuskript Senast uppdaterad: 2011-12-22 http://www.arbetarhistoria.se Arbetarhistoria anvisningar för utformning av manuskript Allmänt Manus ska insändas i elektronisk form, helst som e-postbilaga. Undvik alla onödiga

Läs mer

Ersätta text, specialtecken och formatering

Ersätta text, specialtecken och formatering 11 Ersätta text, specialtecken och formatering Möjligheten att söka igenom dokumentet och byta ut tecken, ord, textstycken, formatering, specialtecken (t.ex. sidbrytning) och annat är faktiskt mycket mer

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Kursnamn XX poäng 2013-10-15. Rapportmall. Författare: (Skrivs i bokstavsordning om flera) Handledare:

Kursnamn XX poäng 2013-10-15. Rapportmall. Författare: (Skrivs i bokstavsordning om flera) Handledare: Kursnamn XX poäng 2013-10-15 Rapportmall Författare: (Skrivs i bokstavsordning om flera) Handledare: Innehållsförteckning En innehållsförteckning görs i Word när hela arbetet är klart. (Referenser, Innehållsförteckning,

Läs mer

Ing 1a LTH Ingenjörshögskolan Välkomna! Ingenjörsmässighet - Engineering skills. Vad händer idag? ITIK. ITIK certifiering - CITIK

Ing 1a LTH Ingenjörshögskolan Välkomna! Ingenjörsmässighet - Engineering skills. Vad händer idag? ITIK. ITIK certifiering - CITIK Välkomna! Lunds Tekniska Högskola LUNDS UNIVERSITET Ing 1a Vad händer idag? Ingenjörsmässighet - Engineering skills Ing Ingenjörsmässigt skrivande Studieverkstaden Paus + röstning Årets Ingenjörsbild Fusk,

Läs mer

KN - Seminarium. Konkreta krav. Kort om kursen. Grov tidtabell HT Kurskod: 6511 Ämnesstudier, 3 sv (5 sp)

KN - Seminarium. Konkreta krav. Kort om kursen. Grov tidtabell HT Kurskod: 6511 Ämnesstudier, 3 sv (5 sp) Konkreta krav KN - Seminarium HT 2007 " Ämnesbeskrivning (ca 150-250 ord) + litteraturlista " Uppsats (ca 20 sidor) " Opposition (2-3 sidor) Kurskod: 6511 Ämnesstudier, 3 sv (5 sp) " Presentation av uppsatsen

Läs mer

Ing 1a. Välkomna! Vad händer idag? Ingenjörsmässighet - Engineering skills. Lunds Tekniska Högskola LUNDS UNIVERSITET

Ing 1a. Välkomna! Vad händer idag? Ingenjörsmässighet - Engineering skills. Lunds Tekniska Högskola LUNDS UNIVERSITET Välkomna! Ing 1a Lunds Tekniska Högskola LUNDS UNIVERSITET Vad händer idag? LTH Ingenjörshögskolan 2016 Ingenjörsmässighet - Engineering skills TIK Ing ITIK Ingenjörsmässigt skrivande Studieverkstaden

Läs mer

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA Universitetsbiblioteket Senast ändrad: 2016-12-12 2 Innehållsförteckning Linköpings universitetsbibliotek

Läs mer

FORMALIA EXAMENSARBETE

FORMALIA EXAMENSARBETE FORMALIA EXAMENSARBETE - FÖR UTBILDNINGAR VID NORRLANDS YRKESHÖGSKOLA Skolgatan 52 903 27 Umeå Tel: 090-77 86 00 www.nyhs.se INNEHÅLLSFÖRTECKNING 1. KÄLLHÄNVISNING/FOTNOTER... 3 2. KÄLLFÖRTECKNING... 3

Läs mer

Biblioteken, Futurum 2017

Biblioteken, Futurum 2017 Biblioteken, Futurum 2017 Om PubMed PubMed innehåller mer än 27 miljoner referenser till tidskriftsartiklar inom biomedicin, omvårdnad, odontologi m.m. PubMed är fritt tillgänglig men om du använder länken

Läs mer

Referenser enligt Harvardsystemet. en introduktion. Version 2.1, 2016 Biblioteket & Studieverkstan

Referenser enligt Harvardsystemet. en introduktion. Version 2.1, 2016 Biblioteket & Studieverkstan Referenser enligt Harvardsystemet en introduktion Version 2.1, 2016 Biblioteket & Studieverkstan Innehåll Inledning... 3 Varför referenser?... 3 Plagiat... 3 Harvardsystemet... 4 Hänvisningar i texten...

Läs mer

Att skriva en vetenskaplig rapport

Att skriva en vetenskaplig rapport Att skriva en vetenskaplig rapport På det naturvetenskapliga programmet ingår att skriva en rapport i sitt gymnasiearbete. På det tekniska programmet kan rapporten ibland ersättas av en kortare skriftlig

Läs mer

SÅ HÄR SKRIVER VI PÅ HÖGSKOLAN I BORÅS. Skrivhandbok för begripliga texter

SÅ HÄR SKRIVER VI PÅ HÖGSKOLAN I BORÅS. Skrivhandbok för begripliga texter SÅ HÄR SKRIVER VI PÅ HÖGSKOLAN I BORÅS Skrivhandbok för begripliga texter INNEHÅLLSFÖRTECKNING Inledning... 3 Varför och till vem?... 4 Skriv direkt till din läsare... 5 Använd rubriker... 6 Vägled läsaren...

Läs mer

Mobil streckkodsavläsare

Mobil streckkodsavläsare Avdelningen för datavetenskap Martin Persson Jan Eriksson Mobil streckkodsavläsare Oppositionsrapport, D-nivå 2005:xx 1 Generell utvärdering av projektet Projektet gick ut på att undersöka hur bra olika

Läs mer

tjejit en studie av kvinnors låga deltagande vid Karlstads Universitets IT-utbildningar

tjejit en studie av kvinnors låga deltagande vid Karlstads Universitets IT-utbildningar Datavetenskap Opponenter: Malin Brand, Niklas Johansson Respondenter: Ewelina Helmersson, Mollin Widegren tjejit en studie av kvinnors låga deltagande vid Karlstads Universitets IT-utbildningar Oppositionsrapport,

Läs mer

C++ Lektion Tecken och teckenfält

C++ Lektion Tecken och teckenfält C++ Lektion Tecken och teckenfält Teori Hittills har alla variabler du jobbat med varit olika typer av tal, men du kan också deklarera variabler som håller bokstavstecken. Denna variabeltyp kallas för

Läs mer

Så, ska det taggas som adverb?

Så, ska det taggas som adverb? UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar

Läs mer