Kognitiv lingvistik i språkteknologi
Barbara Gawronska
2/10 2003 Högskolan i Skövde
Arr: KognitionsVetare HIS (KVHIS)
Med anledning av 10-årsjubileet anordnades två Kognitionsdagar 2-3 oktober 2003. Följande är en resumé av en av de föreläsningar som hölls under den första kognitionsdagen.
Cognitive Linguistics in Natural Language Processing var rubriken på professor Barbara Gawronskas föreläsning. Dept. of Languages, University College of Skövde stod det för den institution som BG förestår här. BG sade att hon först tänkt sig att föreläsningen skulle handla om ”Språk och tänkande”, men fann att det ämnet var för brett. ((All text visades på engelska, men föreläsningen hölls på svenska. Jag antecknade texten på engelska som jag sedan översatte. F.ö. fanns ett programblad med kortfattad info. Min anm.))
På 1960-70-talet dominerade den generativa lingvistiken vars upphovsman var Noam Chomsky. Då spelade syntaktiska företeelser huvudrollen. Den generativa grammatiken ger regler för hur språkriktiga satser genereras.
Mot den objektivistiska synen på kognition En jämförelse mellan objektivistisk och experimentalistisk syn visade att den förra hävdar att ”alla mentala processer är algoritmiska manipulationer av godtyckliga symboler. En symbol vilken som helst kan göras meningsfull enbart genom associationer”. I motsats till denna språksyn anser den experimentella att ”tonvikten ligger på den roll kroppen spelar tillsammans med föreställningsförmågan då det gäller att skapa meningsfulla begrepp.” Vidare hävdar eperimentalisterna att grammatiska kategorier och strukturer är semantiskt (konceptionellt) motiverade.
Grundläggande begrepp i den kognitiva lingvistiken I kategorier på basnivå ingår: 1) stadiet där allt förnimms på ett övergripande sätt; 2) en enda mental bild; 3) Vad barnen allra först lär sig. I det sistnämnda fallet gäller det enbart konkreta föremål, det är objekt som går att rita, att framställa fysiskt. Det är naturligtvis substantiv som kommer först, t.ex. äpple. En generalisering från äpple till ”frukt” kommer senare, som exempel på strukturering. Men går det att rita en ”frukt”? Nej, därför att det är en generalisering, d.v.s. en sammanfattning av många liknande ting.
Språkscheman hör också till basbegreppen; i ett sådant schema ingår s.k. behållare (containers), banor (paths), del – helhet (part – whole). En trajektor är ett ”aktivt” fokuserat objekt. Landmark (eng.) är ett objekt som trajektorn relaterar till. Exempel: lampa: trajektor (TR) resp. bord: landmärke (LM); exempel: Lampan hänger över bordet. ((Betydelsen av en del begrepp är för mig något oklar. Min anm.))
Konceptuella metaforer Icke-rumsliga samband kan ses som utvidgningar av bildscheman. LM kan konceptualiseras antingen i metaforiska behållare, banor och del-helhet, eller i platta objekt i båda slagen av relationer. Ett par engelska prepositionsuttryck illustrerade skillnaden i användning av in resp. on: in the night, in Ireland men on the British Islands, on Tuesday. I exemplen med in är det fråga om en metaforisk behållare, medan det (metaforiskt) handlar om platta objekt med on i de senare fallen. En punkt i en ritad 3D-figur (kub) resp. en punkt på en 2D-yta visades.
Distributionsmönster Två huvudmönster kan urskiljas: diskreta (discrete=åtskilda) och kontinuerliga (continuous). Diskreta mönster kan också indelas i två typer: multiplexa och uniplexa. Det förra slaget illustrerades med en ”gränslös” mängd punkter, medan det senare var en avgränsad massa punkter, alltså en inringad figur. Ett kontinuerligt mönster är antingen obegränsat (unbounded) eller begränsat (bounded). Bägge återgavs i form av ett grått fält utan markerad gräns resp. som ett likadant fält med en tydlig gränslinje runtom. Det finns vidare tre dimensioner som karaktäriseras av 1)flera ej avgränsade objekt, 2) flera avgränsade, 3) ett enstaka objekt (figur: en enda punkt): en konkret sak (singularis).
Exemplifiering: Ett äpple (diskret, dimension 3). Jämför äpplen, äppelmos, ett kilo äpplen. ”Vattnet” är exempel på att man kan binda enskilda enheter. ((Osäker om jag uppfattat rätt – oklart. Min anm.))
Engelska liksom svenska har som bekant bestämd (sing. & plur.) och obestämd artikel (sing.). Men faktum är att detta bruk inte är särskilt utbrett i världen – antalet språk med artikelanvändning är i minoritet. Användning av artikel skiftar också i dessa. ((Jämför viss skillnad mellan svenska och engelska i detta fall. Märk att kinesiska och ryska med flera stora språk saknar artiklar. Min anm.))
Vad beträffar händelser som ju återges med verb görs speciella distinktioner – till skillnad från ting som är substantiv, bundna eller obundna. Förutom olika tempus finns i polska och andra slaviska språk dessutom en distinktion mellan oavslutade och avslutade handlingar, nämligen skilda aspekter. Dessa är båda distribuerade i tid. ((Aspektsystemet med imperfektiva och perfektiva verb gör att tempussystemet är förenklat i slaviska språk som ryska: det föreligger härvid ingen tempusskillnad mellan imperfekt, perfekt och pluskvamperfekt /gjorde, har gjort, hade gjort/; de motsvaras där av ett enda tempus som kallas preteritum, där dock de bägge aspekterna gör skillnad. Arabiskan har också (tids)aspekter med tempusreduktion jämfört med västerländska språk. Kinesiskan saknar tillstymmelse av tempus! Min anm.))
Distributionsmönster, landmärken etc. kan också tillämpas vid jämförelse av ord, begrepp och fraser i skilda språk. Ett visst ord i ett språk motsvaras ofta av flera ord/begrepp i ett annat språk. Detta är ett ökänt (notorious) problem som består i flertydighet och lexikalisk divergens. Vid automatisk maskinöversättning blir detta extra tydligt. Kunskapssystem jämte statistik kan användas: B G (med polsk bakgrund) visade hur eng. verbet ”put” kan översättas till polska på olika sätt. Jämför put = sv. lägga, ställa, sätta beroende på kontexten. Att välja rätt verb kräver således kunskap om relationer mellan orden. Begreppen LM och T kommer in i bilden. Ordstammar och d:o ändelser är givetvis av betydelse, inte minst i aspektläran (se ovan). Den polska motsvarigheten till ryska aspektparet klast` / polozjit` angavs. Eng. put – liksom i princip nästan alla andra verb – motsvarar alltså två verb, det ena i ofullbordad aspekt, det andra i fullbordad i slaviska språk. ((Jag har här bara angivit det ryska verbparet men ej det polska, då jag inte behärskar det polska språket. Min anm.))
Ambiguitet och lexikal divergens Exempel: On the road motsvaras av polska na.(=ryska). Fel preposition och/eller fel verb kan ge en felaktig tolkning av frasens/satsens mening. Att kombinera rätt verb med rätt preposition är svårt för den som lär ett främmande språk. Översättningsfel beror ofta på bristandekunskap om lexikal divergens.
En bild av en hund som hoppar över ett hinder. Ska ”över” heta over eller above på engelska? Den naturliga översättningen till engelska blir: The dog jumps over the fence. Jämför : ”The dog is jumping above the fence”! Det skulle innebära att hunden hela tiden hoppar ”upp och ner ovanför” staketet!! Above betyder ju både över och ovanför. Märk även verbformen ”is jumping” (imperfekt aspekt finns faktiskt i eng.!) ungefär = sv. håller på och hoppar/just nu/. Det är uppenbart att det är olika grammatiska kategorier i skilda språk. En rörelse kan i t.ex. polska uttryckas i aspekter som har olika distributionsmönster. B G gav exempel på bildscheman som var olika i flera språk; man använder markören på olika ställen.
Kodning av semantiska drag i lexikal databas Det handlar om kategorisering på basis av ontologisk tillhörighet. Eller kan man klassificera enligt konceptualisering? Enstaka ord i vissa metaforer, som t.ex. pengar, har en ontologisk prototyp, i detta fall mynt eller sedlar. Prototyper brukar vara fasta föremål, här också = valuta. Märk att eng. liquid (sv. likvid) egentligen betyder flytande. Det finns naturligtvis metaforiska fraser som ”Pengarna strömmade in”.
Det är önskvärt att berika en orddatabas med konceptuella mönster. En tabell visade ett klassificeringsmönster; ett exempel var nämnda put, som konceptuellt kan kombineras med en mängd olika objekt. Det handlar om tvådimensionella föremål och resultat. Det är vidare fråga om symboliska uttryck för LM och TR. Det gäller att unifiera bägge. ”A Sample Rule for Preposition Choice in English – Polish Translation” (published by BG).
En väderlekskarta med text visades; här gällde det verb- och prepositionsval i olika språk: sv.,eng. och pol. vilka är konceptuellt skilda. En jämförelse av vanlig väderbeskrivning på de tre språken, typ: ”En varm luftmassa rör sig över…” Jämför (som ovan): i Norrland (behållare), men på Öland (platt!); så även i Småland (landskap: behållare). Av det sistnämnda exemplet framgår att det inte är formen som avgör valet av preposition utan kategorin (behållare). Men i polskan betraktas länder och delar av länder ej som behållare utan som yta: man säger motsvarande ”på” Litauen.
När man i sv. säger: ”Högtrycket över X förflyttar sig över Y”, har polskan två lite olika prepositioner för ”över”: znad resp. nad, beroende på kontexten; underförstått: ”Högtrycket som befinner sig över… Däremot innehåller ju det utsatta verbuttrycket ett rörelseverb som fordrar en särskild preposition jämte tillhörande kasus. Sv. ”sträcker sig över” motsvarar däremot ett polskt verb utan preposition, alltså med ett ackusativobjekt i stället.
En utökning av orden i databasen bör också ske utifrån tidningstexter; då kan generalisering ske på större domäner. Jämför även: ”Varmluft strömmar in” och ”Turister strömmar till Island”. Om konceptuella metaforer införlivas med orddatabasen kan översättningskvaliteten förbättras. Att detta bara har gjorts i ringa utsträckning beror på att det är tidskrävande att programmera in sådant material som anger just ordrelationer. Man måste naturligtvis eftersträva hög kvalitet på allt översättningsarbete; den slags råöversättning som maskiner kan ge duger inte. Därför behövs konceptuella mönster som hjälpmedel. Men programmerare fattas och det är en krävande implementering.
Teorin om mentala utrymmen The Theory of Mental Spaces (Fauconnier 1985, Sweetzer 1996). BG visade en figur med olika markörer : en punkt a i en cirkel betecknade ”gröna ögon”, medan en annan punkt a1, också i en cirkel, angav ”blå ögon”. En linje förenade a= basutrymme B (Base Space B) och a1=tro-utrymme M (Belief Space M). Exempel: ”Max tror att kvinnan med gröna ögon har blå ögon” anger alltså vad Max tror, det handlar således inte om en objektiv verklighet. Med andra ord är a1 en avbildning av a i en viss föreställningsvärld. Det finns ett värde i att kunna simulera textförståelse. Emellertid är det här inte fråga om logiska värden i betydelsen sanna eller falska. I exemplet ovan: I vilket mentalt tillstånd befinner sig Max?
Man borde försöka sammanfatta nyhetstexter med hjälp av ett dylikt system. Exempel: ”Han sade att detta inträffade”; det är inte säkert att detta något verkligen hänt. Det kan ju vara vad personen i fråga bara trodde, inte ett objektivt faktum. B G sa att det här fanns mentalt utrymme. ”Sagan om ringen” är en diskurs om mentalt utrymme. Är historien sann eller falsk? Vi kan ofta inte bedöma vad som är sanning. I en text bör man ta fram vad som är centralt, även bakgrunden är viktig. Följande termer gavs: Mental spaces, space builders, automatic summarizers. ((Jag avstår från att översätta de två senare begreppen då jag är osäker om sv. motsvarigheter. Min anm.))
Tidningsnotis om Mellanöstern med rubrik: ”Bomb explodes in Beyruth (…) There were no injuries”. En annan tidningsrubrik: ”Guerilla fights in Lebanon”. Den notisen hade en annan källa och gav andra uppgifter I texten, fast den uppenbarligen handlade om samma sak; det är olika mentala utrymmen. Vad är då sant? B G visade hur innehållet kunde struktureras i vardera nyhetsnotisen. En sammanfattning bör redogöra vilka källor som använts, vilket förklarar den skiljaktiga synen. Fråga: Vad inträffade egentligen? Det är komplicerat, då det förekommer olika sägesverb: I den första texten: …said…, i den andra:… said nothing… & denied. Motsatta uppgifter lämnas alltså.
Förståelse bygger på neutrala (?) uttryck och olika gemensamma moment. Exempel på ord i texten: neutral, said, reported, affirmative, confirmed , kontra denied etc. B G nämnde även något om hypotetiska mentala uttryck som förekommer i s.k. sekundär talakt: ”No one knows if…” Vidare gav B G en skiss över komponenter i en sammanfattning.
Ett interaktivt sammanfattande system (An Interactive Summarizing System) I en schematisk figur med sammanbindande linjer mellan orden ( på eng.) fanns i huvudsak följande komponenter angivna: taligenkänning; språklig analys (parsing); nyckelord & fraser; informationsutvinning (extraction); textgenerering; talsyntes; lexikala databaser; grammatikregler; nyhetsrapporter. Statistiska metoder tillämpas i databaser och gruppering av texter görs för att förstå dessa på djupet. Syntaktiska metoder bör likaså användas. Det krävs kort sagt lingvistisk kunskap. ((Även om jag lyckades få med nästan alla komponenter i schemat, har jag inte helt korrekt kunnat återge sambanden. Ordningsföljden såg också lite annorlunda ut, då grupperingen av begreppen var annorlunda. Min anm.))
Framtiden Kunskap bör integreras med stokastiska metoder, t.ex. stokastisk textkategorisering jämte kunskap som baseras på textförståelse. Viktigt är också att implementera tal- och språkteknologi som integreras med forskning kring det talade språket.
Fråga: Var går gränsen mellan äpple och frukt? Äpple är också en övergripande term, Det finns ingen stark definition. Svar: Kategorin äpple är ett basnivåkoncept. Det är inte möjligt att dra strikta gränser. Men ett avgränsat enkelt koncept uppkommer tidigt i språkutvecklingen hos barnet. Det existerar även fonologiska drag: det handlar om korta icke-sammansatta ord.
Fråga: Kan man matcha begreppen med bilder? Svar: Man kan företa experiment och se vilket av objekten som ska betecknas med ett visst ord. Frågan är om man kan uppnå enighet om detta. Det beror delvis på input. Ordet hund t.ex. är basnivå, däremot inte kött. Det beror även på inlärningssituationen.
Fråga: Vi säger ju ”Sitt i soffan”, vilket på eng. motsvaras av: Sit on the couch. Hur förklarar man det? Svar: Man har två bildscheman i en del fall. Jämför på gatan: in the street eller on the street. Bruket av in resp. on tar tid att undersöka; man kan tolka det på två sätt: behållare resp. yta.
Fråga: Hur bygger man ett lexikon med statistiska metoder? Svar: Man testar vissa idéer. Det har man hittills bara gjort i liten omfattning. Man läser in på databasen från korpus, men det blir också en del gissningar. Efterredigering krävs.
Fråga: Hur är det med nyhetsmaterialet på redaktionen? Man har väl särskilda motiv där, liksom journalisterna har det? Svar: Redaktionerna har ingen hantering med hjälp av konkreta system.
Fråga: Hur ska läsare/lyssnare få veta vad som är korrekt? Vilka källor bör då användas? Svar: Man bör gå till olika källor. Vi kommer kanske att få ett system som känner igen källor.
Kort kommentar mars 2018
Jag är inte lingvist i strikt mening (kallar mig ibland för ”språkman”), så jag fann innehållet här delvis svårsmält. Jag har tittat på webben och kan rekommendera Språkteknologi.se med många länkar och Kognitiv lingvistik, bl.a. i Wikipedia.