Kognitionsdagen 2000 (1): Med människan i fokus
19/10 2000. Arrangör: KognitionsVetare Högskolan i Skövde (KVHIS)
"Kognitionsvetenskap kan kortfattat beskrivas som studier om hur information/kunskap skapas, representeras och används i naturliga och artificiella system och om hur olika representationsformer samverkar. Det mänskliga tänkandet innefattar olika kunskapshanterande processer såsom varseblivning, minne, problemlösning, språk, inlärning osv. Kognitionsvetenskap är dock icke begränsad till det som sker i hjärnan utan nuförtiden anses kognition omfatta hela människan i sin fysiska och sociala miljö. Följaktligen blir kognitionsvetenskap multidisciplinär med bidrag från filosofi, psykologi, lingvistik, datavetenskap (AI), neurovetenskap och antropologi där olika metoder och verktyg används för att undersöka, modellera och analysera. Förutom en teoretisk ansats har kognitionsvetenskaplig forskning och utbildning i Skövde en inriktning mot människa--dator--interaktion. Studenterna utvecklar färdigheter att analysera och undersöka interaktionen mellan människa och informationsteknologi. Målet är en förståelse för hur informationsteknologi kan anpassas till människans förmåga att hantera information." (ur programhäftet) -- ((Kognition kommer av lat. cognitio=undersökning, kunskap. Min anm.))
Under denna temadag bestod programmet av fyra föreläsningar. Nedan följer den första föreläsningen i min egen sammanfattning.
Vad kan vi lära av läraktiga system? Lars Niklasson, professor i datavetenskap vid Högskolan i Skövde.
"Lars Niklasson är bland annat ansvarig för forskningsplattformen Läraktiga system. Forskningsintresset är i huvudsak att med hjälp av s.k. artificiella neuronnät -- dvs. modeller inspirerade av hjärnans fysiologi och funktion -- studera vilken effekt inlärning har på komceptbildning. Av speciellt intresse är att studera hur människan kan representera och processa strukturerade koncept." (citat ur programhäftet)
Professor Annica Dahlström föreläste här nyligen (4/10 2000) i en Perspektivföreläsning om Den mänskliga hjärnan -- finns det könsskillnader? (Referat). Nu utgick även L A från några grundläggande fakta om hjärnan. Denna innehåller ca. 100 miljarder nervceller, s.k. neuroner. Tack vare hjärnforskningens framsteg vad gäller såväl fysiologi som funktion kan man nu med utgångspunkt från centrala nervsystemet skapa artificiella neurronnät som således är datamodeller, med vars hjälp vissa uppgifter kan lösas. En elektromagnetisk signal i hjärnan förmedlas via en synaps (kontaktställe mellan två nerceller), över en spalt till en dendrit (förgrenat utskott från en nervcell), sedan till en axon (utåtledande utskott från en neuron). I det konstgjorda neuronnätet finns adaptiva (läraktiga) binära element, som antingen är aktiva eller passiva. Nyckeln till systemets läraktighet är att kopplingarna kan ändras genom förstärkning resp. försvagning av signalerna, med andra ord aktivering eller passivering. Här erinrade L N helt kort om två av årets nobelpristagare, Arvid Carlsson och Eric Kandel. Han nämnde i sammanhanget den viktiga transmittorsubstansen dopamin.
Med hjälp av overheadbilder och referenser till hjärnans funktion redogjorden L N snabbt och elegant för hur datorsimuleringen går till. Både teori och praktik är stommen i kognitionsvetenskapen. Det första exemplet visade en "gul låda" som ger en retning i i näthinnans tappar och stavar; det är kraftiga signaler som aktiverar många nervceller i hjärnan, så att vi kan uppfatta bilden. Samtidigt är förstås massor av celler fortfarande passiva., då hjärnan har ca. 10.000 kopplingar. I exemplet kan det också förekomma ett annat slags signaler, nämligen motoriska som kan ge upphov till ljud/tal. Det antydda förloppet gäller alltså hjärnfunktioner.
När det är tal om det artificiella neuronnätet, alltså en motsvarande starkt förenklad datormodell, används enligt matematisk förebild vanligen termen noder i stället för neuroner. Vidare talar man om vikt 1 och vikt 2. Man skiljer mellan input- och outputsignaler. De sänds vidare så att man erhåller respons. Om vikt 1 (värde 1) gäller i output, kan man säga att det är 0 (noll) och då får man ju ingen respons, det råder "tystnad". En bild visade hur det hela i princip fungerar; två pilar (vikt 2) angav hur aktivering åstadkoms, och man fick respons. I bilden fanns även en "svart låda", och för att få respons i det fallet används en annan inputsignal. En del noder (processelement) kan också vara "gömda". De behövs vid simulering av mer komplicerade flöden. Det finns flera skilda grader av vikter, där värdena kan ligga på en skala ellan 0 och 1.
Artificiell inlärning innebär en generalisering där systemet lär sig utnyttja och hantera nya situationer. I exemplet på bilden som L N förklarade var det som sagt en gul och en svart låda. Genom att slumpvis sända skilda signaler som hela tiden ändras, får läraren/försöksledaren fram "rätt" eller "fel" svar. Denne vet - har bestämt - vilket alternativ som skall gälla: gul eller svart låda för en viss typ av signaler. Vikten ändras, i ett fall gäller en svagare inputsignal för gul (vikt mindre än 1, t.ex. 0,95). Man mäter antalet felsignaler (negatva signaler 0--1). --1 är en konstant (learning rate).
ALVINN var ett dataprogram för förarlös bilkörning. På en video (från 1992) visades hur ett amerikanskt militärfordon "lärde sig" väghållning. Datanätet tränades först av en person för att anpassa rattrörelserna efter vägbanan. Det var en inlärningssituation där det artificiella nätet gradvis härmade ledaren och hela tiden justerade rörelserna åt höger eller vänster. Slutligen hade nätet lärt sig köra på egen hand, nästan men inte riktigt lika bra som sin lärare. Det fanns för övrigt två beslutsmodeller: en för smal väg och en för dubbelfilig bred väg. En markör registrerade hela tiden rattutslagens storlek. Hastigheten var 50 resp. 90 km/tim. Det påpekades att det i exemplet inte fanns någon kontext, dvs. det förekom ingen inlärning av "egen" körning.
Därefter gavs ett ett exempel på inlärning med kontext. Det var ett spel som kallas "sten--sax--påse". Det spelas ofta med taktik; motståndarens egna tidigare drag utvärderas. Dennes drag kan förutsägas för kontring. En person spelar mot nätet som ger feedbacksignaler: "Vilket av tre alternativ väljer du?" Nätet vinner i 60 % av dragen (mot spelaren L A). Efter upprepade spelomgångar vinner nätet 70 % ! Nätet har alltså anpassat sig och lärt sig under spelets gång; exempel: L N mot nätet: Förlust med 0--5!
Det finns många andra intressanta applikationer där man utgår från kunskaper om hjärnan. Kognitionsvetenskapen kan tillämpas inom kognitiv psykologi där man använder ett analytiskt synsätt. Vidare brukas den inom kognitiv neurovetenskap där känslor som glädje, sorg, vilja samt rationella och irrationella val är involverade. Här nämndes top--down-metoden i motsats till s.k. bottom--up approach. Man söker skapa mentala representationer av tankeprocesser, modeller av perceptions- och minnesprocesser. Traditionell AI (artificiell intelligens) använder datormetaforer för tänkandet. Det är ett syntetiskt synsätt som alltså syntetiserar, bygger upp datormodeller.
En bild med tredimentionell representation visades. I detta exempel undersökte det artificiella neuronnätet det mönster som erhölls då en gul och en svart låda också var med i bilden, fastän nu med avseende på både hörsel och syn. Det var t.ex. en kraftig aktivering för den gula lådan; då användes tecknet X i rymdkuben (3D), i motsatt fall var beteckningen 0. Genom att mäta avstånden mellan olika X får man fram en spatial struktur, dvs. ett 3D-nätmönster som matematiskt beräknas med hjälp av algoritmer.
En annan kontextmodell, NET TALK, gick ut på att barn tränas på engelska ord (1000). Det var fråga om fonem, s.k. hidden hints m.m. Ett enkelt exempel var att testa uttalet av bokstaven C i engelskan -- som k- alternativt s-ljud. Resultat: 95-97 % rätt (given input). Uttalet av S relaterat till Z var också med i bilden. En analys av resultatet som inkluderade många bokstäver visade bl.a. att de två traditionella kategorierna konsonanter resp. vokaler också här skilde sig i två olika kluster,därför att vokaler står närmare varandra, är mer "släkt" sinsemellan än konsonanter. Det går att ta fram ett hierarktiskt klustersystem. Ett annat exempel visade en gruppering i Animates -- Inanimates (levande -- döda objekt). Närstående i den förra gruppen var mouse + cat + dog, medan food var ett av orden i den senare. Alla beteckningar för människor är naturligtvis nära varandra; t.ex. boy är representerad i alla kontexter, dvs. lagrad i korttidsminet.
Sedan kan också understrukturer/undergrupper urskiljas. Input i en sekvens påverkar, det är alltså en temporal påverkan. Med hjälp av dylika program skall det gå att i viss mån förutsäga vad nästa ord i en mening kommer att bli. Nätet strukturerar, det är som nämnt en spatial struktur, ett slags korttidsminne.
Ett annat intressant område som undersökts på liknande sätt är svår dyslexi som uppstått på grund av en hjärnskada. Dyslektiker gör ofta fel på ord som liknar varandra, så läses vind som vild, således ett visuellt fel. Om blåst blir vind räknas det däremot som ett semantiskt fel. Lite mer svårförklarligt är följande exempel: ordet sympati läses som t.ex. orkester, vilket förklaras på detta vis: sympati >symfoni > orkester. I detta program tränades 40 ord med max 4 bokstäver i varje ord i 5 olika kategorier. 68 semantiska noder gav semantiska representationer. Varje ord indelades i 3 fonem; exempel: P / AR / K. Kategorier: Indoor Animals Foods etc. Ord: BED BUG BUN etc.
När nätet utsätts för störningar blir det ofta fel som liknar dyslektikers. Man "förstör" en del noder och en "hjärnskada" simuleras på så sätt. Man ser vad som då händer vid denna s.k. mappning. Utgångspunkt för undersökningen är dels patienter som gör många fel, vilket utgör problemet, dels patienter som har skador på olika ställen i hjärnan men samma problem, dels de som gör först visuella, sedan semantiska fel. Effekterna visar olika svårighetsgrad. Resultat: nätet ger exempel på visuella fel som CAT > rat, eller också > cot; BOG (kärr) > rat (semantiskt fel), medan BOG > dog är ett visuellt fel. CAN > mug (semantiskt fel). Ju fler noder som är fel, ju fler större skador. Viktsystemet (se ovan) tillämpas. Vissa intressanta egendomligheter kan uppkomma. En viktig egenskap att ta hänsyn till är distributionen av s.k. attraktorer i representationen. Bådet CAT och COT (koj) ligger givetvis nära varandra i "rymden" (=den nämnda kuben). BED är semantiskt nära, nästan synonym till COT. I princip jämförs och förklaras dyslektiska fenomen som orsakats av hjärnskada genom att man studerar den spatiala rymdrepresentationen.
Distributiv representation i RAAM: En objekthierarki framställs där hänsyn tas till relationer mellan objekten. Här förekommer en associativ påverkan. På en bild visades två rektanglar, den ena under rubrike Relationer, den andra under Egenskaper. Egentligen är "lådorna" tredimensionella. Vardera boxen delas i två delar; den förra i avdelningen Fåglar resp. Fiskar. Den senare rektangeln är uppdelad i en Flygande och en Icke-flygande region. Var ska t.ex. eagle (örn) placeras? Naturligtvis i Fågelregionen. Om Ernie och Bo (båda är egennamn) vet man: Ernie är en örn, vilket ju placerar honom i Fågelregionen. Då kan han förstås flyga, vilket ger en plats i Flyganderegionen inom rektangeln för Egenskaper. Däremot kan Bo som är en fisk inte flyga, vilket gör att han platsar i Icke-flyganderegionen under rubriken Egenskaper och i Fiskregionen under Relationer.
Eddie är en annan örn och i Relationslådan hamnar ju Eddie i Fågelregionen och i Flygande-avdelningen vad gäller Egenskaper. Det är klart att Ernie och Eddie får en position alldeles nära varandra i Fågelrutan i Relationsboxen. Man kan gå vidare: Vad är Jack? Man vet att Jack kan flyga ... osv. ((Allt bir självfallet mycket mer åskådligt i bild, vilken jag tyvärr ej kan återge här. Min anm.)) För övrigt är objektrelationer vanliga i mer komplicerade sammanhang. Det är även möjligt att flytta ett objekts position till rätt region i datamodellen.
Sammanfattningsvis sade L A bl.a. att språkinlärning infererar generalisering och induktion, exempelvis vid dyslexi. Man använder också matematiska förklaringsmodeller. Det innebär att man använder aktivation snarare än syntaktiska strukturer. En viktig slutsats är: Läraktiga system kan lära oss hur vi själva fungerar.
Slutligen ställdes flera frågor; en handlade om hur man bestämmer kategorier. Det är ju människan som sätter dem. Svaret på frågan om Jack kan väl bli att han antingen är en fågel eller en fisk. Vad gäller kontext: Bara sådant är lärbart som vi har erfarenhet av. Men man kan kanske tänka sig en ny definition av kontext. Induktion är att härleda innehållet från kontexten. Man kan träna nätet på okända objekt. Till slut ställdes frågan: Kan nätet hantera undantag? Det finns ju t.ex. flygfiskar. Svar: Det går. Principen är densamma men resultatet blir ej hundraprocentigt rätt.
Kommentar Det är förståeligt att mina anteckningar för hand var något ofullständiga. Dessutom är jag som lekman inte insatt i detta slags forskning med speciell terminologi. Detta kan förklara eventuella fel och oklarheter i referatet. (Jag har för övrigt kontrollerat en del uppgifter i en artikel i SLA 20/10 om Lars Niklassons föredrag.) Min förhoppning är att andra som liksom jag inte är insatta i ämnet åtminstone får ett hum om en del av detta. Så har det fungerat för min egen del. Syftet med populärvetenskapliga föredrag måste vara att de utgör en länk mellan experter och s.k. vanligt folk.
Sture Alfredson 2002 och 2015