11 december 1998
Det tar tid att slå i lexikon och ordböcker. Alla som någon gång skrivit en text på ett främmande språk känner väl till regeln – man använder mer tid till att leta efter ord, än vad man använder för själva skrivandet. Men idag när de allra flesta skriver med hjälp av dator – varför är ordböcker och lexikon fortfarande vanligare i tryckta versioner?
De vanliga persondatorerna är numera tillräckligt snabba för att kunna slå upp ord direkt när man skriver dem på tangentbordet, utan någon märkbar fördröjning. Informationssökning av denna typ är också en typisk uppgift för datorer – att snabbt söka igenom en väl ordnad mängd information på ett entydigt sätt.
Men om det nu vore så att lexikon och ordböcker funnes i digital form, så skulle vi också kunna gå vidare. Den alfabetiska ordningen baserar sig på stavningen av själva orden, och ger sällan några ledtrådar för andra viktiga relationer mellan ord. Betydelselikhet eller till och med ljudlikhet beskrivs dåligt av hur pass nära två ord befinner sig i en ordlista. Med datorernas hjälp, så skulle vi dock kunna söka på fler sätt än bara med den enkla alfabetiska uppslagningen som vi är vana vid. En dator skulle exempelvis snabbt och enkelt även kunna visa synonymer eller motsatspar.
WordNet är ett försök att göra just detta. Det är en engelsk digital ordbok som är skapad för att möjliggöra flera olika typer av sökningar, många helt nya för den vanlige användaren. Inspirerat av nuvarande psykolingvistiska teorier om hur det mänskliga minnet fungerar, har man lagt in relationer både mellan själva orden och relationer mellan ordens olika innebörder. På så sätt har man skapat ett nätverk av ord som hänger samman, därav namnet.
WordNet har utvecklats vid Cognitive Science Laboratory på Princeton University under ledning av professor George A. Miller. Programmet finns fritt tillgängligt, både för nedladdning och direkt användning på webben. Adressen är http://www.cogsci.princeton.edu/~wn/
WordNet innehåller 95 600 engelska ordformer, uppdelade i 51 500 ord och 44 100 sammansättningar (Miller 1993). Varje ord är också kopplat till minst en av de 70 100 olika betydelser som finns inlagda. Varje sådan betydelse finns kortfattat beskriven i form av en enklare mening.
Ordens betydelser är också uppdelade i fyra olika kategorier; substantiv, verb, adjektiv och adverb. En ytterligare kategori, funktionella ord, har man valt att utesluta eftersom den förekommer så sparsamt i engelskan.
En sökning i WordNet inleds alltid med att man anger ett ord man vill söka efter. Därefter visas sökresultatet uppdelat i de relevanta ordklasserna och under dessa de aktuella betydelserna. En sökning på ”Sweden” ger till exempel (WordNet 1.6):
The noun "sweden" has 1 sense in WordNet. 1. Sweden, Sverige -- (a Scandinavian kingdom in eastern Scandinavia)
I exemplet ovan ser man att det givna ordet bara hade en enda betydelse och att det bara fanns en enda synonym. Det är också uppenbart att den korta beskrivningen av ordet inte är så upplysande för någon som inte redan känner till vad Sverige är. I WordNet används denna beskrivning bara för att talare av engelska lättare ska kunna identifiera vilken betydelse som avses, och inte för att ge någon uttömmande förklaring av begreppet.
Efter att ha hittat någon betydelse av ordet, så kan man gå vidare och titta på olika typer av relationer för ordet. Vilka relationer som är möjliga att undersöka beror på ordets betydelse och ordklass, men normalt kan man alltid söka på synonymer och få information om hur ofta begreppet normalt förekommer.
Ett problem vid sökning, framförallt i digitala ordböcker och lexikon kan vara att det ord man söker inte är skrivet i grundform. I en vanlig tryckt ordbok hittar man vanligtvis ordet ändå, eftersom många böjningsformer liknar grundformen och ord som stavas lika hamnar nära varandra. Det går oftast snabbt att söka igenom de olika alternativen och finna den troligaste grundformen när man väl har upptäckt att ordet inte fanns i ordlistan.
I en digitaliserad ordbok är det här mycket svårare. Hur vet man till exempel vilka ord som börjar likadant? Det blir närmast nödvändigt att datorn omvandlar orden till grundformerna automatiskt, eftersom man annars skulle riskera att få söka alldeles för många gånger. Kanske skulle man i vissa fall rent av inte hitta orden?
I WordNet görs en morfologisk analys, d.v.s. ordens avledningar analyseras för att finna möjliga pluralformer av substantiven och böjningar av verben. Det fungerar därför utmärkt att söka på både grundformer och böjningar.
Orden och betydelserna i WordNet är sammankopplade med olika relationer. Två ord kan exempelvis vara synonyma, och de kan också ingå som delar av något större begrepp. Man har valt att inte göra någon skillnad på relationer mellan ordformer och relationer mellan betydelser, eftersom man trodde att detta bara skulle skapa ytterligare förvirring (Miller, s. 6).
De viktigaste relationerna mellan ordformer är synonymi, eller betydelselikhet, och antonymi, eller motsatsförhållande. Viktiga relationer mellan betydelser av ord är hyponymi, eller ÄR-EN relationen, och meronymi, eller DEL-AV relationen. Relationer mellan olika betydelser, till skillnad från ordformen, kallas även semantiska relationer.
Relationer kan också ha vissa klassiska egenskaper, vilka fått sina namn inom matematiken. En relation kallas transitiv, om det att den gäller mellan X och Y, och mellan Y och Z, också innebär att den gäller mellan X och Z. Relationen ”bror” är till exempel transitiv, medan ”mor” inte är det. En relation kallas också symmetrisk, om den går att vända på. Om X är bror till Y, så är också Y bror till X, varför relationen är symmetrisk. Relationen ”mor” är däremot asymmetrisk, d.v.s. relationen är aldrig symmetrisk om X och Y är olika (Råde & Westergren, s. 18).
Den mest grundläggande relationen i WordNet är att två ord är synonyma, d.v.s. att de har samma innebörd. Man har valt att definiera två ord X och Y som synonyma om det i ett visst lingvistiskt kontext går att ersätta X med Y utan att satsens sanningsvärde ändras (Miller, s. 6). Att man definierar synonymi i termer av möjligheten att byta ut ett ord mot ett annat, har också gjort det nödvändigt att dela upp betydelserna i ordklasser. Det går exempelvis inte att byta ut ett verb mot ett substantiv i alla situationer.
Synonymi är en transitiv och symmetrisk relation mellan ordformer, inte mellan betydelser. Däremot bestämmer en synonymmängd, d.v.s. en mängd ord som är sinsemellan synonyma, ofta vilka olika betydelser ett ord kan ha. Ordet ”deg” skulle på svenska exempelvis kunna ingå i två olika synonymmängder. En betydelse skulle kunna bestämmas av ”deg, pengar, stålar”, och den andra av ”deg, degmassa, kakdeg, massa”.
I vissa fall har ett ord i en viss betydelse inga synonymer. I WordNet har man därför valt att definiera de olika betydelserna med hjälp av både synonymmängder och med korta beskrivningar för varje betydelse. De semantiska relationerna är alla relationer mellan synonymmängder.
Normalt presenterar WordNet som sökresultat ordets synonymer, uppdelat på de olika betydelserna. Är man inte nöjd med det, så kan man även söka på synonyma begrepp. Nedan visas ett exempel med ordet ”dough” i betydelsen pengar.
Sense 2
shekels, gelt, dough, bread, dinero,
lucre, loot, pelf, moolah, cabbage, kale
=> money
Motsatspar, eller antonyma ord, är sådana ordpar som ”höja” och ”sänka”, ”rik” och ”fattig”, m.fl. Intuitivt är det en enkel relation att förstå, men samtidigt påfallande svår att definiera (Miller, s. 7). Motsatsen till ett ord X är i vissa fall INTE-X, men inte alltid. Motsatsparet ”rik” och ”fattig” är ett exempel på när det inte gäller. Orden ”inte fattig” har inte samma betydelse som ”rik”, eftersom det är möjligt att vara både ”inte rik” och ”inte fattig”.
Antonymi är precis som synonymi en symmetrisk relation mellan ordformer. Antonymi är däremot inte en transitiv relation. Ordet ”minska” är exempelvis synonymt med ”sänka”, men det är samtidigt inte en motsats till ”höja”. Motsatsen till ”minska” är istället ”öka”, vilket visar att detta är en relation mellan ordformer, och inte mellan betydelser.
I WordNet finns en mängd motsatspar inlagda, framförallt för adjektiv. Det finns även indirekta motsatspar, vilket visas i följande exempel:
Sense 1
blue, bluish, blueish, light-blue,
dark-blue
INDIRECT (VIA chromatic)
-> achromatic, colorless
En av de semantiska relationerna är hyponymi, eller ÄR-EN relationen. Begreppet ”lönn” är exempelvis en (hyponym till) ”träd”, som är en (hyponym till) ”växt”. Man kan definiera hyponymi utifrån de påståenden av typen ”en X är en (sorts) Y”, som personer med engelska som modersmål skulle acceptera.
Hypernymi kallas den omvända relationen, d.v.s. ”träd” är en hypernym till ”lönn”. Viktigt att tänka på är dock att både hyponymi och hypernymi är relationer mellan betydelser, inte mellan speciella ordformer. Det är alltså inte de speciella orden ”träd” och ”lönn” som är relaterade, utan de begrepp som de symboliserar. De båda relationerna hyponymi och hypernymi är transitiva och asymmetriska (Miller, s. 8).
I WordNet finns hierarkier av hyponymer definierade för i princip samtliga substantiv. Nedan visas en kort lista med hyponymerna för begreppet ”maple” i betydelsen av en sorts träd. Listan nedan är bara en nivå djup, men det går även att göra fullständiga sökningar för att se hela hierarkin.
Sense 2
maple
=> silver maple, Acer saccharinum
=> sugar maple, rock maple,
Acer saccharum
=> red maple, scarlet maple,
swamp maple, Acer rubrum
=> moosewood, striped maple,
striped dogwood, goosefoot
maple, Acer pennsylvanicum
=> Oregon maple, big-leaf maple,
Acer macrophyllum
=> dwarf maple, Rocky-mountain
maple, Acer glabrum
=> mountain maple, mountain alder,
Acer spicatum
=> vine maple, Acer circinatum
=> hedge maple, field maple,
Acer campestre
=> Norway maple, Acer platanoides
=> sycamore, great maple,
scottish maple,
Acer pseudoplatanus
=> box elder, ash-leaved maple,
Acer negundo
=> pointed-leaf maple,
Acer argutum
=> Japanese maple, full moon
maple, Acer japonicum
=> Japanese maple, Acer palmatum
Ytterligare en vanlig semantisk relation är meronymi, eller DEL-AV relationen. På samma sätt som man tidigare definierade hyponymer, så kan man också definiera meronymer. X är en meronym till Y om påståendena ”En Y har en X (som del)” eller ”En X är en del av Y” skulle accepteras av personer med engelska som modersmål (Miller, s. 8)
Holonymi kallas den omvända relationen, d.v.s. HAR-EN relationen. Båda dessa relationer är transitiva och asymmetriska. Det går även, precis som tidigare, att konstruera en hierarki av begrepp med hjälp av meronymi. Denna hierarki begränsas däremot något av att vissa X kan vara del av många olika Y.
WordNet möjliggör sökning på meronymer och holonymer för en stor mängd begrepp. Nedan visas meronymerna till begreppet ”Sweden, Sverige”:
Sense 1
Sweden, Sverige
HAS MEMBER: Swede
HAS PART: Stockholm,
capital of Sweden
HAS PART: Malmo
HAS PART: Lund
HAS PART: Goteborg, Goeteborg,
Gothenburg
WordNet av idag är inte anpassat för personer som inte har engelska som modersmål. Även för en person med goda kunskaper i engelska, så ter sig förklaringarna av orden väl kortfattade och rudimentära för att kunna förklara okända ord. Det hjälper i många fall inte med synonymer eller semantiska relationer, och speciellt svårt är det med avancerade ord.
En annan klart begränsande faktor är att WordNet enbart innehåller substantiv, verb, adjektiv och adverb. För en engelsktalande person är detta kanske inte någon begränsning, men för personer som har engelska som främmande språk kan det ibland vara intressant att slå upp betydelsen av andra ord, som exempelvis konjunktioner.
Det finns relativt många ord i WordNet, men en del saknas förstås. Efter en stunds prövande fann jag själv exempelvis att varken ”postoperational” eller ”troubleshoot” fanns i lexikonet.
Alla vanligare substantiv, verb, adjektiv och adverb finns dock med. När man använder WordNet är det lätt att bli förvånad av hur många och underliga ord som trots allt finns med. Det är också förvånande hur pass väl programmet hittar grundformer av olika ord, och det även för oregelbundna verb.
Alla sökningar jag gjort i WordNet har presenterat sina resultat omgående, och det tycks därmed inte finnas några större hastighetsproblem. Man varnas dock inledningsvis för att söka efter samtliga hyponymer för mycket generella substantiv, eftersom detta genererar en stor mängd ord.
Det stora användningsområdet för WordNet idag är olika slags experimenterande. Programmet byggdes för att pröva olika psykolingvistiska teorier i praktiken, och för en del forskare kan det säkerligen ha en stor betydelse.
Det är intressant att se hur stor mängd information det går att få fram om ett bekant ord. Av de exempel som tidigare visats, så framgår det tydligt att de semantiska relationerna har en oerhörd potential – de erbjuder sökresultat som normalt bara återfinns i uppslagsverk. Tyvärr finns det dock inget sätt att gå vidare och få mer beskrivande information av olika begrepp.
En möjlig användning av WordNet skulle också kunna vara att förbättra informationssökningar med hjälp av synonymer. Det vore till exempel möjligt att först söka i WordNet, därefter välja de betydelser av ordet man är intresserad av, och sedan låta sökmotorn söka på alla synonyma begrepp. Eftersom WordNet presenterar många betydelser, så skulle dessutom dokument som innehåller termer från de ej valda synonymmängderna kunna filtreras bort.
Programmerare kan också ha en viss nytta av WordNet. Främst de olika typerna av hierarkier är intressanta för objektmodellering och namngivning. Det är inte alltid lätt att komma på bra namn på begrepp och att ordna dem i vettiga relationer.
Mer tveksamt är det dock om man verkligen kan använda WordNet som ordbok. Det är dock möjligt att ladda hem databasen och till och med använda sig av dess sökmotor i egna applikationer av olika slag.
Det finns flera möjligheter framöver för en ordbok av WordNets typ. Givetvis behöver förklaringarna av de olika innebörderna förtydligas, speciellt för komplicerade ord. Om det görs, så har man dock en snabb och effektiv ordbok som dessutom tillåter att man hittar synonyma begrepp snabbt. Om den dessutom skulle kunna integreras i någon ordbehandlare, så vore mycket vunnet.
Beroende på mängden ord, så kan det även komma praktisk nytta av sökningen på efter hyponymi och meronymi. Det är ju ganska ofta som man inte kommer på ett ord, men kan beskriva det med olika ”intilliggande” ord. Man skulle också kunna tänka sig att ordlistan vore utökad med olika facktermer, för att därigenom möjliggöra utbyte av olämpliga fackord till mer normala ord.
Önskvärt för användare som inte har engelska som modersmål vore antagligen också något slags morfologiska beskrivningar, d.v.s. beskrivningar av aktuell böjningsform och vilka andra former som finns. För mer specifika användargrupper kanske fler relationer mellan ordformer vore trevligt, varför inte även bygga in ett rimlexikon?
Miller, George m.fl. (1993); Introduction to WordNet: An On-line Lexical Database, tillgänglig via ftp://ftp.cogsci.princeton.edu/pub/wordnet/5papers.ps
Råde, Lennart & Westergren, Bertil (1990); Beta Mathematics Handbook, 2nd edition, Studentlitteratur, Lund
WordNet 1.6; on-line versionen på http://www.cogsci.princeton.edu/~wn/, december 1998