dictionarywork
Hva er målet med ordboksarbeidet?
- ordbøkene er nyttige for folk flest
- vise kombinasjonen leksikografi/morfologi
- vi kan samarbeide med de leksikografiske miljøene
- vi trenger transferleksikon for MT
Leksikonfiler
Flerordsuttrykk
- Man kan legge til ord som bare er ord nr 2 i faste uttrykk, f.eks. hiluid háluid, med hele uttrykket som eksempel.
- Flerordsuttrykk som har annen mening enn hvert enkeltord har, bør man legge ordet i mwe-fila. Hvis uttrykkene skal bøyes, kan det lages statiske paradigmer.
Entryenes struktur
<e> nivå
Meningsgrupper <mg>
Man skiller mellom synonymer og meningsgrupper. Synonymer har samme <mg> (meaning group / meningsgruppe) og samme <tg> (translation group / oversettelsesgruppe). Hvis en entry har flere betydninger, så skilles disse som forskjellige <mg>.
<e src="nj" usage="vd">
<lg>
<l pos="n">sudja</l>
<lc>sujat</lc>
</lg>
<mg>
<tg>
<t pos="n">årsak</t>
<t pos="n">grunn</t>
</tg>
</mg>
<mg>
<tg>
<t pos="n">skyld</t>
</tg>
</mg>
</e>
Oversettelsesgrupper <tg>
<t> - et ord
<e usage="vd">
<lg>
<l pos="n">ristoabbá</l>
</lg>
<mg>
<tg>
<t pos="n">gudsøster</t>
</tg>
</mg>
</e>
<tf> - en frase - pos-merkinga er phrase_pos
<e usage="vd">
<lg>
<l pos="n">áššu</l>
</lg>
<mg>
<tg>
<tf dict="yes" oa="yes" pos="phrase_n">glødende vedstykke</tf>
</tg>
</mg>
<te> - en forklaring. En forklaring er en setning som forklarer betydningen av et ord, men som ikke kan brukes i for eksempel en oversettelse. Denne brukes KUN hvis verken <t> eller <tf> kan brukes.
<e usage="vd">
<lg>
<l pos="n">boaššobealle</l>
</lg>
<mg>
<tg>
<te>den side som vender mot boaššu, det vil si den innerste delen av telt, gamme eller hus</te>
</tg>
</mg>
Bruk av <re> (restriksjon)
- <re> gir restriksjon for oversettelsen. Oversettelsen vest har restriksjonen om klesplagg, dvs at oversettelsen gjelder klesplagg, og ikke himmelretning.
<mg>
<tg>
<re>om klesplagg</re>
<t pos="n">vest</t>
</tg>
</mg>
- <re> kan også brukes for å markere kasusbetydning, f.ek.s bevegelse til.
- for stedsnavn angir den kommune eller fylke
Bruk av <style>
Lemmaet har ikke paradigme
Bruk av v1, v2 osv.
- Ett lemma kan ha flere normative skrivemåter. I fst merkes disse med felles lemma, men skilles ved hjelp av taggene v1, v2 osv:
- tunealla+v1: tunealla
- tunealla+v2: tunnealla
- tunealla+v1: tunealla
- Til ordboksfilene legges kun det lemmaet som er valgt som felles lemma i fst. I tillegg må man merke hvor mange v-merkinger den har i fst. Dette gjøres ved å legge attributten vmax="" til <l>:
<lg>
<l pos="g3" vmax="2">tunealla</l>
</lg>
- Ved hjelp av v1, v2 taggene, kan man sortere ordformene til riktig oppslagsord (tunealla vs. tunnealla) og presentere reine miniparadigmer.
Bruk av lsub
<e usage="vd">
<lg>
<l pos="n">balloŋŋa</l>
<lsub extrapage="yes" pos="n">balluvdna</lsub>
<!-- extrapage="yes" er default -->
<!-- the extrapage attribute is now obsolete when v1,v2 is implemented:-->
<!-- 1. lsub is alway extrapage="no" (no need of the extrapage attribute anymore)-->
<!-- 2. in the pair v1-v2, one lemma is the entry in the dict and the other is generated automatically, "lsub with extrapage="yes" so to say -->
</lg>
<mg>
<tg>
<t pos="n">ballong</t>
</tg>
</mg>
</e>
<lg>
<l pos="n">kantuvra</l>
<lsub extrapage="no" pos="n">kántuvra</lsub>
</lg>
Bruk av l_ref
- vise til det lemmaet som bør brukes i følge termordlister etc. I slike tilfeller merkes kun det lemmaet som man vil vise fra, og ikke det lemmaet som man viser til:
<lg>
<l pos="n">giehtagiella</l>
<l_ref>seavagiella_n</l_ref>
</lg>
- gjøre brukeren oppmerksom på at det er en annen semantisk inndeling på samisk enn på oversettingsspråket. F.eks. vai vs. dahje, eller dudno vs. din. I slike tilfeller merkes begge lemmaene med l_ref:
<lg>
<l pos="cc">dahje</l>
<l_ref>vai_cc</l_ref>
</lg>
og
<lg>
<l pos="cc">vai</l>
<l_ref>dahje_cc</l_ref>
</lg>
Evt. bruk av flere typer referanser - dette er tanker, og er ikke implementert
Initialt i <mg>: <syn lemmaID="buohccebiila" /> → vise til eit synonym <ant lemmaID=""> ↛ vise til eit antonym <hyponym> ↓ vise til eit meir spesifikt ord <hypernym> ↑ vise til eit meir overordna ord <obs> vær obs på dette (bajimussii -> bajimusas) !
Eksempler
<x src="S.B. Johansen 2010: Sárá beaivegirji s. 21">... dakkár ilgadis olmmošlágan filbmasivdnádus, mii lea eambbo robohtalágan go olbmolágan.</x>
Generere paradigme eller ikke
Noen av filene er statiske og noen blir det generert paradigmer av. Det er filer for pronomener med innskrevne paradigmer, og disse filenes navn avgjør at innholdet ikke blir generert.
I de andre filene er det POS-merkinga som avgjør om det blir generert paradigme eller ikke. Lemmaer som ikke skal genereres, eller som bare har en form, merkes med pg="no".
Generere paradigmer
Alle entryene må være leksikalisert i norm-fst. Hvis ikke, vil de ikke bli generert. F.eks. så vil en entry med grunnform i plural, ikke bli generert hvis grunnformen er i singular i norm-fst. Men man kan ha både sg og pl innføringer i norm-fst for det samme lemmaet hvis det har en annen oversettelse i plural enn i singular.
Det må ikke være noen homonyme entryer (lemma + POS + type + subtype + ... annen attributer)!
For å unngå at dict-fila blir for stor, kan man vurdere hvilke bøyningsformer som skal genereres, f.eks. px eller ikke. Dette gjøres i testing/xcodes.txt-filene.
Filer for generering
sme-filer for generering:
nounActor_smenob.xml nounCommon_smenob.xml nounG3_smenob.xml nounProper_smenob.xml nounRevProper_smenob.xml nounProperPl_smenob.xml adjective_smenob.xml verb_smenob.xml pronIndef_smenob.xml num_smenob.xml
sma-filer for generering:
a_smanob.xml n_smanob.xml v_smanob.xml num_smanob.xml pronIndef_smanob.xml prop_smanob.xml propPl_smanob.xml
Filer med statiske (innskrevne) paradigmer
Det må ikke være noen homonyme entryer (lemma + POS) innafor eller på tvers av filene. Dette kan unngås med å oppgi type (f.eks. 'dem') og sg/pl, f.eks.
<l pos="pron" type="dem" nr="sg">dat</l> vs <l pos="pron" type="dem" nr="pl">dat</l> og <l pos="pron" type="pers" nr="sg">dat</l>
Dette må også tas hensyn til i lemma_ref, f.eks.
<lemma_ref lemmaID="dat_pron_pers_pl">dat</lemma_ref>
sme-filer med innskrevne paradigmer:
adjstatpar_smenob.xml div_statisk_smenob.xml verbNeg_smenob.xml verbCop_smenob.xml verbSupNeg_smenob.xml pronDem_smenob.xml pronPers_smenob.xml pronRec_smenob.xml pronRefl_smenob.xml pronRel_smenob.xml
sma-filer med innskrevne paradigmer:
misc_stat_smanob.xml pronPers_stat_smanob.xml pronRec_stat_smanob.xml pronRefl_stat_smanob.xml pronRel_stat_smanob.xml vCop_stat_smanob.xml vNeg_stat_smanob.xml
Andre filer
sme-filer:
adverb_smenob.xml mwe_smenob.xml other_stat_smenob.xml
sma-filer:
adv_smanob.xml i_smanob.xml multiword_smanob.xml pcle_smanob.xml po_smanob.xml pr_smanob.xml
Miniparadigmer
Miniparadigmene i leksikonoppslaget er hjelp for brukeren. De vil variere fra POS til POS. Ved å legge til +Use/NVD i fst, kan man velge bort en del bøyningsformer når man ikke vil presentere alle i miniparadigmet. Dette er f.eks. aktuelt for nordsamiske adjektiver.
substantiv:
| Bøyning | Eksempel |
|---|---|
| viessu | |
| Sg+Gen | viesu (ikke Allegro) |
| Sg+Ill | vissui |
| Pl+Ill | viesuide (ikke hvis illpl="no" ) |
propernouns sme - sg:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Norga | Norge |
| Sg+Gen | X bokte | Norgga bokte | via Norge |
| Sg+Ill | - | Norgii | til Norge |
| Sg+Loc | - | Norggas | i/fra Norge |
propernouns sme - pl:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Iččát | Ingøy |
| Pl+Gen | X bokte | Iččáid bokte | via Ingøy |
| Pl+Ill | - | Iččáide | til Ingøy |
| Pl+Loc | - | Iččáin | i/fra Ingøy |
propernouns sma - sg:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Nöörje | Norge |
| Sg+Gen | X baaktoe | Nöörjen baaktoe | via Norge |
| Sg+Ill | - | Nöörjese | til Norge |
| Sg+Ine | - | Nöörjesne | i/på Norge |
| Sg+Ela | - | Nöörjeste | fra Norge |
propernouns sma - pl:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Bealjehkh | Sylan |
| Pl+Gen | X baaktoe | Bealjehki baaktoe | via Sylan |
| Pl+Ill | - | Bealjehkidie | til Sylan |
| Pl+Ine | - | Bealjehkinie | i/på Sylan |
| Pl+Ela | - | Bealjehkijstie | fra Sylan |
verb sme:
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| context: "mun" | boahtit | |
| Ind+Prs+Sg1 | (odne mun) X | (odne mun) boađán |
| Ind+Prt+Sg1 | (ikte mun) X | (ikte mun) bohten |
| Ind+Prs+ConNeg | (in) X | (in) boađe |
For verb som det ikke er naturlig med menneskelig subjekt for:
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| context: "dat" | ciellat | |
| Ind+Prs+Pl3 | (Plural) X | (Plural) cillet |
| Ind+Prt+Sg3 | (ikte dat) X | (ikte dat) cielai |
| Ind+Prs+ConNeg | (ii) X | (ii) ciela |
For verb som bare brukes i Sg3 (vær-verb):
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| context: "upers" | bieggat | |
| Ind+Prs+Sg3 | (odne) X | (odne) bieggá |
| Ind+Prt+Sg3 | (ikte) X | (ikte) biekkai |
| Ind+Prs+ConNeg | (ii) X | (ii) biekka |
For resiproke verb :
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| context: "sii" | deaivvadit | |
| Ind+Prs+Pl3 | (odne sii) X | (odne sii) deaivvadit |
| Ind+Prt+Pl3 | (ikte sii) X | (ikte sii) deaivvadedje |
| Ind+Prs+ConNeg | (eai) X | (eai) deaivvat |
verb sma:
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| Inf | - | båetedh |
| Ind+Prs+Sg1 | (daan biejjien manne) X | (daan biejjien manne) båatam |
| Ind+Prs+Sg3 | (daan biejjien dïhte) X | (daan biejjien dïhte) båata |
| Ind+Prs+Pl3 | (daan biejjien dat) X | (daan biejjien dat) båetieh |
| Ind+Prt+Sg1 | (jååktan manne) X | (jååktan manne) böötim båetiejim |
| Ind+Prs+ConNeg | (ij) X | (ij) båetieh |
| PrfPrc | (lea) X | (lea) båateme |
| Ger | (lea) X | (lea) båetieminie |
| VGen | X | båetien |
adjektiver:
Ved å legge til +Use/NVD i fst, kan man velge bort en del bøyningsformer når man ikke vil presentere alle i miniparadigmet. Dette er ikke minst aktuelt for adjektiver.
| Bøyning | Uten +Use/NVD | Med +Use/NVD |
|---|---|---|
| A+Sg+Nom | heittot | heittot |
| A+Attr | heittogis heittohis (bivttas) | heittogis (bivttas) |
| A+Pl+Nom | heittogat heittohat | heittogat |
| A+Comp+Attr | heittogit heittogut heittoget heittogat heittohit heittohut heittohet heittohat | heittoget heittogat |
| A+Comp+Sg+Nom | heittogit heittogut heittoget heittogeabbo heittogat heittogabbo heittohit heittohut heittohet heittoheabbo heittohat heittohabbo | heittogeabbo heittogabbo |
| A+Superl+Sg+Nom | heittogeamos heittogamos heittoheamos heittohamos | heittogeamos heittogamos |
For adjektiver har vi lagt til kontekst til attributtformen bare for sme. Det er merket i leksikonet hvilken kontekst som skal brukes, f.eks. context: "olmmoš". Hvis context="", så vil det ikke bli oppgitt attributtform.
| Bøyning | Kontekst bare for sme | Eksempel |
|---|---|---|
| context: "báddi" | guhkki | |
| A+Attr | X (báddi) | guhkes (báddi) |
| A+Pl+Nom | guhkit | |
| A+Comp+Attr | guhkit | |
| A+Comp+Sg+Nom | guhkit | |
| A+Superl+Sg+Nom | guhkimus |
numeraler:
| Bøyning | Kontekst bare for sme | Eksempel |
|---|---|---|
| context: "gápmagat" | guokte | |
| Num+Pl+Nom | X (gápmagat) | guovttit (gápmagat) |
| Num+Pl+Gen | X (gápmagiid) | guvttiid (gápmagiid) |
indef pron:
(samme miniparadigme som for substantiver)
| Bøyning | Eksempel |
|---|---|
| muhtun | |
| Sg+Gen | muhtuma |
| Sg+Ill | muhtumii |
| Pl+Ill | muhtumiidda |
Innskrevne paradigmer
pronomener:
Singular for seg: Sg+Akk Sg+Gen Sg+Ill Sg+Loc Sg+Com Ess Plural for seg: Pl+Akk Pl+Gen Pl+Ill Pl+Loc Pl+Com Ess
negasjonsverb:
Sg1 Sg2 Sg3 Du1 Du2 Du3 Pl1 Pl2 Pl3
Homonyme entrier
Ikke-systematisk homonomi - eksempel fra sma
Systematisk homonomi - ekesmpler fra sme
| Nom | Gen | norsk | norm-fst-analyse |
|---|---|---|---|
| lohkki | lohki | lokk | lohkki+N+Sg+Nom |
| lohkki | lohkki | lesar | lohkki+N+Actor+Sg+Nom |
Her må den ene merkes med tag (actor) i genereringa fra norm-fst. Med denne tagen kan de unngår man homonymi i dict. I xml-filene:
1.
<e src="nj" usage="vd">
<lg>
<l pos="n">lohkki</l>
</lg>
<mg>
<tg>
<t pos="n">lokk</t>
2.
<e src="nj" usage="vd">
<lg>
<l pos="actor">lohkki</l>
</lg>
<mg>
<tg>
<t pos="n">leser</t>
En annen systematisk homonymi:
| Nom | Gen | norsk | norm-fst-analyse |
|---|---|---|---|
| beassi | beasi | reir | beassi+N+Sg+Nom |
| beassi | beassi | never | beassi+G3+N+Sg+Nom |
Vi har følgende tagger for substantiver:
| tagger | fil |
|---|---|
| N+Actor | nounActor_smenob.xml |
| N | nounCommon_smenob.xml |
| G3+N | nounG3_smenob.xml |
| N+Prop | nounProper_smenob.xml |

