TearbmaohcanDuogášGrammatihkkaTeknihkka dieđutDivvun
 

Strukturen til den gamle databasen

Overordna struktur

Den gamle databasen er ein SQL-database, med 13 ulike tabellar. Tolv av tabellane heng klart i hop, og strukturen til desse tolv tabellane kan illustrerast med figuren nedanfor.

Databasestrukturen

Kvar boks i figuren over representerer ein tabell i SQL-databasen (med unnatak av boksen lengst til høgre med bøyingskodar, som eigentleg er fire tabellar). Namnet på kvar boks svarar eksakt til namnet på tabellen. Tabellane i databasen vert stutt skildra i avsnitta nedanfor.

Den trettande tabellen heng ikkje direkte i hop med dei andre tabellane, men ser ut til å vera ein temporær tabell som blir brukt i registreringa av nye ord. Han er ikkje relevant for konverteringa til det nye formatet, men eg har dokumentert han nedst på denne sida.

Note

I kodeavsnitta nedanfor er koden limt inn eksakt slik eg har fått han frå iTet i Tromsø, dvs. som tab-separert SQL-dump. Dette har eg gjort for å dokumentera kjeldeformatet så eksakt som mogleg. Avvik frå originalkoden er kommentert.

Oversettelse

Den sentrale tabellen er Oversettelse, som inneheld 6 felt. SQL-definisjonen av tabellen ser ut som i listinga nedanfor (eg har lagt til kommentarane, elles er dette heilt eksakt koden eg fekk frå iTet); feltnamn står lengst til høgre i tabellen:

name		type 	size	nulls	! Merknader:

Oversettelse
 SId		int	4		! ID for samisk ord
 NId		int	4		! ID for norsk ord
 SOrd		nvarchar 50		! samisk ord (ekvivalent for det norske ordet)
 NOrd		nvarchar 50		! norsk ord (ekvivalent for det samiske ordet)
 MId		varchar	6		! ID for mikrokategori (og implisitt makrokategori)
 Nanoid		varchar 6		! ID for nanokategori

Her er eit lite døme på innhaldet i fila (eg har skrive inn feltnamna på toppen):

SId	NId	SOrd	NOrd	MId	Nanoid
----	----	----	----	----	----
3	3	skuvla	skole	 	NULL
5	5	mánná	barn	 	 
6	6	máná biilastuollu	barnesete	R8100	RN8120
7	7	maŋŋejuvladoaibma	bakhjulsdrift	R8100	RN8120
8	8	aláš	bakketopp	G6910	GN6911
9	9	jállu	dristig	 	NULL
10	10	maŋŋečuovga	baklys	R8100	RN8120
12	12	riggásamos	rikest	 	NULL

Merknader til felta

Dei fire fyrste felta er alltid brukte, det femte (MId) kan vera tomt eller innehalda eit mellomrom i tillegg til mikroemnekoden, og det sjette (Nanoid) kan vera tomt, innehalda eit mellomrom eller ha verdien NULL i tillegg til nanoemnekoden. Dersom dei to siste felta er tome, er ikkje oppslagsordet kategorisert for fagfelt, og eg reknar det ikkje som ein term, men som eit allmennspråkleg ord. Allmennspråklege ord blir ikkje konverterte til termbasen, men vil seinare bli konverterte til ein tospråkleg ordboksdatabase. Mikro- og nanoemnekodane kan av og til vera feil (innehalda eit mellomrom midt i koden, eller ha feil format (manglar eit teikn, eller ein mikrokode er brukt istf nanokoden).

OrdbeskrivelseS

All informasjon som er spesifikk for den samiske ekvivalenten i eit termpar. Relatert til Oversettelse (Id=SId).

name			type 	size	nulls

OrdbeskrivelseS
 Id			int	4
 Btype			varchar 3	v
 BKat			char	1	v
 Ordklasse		varchar 25
 Rettskrivningsstat	varchar 60	v
 Godkjent		bit	1
 Uttale			varchar 50	v
 Ekvivalens		varchar	40	v
 Kommentar		text	16	v

Her er eit døme på OrdbeskrivelseS (lange kommentarar er ført på to liner for ikkje å gjera koden for brei):

Id Btype BKat Ordklasse  Rtsk. Godkj.	Uttale	Ekv.	Kommentar
-- ----- ---- ---------  ----- ------	------	----	---------
3  I     b    Substantiv       1	 	 	Oahpahusásahus:
							 skuvla-skuvlii-skuvllaide
4  I     a    Substantiv       1	 	 	nuohtta-nuhttii-nuohtaide
5  I     g    Substantiv       1	 	 	mánná - mánnái - mánáide
6  I     g    Substantiv       1	 	 	stuollu - stullui - stuoluide
7  I     l    Substantiv       1	 	 	doaibma - doibmii - doaimmaide
8  II    d    Substantiv       1	 	 	aláš - alážii - alážiidda 
9  I     a    Adjektiv         1	 	 	Okta gii ii bala:
							 jállu - jálut - jálumus /jálos (attr.)
10 I     c    Substantiv       1	 	 	čuovga - čuvgii - čuovggaide
12 III   a    Adjektiv         1	 	 	 

Merknader til nokre av felta

Rettskrivningsstat
Med eitt unnatak er dette feltet tomt (og det eine unnataket er tydeleg ein miss: 'wer')
Godkjent
Alle termane i basen er godkjende (det står '1' i feltet for alle samiske ord)
Uttale
Feltet er heilt ubrukt.
Ekvivalens
Feltet er heilt ubrukt. Det er i tillegg uklårt kva det er meininga det skal brukast til.
Kommentar
Feltet er brukt til fleire ulike ting, og har ein viss indre struktur:
(tekst) //
tekst er ei nærmare presisering av betydning eller emne
tekst - tekst - tekst //
Ulike bøyingsformer av ordet (kanoniske bøyingsformer). Det treng ikkje vera mellomrom kring bindestrekane og det kan vera ein bindestrek føre fyrste ordet. Avsluttande // er valfritt og ganske uvanleg.
// tekst - tekst - tekst
Kanoniske bøyingsformer, to eller fleire.
// tekst
tekst er ein definisjon eller nærmare forklåring
// tekst 1. tekst 2. tekst ...
Ulike tyingar av oppslagsordet
Dessverre er ikkje den indre strukturen tilstrekkeleg konsekvent til at det er mogleg å konvertera dei ulike teksttypane automatisk til ulike XML-strukturar, men ein del burde det vera mogleg å dekkja. Resten må ein rydda opp i manuelt etterpå.

SynonymS

Samiske synonym til den samiske termen i Oversettelse.

name		type 	size	nulls

SynonymS
 Id		int	4
 OrdId		int	4
 Synonym	varchar 40

Døme på korleis SynonymS er brukt:

Id	OrdId	Synonym
----	----	----
1319	3	viessu
1320	3	oahpahusinstitušuvdna
1321	9	duostil
1322	13	ksan
1323	22	vancca
1324	26	lágidit
1325	30	hllat
1326	41	vvlensajit
1327	58	direktevra, jo–iheaddji, hoavda
1328	88	lunta, bárdni, juŋká
1330	164	gudji
1331	162	alkohola haga, alkoholhaga

Merknader til felta

Id
Intern id for synonymtabellen (unik?)
OrdId
Svarar til SId i Oversettelse.
Synonym
Eitt eller fleire synonym, skilde med komma.

Som det kjem fram av eksempla over, kan ein ha to eller fleire synonym for det same oppslagsordet organisert på to ulike måtar:

  1. Anten som ulike synonymoppføringar (jf dei to fyrste eksempla, med eitt synonym kvar, men med referanse til same oppslagsord med SId 3).
  2. Eller som fleire synonym etter kvarandre i den same oppføringar, skilde med komma.

I den konverterte XML-databasen vil synonyma bli normale oppslag som blir refererte til frå éi tyding av eit anna oppslagsord. Sjå spesifiseringa for den nye databasen for fleire detaljar.

Bøying (BoyningA, BoyningP, BoyningS, BoyningV)

Tabellar for bøyingskodar for samiske oppslagsord.

BoyningA

Nedanfor kjem ein eksakt kopi av tabelldefinisjonen for adjektivbøyinga, slik eg har fått han frå iTet. Som det kjem fram av dømet nedanfor tabellen, inneheld fila eitt felt meir enn det tabelldefinisjonen seier - det finst eit ekstra felt mellom Superlativ og kateogri som, etter innhaldet å sjå, er eit merknadsfelt.

name		type 	size	nulls

BoyningA
 Type 		varchar 3
 Grunnord 	varchar 40
 Komparativ	text	16	V
 Superlativ	text	16	V
 kateogri	varchar  1	V

Døme (eg har lagt inn lineskift for ikkje å få for lange liner):

Type Grunnord   Komparativ                          Superlativ      Kommentar   Kategori
---- ---------- ----------                          ----------      ---------   --------
I    oanehažžat oanehažžabut                        oanehažžamusat  oanehis     c
I    oanehaǦ    oanehažžat                          oanehažžamus    oanehis     c
II   bastil     v: bastilet, bastileabbo            bastileamos     Atributt    a
                õ: bastilat, bastilut, bastilabbo   bastilamos       for type 2
II   nanus      v: nannoset, nannoseabbo            v: nannoseamos  nanu        a
                õ: nannosat, nannosut, nannosabbo   õ: nannosmos
III  rikkis     v: suorqt     õ: storat             v: stuorimus    stuora      a
                                                    õ: stuoramus

Det er fleire konverteringsfeil i dømet, samt trykkfeil i kjeldematerialet. Dei vil bli retta opp seinare.

BoyningP

Tabell for pronomenbøyinga:

name		type 	size	nulls

BoyningP
 Type		varchar  3
 Kategori	char	 1
 Kasus		varchar  10
 Sortering	smallint 2
 Ord1		varchar	40	V
 Ord2		varchar 40	V
 Ord3    	varchar 40	V

Døme (heile fila):

Type Kat. Kasus      Sort. Ord1     Ord2     Ord3
---- ---- -----      ----- ----     ----     ----
I    a    Akk/gen    3     mu       du       su
I    a    Ill        4     munnje   dutnje   sutnje
I    a    Kom        6     muinna   duinna   suinna
I    a    Lok        5     mus      dus      sus
I    a    Nom        2     mun      don      son
I    a    Singularis 1     1.person 2.person 3.person

BoyningS

Tabell for substantivbøyinga:

name		type 	size	nulls

BoyningS
 Type		varchar	3
 Kategori	char	1
 NOME		varchar	30	V
 NOMF		varchar 30	V
 AGE		varchar	30	V
 AGF		varchar 30	V
 ILLE		varchar 30	V
 ILLF		varchar 30	V
 LOKE		varchar 30	V
 LOKF		varchar 30	V
 KOME		varchar 30	V
 KOMF		varchar 30	V
 ESS		varchar 30	V

Døme (eg har ikkje tatt med alle felta - teksten ville ha vorte for lang):

Typ K NOME    NOMF      AGE      AGF        ILLE      ILLF
--- - ----    ----      ---      ---        ----      ----
I   a gieddi  giettit   gietti   gittiid    gieddái   gittiide
II  a beana   beatnagat beatnaga beatnagiid beatnagii beatnagiidda
III a boazu   bohccot   bohcco   bohccuid   bohccui   bohccuide
III b fális   fállát    fállá    fálláid    fállái    fálláide
IV  b         áhčežagat          áhčežagaid           áhčežagaide

BoyningV

Tabell for verbbøyinga:

name		type 	size	nulls

BoyningV
 Type		varchar 3
 Kategori	char	1
 Tid		varchar	20
 e1		varchar 30	V
 e2		varchar 30	V
 e3		varchar 30	V
 t1		varchar 30	V
 t2		varchar 30	V
 t3		varchar 30	V
 f1		varchar 30	V
 f2		Varchar 30	V
 f3		varchar 30	V

Døme (eg har ikkje tatt med alle felta - teksten ville ha vorte for lang):

Typ K Tid        e1      e2      e3      t1        t2
--- - ----       --      --      --      --        --
I   a presens    vieččan vieččat viežžá  vižže     viežžabeahtti
II  a presens    guottán guottát guoddá  gudde     guoddibeahtti
III a presens    áppun   ápput   ábbu    ábbo      ábbubeahtti
I   a Preteritum vižžen  vižžet  vieččai vieččaime vieččaide
II  a Preteritum gudden  gudden  guttii  guttiime  guttiide
III a Preteritum ábbon   ábbot   áppui   áppuime   áppuide

OrdbeskrivelseN

All informasjon som er spesifikk for den norske ekvivalenten i eit termpar. Relatert til Oversettelse (Id=NId).

name			type 	size	nulls

OrdbeskrivelseN
 Id			int	4
 Ordklasse		varchar 25	
 Rettskrivningsstat	varchar 60	V
 Uttale			varchar	50	V
 Ekvivalens		varchar 40	V
 Kommentar		text	16

Døme på korleis OrdbeskrivelseN er brukt:

Id	Ordklasse	Rtsk.	Uttale	Ekv.	Kommentar
--	---------	-----	------	----	---------
3	Substantiv	 	Skuvlla	Lærarplass	Skolen er en plass for elever og lærere
4	Substantiv	 	 	 	Definisjon av tone
5	Substantiv	NULL	NULL	NULL	 
6	Substantiv	NULL	NULL	NULL	 
7	Substantiv	NULL	NULL	NULL	 
8	Substantiv	NULL	NULL	NULL	 
9	Adjektiv	NULL	NULL	NULL	en som ikke er redd
10	Substantiv	NULL	NULL	NULL	 
12	Adjektiv	NULL	NULL	NULL	 

Merknader til nokre av felta

Ordklasse
Same ordklasser som for samisk
Rettskrivningsstat
Heilt ubrukt (tomt, mellomrom eller NULL)
Uttale
Ubrukt, med eitt unntak, sjå Id 3 over (Skuvlla), som tydeleg er eit mistak.
Ekvivalens
Ubrukt, med eitt unntak, sjå Id 3 over (Lærarplass), som sannsynlegvis er eit mistak.
Kommentar
Feltet er brukt til fleire ulike ting, men ikkje det same som på samisk. Strukturen som finst er noko likt med:
(lat. tekst)
tekst er det latinske namnet på veksten/dyret som oppslagsordet refererer til. Det finst òg døme på slike latinske nemningar utan parentes.
1) tekst 2) tekst ...
Ulike tydingar av ordet. Istf 1) ... 2) ... osb kan det òg stå: 1. ... 2. ...
(tekst)
tekst er ei stutt presisering el. av oppslagsordet
tekst
tekst er ein definisjon eller nærmare forklåring
tekst, tekst; tekst, tekst
nærmast ulike synonym til oppslagsordet, oppdelt etter tydingsgrupper
Dessverre er ikkje den indre strukturen tilstrekkeleg konsekvent til at det er mogleg å konvertera dei ulike teksttypane automatisk til ulike XML-strukturar, men ein del burde det vera mogleg å dekkja. Resten må ein rydda opp i manuelt etterpå.

SynonymN

Norske synonym til norske oppslagsord.

name		type 	size	nulls

SynonymN
 Id		int	4
 OrdId		int	4
 Synonym	varchar 40

Nedanfor fylgjer alle synonyma som er definerte for dei norske oppslagsorda:

Id	OrdId	Synonym
--	-----	-------
1	3	Læreplass
4	3	øve
6	9	djerv, uforferdet
7	13	gevir
8	26	tilpasse
9	182	asfaltmasse
29	3	tesyt
36	14230	dubb
37	14230	flyteholt
38	14753	ovddasvástádus

Merknader til felta

Id
Intern id for synonymtabellen (unik?)
OrdId
Svarar til NId i Oversettelse.
Synonym
Eitt eller fleire synonym, skilde med komma.

Som det kjem fram av eksempla over, kan ein ha to eller fleire synonym for det same oppslagsordet organisert på to ulike måtar:

  1. Anten som ulike synonymoppføringar (jf dei to fyrste eksempla, med eitt synonym kvar, men med referanse til same oppslagsord med SId 3).
  2. Eller som fleire synonym etter kvarandre i den same oppføringar, skilde med komma.

I den konverterte XML-databasen vil synonyma bli normale oppslag som blir refererte til frå éi tyding av eit anna oppslagsord. Sjå spesifiseringa for den nye databasen for fleire detaljar.

Mcro

Emnegruppering på dei to øvste nivåa, makro og mikro. Relatert til Oversettelse. SQL-definisjonen av tabellen er (mine kommentarar, elles direkte frå iTet):

name		type 	size	nulls	! Merknader:

Mcro
 Kode		varchar 6		! ID for mikroemne, svarar til MId i Oversettelse
 Beskrivelse	varchar 60	V	! Kort, beskrivande tekst på norsk
 Nokkelord	text	16	V	! Norsk nøkkelord (alltid tomt = NULL eller heilt tomt)
 Macro		varchar 30		! Makrokategori på norsk
 BeskrivelseS	varchar 60	V	! Kort, beskrivande tekst på samisk
 NokkelordS	text	16	V	! Samisk nøkkelord (alltid tomt = NULL eller heilt tomt)
 MacroS		varchar	30	V	! Makrokategori på samisk (tomt, NULL, eller talet null)

Døme (mine overskrifter; eg har forkorta teksten for å få plass på lina):

Kode 	Beskrivelse	Noklrd	Macro    	BeskrivelseS	NokkelordS	MacroS
---- 	-----------	------	-----    	------------	----------	------
A0000	           	 	Samfunnsvit.	           	          	0
A1000	husholdning	NULL	Samfunnsvit.	viessodoallu	NULL    	0
A2000	sos. syst. 	 	Samfunnsvit.	sosiála vuogád.	        	0
A2100	           	 	Samfunnsvit.	        	        	0
A3000	skol/utd/forsk.	NULL	Samfunnsvit.	skuv/oahpa/dutk	NULL    	NULL
A4000	medier     	 	Samfunnsvit.	mediat  	        	0
A4500	benevnelser	 	Samfunnsvit.	namahusat	        	0
A5000	språkvit.  	 	Samfunnsvit.	gielladieđa	        	0
G0000	matematikk 	 	Naturvit & mat	matematihkka	        	0
G1100	mekanikk   	 	Naturvit & mat	mekánihkka	        	0
G3000	kjemi      	 	Naturvit & mat	kemiija 	        	0
G5000	fysikk     	 	Naturvit & mat	fysihkka	        	0
G6000	geovitensk.	 	Naturvit & mat	geodieđa	        	0
G6600	meteorologi	 	Naturvit & mat	meteorologiija	        	0
G6900	geografi   	ge/topo	Naturvit & mat	geográfiija	geo/topo/jna	0
G6910	topografi  	NULL	Naturvit & mat	topográfiija	NULL    	0

Nano

Emnegruppering på lågaste nivå. Relatert til Oversettelse. Tabelldefinisjonen er:

name		type 	size	nulls

Nano
 nano		varchar 6
 beskrivelse	varchar 60	V
 nokkelord	text	16	V
 micro		varchar	30	V
 beskrivelses	varchar 60	V
 nokkelords	text	16	V
 macros		varchar	30	V

Døme (mine overskrifter; eg har forkorta teksten for å få plass på lina):

nano  	beskrivelse	noklord	micro	beskrivelses		nokkelords	macros
----  	-----------	-------	-----	------------		----------	------
AN1000	husholdning	 	A1000	viessodoallu	 			0
AN2010	sos. spørs., gen	A2000	sosiála gažaldagat, oppalaččat	 	0
AN3000	generelt	 	A3000	oppalaččat	 			0
AN4000	medier, gener	 	A4000	mediat, oppalaččat	 		0
AN4500	skilt/titl/rombenevn.	A4500	galbbat, virgenamahusat ja lanjat	0
AN5010	språkvit. teori	 	A5000	gielladieđalaš teoriija	 		0
GN0000	matematikk	 	G0000	matematihkka	 			0
GN1100	mekanikk	 	G1100	mekanihkka	 			0
GN3200	kjemi	 		G3000	kemiija	 				0
GN5000	fysikk, gen.	 	G5000	fysihkka, oppalaééat	 		0
GN6110	geologi	 		G6000	geologiija	 			0
GN6601	meteor, gen.	 	G6600	meteorologiija, oppalaččat	 	0
GN6911	topogr appel	 	G6910	luonddunamahusat	 		0

Som det (nesten) kjem fram av dømet, er ikkje felta nokkelord og nokkelords brukte. Derimot kan det vera fleire tabulatorteikn etter kvarandre, utan at dei markerer eit nytt felt. Det ser ut som om tabulator+mellomrom/tekst definerer eit felt - i så fall er det mogleg å konvertera automatisk.

Ordklasse

Ordklasseinfo for oppslagsordet, gjeld både samisk og norsk:

name		type 	size	nulls

Ordklasse
 Navn		varchar 25
 Beskrivelse	varchar 60	v

Heile ordklassefila ser slik ut (mine overskrifter):

Navn              Beskrivelse
----              -----------
adjektiv          Beskrivelse...
adverb            Beskrivelse...
konjunksjon       Beskrivelse...
partikkel         Beskrivelse...
post-/preposisjon Beskrivelse...
pronomen          Beskrivelse...
substantiv        Beskrivelse...
tallord           Beskrivelse...
verb              Beskrivelse...

Veldig beskrivande...

Registrer

Denne tabellen heng ikkje i hop med dei andre tabellane, men ser ut til å vera heilt temporær medan ein legg inn nye termar. Strukturen er:

name			type 	size	nulls

Registrer
 Id			int	4
 BId			varchar 3	v
 BType			char	1	v
 Ordklasse		varchar 25
 Rettskrivningsstat	varchar 60	v
 Godkjent		bit	1
 Uttale			nvarchar 50	v
 Ekvivalens		nvarchar 50	v
 SKommentar		nvarchar 50	v
 NKommentar		nvarchar 50	v
 SOrd			nvarchar 50
 NOrd			nvarchar 50
 MId			nvarchar 50	v
 NId			nvarchar 50	v

Tabellen er ikkje relevant for konverteringa til XML, og vil bli ignorert i konverteringa.

by Sjur N. Moshagen