Databasenormalisering

teknikk for å designe tabeller i relasjonsdatabaser slik at man minimerer duplisering av informasjon
Se også Normalisering (personnavn)

Databasenormalisering er en teknikk for å designe tabeller i relasjonsdatabaser slik at man minimerer duplisering av informasjon. Hvis samme informasjon lagres på flere ulike steder i en tabell, risikerer man at en endring fører til at databasen blir inkonsistent når noe endres. Hvis for eksempel en persons adresse er lagret på flere ulike steder i tabellen og adressen endres på ett av stedene kan man ikke lenger vite hvilken adresse som er riktig, tabellen har mistet dataintegritet.

Høyere normaliseringsgrad fører vanligvis til flere tabeller i databasen, noe som kan gi redusert ytelse(hastighet) fordi man må gjøre flere joiner av ulike tabeller for å finne sammensatt informasjon. I systemer der man ofte trenger komplisert, sammensatt informasjon kan det derfor enkelte ganger være en fordel med en lavere normaliseringsgrad.

For å oppnå en viss normalform, er det et krav at alle lavere normalformer er oppnådd.

Begreper

  • Funksjonell avhengighet er et sentral begrep i normaliseringsteori. Når B har en funksjonell avhengighet av A, A → B, betyr det at for hver verdi av A finnes det eksakt en verdi av B, og hvis A gjentas får vi også samme verdi av B. For eksempel kan man si at 'adresse' er funksjonelt avhengig av 'personnavn'. Da skal samme adresse alltid være knyttet til denne personen. Det motsatte er ikke nødvendigvis tilfelle, det er ikke sagt at det nødvendigvis er bare ett personnavn knyttet til hver adresse. Hvis dette var tilfelle ville man ha en funksjonell avhengighet som gikk andre veien (B → A). Et attributt kan være funksjonelt avhengig av ett enkelt attributt, eller en kombinasjon av attributter. Det er ikke mulig å avgjøre hvilken normalform en relasjon har uten å kjenne til de funksjonelle avhengighetene, noe som forutsetter kunnskap om området relasjonen omhandler.
  • Transitiv avhengighet er en indirekte funksjonell avhengighet, der X→Z fordi X→Y og Y→Z.
  • Flerverdi-avhengighet oppstår når man har et mange til mange-forhold i samme relasjon der alle koblinger skal forekomme, og de to forholdene ikke har avhengigheter seg i mellom. Formelt blir dette: Hvis man har tre kolonner eller grupper av kolonner – X, Y, Z i en tabell, så er X→→Y i tabellen hvis det alltid er slik at hvis to rader(rad 1, rad 2) er like på X, så må den også ha to rader(rad 3, rad 4) der:
    • Rad 3 er lik 1 på X og Y og lik 2 på Z, og
    • Rad 4 er lik 2 på X og Y og lik 1 på Z

Første normalform (1NF)

Utdypende artikkel: Første normalform

Man kan ta som utgangspunkt at en tabell oppfyller første normalform hvis alle poster i relasjonen er atomære.[1] Det er en viss faglig diskusjon rundt dette, men kjernen er at tabellen skal oppfylle grunnleggende regler for en relasjon.

Eksempel

navntelefonnummer
Ivar Bø, Hilde Svanhjell750 55 647
Ole Iversen750 13 113, 750 54 524

Tabellen over bryter første normalform fordi verdiene ikke er atomære. Nedenfor er samme data normalisert.

fornavnetternavntelefonnummer
Ivar750 55 647
HildeSvanhjell750 55 647
OleIversen750 13 113
OleIversen750 54 524

Andre normalform (2NF)

Utdypende artikkel: Andre normalform

For at en relasjon skal være på andre normalform må den oppfylle kravene til første normalform. I tillegg skal det ikke finnes noen ikke-nøkkelattributter som er avhengige av en del av en kandidatnøkkel. Eller sagt på en annen måte, alle kolonner i tabellen skal være fakta om en hel nøkkel, og ikke bare en del av nøkkelen.

Formell definisjon av andre normalform:En relasjon R er på andre normalform hvis alle ikketrivielle funksjonelle avhengigheter i R på formen X→A, der X er en mengde attributter og A et attributt i R, tilfredsstiller minst ett av følgende:

  • X er en primærnøkkel i R
  • A er et nøkkelattributt i R
  • X⊄K for noen kandidatnøkkel K i R[2]

Eksempel

emnekodestudentnummerkarakterfaglærer
MAT1001001AIvar Bø
MAT1001002CIvar Bø
ING1001001BHilde Svanhjell

Tabellen over bryter med andre normalform fordi kolonnen faglærer kun er avhengig av en del av den sammensatte primærnøkkelen emnekode og studentnummer. Faglærer kolonnen er kun avhengig av emnekode i motsetning til kolonnen karakter som er avhengig av hele primærnøkkelen. Ved å flytte faglærer til en ny tabell hvor vi oppretter emnekode som primærnøkkel og lar emnekoden i den opprinnelige tabellen referere til denne vil tabellene oppfylle kravene til andre normalform samtidig som vi minimerer overflødig data ved at faglærerens navn kun oppføres en gang for hver unike emnekode:

emnekodestudentnummerkarakter
MAT1001001A
MAT1001002C
ING1001001B
emnekodefaglærer
MAT100Ivar Bø
ING100Hilde Svanhjell

Tredje normalform (3NF)

Utdypende artikkel: Tredje normalform

For at en relasjon skal være på tredje normalform må den oppfylle kravene til andre normalform. I tillegg skal ingen ikke-nøkkelattributter være transitivt avhengig av primærnøkkelen. Det vil si at ingen attributter skal være avhengige av noe annet enn primærnøkkelen, hvis de ikke er nøkkelattributter.

Formell definisjon av tredje normalform:En relasjon R er på tredje normalform hvis alle ikketrivielle funksjonelle avhengigheter i R på formen X→A tilfredsstiller minst ett av følgende:

  • X er en primærnøkkel i R
  • A er et nøkkelattributt i R[2]

Eksempel

idfornavnetternavnpostnummerpoststed
1Ivar3225Sandefjord
2HildeSvanhjell3227Sandefjord
3OleIversen3227Sandefjord

Tabellen over bryter tredje normalform fordi det finnes en transitiv avhengighet mellom poststed og id. Ved å opprette en egen tabell for postnummer og poststed vil tabellene oppfylle kravet for tredje normalform og vi kan minimere overflødig data ved at poststed ikke gjentas flere ganger for det samme postnummeret:

idfornavnetternavnpostnummer
1Ivar3225
2HildeSvanhjell3227
3OleIversen3227
postnummerpoststed
3225Sandefjord
3227Sandefjord

Elementærnøkkel normalform (EKNF)

Utdypende artikkel: Elementærnøkkel normalform

Elementærnøkkel normalform (EKNF) er en subtil forbedring av tredje normalform (3NF), og derfor tilfredsstiller EKNF-tabeller 3NF per definisjon. Dette skjer når det er mer enn én unik sammensatt nøkkel og disse overlapper hverandre. Slike tilfeller kan forårsake overflødig informasjon i de overlappende kolonnene.

Boyce-Codd normalform (BCNF)

Utdypende artikkel: Boyce–Codd normalform

En relasjon er på Boyce–Codd normalform hvis alle attributter kun er avhengige av supernøkler. Vanligvis vil relasjoner som er på tredje normalform også oppfylle BCNF.

Formell definisjon av Boyce-Codd normalform:En relasjon R er på Boyce-Codd normalform hvis alle ikketrivielle funksjonelle avhengigheter i R på formen X→A tilfredsstiller følgende:

  • X er en primærnøkkel i R[3]

Wessels theorem:Dersom du har en tabell T, med et sett av funksjonelle avhengigheter F, vil du, ved å dekomponere T i tabellene T1,...,Tn for hver funksjonelle avhengighet (1,...,n), stå igjen med tabeller som oppfyller kravene til BCNF.

Fjerde normalform (4NF)

Utdypende artikkel: Fjerde normalform

En relasjon R er på fjerde normalform hvis X er en primærnøkkel i R i alle ikketrivielle flerverdiavhengigheter X →→ Y[4]

Femte normalform (5NF)

Utdypende artikkel: Femte normalform

Femte normalform (5NF) er designet for å fjerne redundans i relasjonsdatabaser som registrerer fakta med flere verdier ved å isolere flere semantisk relaterte relasjoner.

Domene–nøkkel normalform (DKNF)

Utdypende artikkel: Domene–nøkkel normalform

Domene–nøkkel normalform (DKNF) er en normalform som krever at databasen ikke inneholder andre begrensninger enn domenebegrensninger og nøkkelbegrensninger.

Sjette normalform (6NF)

Sjette normalform (6NF) utvider relasjonsalgebraen og generaliserer relasjonsoperatorer (som skjøt) for å støtte intervalldata, hvilket kan være nyttig i temporale databaser. Enhver relasjon på 6NF er også på 5NF.

Referanser


Autoritetsdata