IEEE lebegőpontos számformátum

Az IEEE lebegőpontos számformátum az informatikában használatos számrendszer.

IEEE 754/1985 lebegőpontos számformátum

A lebegőpontos szám általános alakja $(-1)^{s}*m*R^{e}$ ahol az s az előjel; m a mantissza, amely önmagában egy tetszőleges fix pontos írásmódú szám; R a számrendszer alapszáma (radixa) és e a karakterisztika, a hatványkitevő, amely önmagában egy tetszőleges fix pontos írásmódú szám.

Az IEEE (ejtsd: I triple E) 754/1985 szabvány szerinti szám nem tartalmazza az adott számrendszer alapját (radix, r), mivel csak kettes számrendszerben értelmezett. Minden szám tartalmaz egy előjelbitet (s); karakterisztikát (k), melyből az adott számformátum karakterisztikai alapját kivonva (b) megkapjuk a valós kitevőt (e = k – b); és mantisszát (F) egyes normalizált alakban.

Az egyes normalizált azt jelenti, hogy a számokat olyan hatványkitevős, (tehát lebegőpontos) alakra hozzuk, amelyben a szám egészrészén csak az egyeseknek megfelelő helyiértéken található értékes számjegy.

Az IEEE 754/1985 szabvány szerint a lebegőpontos szám mantisszájának egyes normalizált alakja: m = 1.F, ahol a szám egész részén lévő egyes magától értetődő (implicit), ezért azzal, hogy nem tároljuk, a szám tört részét tudjuk eggyel több biten ábrázolni.

Az IEEE 754/1985 szabvány szerint 4 féle lebegőpontos számformátum létezik, melyek csak az adott elem bitszámában térnek el egymástól. Az 1985-86-os évben került elfogadásra az IEEE 754-es (854) számú lebegőpontos számábrázolási szabvány, melyet a legfontosabb processzorgyártók is elfogadtak.

Ezek szerint ennél:

a mantissza előjele 0, ha a szám pozitív és 1, ha negatív;
a mantisszában levő fixpontos szám 1-re normalizáltan értendő, azaz 1. a formájú;

Pontosság

A szabvány a lebegőpontos műveletvégrehajtáshoz többfajta pontosságot definiál:

	pontosság,	előjel,	mantissza,	karakterisztika,
egyszeres	32	1	23	8	(bit)
dupla	64	1	52	11	(bit)
kiterjesztett	80	1	64	15	(bit)
négyszeres	128	1	112	15	(bit)

A táblázatban a számok a megfelelő mezőkben levő bitek számát mutatják.

A lebegőpontos szám általános alakja: N = s ∙ m ∙ Re, ahol az s az előjel; m a mantissza, amely önmagában egy tetszőleges fix pontos írásmódú szám;R a számrendszer alapszáma (radixa) és e a karakterisztika, a hatványkitevő, amely önmagában egy tetszőleges fix pontos írásmódú szám.

Bonyolultabb, igen sok lépésből álló számítások során előfordulhat, hogy a műveletek eredménye a legkisebb illetve legnagyobb mantisszájú és karakterisztikájú (a számítógépen még ábrázolható) számnál kisebb, illetve nagyobb. Ezt alulcsordulásnak illetve túlcsordulásnak nevezzük. Többek között az ilyen esetek kezelhetősége érdekében vezeti be a szabvány:

a denormalizált számot,
a ± 0-t,
a ± végtelen számot és a
„nem számot” (lásd az ábrát).

                 ElőjelKarakterisztikaMantisszadenormalizált szám±0tetszőleges szám ≠ 0nulla                ±00végtelen        ±11…110„nem szám”        ±11…11tetszőleges szám ≠ 0

Ezek közül a denormalizált szám az igen kis számértékek számítógépes kezelését segíti (alulcsordulás esetén nem kell a művelet-végrehajtást hibajelzéssel megszakítani). A túlcsordulásokat (igen nagy számok) a „végtelen” számmal kezelhetjük. Az ezekkel végzett műveleteket a szabványnak megfelelő lebegőpontos aritmetikai egység a matematikában szokásos módon fogja értelmezni. Az úgynevezett „nem számok” azt a célt szolgálják, hogy programunk akkor se álljon le, ha az elvégzett művelet (például végtelen/végtelen) matematikailag értelmezhetetlen.

Short real (32 bit)

A mantissza explicit bites egyes normalizált: m = 1.F

Bitértékek: s = 1 bit, k = 8 bit, F = 23 bit, b értéke: 127

A biteket az alábbi ábra szemlélteti:

Az exponensek 00_H és FF_H értéke speciális értelmezést kapott. Ha a szignifikandus 0, akkor a 00_H érték mellett a szám a pozitív és negatív nullát, a FF_H értékkel a szám a pozitív és negatív végtelent reprezentálja. Ha a szignifikandus értéke nem nulla, akkor 00_H exponenssel a szám a denormált értékeket jelenti, FF_H exponenssel pedig a NaN, „nem szám” értéket.

Legkisebb pozitív (denormált) érték: 2⁻¹⁴⁹ ≈ 1,4 × 10⁻⁴⁵.

A legkisebb pozitív normált érték: 2⁻¹²⁶ ≈ 1,18 × 10⁻³⁸.

A legnagyobb ábrázolható érték: (2−2⁻²³) × 2¹²⁷ ≈ 3,4 × 10³⁸.^[1]

Long real (64 bit)

A mantissza explicit bites egyes normalizált: m = 1.F

Bitértékek: s = 1 bit, k = 11 bit, F = 52 bit, b értéke: 1023

A biteket az alábbi ábra szemlélteti:

Példák

3ff0 0000 0000 0000₁₆   = 13ff0 0000 0000 0001₁₆   ≈ 1,0000000000000002, a legkisebb 1-nél nagyobb szám3ff0 0000 0000 0002₁₆   ≈ 1,00000000000000044000 0000 0000 0000₁₆   = 2c000 0000 0000 0000₁₆   = –2

0000 0000 0000 0001₁₆   = 2^−1022−52 = 2⁻¹⁰⁷⁴                        ≈ 4,9406564584124654 × 10⁻³²⁴ (minimum szubnormál pozitív duplapontos érték)000f ffff ffff ffff₁₆   = 2⁻¹⁰²² − 2^−1022−52                         ≈ 2,2250738585072009 × 10⁻³⁰⁸ (maximum szubnormál duplapontos érték)0010 0000 0000 0000₁₆   = 2⁻¹⁰²²                         ≈ 2,2250738585072014 × 10⁻³⁰⁸ (minimum normal pozitív duplapontos érték)7fef ffff ffff ffff₁₆   = (1 + (1 − 2⁻⁵²)) × 2¹⁰²³                         ≈ 1,7976931348623157 × 10³⁰⁸ (maximum duplapontos érték)

0000 0000 0000 0000₁₆   = 08000 0000 0000 0000₁₆   = –0

7ff0 0000 0000 0000₁₆   = ∞fff0 0000 0000 0000₁₆   = −∞

Temporary real (80 bit)

A mantissza explicit bites egyes normalizált: m = 1.F

Bitértékek: s = 1 bit, k =15 bit, F = 64 bit, b értéke: 16383

Az ábrázolandó számtartomány, a szubnormált számokat is beleértve, körülbelül 3,65×10⁻⁴⁹⁵¹ és 1,18×10⁴⁹³² közötti számokat foglalja magában. Ez a formátum körülbelül tizennyolc decimális számjegy pontosságot ad.

Quad real (128 bit)

A mantissza explicit bites egyes normalizált: m = 1.F

Bitértékek: s = 1 bit, k =15 bit, F = 112 bit, b értéke: 16383

Jegyzetek

Források

További információk

A szabvány hivatalos oldala: 754-2008 - IEEE Standard for Floating-Point Arithmetic.

Kapcsolódó szócikkek

Informatikai portál • összefoglaló, színes tartalomajánló lap

[1]

Search

IEEE lebegőpontos számformátum

Tartalomjegyzék

IEEE 754/1985 lebegőpontos számformátum

Pontosság

Short real (32 bit)

Long real (64 bit)

Példák

Temporary real (80 bit)

Quad real (128 bit)

Jegyzetek

Források

További információk

Kapcsolódó szócikkek