十進制浮点數的表示方式
在電腦科學 中,浮點數運算 (Floating-point arithmetic)是一種用浮點 (英語:floating point ,縮寫為FP)方式表示實數 的運算方式。浮點是一種對於實數的近似值數值表現法,由一个有效數字 (即尾数)加上冪數 來表示,通常是乘以某个基数 的整数次指數 得到。以這種表示法表示的數值,稱為浮点數 (floating-point number )。浮點數運算运算通常伴随着因为无法精确表示而进行的近似或舍入 。
計算機使用浮點數運算的主因,在於電腦使用二進位制 的運算,例如:4÷2=2,4=100(2) 、2=010(2) ,由4的二進位100(2) 變成2的二進位為010(2) ,相當於退一位數。則1.0÷2=0.5=0.1(2) ,也就是
1
2
{\displaystyle {\frac {1}{2}}}
。依此類推二進位的0.01(2) 就是十進位
1
2
2
{\displaystyle {\frac {1}{2^{2}}}}
=
1
4
{\displaystyle {\frac {1}{4}}}
=0.25。由於十進位制 無法準確換算成二進位制的部分小數,如0.1,因此只能使用近似值的方式表達。
这种表示方法类似于基数为10的科学记数法 。在計算機上,通常使用2為基數的幂數來表示,一个浮点数a 由两个数m 和e 来表示:a = m × be 。在任意一个这样的系统中,可选择一个基數 b (记数系统的基)和精度 p (即使用多少位来存储),m (即尾數 )是形如±d. ddd...ddd的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m 的第一位是非0整数,m 称作正规化 的,有一些描述使用一个单独的符号位(s 代表+或者-)来表示正负,这样m 必须是正的,e 是指数。
這種表示法的設計,來自於對於值的表現範圍,與精密度 之間的取捨:可以在某个固定长度的存储空间内表示出某個實數的近似值,例如: 一个指数范围为±4的4位十进制 浮点数可以用来表示43210,4.321或0.0004321,但是没有足够的精度来表示432.123和43212.3(必须近似为432.1和43210)。当然,实际使用的位数通常远大于4。
此外,浮点数表示法通常还包括一些特别的数值:+∞和−∞(正负无穷大)以及NaN('Not a Number')。无穷大用于数太大而无法表示的时候,NaN则指示非法操作或者无法定义的结果。
其中,无穷大,可表示为inf,在内存中的值是阶码为全1,尾数全0。而NaN在内存中的值则是阶码全1,尾数不全0。
计算机的浮点数
浮点指的是带有小数的数值,浮点运算即是小数的四则运算,常用来测量电脑运算速度。大部份计算机采用二進制(b=2)的表示方法。位 (bit)是衡量浮点数所需存储空间的单位,通常为32位或64位,分别被叫作单精度 和双精度 。有一些计算机提供更大的浮点数,例如英特尔 公司的浮点运算单元Intel8087协处理器 (以及其被集成进x86 处理器中的后代产品)提供80位长的浮点数,用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数(通常用软件实现)。
浮点数的標準
在電腦使用的浮点数被电气电子工程师协会 (IEEE)規範化為IEEE 754 。
举例
π 的值可以表示为π = 3.1415926...10 (十进制)。当在一个支持17位尾数的计算机中表示时,它会变为0.11001001000011111 × 22 。
浮點數運算
為了方便呈現,容易閱讀,以下的例子會用十進制,有效位數7位數的浮點數,也就是IEEE 754 decimal32格式,其原理不會隨進制或是有效位數而變。此處的s 表示尾數(有效數字),而e 表示指數。
加減法
處理浮點數加法的簡單作法是將二個浮點數調整到有相同的指數。在以下例子中,第二個數的小數點左移了三位,使二者的指數相同,之後即可進行一般的加法運算:
123456.7 = 1.234567 × 10^5
101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5
因此
123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2)
= (1.234567 × 10^5) + (0.001017654 × 10^5)
= (1.234567 + 0.001017654) × 10^5
= 1.235584654 × 10^5
若用e和s來表示
e=5; s=1.234567 (123456.7)
+ e=2; s=1.017654 (101.7654)
e=5; s=1.234567
+ e=5; s=0.001017654 (移位後)
--------------------
e=5; s=1.235584654 (實際的和:123558.4654)
這是真實的結果,二個數字真正的和,之後會再四捨五入到七位有效位數,若有需要的話,會再進行正規化,其結果為
e=5; s=1.235585 (最後答案:123558.5)
加數的最低三位數(654)沒有出現在結果中,這稱為捨入誤差 。在一些極端的例子中,二個浮點數的和可能和其中的被加數或是加數相等:
e=5; s=1.234567
+ e=−3; s=9.876543
e=5; s=1.234567
+ e=5; s=0.00000009876543 (移位後)
----------------------
e=5; s=1.23456709876543 (真正的和)
e=5; s=1.234567 (四捨五入及正規化後)
在上述的例子中,為了要有正確的四捨五入結果,在二數指數差距很大時,要增加許多位數才有正確的結果。不過,在二位制的加減法中,利用一個guard位元、一個rounding位元以及一個額外的sticky位元,就可以有正確的結果[ 1] [ 2] :218–220 。
另一個失去有效數字的情形出現在二個幾乎相等的數字相減時。在以下的例子中,e = 5; s = 1.234571和e = 5; s = 1.234567是有理數123457.1467和123456.659的近似值。
e=5; s=1.234571
− e=5; s=1.234567
----------------
e=5; s=0.000004
e=−1; s=4.000000 (四捨五入及正規化後)
浮點數的差可以精確的計算,如同Sterbenz引理 所說明的,就算是因為漸進式下溢位 而出現下溢位也是一樣。不過,原來二個數的差是e = −1; s = 4.877000,和浮點數計算結果e = −1; s = 4.000000之間差了超過20%。在極端的例子中,甚至所有的有效數字都會不見[ 1] [ 3] 。上述的灾难性抵消 說明了,假設計算結果的每一位數都有意義,這個想法很危險。這類誤差的處理及修正是數值分析 中的主題之一。
乘除法
若要進行乘法,將有效數字相乘,指數相加,再進行四捨五入及正規化即可。
e=3; s=4.734612
× e=5; s=5.417242
-----------------------
e=8; s=25.648538980104 (真實乘積)
e=8; s=25.64854 (四捨五入後)
e=9; s=2.564854 (正規化)
而除法會將被除數和除數的有效數字相除,二者的指數相減,再進行四捨五入及正規化。
乘除法不會有抵消或是某一數字被吸收的問題,不過仍會出現一些小誤差,若連續運算,誤差會變大[ 1] 。實務上,要進行上述運算的數位邏輯可能會相當的複雜(像是布斯乘法算法 以及除法器 )。
准确性
由于浮点数不能表达所有实数 ,浮点运算与相应的数学运算有所差异,有时此差异极为显著。
比如,二进制浮点数不能表达0.1和0.01,0.1的平方既不是准确的0.01,也不是最接近0.01的可表达的数。单精度(24比特)浮点数表示0.1的结果为
e
=
− − -->
4
{\displaystyle e=-4}
,
s
=
110011001100110011001101
(
2
)
{\displaystyle s=110011001100110011001101_{(2)}}
,即
0.100000001490116119384765625
此数的平方是
0.010000000298023226097399174250313080847263336181640625
但最接近0.01的可表达的数是
0.009999999776482582092285156250
浮点数也不能表达圆周率
π π -->
{\displaystyle \pi }
,所以
tan
-->
π π -->
2
{\displaystyle \tan {\frac {\pi }{2}}}
不等于正无穷,也不会溢出。下面的C语言代码
double pi = 3.1415926535897932384626433832795 ;
double z = tan ( pi / 2.0 );
的计算结果为16331239353195370.0,如果用单精度浮点数,则结果为−22877332.0。同样的,
sin
-->
π π -->
≠ ≠ -->
0
{\displaystyle \sin \pi \neq 0}
。
由于浮点数计算过程中丢失了精度,浮点运算的性质与数学运算有所不同。浮点加法和乘法不符合结合律 和分配律 。
事故
奔騰 早期的60-100MHz P5 版本在浮點運算單元有一個問題,在極少數情況下,會導致除法運算的精確度降低。這個缺陷於1994年被發現,變成如今廣為人知的奔腾浮点除错误 ,同時這一事件導致英特爾 陷入巨大的窘態,建立召回計畫來回收有問題的處理器。
相關條目
參考資料