Intel Agilex® 7可変精度DSPブロック・ユーザーガイド

ID 683037
日付 10/02/2023
Public
ドキュメント目次

3.2.2.1. FP16でサポートされる精度の形式

FP16半精度浮動小数点演算機能では、次の形式をサポートします。
  • フラッシュ - IEEE-754半精度形式 (binary16) を乗算器入力およびFP16乗算/加算/減算演算に使用します。
  • 拡張 - IEEE-754半精度形式 (binary16) を乗算器入力に使用します。FP16乗算/加算/減算演算には、拡張形式を使用します。
  • Bfloat16 - 乗算器入力は、16ビットのbfloat16形式または19ビットの拡張bfloat16+ 形式を受け入れるようにコンフィグレーションすることができます。FP16乗算/加算/減算演算には、拡張形式を使用します。
次の表は、それぞれの形式の違いを示しています。
表 18.  フラッシュ、拡張、およびBfloat形式の違い
項目 フラッシュ 拡張 Bfloat16/Bfloat 16+
入力形式 (符号.指数.仮数) 1.5.10 1.5.10 1.8.7または1.8.10 (Bfloat16+)
FP16演算形式 (符号.指数.仮数) 1.5.10 1.8.10 1.8.10
入力幅 16ビット 16ビット 16または19ビット (Bfloat16+)
表現可能な最小指数 5'h01 - 5'h0f = -14 8'h01 - 8'h7f = -126 8'h01 - 8'h7f = -126
FP16 サブノーマル サブノーマルはサポートされていません。サブノーマル結果は0にフラッシュされます。 サブノーマル結果は、正規化数として表すことができます。 サブノーマルはサポートされていません。サブノーマル結果は0にフラッシュされます。
例外フラグ Overflow、Underflow、Inexact、Invalid Infinite、Zero、Inexact、Invalid Overflow、Underflow、Inexact、Invalid
Invalidフラグの動作 正しく定義されていない演算がある場合にアサートされます。 正しく定義されていない演算またはqNaN入力がある場合にアサートされます。 正しく定義されていない演算がある場合にアサートされます。
丸め 最も近い偶数に丸めます (RNE)。
RNE
  • 両方のFP16オペランドが正規化数の場合
  • FP16オペランドの1つがサブノーマル数で、仮数積が1以上の場合
  • FP16オペランドの1つがサブノーマル数で、仮数積 = 0.1111111111|1xxxxxxxxxの場合
  • 加算器/減算器の演算を使用している場合
0への丸め (RZ)
  • 両方のFP16オペランドがサブノーマル数の場合
  • FP16オペランドの1つがサブノーマル数で、仮数積が1以下の場合
RZ