ちょっと昔話を。その昔、まだ筆者がエンジニアをやってた時代の話である。あれは多分1995年か1996年、ちょうどI/OバスがISAからPCIに切り替わり始めていた時代だ。筆者は変なチップ(フレームバッファが付いたDSPの化け物)と格闘していたのだが、これを搭載したカードをPCIで作ることになった。
いや帯域考えるとISAという選択肢はなかったし、PCIカードにつきもののIDやらConfigurationやら(PCIカードはPCI-SIGに登録して、ベンダーIDを取得する必要があり、これが結構バカにならない金額だった。あとPCIカードは、Configurationと呼ばれる仕組みが必要で、これの実装が面倒だった)はAMCC(のちのAPM:現在はMACOMに買収された)のPCIブリッジを載せるという形で対応したが、そのAMCCのPCIブリッジの設定がものすごく面倒で苦闘した覚えがある。
それはともかく、それまではI/Oバスだと信号速度が8MHzとかで、12MHzとかだと「超高速だー」とか言ってたのがいきなり33MHzで、結構大変だった記憶がある。大体当時はまだメモリもアクセス時間50nsとか60nsのファストページDRAM、つまり50MHzとか66MHz程度でしかなかった。
ただ、そこからの高速化はすさまじいものがあった。当時はCPUのFSBも33MHz程度だったのが、どんどん高速化されて50MHzだの66MHzだのに上がり、1999年のCoppermineベースで100MHzである。メモリもPC133 SDRAMのサポートをIntelが表明したのは1999年だったらしい(もう筆者は細かい日付まで覚えてない)。とは言え、ここまでは従来技術の延長で来た。
黒船は、Direct RDRAMと共にやってきた。なにしろPC-800で400MHz DDR、PC-1066では533MHz DDRである。当時、この信号速度に対応できるPCBを用意するのが大変だった。何しろ基板に要求される信号伝達特性が、せいぜいが100MHzとかそんな程度のものとは全く異なった。PCなどで利用されるPCB(プリント基板)は、基本的にFR-4を使っていた。このFRというのはNEMA/ANSIで定められた難燃性のグレードである。以前は「NEMA LI 1-1988」という名前だったが、現在は「ANSI/NEMA IM 600000-2021」という名前になっている。
基本的にPCBは絶縁層と信号層(要するに銅配線で信号を伝える層)を交互に積み重ねる形だが、この絶縁層の材料でFRのグレードが変わる。一番燃えやすいFR-1/2は紙フェノール(紙にフェノール樹脂を浸透させたもの)、FR-3が紙エポキシ(紙にエポキシ樹脂を浸透)、FR-4/5がガラスエポキシ(ガラス布にエポキシ樹脂を浸透)ということになっている。話を戻すと、FR-4はそんなわけで単に燃えにくさ(何かあった時に火が付きにくい)ことを保証する規格である。もちろん実際にはほかにもいろいろ定めがあって、電気的特性に関しても言及がないわけではないのだが、この当時のFR-4に準拠したPCBで1GHz近い信号を通すのは至難の業であった。
そもそも、誘電率を下げたガラスエポキシ材料を開発する(高いと配線遅延が起こりやすいため)とか、その材質のムラを減らす、絶縁層/配線層の厚みのバラつきを抑える、配線層に使われる銅の純度を高める、配線パターンの問題(直角配線を避けて、なるべく丸みを帯びたカーブを描くようにしないと信号がコーナーで反射してしまうとか、1対2本の信号を等長配線にする必要があるが、これの精度が甘いとか、そのほかいろいろ)など問題は山積みであった。
このあたりの問題を解決して、安価な4層基板のマザーボードでDirect RDRAMを扱えるようになったのは、それこそ2002年とか2003年、もうDirect RDRAMが市場からほとんど撤退する間際ではなかったかと思う。Direct RDRAMはPCマーケットを掴むことそのものには失敗したが、Direct RDRAMのおかげで、特にPCBの品質向上とか配線技術の進歩などに著しい効果があったことは紛れもない事実である。
このDirect RDRAMのおかげで、信号速度はGHzオーダーに上がった。ATAに変わって登場したSATAは、1.5GT/s→3GT/sを経て2009年には6GT/sのSATA III(SATA 3.x)に引きあがったし、PCI Expressも2004年(PCIe 1.1a)の2.5GT/s→2007年のPCIe 2.0(5GT/s)→2010年のPCIe 3.0(8GT/s)と順調に速度を上げていった。これら差動信号のシリアルだから可能だった、という話はもちろんあるのだが、2000年かそこらだとIntelはMercedの133MHz/64bit FSBですら満足にハンドリングできないでいたのが、2008年には1,600MHz/64bit FSBを持つCore 2 Extreme QX9770を出荷していたわけだから、この2000年台は急速に信号速度が上がった時期と言っても良いかと思う。
ただ、ここでしばらく信号速度の向上は停滞した。一番分かりやすいのはPCI Expressで、信号速度を16GT/sに引き上げたPCIe 4.0の標準化が完了したのは2017年である。実に7年も掛かっているわけで、それだけ標準化が難航したわけだ。
もっとも、この時期高速信号がなかったわけではない。たとえば2010年に発表されたXilinxのVirtex-7の場合、ハイエンドにあたる「XC7VH580T」とか「XC7VH870T」には28.05Gbpsでの送受信が可能なGTZトランシーバが搭載されているし、メインストリーム向けのシリーズには最大13.1Gbpsの送受信が可能なGTHトランシーバが搭載されている。
別にXilinxだけでなく、当時16Gbpsを既に実用化している半導体メーカーはかなり多かったのだが、問題はこれらのトランシーバーは、独自の信号補正機構とかフィルタ、エラー訂正などの仕組みがハードウェアの形で入っており、当然そうしたものは特許で保護されている。PCI-SIGは基本的に、どこかのメーカーの特許となっている技術は使わずに、一般的な回路で実現できる(=PCIなりPCI Expressを使う際に、どこかのメーカーに特許使用料を支払わずに使える)ことをモットーとしており、一般的な回路で16GT/sを実現するのに7年も掛かった、という話である。
ただ、だとしたら次のPCI Express Gen5がなぜ2年後の2019年に標準化できたか? という話である。いくつか理由があるとは思うが、1つ指摘できるとすればEthernetのお蔭である。2020年から2021年にかけて、僚誌のInternet Watchの「期待のネット新技術」で光Ethernetの説明をさせていただいたのだが、図版1はその連載の中で使ったスライドである。
このスライドの見方だが、縦軸はレーン数、横軸がレーンあたりの速度である。たとえば100GbE(100Gbps Ethernet)の場合、一番最初に登場したのは10Gbpsのレーンを10本束ねた100GBASE-SR10(2010年)で、ついでレーンあたりの速度を25Gbpsに高めて4本を束ねた100GBASE-SR4(2015年)、レーンあたりの速度を50Gbpsにして2本を束ねた100GBASE-SR(2018年)ときている。
レーンあたりの速度を100Gbpsにした1本だけの100GBASE-SR1はまだ仕様策定中(IEEE P802.3db:今年9月位に標準化完了予定)だが、これに先立ち中長距離向けの100GBASE-FR1とか100GBASE-LR1などは2021年に標準化が終わっているので、まぁレーンあたり100Gbpsは2021年として良いかと思う。
ところで図1は光Ethernetのトランシーバの構造をものすごくシンプルに、かついろいろ省いて説明したものだ。実際にはこれに加えて、FEC(Forward Error Collection)の回路とかほかにもいろいろ入るのだが、とりあえず割愛している。これは100GBASE-SR4、レーンあたり25Gbpsを4レーン束ねた構成の例だが、ここでいうレーンあたりの速度というのは、右側の光入出力の部分で、電気信号の入出力の方ではない。
で、ここでは電気信号と光信号の速度が1:1の場合だが、たとえば電気信号の方は10Gbpsがやっとだとすると、速度変換を行なう必要がある。光Ethernetの世界ではこれをGearBoxと呼ぶが、仮に100GBASE-SR4を10Gbpsの電気信号でつなごうとすると図2のように、途中に10:4と4:10のGearBoxを入れてやる必要がある。これで10Gbps×10と25Gbps×4の変換を行なうわけだ。これを利用することで、必ずしも光ファイバーの速度と電気信号はマッチしていなくても利用は可能なのだが、ただこのGearBoxを入れると当然消費電力とコスト、さらにトランシーバ内部の基板上のチップの実装面積が増えることになる。なので、できるだけGearBoxは入れたくない。
こういった経緯から、Ethernetの高速化に合わせて、これを接続する電気信号側の高速化も図られることになった。MII(Media Independent Interface)というのがこの電気信号側のI/Fの名前であるが、こちらも次第に高速化していくことになった。
ここでもう1度、図1を見直してみると、25Gbps/レーンが実用化されたのが2010年であるが、この技術のフィードバックはPCI Express 4.0には間に合わなかった。ところが2018年には50Gbps/レーンが実現しており、これはPCI Express 5.0へのフィードバックに間に合った、というのは事実である。
もっともこの50Gbps/レーンは、NRZ(0か1のバイナリ信号)ではなくPAM-4(1回の転送で4値=2bitを転送する方式)で実現されており、信号速度そのものは25GT/s止まり(実際にはオーバーヘッドとかエラー訂正などもあるので、もう少し高い26.5625GT/sが必要)であるものの、Ethernet(特にIEEEで標準化された100GBASE-xxxシリーズ)の場合はPCI-SIGと同様に「特許などの縛りのない標準技術だけで実現する」ことが求められるわけで、しかも25G PAM-4だと信号特性などの縛りはNRZの場合よりも厳しい。なのでNRZのままなら32GT/sまで引き上げるのはそう難しくなく、これがPCI Express 5.0の早期標準化に繋がった形である。
そしてEthernet業界はこれに引き続き電気信号を100Gbpsに引き上げた。実際には50GT/sの信号+PAM-4という格好だ。オーバーヘッドの分を加味すると53.125GT/sになる。2018年にIntelは58G PAM-4 PHYの動作デモを公開したのは、2021年に標準化が終わった100Gbps/レーン世代のEthernetに向けたものである。
これは別にIntelだけでなく、XilinxそのほかのFPGAベンダーも50GbpsクラスのPHYをこの時期に行っており、結果としてPAM-4ベースながら電気信号は50Gbpsまで速度が上がることになった。
これに続くのは、標準化のが2026~2027年と予想される、レーンあたり200Gbpsである。こちらは100GT/sの信号をPAM-4変調で送るという形だ。既にIntelは224G PAM-4(つまり112GT/s+PAM-4変調)PHYのデモを公開しており、今後実用化に向けて進む格好になる。
ということで、ここまでが実は恐ろしいことに全部枕である。いよいよ本題。高速信号+PAM変調というのが昨今のトレンドになりつつある、ということはそんなわけでお分かりいただけたかと思う。で、実はこれはEthernetだけではない。まずPCI-SIGはPCI Express 6.0を、32GT/s+PAM-4の構成で行なうという話は2019年6月に公開され、今年1月に仕様も出た。このPCI Express 6.0では、Ethernetと同じようなFECを入れてエラー対策を行なうと遅延が増えすぎるので、FECはほどほどに抑え、その代わりに物理層のレベルでエラー再送を行なうFLITというメカニズムを入れることで遅延をそれほど増やさずにPAM-4実装を行なうことで実効帯域を2倍にしている。
あるいはMicronとNVIDIAは共同で、信号をPAM-4にした独自規格のGDDR6Xを2020年9月に発表している。こちらは当初こそ21Gbps(つまり5.25GT/s DDR PAM-4)だったが、今年(2022年)4月には24Gbps品(6GT/s DDR PAM-4)もロードマップで予定されていることが明らかになっている。今回のお題は、これに続くのは何か? という話である。
6月13日~17日に、ホノルルで2022 IEEE Symposium on VLSI Technology and Circuitsが開催された。幸い、今年はオンサイトとオンラインの併催だったので筆者も喜んでオンライン参加したわけだが、これのSession C17-1(A 40-Gb/s/pin Low-Voltage POD Single-Ended PAM-4 Transceiver with Timing Calibrated Reset-less Slicer and Bidirectional T-Coil for GDDR7 Application)でのっけから出てきたのがこのスライドである(図版2)。
現在JEDECではGDDR7とかLPDDR7、DDR6などの次世代メモリI/Fの策定を行なっている最中であるが、SamsungによればこのうちGDDR7に関してはPAM-4を使う可能性が非常に高いとしており、このPAM-4を実装した40Gbps(つまり10GT/s DDR PAM-4)のトランシーバを実装した結果を論文発表している。つまりピンあたり40Gbpsまでは行ける、というわけだ。
ちなみにC17-2は同じくSamsungの「A 68.7-fJ/b/mm 375-GB/s/mm Single-Ended PAM-4 Interface with Per-Pin Training Sequence for the Next-Generation HBM Controller」で、こちらはHBM4以降(HBM3は既に標準化が終わっている)に向けて、ピンあたり12Gbps(3GT/s DDR PAM-4)を実現しよう、というものだ(図版3)。
これはHBM4以降に向けた提案(Proposal)を兼ねたものであり、PAM-4にするとピンあたり12Gbpsは比較的容易に実現できる、ということを示した論文である。標準メモリであるDDRxやLPDDRxに関して、直近(つまりDDR7/LPDDR7)世代は引き続きNRZで行くようだが、次々世代(DDR8/LPDDR8)以降はどうなるか分からない。
そして6月23日、PCI-SIG Developer Conference 2022においてPCI-SIGはPCI Express 7.0を発表した。正直PAM-4という切り札をPCI Express 6.0で使ってしまったので、次はどうするつもりなのだろう? と思っていたが、素直に転送速度を2倍にしてきた。つまり64GT/s、PAM-4である。
64GT/sそのものは現在の延長で何とかなる話ではあるのだが、PCI Expressの発展の歴史はタイミングマージンの確保とかジッターとの戦いの歴史でもあり、実際質疑応答の中で「7.0になったら、Channel Length(つまり基板上の配線)は6.0の半分になったりしない?」という至極もっともな質問に対して、Al Yanes(CEO, PCI-SIG)の返事が「なに、仕様策定までにはまだ3年あるから、その間の技術進歩で何とかなると思う」という投げっぱなしジャーマンだったのには正直驚いたが、要するに64GT/sは十分に可能性の高い技術とPCI-SIGでは見ているということでもある。
もっと速い信号の話もある。既に元Mentionは消されてしまっているのだが、昨年8月にGregory M. Bryant氏(元IntelのEVP&GM, CCG。現在はADIのEVP&President, Analog)がイスラエルのIntelの研究所に行った際のスナップをTwitterに上げており、ここで彼は80GT/s PAM3の信号を利用したThunderbolt 5の試作というか研究レベルのものが展示されていることをTwitterに上げていた。筆者はうっかり元のMentionの画像を保存しそこなっていたのだが、海外のメディア(例えばAnandTech)が記事を挙げているので、こちらを見て頂ければわかりやすい。要するにEthernet以外でも、電気信号はより高速かつPAM変調を使う方向に進化している、という話である。
これに比べるとUCIe(Universal Chiplet Interconnect Express)はSpeed Lateが4・8・12・16・24・32GT/ピンだし、基本はNRZなので比較的穏当というか、確実性を重視した構成になっているなと思わなくもないが、昨年(2021年)6月にSynopsysが発表したDesignWave Die-to-Die IPの場合、USR(Ultra Short Reach:10mm以内)やXSR(Extra Short Reach:50mm以内)と配線距離は限られるものの、レーンあたり112Gbps(変調方式はNRZとPAM-4が選べるので、おそらく56GT/s PAM-4であろう)を既にサポートしている。多分UCIeも次は64GT/secとか100GT/sec辺りを視野に入れてくるだろうと思われる。
2011年のIDFの折に、先も名前が出てきたAl Yanes氏にインタビューをしたことがある。この時期的にはまだPCI Express 3.0が出たばかりで、4.0に向けてのFS(Feasibility Study:実現可能性の研究)段階にあった時期だ。この時に未来の話を伺った際に、「個人的な見解だが」と前置きしたうえで、PCI Express 4.0の次は光になるんじゃないか、という見通しが語られたことがある。つまり当時の技術では32GT/secは夢のまた夢だったわけだ。そこから10年そこそこで、100GT/secあたりまでは何とかなりそう、というところまで進歩してきたわけだ。改めて今、電気信号の上限はどの程度なのか? と問われると「まだ上限が見えない」という感じになりつつある昨今である。
からの記事と詳細 ( 高速化が進む電気信号 - PC Watch )
https://ift.tt/NmKwc3n
No comments:
Post a Comment