- CPUアーキテクチャについて語れ 11
181 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 11:52:53 ID:s6626r8s - >>165
そうは思ったんだけど、同じ研究室でちゃんと自分でやった 実験結果書いて綺麗にまとめてる学生もいるんだよね。 某HGの母校(笑)だけに一目置いてたが、こうも取り組み方の違いって出るもんだな。 #いや、今更Cellは無いだろ。。。
| - Intelの次世代CPUについて語ろう 35
217 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:06:31 ID:s6626r8s - 後藤はXDR積むかもしれないとか言ってたけど
結局GDDR5って可能性も。 メモリ帯域についてはこの構成がヒントかな? http://journal.mycom.co.jp/articles/2008/08/13/siggraph02/001.html
| - CPUアーキテクチャについて語れ 11
183 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:14:39 ID:s6626r8s - MFCによるDMA(笑)をどう参考にするの?
あれそもそもキャッシュじゃないじゃん。 そもそも、Cellに続いてLS採用したマルチコアなんて一つでもあったっけ?
| - CPUアーキテクチャについて語れ 11
185 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:31:55 ID:s6626r8s - え?
それひょっとしてPentium III時代からあるプリフェッチとノンテンポラルストアの話のこといってるの? 明示的コヒーレント制御とまったく関係ないんすけど。。。 >設定する手間わMFCプログラミングと変わらないす。 全然的外れ。 たとえばメインメモリからオンダイSRAMに先行ロードするにしても prefetch*とspu_dmaじゃ全然勝手が違う。 プログラム側から見て常に仮想メモリを操作するアーキテクチャ(IAなど) でのキャッシュコヒーレントを明示的にコントロールするために、 そもそもメモリ空間が独立だからコヒーレント制御しなくていい変態 アーキテクチャでのコーディングをどう参考になるのかって聞いたんですけど 話を逸らさないでいただきたいですな。 潰しが利かないテクニックなんて覚えてもしょうがないんですが。
| - CPUアーキテクチャについて語れ 11
188 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:47:49 ID:s6626r8s - たとえば
複数のコアでメインメモリ上からキャッシュ上にLUTをロードするとする。 キャッシュ型アーキテクチャ(要するにCell以外のすべて)は、 複数のスレッドで同じメモリ空間をロードすれば、MESIでいうところの「Shared」になる。 パフォーマンス低下を防ぐなら、必要な分だけコピーを作って別々のアドレス空間に 割り付けておく必要がある。 あるいはLarrabeeはそのへんの制御を明示的に抑制できるんかな? SPUは自動的なコヒーレント制御はしないからそもそも小細工しなくていい。 むしろSPUがネイティブにリニアアドレッシングできるメモリ空間が狭いなど、別のところで面倒。 うん、全然求められるスキルが違うな。
| - CPUアーキテクチャについて語れ 11
190 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:08:39 ID:s6626r8s - 命令間のレイテンシ隠蔽のための方策も全然違う。
4Wayのマルチスレッドによりプログラム側から見たレイテンシを小さくしたのがLarrabee 片ややたら多いレジスタを駆使して同じ命令を並べるだけ(LSいくらあっても足りない) 何より未だにCellSDKのコンパイラがウンコなのはみんなわかってるって。
| - CPUアーキテクチャについて語れ 11
192 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:24:43 ID:s6626r8s - >ショートパイプラインが売り(多分クロックわ低め)すから、命令レイテンシわ隠蔽するまでもなく
>小さいんじゃないすかね。 あらら、お気の毒様 浮動小数演算のレイテンシがどんだけ大きいか考えたことないのね。 x86でもそんな変わらんのよ。 まあCellのは特に大きいほうだと思うけど。 x86の場合はレジスタ多くないからインオーダパイプラインで隠蔽しきれるレベルじゃないね。 加算や乗算で3クロックとか5クロックとかかかってたら8本ないし16本の論理SIMDレジスタで どうインターリーブするか頭を悩ませることになる が、見た目のレイテンシが1/4になるなら圧倒的に楽になる。
| - Intel Core i7
208 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:27:49 ID:s6626r8s - ESと製品版でModel値が変わった例はある。
Familyが変わるとすれば前代未聞。 でも初代Family=7のItaniumはIA32EL入れるとFamily=F(Ext.Family=2)になったりしたな
| - CPUアーキテクチャについて語れ 11
194 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:58:45 ID:s6626r8s - >>193
まあ書き込み前提のテーブルならまた別の意味で設計を変える必要があるけどなー あと、資料を読み間違ってなければLarrabeeのキャッシュって、L2は全体で 共有するので、遠い部分はリングバス経由でアクセスすることになると思ってるんだが そーなるとなるべくリングバス使わないほうが速いよな? キャッシュ容量少ないので、各L2断片ごとに置いて4コア16スレッドで共用するのが理想か。 いずれにしてもccNUMAみたいな最適化が必要になる。 LarrabeeにもおそらくmovntdqaみたいなL1をバイパスしてロードする命令が あると思うんだが
| - Intel Core i7
210 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:01:06 ID:s6626r8s - ああ、EとかQとかに代わるグレード表記がi7xxxって考え方はあるな
| - CPUアーキテクチャについて語れ 11
195 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:04:51 ID:s6626r8s - もっかい読み直した。1コア4スレッドあたりで256KBか。
ここ訂正しとく > 4コア16スレッドで共用 →1コア4スレッドで共用
| - CPUアーキテクチャについて語れ 11
198 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:50:42 ID:s6626r8s - はい?
4クロックサイクルでローテーションするならどう考えてもレイテンシは大幅に隠蔽できるぞ もちろんスレッドごとにレジスタファイルを用意する(AtomでもそうやってるしたしかCellのPPEも) たとえばこんなコードをインオーダで実行すると addps xmm3, xmm4 subps xmm3, xmm2 ←addpsは3クロックのレイテンシだから、あと2クロック待たないといけない。 しかし4スレッドでインターリーブすれば、順番回ってきたときにはレイテンシ埋まってる。 積和算で8クロックのレイテンシと仮定しても、1スレッドあたりでは2並列のインターリーブで事足りる。 はい、馬鹿でもわかる解説終わり。 えーと、それとも頭が悪いようで?
| - CPUアーキテクチャについて語れ 11
199 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:57:22 ID:s6626r8s - 断っておくと俺の言ってる命令間のレイテンシってのはデスティネーションに指定したレジスタが
後続の命令でソースとして再利用可能になるまでのクロック数のことだよ。 Intelは整数は伝統的に基本1クロックで済むようにしてるが浮動小数はどんなアーキテクチャでも長い。
| - Atomで自作 6枚目
721 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 15:12:07 ID:s6626r8s - これはいいものだ
| - CPUアーキテクチャについて語れ 11
200 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 15:17:18 ID:s6626r8s -
威勢よかったのに返答が無いのは、Google先生に教えてもらってる最中なのか逃げたのかどっちなんだよ
| - CPUアーキテクチャについて語れ 11
201 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 15:53:16 ID:s6626r8s - おーい、まだー?
ひまー(笑) > アンコアのレイテンシわ隠蔽されてもパイプライン内の > レイテンシをMTで隠蔽するのわ無理でわ? この謎の発言の真相はこうかな 「スレッドの実行が切り替わるタイミングわ、Itaniumのようにキャッシュミスしたときだけす(笑)」 →そんなんで4スレッドも用意する必要ないだろ FGMTと考えるのが自然だし、いつぞの資料のL1がレイテンシ1(←!), L2が10っていう怪しい数字も、 4で割った値とすれば辻褄が合うんだが あとClassic Pentiumまでは必ずしもパイプラインの1ステージ=1クロックではなかったな。 それに当時は平均命令長も短かったし。 2GHz前後で動作し3〜4オペランドのSIMD命令を等速で実行となれば、パイプラインに大幅に手は入るだろう。 Cellもふた開けてみるまでパイプライン何十段もあるなんて思わんかったしな
| - Atomで自作 6枚目
725 :,,@´∀`@,,)っ-○●◎[sage]:2008/08/17(日) 16:20:49 ID:s6626r8s - ゴルァ貴様ら、アサヒるぞ!
| - CPUアーキテクチャについて語れ 11
206 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 16:26:17 ID:s6626r8s - >>203
ソフトウェアでってのがよくわかめ。 スレッド自身で他のスレッドに切り替えるの? つーかURLplz
| - CPUアーキテクチャについて語れ 11
207 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 16:27:50 ID:s6626r8s - >>204
> 長レイテンシの命令を隠蔽するんじゃ無かったすか?加減算だけなら浮動小数点でもシングルサイクル > で終わるかと思うす。 バロスwwwwww スループット1をレイテンシ1だと思ってますなwwwww
| - CPUアーキテクチャについて語れ 11
211 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 16:34:07 ID:s6626r8s - スループットサイクルとレイテンシサイクルを混同してる子と話をするのは無理だと思うんだが
>>208 てかおもっきしダウンロード済みのpdfだった 思うにFGMTと併用できない技術でもないんだが、逆に明示的なスレッド切り替えだけでしか スイッチしないとか書いてある箇所ある?
|
|