トップページ > 自作PC > 2008年08月17日 > s6626r8s

書き込み順位&時間帯一覧

17 位/3408 ID中時間01234567891011121314151617181920212223Total
書き込み数00000000000144434000000020



使用した名前一覧書き込んだスレッド一覧
,,・´∀`・,,)っ-○●◎
,,@´∀`@,,)っ-○●◎
CPUアーキテクチャについて語れ 11
Intelの次世代CPUについて語ろう 35
Intel Core i7
Atomで自作 6枚目

書き込みレス一覧

CPUアーキテクチャについて語れ 11
181 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 11:52:53 ID:s6626r8s
>>165
そうは思ったんだけど、同じ研究室でちゃんと自分でやった
実験結果書いて綺麗にまとめてる学生もいるんだよね。
某HGの母校(笑)だけに一目置いてたが、こうも取り組み方の違いって出るもんだな。


#いや、今更Cellは無いだろ。。。
Intelの次世代CPUについて語ろう 35
217 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:06:31 ID:s6626r8s
後藤はXDR積むかもしれないとか言ってたけど
結局GDDR5って可能性も。


メモリ帯域についてはこの構成がヒントかな?
http://journal.mycom.co.jp/articles/2008/08/13/siggraph02/001.html
CPUアーキテクチャについて語れ 11
183 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:14:39 ID:s6626r8s
MFCによるDMA(笑)をどう参考にするの?
あれそもそもキャッシュじゃないじゃん。

そもそも、Cellに続いてLS採用したマルチコアなんて一つでもあったっけ?
CPUアーキテクチャについて語れ 11
185 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:31:55 ID:s6626r8s
え?
それひょっとしてPentium III時代からあるプリフェッチとノンテンポラルストアの話のこといってるの?
明示的コヒーレント制御とまったく関係ないんすけど。。。

>設定する手間わMFCプログラミングと変わらないす。

全然的外れ。
たとえばメインメモリからオンダイSRAMに先行ロードするにしても
prefetch*とspu_dmaじゃ全然勝手が違う。


プログラム側から見て常に仮想メモリを操作するアーキテクチャ(IAなど)
でのキャッシュコヒーレントを明示的にコントロールするために、

そもそもメモリ空間が独立だからコヒーレント制御しなくていい変態
アーキテクチャでのコーディングをどう参考になるのかって聞いたんですけど
話を逸らさないでいただきたいですな。
潰しが利かないテクニックなんて覚えてもしょうがないんですが。
CPUアーキテクチャについて語れ 11
188 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 12:47:49 ID:s6626r8s
たとえば
複数のコアでメインメモリ上からキャッシュ上にLUTをロードするとする。

キャッシュ型アーキテクチャ(要するにCell以外のすべて)は、
複数のスレッドで同じメモリ空間をロードすれば、MESIでいうところの「Shared」になる。
パフォーマンス低下を防ぐなら、必要な分だけコピーを作って別々のアドレス空間に
割り付けておく必要がある。
あるいはLarrabeeはそのへんの制御を明示的に抑制できるんかな?

SPUは自動的なコヒーレント制御はしないからそもそも小細工しなくていい。
むしろSPUがネイティブにリニアアドレッシングできるメモリ空間が狭いなど、別のところで面倒。
うん、全然求められるスキルが違うな。
CPUアーキテクチャについて語れ 11
190 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:08:39 ID:s6626r8s
命令間のレイテンシ隠蔽のための方策も全然違う。
4Wayのマルチスレッドによりプログラム側から見たレイテンシを小さくしたのがLarrabee
片ややたら多いレジスタを駆使して同じ命令を並べるだけ(LSいくらあっても足りない)

何より未だにCellSDKのコンパイラがウンコなのはみんなわかってるって。
CPUアーキテクチャについて語れ 11
192 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:24:43 ID:s6626r8s
>ショートパイプラインが売り(多分クロックわ低め)すから、命令レイテンシわ隠蔽するまでもなく
>小さいんじゃないすかね。

あらら、お気の毒様
浮動小数演算のレイテンシがどんだけ大きいか考えたことないのね。
x86でもそんな変わらんのよ。

まあCellのは特に大きいほうだと思うけど。


x86の場合はレジスタ多くないからインオーダパイプラインで隠蔽しきれるレベルじゃないね。
加算や乗算で3クロックとか5クロックとかかかってたら8本ないし16本の論理SIMDレジスタで
どうインターリーブするか頭を悩ませることになる
が、見た目のレイテンシが1/4になるなら圧倒的に楽になる。
Intel Core i7
208 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:27:49 ID:s6626r8s
ESと製品版でModel値が変わった例はある。
Familyが変わるとすれば前代未聞。


でも初代Family=7のItaniumはIA32EL入れるとFamily=F(Ext.Family=2)になったりしたな
CPUアーキテクチャについて語れ 11
194 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 13:58:45 ID:s6626r8s
>>193
まあ書き込み前提のテーブルならまた別の意味で設計を変える必要があるけどなー

あと、資料を読み間違ってなければLarrabeeのキャッシュって、L2は全体で
共有するので、遠い部分はリングバス経由でアクセスすることになると思ってるんだが
そーなるとなるべくリングバス使わないほうが速いよな?

キャッシュ容量少ないので、各L2断片ごとに置いて4コア16スレッドで共用するのが理想か。
いずれにしてもccNUMAみたいな最適化が必要になる。

LarrabeeにもおそらくmovntdqaみたいなL1をバイパスしてロードする命令が
あると思うんだが


Intel Core i7
210 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:01:06 ID:s6626r8s
ああ、EとかQとかに代わるグレード表記がi7xxxって考え方はあるな
CPUアーキテクチャについて語れ 11
195 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:04:51 ID:s6626r8s
もっかい読み直した。1コア4スレッドあたりで256KBか。
ここ訂正しとく

> 4コア16スレッドで共用
→1コア4スレッドで共用
CPUアーキテクチャについて語れ 11
198 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:50:42 ID:s6626r8s
はい?
4クロックサイクルでローテーションするならどう考えてもレイテンシは大幅に隠蔽できるぞ
もちろんスレッドごとにレジスタファイルを用意する(AtomでもそうやってるしたしかCellのPPEも)


たとえばこんなコードをインオーダで実行すると

addps xmm3, xmm4
subps xmm3, xmm2 ←addpsは3クロックのレイテンシだから、あと2クロック待たないといけない。

しかし4スレッドでインターリーブすれば、順番回ってきたときにはレイテンシ埋まってる。
積和算で8クロックのレイテンシと仮定しても、1スレッドあたりでは2並列のインターリーブで事足りる。
はい、馬鹿でもわかる解説終わり。

えーと、それとも頭が悪いようで?
CPUアーキテクチャについて語れ 11
199 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 14:57:22 ID:s6626r8s
断っておくと俺の言ってる命令間のレイテンシってのはデスティネーションに指定したレジスタが
後続の命令でソースとして再利用可能になるまでのクロック数のことだよ。
Intelは整数は伝統的に基本1クロックで済むようにしてるが浮動小数はどんなアーキテクチャでも長い。

Atomで自作 6枚目
721 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 15:12:07 ID:s6626r8s
これはいいものだ
CPUアーキテクチャについて語れ 11
200 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 15:17:18 ID:s6626r8s

威勢よかったのに返答が無いのは、Google先生に教えてもらってる最中なのか逃げたのかどっちなんだよ


CPUアーキテクチャについて語れ 11
201 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 15:53:16 ID:s6626r8s
おーい、まだー?
ひまー(笑)


> アンコアのレイテンシわ隠蔽されてもパイプライン内の
> レイテンシをMTで隠蔽するのわ無理でわ?

この謎の発言の真相はこうかな
「スレッドの実行が切り替わるタイミングわ、Itaniumのようにキャッシュミスしたときだけす(笑)」

→そんなんで4スレッドも用意する必要ないだろ

FGMTと考えるのが自然だし、いつぞの資料のL1がレイテンシ1(←!), L2が10っていう怪しい数字も、
4で割った値とすれば辻褄が合うんだが


あとClassic Pentiumまでは必ずしもパイプラインの1ステージ=1クロックではなかったな。
それに当時は平均命令長も短かったし。
2GHz前後で動作し3〜4オペランドのSIMD命令を等速で実行となれば、パイプラインに大幅に手は入るだろう。
Cellもふた開けてみるまでパイプライン何十段もあるなんて思わんかったしな

Atomで自作 6枚目
725 :,,@´∀`@,,)っ-○●◎[sage]:2008/08/17(日) 16:20:49 ID:s6626r8s
ゴルァ貴様ら、アサヒるぞ!
CPUアーキテクチャについて語れ 11
206 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 16:26:17 ID:s6626r8s
>>203
ソフトウェアでってのがよくわかめ。
スレッド自身で他のスレッドに切り替えるの?

つーかURLplz
CPUアーキテクチャについて語れ 11
207 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 16:27:50 ID:s6626r8s
>>204
> 長レイテンシの命令を隠蔽するんじゃ無かったすか?加減算だけなら浮動小数点でもシングルサイクル
> で終わるかと思うす。

バロスwwwwww
スループット1をレイテンシ1だと思ってますなwwwww

CPUアーキテクチャについて語れ 11
211 :,,・´∀`・,,)っ-○●◎[sage]:2008/08/17(日) 16:34:07 ID:s6626r8s
スループットサイクルとレイテンシサイクルを混同してる子と話をするのは無理だと思うんだが

>>208
てかおもっきしダウンロード済みのpdfだった
思うにFGMTと併用できない技術でもないんだが、逆に明示的なスレッド切り替えだけでしか
スイッチしないとか書いてある箇所ある?


※このページは、『2ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の2ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。