- CPUアーキテクチャについて語れ 11
193 :Socket774[sage]:2008/08/17(日) 13:41:18 ID:kp2MnTOE - >>188
> パフォーマンス低下を防ぐなら、必要な分だけコピーを作って別々のアドレス空間に > 割り付けておく必要がある。 LUTなら読み出し専用だろ? Sharedになっても性能落ちないよ 更新もされるテーブルなら、性能低下は仕方ない Cellだと…ちょっと考えたくないな、集中管理したほうがマシだろうな
|
- CPUアーキテクチャについて語れ 11
203 :Socket774[sage]:2008/08/17(日) 16:21:45 ID:kp2MnTOE - はしゃいでるところを申し分けないが、
Larabeeのコアのスレッドわソフトウェアで切り替えす > Switching threads covers cases where the compiler is unable to schedule code without stalls. > Switching threads also covers part of the latency to load from the L2 cache to the L1 cache, > for those cases when data cannot be prefetched into the L1 cache in advance. > Cache use is more effective when multiple threads running on the same core use the same dataset, > e.g. rendering triangles to the same tile. あとL1をスルーしてデータを取ってくる命令はないみたい。 読みこんだL1を次のパージの候補にする命令はある。 おまけに、ベクトルレジスタはどうもスレッド間で共有するような雰囲気があるぞ。
|
- CPUアーキテクチャについて語れ 11
205 :Socket774[sage]:2008/08/17(日) 16:25:26 ID:kp2MnTOE - 上のがインテルの論文のやつ
ほかの記事に、コンパイラがストールしそうなところにスレッド切り替え命令を挿入すると書いてあったよ
|
- CPUアーキテクチャについて語れ 11
208 :Socket774[sage]:2008/08/17(日) 16:28:33 ID:kp2MnTOE - >>206
http://softwarecommunity.intel.com/UserFiles/en-us/File/larrabee_manycore.pdf > スレッド自身で他のスレッドに切り替えるの? そそ
|
- CPUアーキテクチャについて語れ 11
210 :Socket774[sage]:2008/08/17(日) 16:33:52 ID:kp2MnTOE - >>209
△除算や平方根のようなFPの長レイテンシ命令わ ○除算や平方根のような低スループット命令は
|
- CPUアーキテクチャについて語れ 11
212 :Socket774[sage]:2008/08/17(日) 16:40:59 ID:kp2MnTOE - >>211
> 思うにFGMTと併用できない技術でもないんだが、逆に明示的なスレッド切り替えだけでしか > スイッチしないとか書いてある箇所ある? ない けどFGMT動作はナンセンスだと思うよ FGMTでは平均的なレイテンシ削減にはなるけど、がっつりスケジューリングするには不向き
|
- CPUアーキテクチャについて語れ 11
216 :Socket774[sage]:2008/08/17(日) 16:59:24 ID:kp2MnTOE - >>213
Pentiumは知らんのだが、80486のようにfully pipelinedでないものは、たとえばデコードステージに複数クロックかかる場合もある >>214 痛々しいからこれ以上恥の上塗りをするのはやめて
|
- CPUアーキテクチャについて語れ 11
240 :Socket774[sage]:2008/08/17(日) 18:44:21 ID:kp2MnTOE - >>218
> 論理回路と模式図を同一視するのわ間違いす。CISCわ、そもそも命令をシングルサイクルで > 実行するという考えじゃ無いす。 。。。 最初のころのSPARCは、 st rd, [rs1+rs2] のように、3つのレジスタを読み出す命令は、レジスタファイルの読み出しポートが2つしかないので、二回にわけて読み出してた つまり、レジスタ読み出しステージが2サイクルの場合もあるんだけど、これはCISCなのかな? >>236 > しかし将来引用されるのわ>>190-192な訳すけど。。。 べつに間違っちゃいないけどね > もちろんLarrabeeのマイクロアーキテクチャがより明確になった段階で、的中している可能性もある > すから楽しみにすると良いかと思うす。 いまだにROBはx86用語ではないと認められないMACオタの言うセリフじゃないよなあ
|
- CPUアーキテクチャについて語れ 11
247 :Socket774[sage]:2008/08/17(日) 19:18:07 ID:kp2MnTOE - >>244
> 1. 2ステージの動作と見做さなない理由わ? 馬鹿じゃね? 3レジスタ読み出しの場合はインターロックがかかるし、 レジスタ読み出しステージを2段にしてパイプライン化したところで、レジスタファイルのポート数が足りなきゃ止まる。 > 2. 現在、イシュー/ディスパッチからレジスタ読み出しに複数サイクルかかるアーキテクチャわ それはもう全然なんの関係もないから。
|
- CPUアーキテクチャについて語れ 11
249 :Socket774[sage]:2008/08/17(日) 19:27:38 ID:kp2MnTOE - >>248
命令エンコーディングのことは知らんが、1次キャッシュのデータと直接演算できるから、案外困らないんじゃないかね。 >>246 > Cache use is more effective when multiple threads running on the same core use the same dataset, > e.g. rendering triangles to the same tile. とインテル自身も言っているように、適当なスレッドだとだめだろう。
|
- CPUアーキテクチャについて語れ 11
251 :Socket774[sage]:2008/08/17(日) 19:41:45 ID:kp2MnTOE - >>250
VPU命令は4オペランドで、メモリオペランドはソース限定なわけだから、 ModRMを踏襲しないんじゃないかなあ マスクレジスタが別にあるのは間違いがない
|
- CPUアーキテクチャについて語れ 11
254 :Socket774[sage]:2008/08/17(日) 20:24:28 ID:kp2MnTOE - >>204
> デスティネーションに指定したレジスタが後続の命令でソースとして再利用可能になる > ---------------- > レジスタのリード・ライトに関係無く、フォワーディングネットワーク経由で利用可能になると思われるす。 MACオタは、他人の発言を曲解して、それが間違っていると指摘するから困るんだよな。 団子だって物理レジスタの話をしているわけではないだろう。
|
- CPUアーキテクチャについて語れ 11
257 :Socket774[sage]:2008/08/17(日) 20:41:49 ID:kp2MnTOE - >>256
> >フォワーディングネットワーク > これ予約機構のことかね? 間違ってはないが、ズレている MACオタが言っているのは、演算器どうしをつないでいるデータの分配ネットワークのこと
|
- CPUアーキテクチャについて語れ 11
258 :Socket774[sage]:2008/08/17(日) 20:42:56 ID:kp2MnTOE - >>256
あ、P5にも(パイプライン化された計算機にはすべて)フォワーディング回路はあるぞ
|
- CPUアーキテクチャについて語れ 11
259 :Socket774[sage]:2008/08/17(日) 20:48:10 ID:kp2MnTOE - >>255
> >>204わ、あなたが>>249で書いたことのメカニズムを説明している訳すけど。。。 さすがにこれは完全に意味不明で、とっかかりもないのだが 249は > GPU用途でわ深く考えなくてもTLPわ保障されているすから、適当にスレッドを振り当てても良い キャッシュの効率が落ちるので、適当なスレッドにスイッチするのは良くないということ > Cache use is more effective when multiple threads running on the same core use the same dataset, > e.g. rendering triangles to the same tile. 同じデータセットを使うスレッドにスイッチするとキャッシュが効率的になるとインテルが言ってるだろ フォワーディング回路については、団子がこんなにバカだとは思わんかった すまん
|
- CPUアーキテクチャについて語れ 11
261 :Socket774[sage]:2008/08/17(日) 20:58:12 ID:kp2MnTOE - >>260
> 実レジスタファイルへの書き込みまでのサイクルには言及した覚えはないので 実レジスタファイルってアーキテクチャレジスタのことか? ならやっぱわかってねーな これはMACオタの勝ち
|
- CPUアーキテクチャについて語れ 11
265 :Socket774[sage]:2008/08/17(日) 22:06:11 ID:kp2MnTOE - >>263
それについては知らん 君ら何を言っているのか理解しかねる >>184 > 設計段階でメモリブロックごとに、何をキャッシュに残し、何をストリーミングアクセスするか細かく > 設定する手間わMFCプログラミングと変わらないす。 だいたい正しい >>185 > たとえばメインメモリからオンダイSRAMに先行ロードするにしても > prefetch*とspu_dmaじゃ全然勝手が違う。 コーディングレベルでは楽だろうが、設計レベルでは大して変わらん >>188 > むしろSPUがネイティブにリニアアドレッシングできるメモリ空間が狭いなど、別のところで面倒。 > うん、全然求められるスキルが違うな。 Cellで性能を出せるようなプログラムなら、Larrabeeでも同じようなプログラムになる Cellでは手に負えないようなプログラムでも、Larabeeではコヒーレントキャッシュに助けられてそこそこ動くかもしれない >>189 > アドレスの属性を制御するのか?64-bitアドレシングを生かしてL2の一部を別のメモリ空間に > 割り当てるのか。。。 意味不明
|
- CPUアーキテクチャについて語れ 11
268 :Socket774[sage]:2008/08/17(日) 22:25:39 ID:kp2MnTOE - >>264
>>204 > それパイプライン化された命令限定す。 > 長レイテンシの命令を隠蔽するんじゃ無かったすか? 他人の発言を曲解した上で攻撃するのがMACオタスタイルだけど これは1レスで矛盾した発言してる > 結局彼はx86を知らない x86というか、MACオタの知識はトリビアレベルだね 体系だって勉強した形跡がない
|