- Intel Larrabee 2コア
140 :,,・´∀`・,,)っ-●◎○[sage]:2009/04/07(火) 03:11:59 ID:iiFWVgMc - だからローテーションするの。
各タイルに対してキャッシュを一定サイクル数割り当てるってことに意味がある。 割り当て続けるわけではないし、ウンサイクル単位でインターリーブするわけでもない ころころインターリーブする従来GPUとの違い。 資料まともに読んでないだろ。 L2キャッシュはキャッシュであってスクラッチパッドメモリではないぞ
| - Intel Larrabee 2コア
141 :,,・´∀`・,,)っ-●◎○[sage]:2009/04/07(火) 04:39:23 ID:iiFWVgMc - まあ、60fpsで画面処理するのに何回タイルを入れ替えればいいか考えてみればいい。
ピクセル単位で読んでは書き戻す既存GPUは無駄なデータフローが多すぎるよ。 今のGPUって、壁にペンキを塗るのに部屋の中心にあるペンキの入ったバケツを 移動せずに、刷毛に少量のペンキを染ませるためにバケツまで何往復もしてるような常態だよ。 塗る面に応じてバケツを移動すればいいというブレイクスルーをやろうとしてるのがIntel。 そして「バケツを持って歩くのは重たい的な」アホな言い掛かりが>>139
| - AMDの次世代CPUについて語ろう 第27世代
584 :,,・´∀`・,,)っ-●◎○[sage]:2009/04/07(火) 04:57:01 ID:iiFWVgMc - 電源供給・冷却のキャパの上限の概念が無い人とは会話は成立しないな
| - Atomで自作 19枚目
25 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 05:11:56 ID:iiFWVgMc - トップ500の上位にも入ってるBlueGeneにPPC440のクラスタ使われてるのも知らないんだろうな
1コア当たりの性能が高い必要はないんだよ http://www-01.ibm.com/common/ssi/rep_rp/4/ENUSP10194/index.html PRODUCT DESCRIPTION: FORTRAN 90, FORTRAN 95 and FORTRAN 2003 Standards XL Fortran Advanced Edition for Blue Gene/P, V11.1 is a compiler that supports ISO/IEC 1539-1:1991(e) and ANSI X3.198-1992 (referred to as Fortran 90 or F90), ISO/IEC 1539-1:1997 (referred to as Fortran 95 or F95), and the majority of the Fortran 2003 standard, excepting derived type parameters, but including object-oriented programming. In addition XL Fortran Advanced Edition for Blue Gene/P, V11.1 supports the OpenMP V2.5 industry specification for portable parallelized ~~~~~~~~ programming. MPIとは違ってOMPはディレクティブ挿入だけで対応できるし マシン間のタスク分割がある程度決まってるならMPIよりは 性能面でのメリットがありますですね
| - Atomで自作 19枚目
27 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 06:08:43 ID:iiFWVgMc - ところでAtomでMPIっていったらそのものズバリな連載があるな。
http://atsim.hpc.co.jp/portal/article.php?story=20090224104953490 馬鹿らしすぎて笑えたが、電力効率は割といいことがわかった。 Atomも高密度ブレードサーバとしての需要はそこそこアリみたいで。 http://ascii.jp/elem/000/000/203/203398/index-2.html あと前スレ > http://pc11.2ch.net/test/read.cgi/jisaku/1237310488/978 > 以前の団子の人曰く、SSEはマトモなので、組み方しだいではパフォーマンスでるんでない? AtomのSSEも割とまともなのは整数と単精度の加算くらいで、 倍精度や乗算・除算はさっぱりだよ。 GCLF2 4枚駆使してもQ9650にはコスト・パフォーマンスともに勝てないし。 いや、逆にXeonなみに高くていいから8コアとか16コアで2GHzとかのがあれば 並列演算向けには十分電力効率でメリットはあると思うんだが。 ちなみに今回は再帰を使った探索問題解いてるんだけど、 ちっとばかし分岐が多くて、SSEとか使いようがないんだよね。 関数単位での並列化はできても内部ルーチンは並列化出来ない的な。 んで、分岐が多いとパイプラインはスカスカになるわけで、 HTアリだと無しの場合に比べて1.5倍くらいになったりする。 ちょっと組んでみてここまで効果が大きいとは思わなかった。 AtomでHTが使えなかったらCore i7一択だったかもね。 あと、とあるメーカー提供のGTX(笑)はね、全然役に立ちません。 まず再帰関数が記述できないし、無理矢理ソフトスタックで実装しようにも そもそも分岐に向いてないからさっぱり性能がでやがらねぇ。 スレッドなんて言うけどSIMDに毛皮をかぶせてマルチスレッドっぽくみせてるだけですよ。
| - Intel Larrabee 2コア
143 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 07:03:35 ID:iiFWVgMc - もちろん。世界で過半数のGPUシェアを持っているのはIntelです。
| - Intel Larrabee 2コア
177 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:01:13 ID:iiFWVgMc - ところでRadeonHD 4800シリーズってSIMDコアごとにL1キャッシュが16KBしかないんですがwww
200SPで16KBですよ。パネェ。 L2のほうは非公開だが、3800のときはテクスチャキャッシュがダイ全体で256KBで そんなにダイサイズも大きくなってないことから想像に難くない。 GeForceのほうは、1SMあたり64KBのコンスタントメモリ(命令バッファを兼ねる)に16KB これでメモリ帯域のセーブとか、しょっぱすぎんだろ。 一つのコアでL1 32KB+32KBとL2 256KB×コア数ってだいぶ帯域セーブできるぜ。 痛い彼はタイルのサイズは256KBだと思い込んでるようだけど、 Larrabeeのキャッシュは分散型ではあるけど共有キャッシュです。 あとは、わかりますね? あと、命令のサイズの件だけどさ リニアにアドレッシング出来るレジスタファイルの規模って 命令長にも直結するだろ?w んで、今のGeForceってレジスタって何本だったっけ? 32ビットレジスタが8192本あるいは16384本だっけ? さて、1命令の長さは何バイトになるでしょうか?w Radeonのほうはネイティブ命令セット公開されてるけど、絶句モンですぜ こんなんでよくGeneral Purposeとか言えたモンです。
| - Intel Larrabee 2コア
178 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:16:28 ID:iiFWVgMc - 補足すると、あくまでたかだかキャッシュラインの1エントリ32バイト程度の
「キャッシュ」 なんだから、上書きしないピクセルまでキャッシュに取り込む必要はないんですよ。 矩形内のピクセル数分だけキャッシュを食うって認識は誤り。 こんだけでだいぶメモリトラフィック減らせますよ。 http://software.intel.com/file/15542
| - Atomで自作 19枚目
94 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:32:01 ID:iiFWVgMc - >>90
ちなみに、WebサーバはHTMLとかCGIを動かすよね。 で、文字列のマッチング処理なんか分岐が多くてパイプラインが スカスカになりがちだから、Hyper-Threadingの効果はそれなりに高いんだよね。 ってのは実際にベンチマーク色々取ってみた上でもAtomはWebサーバにそこそこ 向いてるとオモタ とはいえ、TCP/IPスタックの処理はあまり得意そうでないけど。 Nehalem Xeonがどういう評価を受けるか次第だな こっちは文字列処理専用命令を搭載してるからIntelコンパイラで 最適化されたバイナリはアクセラレーションが効くし。 んでもってIntelはこっちを売りたい。
| - Intel Larrabee 2コア
181 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:51:09 ID:iiFWVgMc - ソースはFUDzilllaか頭の弱いデマカセジャン先生だろ
毎日がエイプリルフール
| - CPUアーキテクチャについて語れ 15
329 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 21:12:09 ID:iiFWVgMc - IBMはSunを買って何をする気だね
| - CPUアーキテクチャについて語れ 15
332 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 21:17:13 ID:iiFWVgMc - http://www.itmedia.co.jp/news/articles/0904/07/news091.html
まだSun側が折れる可能性はあるようだね
| - Atomで自作 19枚目
96 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 21:22:05 ID:iiFWVgMc - EeePCはそろそろニコニコ専用機すら厳しくなってきた
GNドライブが必要だ。
| - Atomで自作 19枚目
106 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 22:03:05 ID:iiFWVgMc - >>98
はぁ? 具体的にお願いします。 わざわざNehalemのXeonって断ってるからまさかネトバXeonとか言わないだろうけど こいつより足回りの強いアーキテクチャって具体的にどんだけあるんですか?
| - Atomで自作 19枚目
111 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 22:22:43 ID:iiFWVgMc - >>108
君がエンジニアじゃないことだけはわかった。 たとえば、Folding@Homeやらはネットワーク分散処理をするアプリケーションだけど アレはMPIで連携して動いてるとでも思いますか? DBにアクセスするときだけネットに繋げばいい代物だよ。
| - Atomで自作 19枚目
118 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 22:49:15 ID:iiFWVgMc - >>113
話をそらさず質問に答えてくれよ。MPIがお薦めなんだろ? あれはどういう原理で動いてるのか解説してくれ。 「エンジニア」がどういうものか教えてくれよ。 同じメモリ空間で処理出来る単位で処理の分割は済んでるのに そこでMPIを使って異なるマシンと連携取りながら処理する理由が あるってことなんだろ?どうなのよ? ちなみにここ近年のOpenMPランタイムは結構優秀だよ。gccで試してみるといい。 たとえばAtomでN-Queen問題解いたらHTがちゃんと効いて シングルスレッド時の約1.8倍(330なら約3.6倍)になる。
| - Atomで自作 19枚目
121 :・∀・)っ-○◎●[sage]:2009/04/07(火) 23:03:07 ID:iiFWVgMc - これね
http://www.arch.cs.titech.ac.jp/~kise/nq/ -m64 O2 でビルド ./qn24b_openmp 16 qn24b OpenMP version 1.0.0 2004-04-21 There are 9844 tasks ============================================= qn24b OpenMP version 1.0.0 2004-04-21 problem size n : 16 total solutions : 14772512 correct solutions : 14772512 million solutions/sec : 0.958 elapsed time (sec) : 15.415 ============================================= -m64 -fopenmp -O2でビルド qn24b OpenMP version 1.0.0 2004-04-21 There are 9844 tasks ============================================= qn24b OpenMP version 1.0.0 2004-04-21 problem size n : 16 total solutions : 14772512 correct solutions : 14772512 million solutions/sec : 2.831 elapsed time (sec) : 5.218 ============================================= あ、ちなみに3.6倍ってのは32ビットでのとき。 64ビットでビルドすると2割くらい性能が上がるんだけど、 逆にHTでのパフォーマンスゲインも少なくなるらしい。 タスク分割かなり優秀だとオモ
|
|