トップページ > 自作PC > 2009年04月07日 > iiFWVgMc

書き込み順位&時間帯一覧

15 位/2931 ID中時間01234567891011121314151617181920212223Total
書き込み数00012111000000000000433117



使用した名前一覧書き込んだスレッド一覧
,,・´∀`・,,)っ-●◎○
,,・´∀`・,,)っ-○◎●
・∀・)っ-○◎●
Intel Larrabee 2コア
AMDの次世代CPUについて語ろう 第27世代
Atomで自作 19枚目
CPUアーキテクチャについて語れ 15

書き込みレス一覧

Intel Larrabee 2コア
140 :,,・´∀`・,,)っ-●◎○[sage]:2009/04/07(火) 03:11:59 ID:iiFWVgMc
だからローテーションするの。
各タイルに対してキャッシュを一定サイクル数割り当てるってことに意味がある。
割り当て続けるわけではないし、ウンサイクル単位でインターリーブするわけでもない
ころころインターリーブする従来GPUとの違い。

資料まともに読んでないだろ。

L2キャッシュはキャッシュであってスクラッチパッドメモリではないぞ
Intel Larrabee 2コア
141 :,,・´∀`・,,)っ-●◎○[sage]:2009/04/07(火) 04:39:23 ID:iiFWVgMc
まあ、60fpsで画面処理するのに何回タイルを入れ替えればいいか考えてみればいい。
ピクセル単位で読んでは書き戻す既存GPUは無駄なデータフローが多すぎるよ。


今のGPUって、壁にペンキを塗るのに部屋の中心にあるペンキの入ったバケツを
移動せずに、刷毛に少量のペンキを染ませるためにバケツまで何往復もしてるような常態だよ。
塗る面に応じてバケツを移動すればいいというブレイクスルーをやろうとしてるのがIntel。

そして「バケツを持って歩くのは重たい的な」アホな言い掛かりが>>139
AMDの次世代CPUについて語ろう 第27世代
584 :,,・´∀`・,,)っ-●◎○[sage]:2009/04/07(火) 04:57:01 ID:iiFWVgMc
電源供給・冷却のキャパの上限の概念が無い人とは会話は成立しないな
Atomで自作 19枚目
25 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 05:11:56 ID:iiFWVgMc
トップ500の上位にも入ってるBlueGeneにPPC440のクラスタ使われてるのも知らないんだろうな
1コア当たりの性能が高い必要はないんだよ

http://www-01.ibm.com/common/ssi/rep_rp/4/ENUSP10194/index.html

PRODUCT DESCRIPTION:
FORTRAN 90, FORTRAN 95 and FORTRAN 2003 Standards
XL Fortran Advanced Edition for Blue Gene/P, V11.1 is a compiler that
supports ISO/IEC 1539-1:1991(e) and ANSI X3.198-1992 (referred to as
Fortran 90 or F90), ISO/IEC 1539-1:1997 (referred to as Fortran 95 or
F95), and the majority of the Fortran 2003 standard, excepting derived
type parameters, but including object-oriented programming. In
addition XL Fortran Advanced Edition for Blue Gene/P, V11.1 supports
the OpenMP V2.5 industry specification for portable parallelized
  ~~~~~~~~
programming.



MPIとは違ってOMPはディレクティブ挿入だけで対応できるし
マシン間のタスク分割がある程度決まってるならMPIよりは
性能面でのメリットがありますですね
Atomで自作 19枚目
27 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 06:08:43 ID:iiFWVgMc
ところでAtomでMPIっていったらそのものズバリな連載があるな。
http://atsim.hpc.co.jp/portal/article.php?story=20090224104953490
馬鹿らしすぎて笑えたが、電力効率は割といいことがわかった。

Atomも高密度ブレードサーバとしての需要はそこそこアリみたいで。
http://ascii.jp/elem/000/000/203/203398/index-2.html


あと前スレ
> http://pc11.2ch.net/test/read.cgi/jisaku/1237310488/978
> 以前の団子の人曰く、SSEはマトモなので、組み方しだいではパフォーマンスでるんでない?

AtomのSSEも割とまともなのは整数と単精度の加算くらいで、
倍精度や乗算・除算はさっぱりだよ。
GCLF2 4枚駆使してもQ9650にはコスト・パフォーマンスともに勝てないし。
いや、逆にXeonなみに高くていいから8コアとか16コアで2GHzとかのがあれば
並列演算向けには十分電力効率でメリットはあると思うんだが。

ちなみに今回は再帰を使った探索問題解いてるんだけど、
ちっとばかし分岐が多くて、SSEとか使いようがないんだよね。
関数単位での並列化はできても内部ルーチンは並列化出来ない的な。

んで、分岐が多いとパイプラインはスカスカになるわけで、
HTアリだと無しの場合に比べて1.5倍くらいになったりする。
ちょっと組んでみてここまで効果が大きいとは思わなかった。
AtomでHTが使えなかったらCore i7一択だったかもね。

あと、とあるメーカー提供のGTX(笑)はね、全然役に立ちません。
まず再帰関数が記述できないし、無理矢理ソフトスタックで実装しようにも
そもそも分岐に向いてないからさっぱり性能がでやがらねぇ。
スレッドなんて言うけどSIMDに毛皮をかぶせてマルチスレッドっぽくみせてるだけですよ。
Intel Larrabee 2コア
143 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 07:03:35 ID:iiFWVgMc
もちろん。世界で過半数のGPUシェアを持っているのはIntelです。

Intel Larrabee 2コア
177 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:01:13 ID:iiFWVgMc
ところでRadeonHD 4800シリーズってSIMDコアごとにL1キャッシュが16KBしかないんですがwww
200SPで16KBですよ。パネェ。
L2のほうは非公開だが、3800のときはテクスチャキャッシュがダイ全体で256KBで
そんなにダイサイズも大きくなってないことから想像に難くない。

GeForceのほうは、1SMあたり64KBのコンスタントメモリ(命令バッファを兼ねる)に16KB
これでメモリ帯域のセーブとか、しょっぱすぎんだろ。
一つのコアでL1 32KB+32KBとL2 256KB×コア数ってだいぶ帯域セーブできるぜ。


痛い彼はタイルのサイズは256KBだと思い込んでるようだけど、
Larrabeeのキャッシュは分散型ではあるけど共有キャッシュです。
あとは、わかりますね?


あと、命令のサイズの件だけどさ
リニアにアドレッシング出来るレジスタファイルの規模って
命令長にも直結するだろ?w

んで、今のGeForceってレジスタって何本だったっけ?
32ビットレジスタが8192本あるいは16384本だっけ?
さて、1命令の長さは何バイトになるでしょうか?w

Radeonのほうはネイティブ命令セット公開されてるけど、絶句モンですぜ
こんなんでよくGeneral Purposeとか言えたモンです。
Intel Larrabee 2コア
178 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:16:28 ID:iiFWVgMc
補足すると、あくまでたかだかキャッシュラインの1エントリ32バイト程度の
「キャッシュ」
なんだから、上書きしないピクセルまでキャッシュに取り込む必要はないんですよ。
矩形内のピクセル数分だけキャッシュを食うって認識は誤り。
こんだけでだいぶメモリトラフィック減らせますよ。
http://software.intel.com/file/15542
Atomで自作 19枚目
94 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:32:01 ID:iiFWVgMc
>>90
ちなみに、WebサーバはHTMLとかCGIを動かすよね。
で、文字列のマッチング処理なんか分岐が多くてパイプラインが
スカスカになりがちだから、Hyper-Threadingの効果はそれなりに高いんだよね。
ってのは実際にベンチマーク色々取ってみた上でもAtomはWebサーバにそこそこ
向いてるとオモタ
とはいえ、TCP/IPスタックの処理はあまり得意そうでないけど。

Nehalem Xeonがどういう評価を受けるか次第だな
こっちは文字列処理専用命令を搭載してるからIntelコンパイラで
最適化されたバイナリはアクセラレーションが効くし。
んでもってIntelはこっちを売りたい。
Intel Larrabee 2コア
181 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 20:51:09 ID:iiFWVgMc
ソースはFUDzilllaか頭の弱いデマカセジャン先生だろ
毎日がエイプリルフール
CPUアーキテクチャについて語れ 15
329 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 21:12:09 ID:iiFWVgMc
IBMはSunを買って何をする気だね
CPUアーキテクチャについて語れ 15
332 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 21:17:13 ID:iiFWVgMc
http://www.itmedia.co.jp/news/articles/0904/07/news091.html
まだSun側が折れる可能性はあるようだね
Atomで自作 19枚目
96 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 21:22:05 ID:iiFWVgMc
EeePCはそろそろニコニコ専用機すら厳しくなってきた
GNドライブが必要だ。
Atomで自作 19枚目
106 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 22:03:05 ID:iiFWVgMc
>>98
はぁ?
具体的にお願いします。

わざわざNehalemのXeonって断ってるからまさかネトバXeonとか言わないだろうけど
こいつより足回りの強いアーキテクチャって具体的にどんだけあるんですか?
Atomで自作 19枚目
111 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 22:22:43 ID:iiFWVgMc
>>108
君がエンジニアじゃないことだけはわかった。

たとえば、Folding@Homeやらはネットワーク分散処理をするアプリケーションだけど
アレはMPIで連携して動いてるとでも思いますか?
DBにアクセスするときだけネットに繋げばいい代物だよ。
Atomで自作 19枚目
118 :,,・´∀`・,,)っ-○◎●[sage]:2009/04/07(火) 22:49:15 ID:iiFWVgMc
>>113
話をそらさず質問に答えてくれよ。MPIがお薦めなんだろ?
あれはどういう原理で動いてるのか解説してくれ。
「エンジニア」がどういうものか教えてくれよ。

同じメモリ空間で処理出来る単位で処理の分割は済んでるのに
そこでMPIを使って異なるマシンと連携取りながら処理する理由が
あるってことなんだろ?どうなのよ?

ちなみにここ近年のOpenMPランタイムは結構優秀だよ。gccで試してみるといい。
たとえばAtomでN-Queen問題解いたらHTがちゃんと効いて
シングルスレッド時の約1.8倍(330なら約3.6倍)になる。
Atomで自作 19枚目
121 :・∀・)っ-○◎●[sage]:2009/04/07(火) 23:03:07 ID:iiFWVgMc
これね
http://www.arch.cs.titech.ac.jp/~kise/nq/

-m64 O2 でビルド

./qn24b_openmp 16
qn24b OpenMP version 1.0.0 2004-04-21
There are 9844 tasks
=============================================
qn24b OpenMP version 1.0.0 2004-04-21
problem size n : 16
total solutions : 14772512
correct solutions : 14772512
million solutions/sec : 0.958
elapsed time (sec) : 15.415
=============================================

-m64 -fopenmp -O2でビルド
qn24b OpenMP version 1.0.0 2004-04-21
There are 9844 tasks
=============================================
qn24b OpenMP version 1.0.0 2004-04-21
problem size n : 16
total solutions : 14772512
correct solutions : 14772512
million solutions/sec : 2.831
elapsed time (sec) : 5.218
=============================================

あ、ちなみに3.6倍ってのは32ビットでのとき。
64ビットでビルドすると2割くらい性能が上がるんだけど、
逆にHTでのパフォーマンスゲインも少なくなるらしい。
タスク分割かなり優秀だとオモ


※このページは、『2ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の2ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。