必死チェッカーもどき自作PC > 2009年04月07日

トップページ > 自作PC > 2009年04月07日 > iiFWVgMc

書き込み順位＆時間帯一覧

15 位/2931 ID中	時間	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	Total
15 位/2931 ID中	書き込み数	0	0	0	1	2	1	1	1	0	0	0	0	0	0	0	0	0	0	0	0	4	3	3	1	17

使用した名前一覧	書き込んだスレッド一覧
,,・´∀｀・,,）っ-●◎○ ,,・´∀｀・,,）っ-○◎● ・∀・）っ-○◎●	Intel Larrabee 2コア AMDの次世代CPUについて語ろう第27世代 Atomで自作 19枚目 CPUアーキテクチャについて語れ 15

書き込みレス一覧

Intel Larrabee 2コア
140 ：,,・´∀｀・,,）っ-●◎○[sage]：2009/04/07(火) 03:11:59 ID:iiFWVgMc: だからローテーションするの。
各タイルに対してキャッシュを一定サイクル数割り当てるってことに意味がある。
割り当て続けるわけではないし、ｳﾝサイクル単位でインターリーブするわけでもない
ころころインターリーブする従来GPUとの違い。

資料まともに読んでないだろ。

L2ｷｬｯｼｭはｷｬｯｼｭであってｽｸﾗｯﾁﾊﾟｯﾄﾞﾒﾓﾘではないぞ

Intel Larrabee 2コア
141 ：,,・´∀｀・,,）っ-●◎○[sage]：2009/04/07(火) 04:39:23 ID:iiFWVgMc: まあ、60fpsで画面処理するのに何回タイルを入れ替えればいいか考えてみればいい。
ピクセル単位で読んでは書き戻す既存GPUは無駄なデータフローが多すぎるよ。

今のGPUって、壁にペンキを塗るのに部屋の中心にあるペンキの入ったバケツを
移動せずに、刷毛に少量のペンキを染ませるためにバケツまで何往復もしてるような常態だよ。
塗る面に応じてバケツを移動すればいいというブレイクスルーをやろうとしてるのがIntel。

そして「バケツを持って歩くのは重たい的な」アホな言い掛かりが>>139

AMDの次世代CPUについて語ろう第27世代
584 ：,,・´∀｀・,,）っ-●◎○[sage]：2009/04/07(火) 04:57:01 ID:iiFWVgMc: 電源供給・冷却のキャパの上限の概念が無い人とは会話は成立しないな

Atomで自作 19枚目
25 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 05:11:56 ID:iiFWVgMc: トップ500の上位にも入ってるBlueGeneにPPC440のクラスタ使われてるのも知らないんだろうな
1コア当たりの性能が高い必要はないんだよ

http://www-01.ibm.com/common/ssi/rep_rp/4/ENUSP10194/index.html

PRODUCT DESCRIPTION:
FORTRAN 90, FORTRAN 95 and FORTRAN 2003 Standards
XL Fortran Advanced Edition for Blue Gene/P, V11.1 is a compiler that
supports ISO/IEC 1539-1:1991(e) and ANSI X3.198-1992 (referred to as
Fortran 90 or F90), ISO/IEC 1539-1:1997 (referred to as Fortran 95 or
F95), and the majority of the Fortran 2003 standard, excepting derived
type parameters, but including object-oriented programming. In
addition XL Fortran Advanced Edition for Blue Gene/P, V11.1 supports
the OpenMP V2.5 industry specification for portable parallelized
　　~~~~~~~~
programming.

MPIとは違ってOMPはディレクティブ挿入だけで対応できるし
マシン間のタスク分割がある程度決まってるならMPIよりは
性能面でのメリットがありますですね

Atomで自作 19枚目
27 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 06:08:43 ID:iiFWVgMc: ところでAtomでMPIっていったらそのものズバリな連載があるな。
http://atsim.hpc.co.jp/portal/article.php?story=20090224104953490
馬鹿らしすぎて笑えたが、電力効率は割といいことがわかった。

Atomも高密度ブレードサーバとしての需要はそこそこアリみたいで。
http://ascii.jp/elem/000/000/203/203398/index-2.html

あと前スレ
> http://pc11.2ch.net/test/read.cgi/jisaku/1237310488/978
> 以前の団子の人曰く、SSEはマトモなので、組み方しだいではパフォーマンスでるんでない？

AtomのSSEも割とまともなのは整数と単精度の加算くらいで、
倍精度や乗算・除算はさっぱりだよ。
GCLF2 4枚駆使してもQ9650にはコスト・パフォーマンスともに勝てないし。
いや、逆にXeonなみに高くていいから8コアとか16コアで2GHzとかのがあれば
並列演算向けには十分電力効率でメリットはあると思うんだが。

ちなみに今回は再帰を使った探索問題解いてるんだけど、
ちっとばかし分岐が多くて、SSEとか使いようがないんだよね。
関数単位での並列化はできても内部ルーチンは並列化出来ない的な。

んで、分岐が多いとパイプラインはスカスカになるわけで、
HTアリだと無しの場合に比べて1.5倍くらいになったりする。
ちょっと組んでみてここまで効果が大きいとは思わなかった。
AtomでHTが使えなかったらCore i7一択だったかもね。

あと、とあるメーカー提供のGTX（笑）はね、全然役に立ちません。
まず再帰関数が記述できないし、無理矢理ソフトスタックで実装しようにも
そもそも分岐に向いてないからさっぱり性能がでやがらねぇ。
スレッドなんて言うけどSIMDに毛皮をかぶせてマルチスレッドっぽくみせてるだけですよ。

Intel Larrabee 2コア
143 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 07:03:35 ID:iiFWVgMc: もちろん。世界で過半数のGPUシェアを持っているのはIntelです。

Intel Larrabee 2コア
177 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 20:01:13 ID:iiFWVgMc: ところでRadeonHD 4800シリーズってSIMDコアごとにL1キャッシュが16KBしかないんですがｗｗｗ
200SPで16KBですよ。ﾊﾟﾈｪ。
L2のほうは非公開だが、3800のときはテクスチャキャッシュがダイ全体で256KBで
そんなにダイサイズも大きくなってないことから想像に難くない。

GeForceのほうは、1SMあたり64KBのコンスタントメモリ（命令バッファを兼ねる）に16KB
これでメモリ帯域のセーブとか、しょっぱすぎんだろ。
一つのコアでL1 32KB＋32KBとL2 256KB×コア数ってだいぶ帯域セーブできるぜ。

痛い彼はタイルのサイズは256KBだと思い込んでるようだけど、
Larrabeeのキャッシュは分散型ではあるけど共有キャッシュです。
あとは、わかりますね？

あと、命令のサイズの件だけどさ
リニアにアドレッシング出来るレジスタファイルの規模って
命令長にも直結するだろ？ｗ

んで、今のGeForceってレジスタって何本だったっけ？
32ビットレジスタが8192本あるいは16384本だっけ？
さて、1命令の長さは何バイトになるでしょうか？ｗ

Radeonのほうはネイティブ命令セット公開されてるけど、絶句モンですぜ
こんなんでよくGeneral Purposeとか言えたモンです。

Intel Larrabee 2コア
178 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 20:16:28 ID:iiFWVgMc: 補足すると、あくまでたかだかキャッシュラインの1エントリ32バイト程度の
「キャッシュ」
なんだから、上書きしないピクセルまでキャッシュに取り込む必要はないんですよ。
矩形内のピクセル数分だけキャッシュを食うって認識は誤り。
こんだけでだいぶメモリトラフィック減らせますよ。
http://software.intel.com/file/15542

Atomで自作 19枚目
94 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 20:32:01 ID:iiFWVgMc: >>90
ちなみに、WebサーバはHTMLとかCGIを動かすよね。
で、文字列のマッチング処理なんか分岐が多くてパイプラインが
スカスカになりがちだから、Hyper-Threadingの効果はそれなりに高いんだよね。
ってのは実際にベンチマーク色々取ってみた上でもAtomはWebサーバにそこそこ
向いてるとｵﾓﾀ
とはいえ、TCP/IPスタックの処理はあまり得意そうでないけど。

Nehalem Xeonがどういう評価を受けるか次第だな
こっちは文字列処理専用命令を搭載してるからIntelコンパイラで
最適化されたバイナリはアクセラレーションが効くし。
んでもってIntelはこっちを売りたい。

Intel Larrabee 2コア
181 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 20:51:09 ID:iiFWVgMc: ソースはFUDzilllaか頭の弱いデマカセジャン先生だろ
毎日がエイプリルフール

CPUアーキテクチャについて語れ 15
329 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 21:12:09 ID:iiFWVgMc: IBMはSunを買って何をする気だね

CPUアーキテクチャについて語れ 15
332 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 21:17:13 ID:iiFWVgMc: http://www.itmedia.co.jp/news/articles/0904/07/news091.html
まだSun側が折れる可能性はあるようだね

Atomで自作 19枚目
96 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 21:22:05 ID:iiFWVgMc: EeePCはそろそろニコニコ専用機すら厳しくなってきた
GNドライブが必要だ。

Atomで自作 19枚目
106 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 22:03:05 ID:iiFWVgMc: >>98
はぁ？
具体的にお願いします。

わざわざNehalemのXeonって断ってるからまさかネトバXeonとか言わないだろうけど
こいつより足回りの強いアーキテクチャって具体的にどんだけあるんですか？

Atomで自作 19枚目
111 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 22:22:43 ID:iiFWVgMc: >>108
君がエンジニアじゃないことだけはわかった。

たとえば、Folding@Homeやらはネットワーク分散処理をするアプリケーションだけど
アレはMPIで連携して動いてるとでも思いますか？
DBにアクセスするときだけネットに繋げばいい代物だよ。

Atomで自作 19枚目
118 ：,,・´∀｀・,,）っ-○◎●[sage]：2009/04/07(火) 22:49:15 ID:iiFWVgMc: >>113
話をそらさず質問に答えてくれよ。MPIがお薦めなんだろ？
あれはどういう原理で動いてるのか解説してくれ。
「エンジニア」がどういうものか教えてくれよ。

同じメモリ空間で処理出来る単位で処理の分割は済んでるのに
そこでMPIを使って異なるマシンと連携取りながら処理する理由が
あるってことなんだろ？どうなのよ？

ちなみにここ近年のOpenMPランタイムは結構優秀だよ。gccで試してみるといい。
たとえばAtomでN-Queen問題解いたらHTがちゃんと効いて
シングルスレッド時の約1.8倍（330なら約3.6倍）になる。

Atomで自作 19枚目
121 ：・∀・）っ-○◎●[sage]：2009/04/07(火) 23:03:07 ID:iiFWVgMc: これね
http://www.arch.cs.titech.ac.jp/~kise/nq/

-m64 O2 でビルド

./qn24b_openmp 16
qn24b OpenMP version 1.0.0 2004-04-21
There are 9844 tasks
=============================================
qn24b OpenMP version 1.0.0 2004-04-21
problem size n : 16
total solutions : 14772512
correct solutions : 14772512
million solutions/sec : 0.958
elapsed time (sec) : 15.415
=============================================

-m64 -fopenmp -O2でビルド
qn24b OpenMP version 1.0.0 2004-04-21
There are 9844 tasks
=============================================
qn24b OpenMP version 1.0.0 2004-04-21
problem size n : 16
total solutions : 14772512
correct solutions : 14772512
million solutions/sec : 2.831
elapsed time (sec) : 5.218
=============================================

あ、ちなみに3.6倍ってのは32ビットでのとき。
64ビットでビルドすると2割くらい性能が上がるんだけど、
逆にHTでのパフォーマンスゲインも少なくなるらしい。
タスク分割かなり優秀だとオモ

※このページは、『２ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の２ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。