トップページ > ソフトウェア > 2011年09月07日 > fACAUDND0

書き込み順位&時間帯一覧

15 位/1119 ID中時間01234567891011121314151617181920212223Total
書き込み数0020001010200000010000007



使用した名前一覧書き込んだスレッド一覧
◆MERIKEN4.k
【トリップ検索】CUDA SHA-1 Tripper【GeForce】

書き込みレス一覧

【トリップ検索】CUDA SHA-1 Tripper【GeForce】
451 : ◆MERIKEN4.k [sage]:2011/09/07(水) 02:00:24.86 ID:fACAUDND0
今朝はガリガリとローカル変数の数を削るという実に地味な作業をしていました。
ここらへんはCUDAのアーキテクチャの制約の影響をもろに受けてるわけで、
Radeonがどうなっているのか実に気になるところです。
新しい7970のTDPは190WでGTX 580より低いんだよな。ちょっと試してみたいかも…
【トリップ検索】CUDA SHA-1 Tripper【GeForce】
452 : ◆MERIKEN4.k [sage]:2011/09/07(水) 02:19:21.38 ID:fACAUDND0
まあでもとりあえずはCUDAの性能の限界まで頑張ってみないと…
できればPTXのコードは弄りたくないんですけど、場合によっては
やむを得ないかもしれません。
【トリップ検索】CUDA SHA-1 Tripper【GeForce】
454 : ◆MERIKEN4.k [sage]:2011/09/07(水) 06:51:18.13 ID:fACAUDND0
Horo氏のコードはほんとうに参考になるのでぜひ一読を薦めますです。
私も随分勉強させて頂きました。
【トリップ検索】CUDA SHA-1 Tripper【GeForce】
455 : ◆MERIKEN4.k [sage]:2011/09/07(水) 08:15:08.63 ID:fACAUDND0
私の10桁トリップの検索のコードは最適化とエンバクを繰り返しながら
少しずつ速くなってます。Occupancyを33%から少なくとも67%、
できれば100%まであげたいんですけど、なかなか楽はさせてもらえませんね〜
【トリップ検索】CUDA SHA-1 Tripper【GeForce】
456 : ◆MERIKEN4.k [sage]:2011/09/07(水) 10:04:00.36 ID:fACAUDND0
どうやらvolatileキーワードを使ってレジスタ数を減らす方法が
ある模様。やっぱ中間ファイルをちゃんとみないと駄目だな。
この方法でレジスタ数を抑えられるなら万々歳なんだけど…

> PTX is an intermediate language, not the final assembly output.
> Use decuda to verify your assumption.
>
> Consensus here, so far, has been that register reuse is done in
> the final stage of translating the PTX code to native machine
> instructions.
>
> However I have often been able to reduce register usage at
> the PTX level by carefully making selected local variables
> "volatile"- it effects compiler optimization such that
> the compiler puts the value into a register immediately.
> I even do this for constants (e.g. 1.0 or 0.0) that are needed
> more than once. This saves registers because constants usually
> keep getting loaded into registers over and over - even if
> the same constant has been loaded previously. The volatile trick
> is a nice workaround - however I have only tested it with the 1.1
> and 2.0 SDK so far.
http://forums.nvidia.com/index.php?showtopic=89573
【トリップ検索】CUDA SHA-1 Tripper【GeForce】
457 : ◆MERIKEN4.k [sage]:2011/09/07(水) 10:43:08.68 ID:fACAUDND0
初めてptxファイル見たけど、レジスタ割り当てまくっててワロタw
こりゃ効率悪くなるわけだわ。どうしよっかなあ…
【トリップ検索】CUDA SHA-1 Tripper【GeForce】
458 : ◆MERIKEN4.k [sage]:2011/09/07(水) 17:19:00.90 ID:fACAUDND0
CUDA側でしていたsaltとexpansion functionの処理を
本体側に追い出せないか、現在検討中。
これがなければローカルメモリへのアクセスがかなり減らせる上に、
レジスタ数の削減もできるはず…


※このページは、『2ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の2ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。