- 文字コード総合スレ part9
272 :デフォルトの名無しさん[sage]:2014/10/04(土) 09:47:20.90 ID:fOqpWE8p - >>268
>シフトJISの文字列は、行の先頭から、ちゃんと1バイトずつよめば >1バイト目か2バイト目か判定できます。慣れてしまえば、非常にわかりやすい。 >とばかしたり(途中だけよんだり)するから、判定できなくなる。 お前さんもどっこいどっこいだよ。 テキストバッファの途中で判定できるアルゴリズムもある、と言うか普通は 速度や汎用性からそちらを使う。
|
- 文字コード総合スレ part9
274 :デフォルトの名無しさん[sage]:2014/10/04(土) 09:54:44.14 ID:fOqpWE8p - 昔のプログラム誌とかに普通に載ってたよ。
ウェブでも探せばあるでしょ。ただ今となっては古くて必要性の低い情報だから 埋もれてるかもね。
|
- 文字コード総合スレ part9
275 :デフォルトの名無しさん[sage]:2014/10/04(土) 10:04:20.33 ID:fOqpWE8p - ファイルしてある大昔の資料発掘してみたらC MAGAZINE 1992年5月号に載ってた。
他にも沢山あるでしょ。
|
- 文字コード総合スレ part9
281 :デフォルトの名無しさん[sage]:2014/10/04(土) 10:34:29.97 ID:fOqpWE8p - >>277
libiconvやらICUが普通に使われてるよ。 遅れてるのはWindowsだけだから。
|
- 文字コード総合スレ part9
283 :デフォルトの名無しさん[sage]:2014/10/04(土) 10:46:01.44 ID:fOqpWE8p - 当たり前のアルゴリズムやライブラリの存在すら知らなければ、そりゃ苦労するだろうね。
|
- 文字コード総合スレ part9
305 :デフォルトの名無しさん[sage]:2014/10/04(土) 21:26:32.94 ID:fOqpWE8p - >>297
SJIS固定の知識ではないよ。 アルゴリズム見れば判るけど1バイト2バイト混在のエンコーディング汎用に使える。
|
- 文字コード総合スレ part9
307 :デフォルトの名無しさん[sage]:2014/10/04(土) 21:44:27.50 ID:fOqpWE8p - >>300
UTF-8は先頭2bit見れば切れ目は簡単に判る。 UTF-8絡みでは先頭1byteから長さを求めるこのコードが気が利いてる。 inline uint32_t utf8_char_len(uint8_t byte) { return(((0xE5000000 >> ((byte >> 3) & 0x1E)) & 3) + 1); }
|