- 自炊技術総合@電子書籍板
410 :名無しさん@お腹いっぱい。[sage]:2011/01/01(土) 10:59:46 ID:bcbLmj0k - 誤認識はどうしようもないから、自動訂正スクリプトを作っている。
カタカナ「リ」ひらがな「り」とかは認識ミスの代表だろう。 なので一旦、ひらがな「り」に全部書き換える。 その後、カタカナ言葉だけをカタカナ「リ」に書き換える。 sed使って s/リ/り/g s/りターン/リターン/g s/キりギりス/キリギリス/g みたいに。 ンとソ、ロと口なんかもそう。 いちいち全部書くのかよ!と言うだろうが、そのとおり。 誤認識があったら、片っ端からスクリプトに追加していく。 鍛え上げた辞書のおかげで、8−9割は自動で直るようになった。
|
- 電子書籍雑談スレ その2
881 :名無しさん@お腹いっぱい。[sage]:2011/01/01(土) 11:06:49 ID:bcbLmj0k - デジタル教科書にすれば、電子ブックというものに抵抗がなくなるだろうし、卒業しても同じ端末を使い続ける可能性が高い。
つまり顧客囲い込みが出来る。 そんなところを考えてるんじゃないかね。
|
- 自炊技術総合@電子書籍板
413 :名無しさん@お腹いっぱい。[sage]:2011/01/01(土) 16:22:05 ID:bcbLmj0k - ワタシのは修正できる文書の傾向が偏りすぎてて、とても売り物にならん。
とっかかりの辞書というかスクリプトを作るのは簡単。 そこらへんの電子テキストからカタカナ「リ」でgrepかけて、リが入る単語を片っ端からリストアップ。 単語だけ切り出して、ソートして、だぶってる単語は削除。 あとはsed用に整形するだけ。テキスト整形のフリーソフトはいくらでもある。 ソン、口ロ、リり、i1、一ー、二ニ、0o、あたりを直すだけでも、だいぶ違う。 sedでやる利点は、余計な頭使わなくて済む。 修正抜けやミスがあったら、どんどん追加していくだけ。 あとは、青空ルビ振りも同時にできること。 s/皇帝/|皇帝《カイザー》/g s/|皇帝《カイザー》ばんざい/|皇帝ばんざい《ジーク・カイザー》/g s/わが皇帝/|わが皇帝《マイン・カイザー》/g とかね。
|
- 赤松健運営のJコミ【絶版漫画】
65 :名無しさん@お腹いっぱい。[sage]:2011/01/01(土) 19:03:21 ID:bcbLmj0k - 絶版書籍すべてが対象となる可能性があるわけだよね。
マンガ、小説以外にも、写真集や絵本、ゲームの攻略本まで。 もしかすると古書の相場に影響があるかもしれん。 反対派はこういうところかね。
|
- 自炊技術総合@電子書籍板
415 :名無しさん@お腹いっぱい。[sage]:2011/01/01(土) 23:32:26 ID:bcbLmj0k - 汎用的で効果的な正規表現を考えるより、最初に1回作っちゃえば、あとはポツポツと登録していくだけの簡単さを選んだだけ。
|