- 自然言語処理スレッド その4
238 :デフォルトの名無しさん[]:2014/11/25(火) 09:26:09.87 ID:aL15dD2y - 数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問 題を解くために,B という問題が解ければ,その解から A の解も得られることが判って いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような 問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の 例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう. 多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的 な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い やすい,という現象の現われと言えるでしょう. もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で ある,というような言い方をすることもあります. 一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う 例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し てみることにしましょう. http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
|
- 自然言語処理スレッド その4
243 :デフォルトの名無しさん[]:2014/11/25(火) 14:01:43.88 ID:aL15dD2y - コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、 全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、 それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の 事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有) 程度が現実的なところではないかと思う。 それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞 くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、 という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人 に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。 コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、 残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、 助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者 たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例 から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、 というトレーニングもあってよいと思う。 http://d.hatena.ne.jp/mamoruk/20140902/p1
|
- 自然言語処理スレッド その4
245 :デフォルトの名無しさん[]:2014/11/25(火) 14:29:27.54 ID:aL15dD2y - コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、 ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので (自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。 http://d.hatena.ne.jp/mamoruk/20140902/p1
|