JEITA 自然言語処理技術に関するシンポジウム 2004 にパネリストとして参加してきました。自然言語処理技術に関しての知識は乏しい僕でしたが、なんとかディスカッションもいい方向に進んでくれたし、良かったと思います。
今日僕が話をした中でポイントとなること。
blog が自然言語処理の今後の展開に与える影響は? という質問に対する回答として、ウェブサイトが blog として構築されることで、コンテンツの単位がページ単位から記事単位へとシフトするという話。例えば平田さんあたりもこの辺の話をよくされていたこともありますし、blog の技術に普段触れている人には直感的に知っており、且つシステムに与える影響力の大きい話だと思います。
例えば Yahoo! や Google の検索結果は基本的にページ単位ですが、FeedBack や Bulkfeeds に代表される blog 特化型の検索エンジンは、検索結果の単位は記事です。コンテンツの粒度の単位が従来より一つ小さいわけですね。また、単に小さいだけでなく、すべての blog のコンテンツが記事単位に揃うという点も重要です。これによりサイトをまたがって横串を指した場合でも単位に乱れが起きません。
記事単位へと粒度が代わってかつ正規化されたことにより、ウェブサイトの巡回のコストも劇的に低下します。これは記事単位へとシフトしたことによる影響のごく一部であって、特にコンテンツをその下地とする自然言語処理技術にとっては非常に大きなものではないかな、と思っています。
それから、「blog が浸透することによってウェブサイトを blog のような CMS で構築するという方法論が確立される」という点。これは田中良和氏の受け売りなのですが、言われてみればなるほど。これまで HTML エディタや FTP ソフト、あるいはオーサリングツールを使って作っていたウェブサイト、その作り方のあり方や考え方をがらりと変えてしまいます。
もちろん blog 登場以前からウェブアプリケーションでサイトを更新するというのは普通に行われてきたことですし、CMS が特に珍しいということもありません。しかしその方法論が、blog によって一般層にまで浸透するということが重要であり、且つ破壊的なのだと思います。大事なのは blog のもつ技術やシステム、ツールではなく、その根底に根ざすアーキテクチャとしての考え方が普及するというところです。
CMS で更新するということだけでなく、コンテンツをツールによって管理することで記事がウェブサイトの単位になったり、HTML と CSS で論理構造と見た目を分離したりといった、「制作の世界では当たり前のこと、一般の人たちにとっては高度なこと」だった話が、一般の人たちにまで広がっていくという点は非常に大きなものだと思います。
そういう意味で、blog はインターネットとウェブサイトの間に挟まる新しいレイヤなのだというスライドを披露してみたりしました。
バラケた記事をどういう軸で組織化(もしくはソート)するかを考えるのは楽しそうですね。メタデータをもう少しリッチにするアイデアがあればもっと楽しそう。コメントだけでなくてカテゴリを他人が付与できるとか、内容(+α)から生成したカテゴリ候補を選ばせるとか。カテゴリ同士の関係を絡ませるとか。統制語をうまく使うと面白いことが出来そうな気がします。
[1] Posted by: つー at October 21, 2004 05:19 PM [返信]