fbpx

メニュー

セマンティックが止まらない(主にGoogle)

高橋文樹 高橋文樹

この投稿は 12年 前に公開されました。いまではもう無効になった内容を含んでいるかもしれないことをご了承ください。

Googleが4月ぐらいに発表したパンダアップデートで「これからはコンテンツのセマンティックな検索に注力していくよ」というようなことが発表されましたが、「セマンティックが止まらない」というギャグを言った30代のWeb業界人の皆様、お元気ですか。

http://www.youtube.com/watch?v=mXMXDQ0o1c8

僕がWeb業界で働くようになった頃はセマンティックWebということが盛んに言われていて、「構造化された文書を書くことで機械がその内容を理解できるようになり、よりよい検索結果になる」などと聞いた日には、「へーそれは凄い、ぼくもスピノザばりに構造化された論理的な文章を書こう!」と息巻いたものですが、「結局titleタグとaタグ内のテキストしか大事じゃないんでしょう?」というレベルであることが判明して「俺のh2やh3を返せ!」と枕を濡らしたものです。

エチカ―倫理学 (上) (岩波文庫)

価格¥1,155

順位11,341位

スピノザ

翻訳畠中 尚志

発行岩波書店

発売日1951 年 9 月 5 日

Amazonを開く

Supported by amazon Product Advertising API

それから数年間、セマンティックについてはあまり進化しているように感じなかったのですが、先日ぶち上げたGoogle Webmaster Central公式ブログの記事にはこんなガイドラインが追加されるとのことでした。

  • この記事の情報は信頼に値するものか?
  • この記事はその話題に精通した人や専門家に書かれたものなのか、それとも浅い表面的なものか?
  • そのサイトは同じ話題について似たようなことを表現を変えていっただけの記事を複数もっていないか?
  • そのサイトにあなたのクレジットカード情報を預けても平気か?
  • その記事には文法上の間違いや事実誤認が含まれていないか?
  • その記事の話題はサイトのユーザーが本当に興味をもっているものか、それとも検索エンジンで上位に来るためだけに選ばれたものか?
  • その記事には独自のコンテンツ、分析、情報、見解、調査などが含まれているか?
  • そのページは他の検索結果のページと比べてたくさんの容量を持っているか?
  • コンテンツの品質は十分にコントロールされているか?
  • その記事はある物事の両面について語っているか?
  • そのサイトはその話題についての権威を持っているか?
  • コンテンツは大量の作者や外部コンテンツによって大量生産されたのか、沢山のサイトに分散したために個々のページが注目を集めていないだけなのか?
  • 記事はよく編集されているのか、それとも適当に作られたのか?
  • 医学的な情報の場合、このサイトからの情報を信頼するか?
  • このサイトの名前を権威あるものとして受け止めるか?
  • この記事はあるトピックについて完璧な説明をなしているか?
  • この記事は一目ではわからない深い分析をしているか?
  • 友達にシェアしたりブックマークしたり推薦したいようなページか?
  • この記事は主文よりに対して広告が多過ぎたりしないか?
  • この記事を雑誌や百科事典や本で読みたいと思うか?
  • その記事は短すぎたり、独断に基づいていたり、詳細を欠いていたりしないか?
  • そのページは細部への拘りがあるか?
  • そのページを見たときにユーザーは不平をいったりしないか?

More guidance on building high-quality sites

どうですか。Googleはかなり凄いことを言っていますよ。こんなことほんとうにできるんですかね?

Googleはインテリが作った会社なので、ちょっとKYなところがあるというか、真顔でマリファナの良さを伝えてくるヒッピーみたいなところがあるというか、そういう会社なので、自信満々でリリースするんでしょうが、「ある記事が一つのトピックの両面について語っているか」なんてどうやって判別するんですかね。

とまあ、Googleが5年越しでセマンティックの方へ邁進しつつあることについて説明しましたが、今日それに関するどうでもよい発見をしました。

ちょっと仕事でRSpec(Ruby on Railsのテストツール)のことを調べていたら、Googleの検索結果でふと気づきました。

Googleの検索結果に表れた変化
Googleの検索結果に表れた変化

なんと、あれほど蔑まれていたh3がちゃんと検索結果に表示されているではないですか。各見出しが検索結果の下に小さく表示され、見出しがその文書の内容を要約したものとして採用されています。これは便利ですね。

僕のサイトでもこれやりたいなーと思ったんですが、どうもid属性がついていないとダメっぽいですね。idつけてればアンカーテキストになるというので、採用したのかもしれません。毎回idつけるのは正直メンドクサイですね。

もっとも、これは今回のパンダアップデートとはあまり関係ないと思われます。だってパンダアップデートは英語圏の話だからね! こうした高度な技術が導入されるのは英語圏が最初で、世界のマイナー言語に分類される膠着語の日本語はモンゴル語とかトルコ語とかと同じぐらいの順番なんじゃないでしょうか。

ともあれ、Googleさんがtitleタグやaタグ以外に目を向け始めたというのはとてもいいことだと思います。そのうち、タグだけでなくテキストそのものを上手く解析してくれるようになるといいですね。

ちなみに、こうした言語の意味処理の現在はどこらへんまで進んでいるのかというのは小説家として気になるところではありますので、ここら辺の話題について近々破滅派の方の連載「メタメタな時代の曖昧な私の文学」に続きを書こうと思ってます。

すべての投稿を見る

高橋文樹ニュースレター

高橋文樹が最近の活動報告、サイトでパブリックにできない情報などをお伝えするメーリングリストです。 滅多に送りませんので、ぜひご登録お願いいたします。 お得なダウンロードコンテンツなども計画中です。