セマンティックが止まらない（主にGoogle）

高橋文樹

2012 年 6 月 23 日
読了3分（2,296文字）
Web標準自然言語処理

この投稿は 13年半前に公開されました。いまではもう無効になった内容を含んでいるかもしれないことをご了承ください。

Googleが4月ぐらいに発表したパンダアップデートで「これからはコンテンツのセマンティックな検索に注力していくよ」というようなことが発表されましたが、「セマンティックが止まらない」というギャグを言った30代のWeb業界人の皆様、お元気ですか。

http://www.youtube.com/watch?v=mXMXDQ0o1c8

僕がWeb業界で働くようになった頃はセマンティックWebということが盛んに言われていて、「構造化された文書を書くことで機械がその内容を理解できるようになり、よりよい検索結果になる」などと聞いた日には、「へーそれは凄い、ぼくもスピノザばりに構造化された論理的な文章を書こう！」と息巻いたものですが、「結局titleタグとaタグ内のテキストしか大事じゃないんでしょう？」というレベルであることが判明して「俺のh2やh3を返せ！」と枕を濡らしたものです。

エチカ―倫理学 (上) (岩波文庫)

価格￥1,155

順位10,736位

Amazonを開く

Supported by amazon Product Advertising API

それから数年間、セマンティックについてはあまり進化しているように感じなかったのですが、先日ぶち上げたGoogle Webmaster Central公式ブログの記事にはこんなガイドラインが追加されるとのことでした。

この記事の情報は信頼に値するものか？

この記事はその話題に精通した人や専門家に書かれたものなのか、それとも浅い表面的なものか？

そのサイトは同じ話題について似たようなことを表現を変えていっただけの記事を複数もっていないか？

そのサイトにあなたのクレジットカード情報を預けても平気か？

その記事には文法上の間違いや事実誤認が含まれていないか？

その記事の話題はサイトのユーザーが本当に興味をもっているものか、それとも検索エンジンで上位に来るためだけに選ばれたものか？

その記事には独自のコンテンツ、分析、情報、見解、調査などが含まれているか？

そのページは他の検索結果のページと比べてたくさんの容量を持っているか？

コンテンツの品質は十分にコントロールされているか？

その記事はある物事の両面について語っているか？

そのサイトはその話題についての権威を持っているか？

コンテンツは大量の作者や外部コンテンツによって大量生産されたのか、沢山のサイトに分散したために個々のページが注目を集めていないだけなのか？

記事はよく編集されているのか、それとも適当に作られたのか？

医学的な情報の場合、このサイトからの情報を信頼するか？

このサイトの名前を権威あるものとして受け止めるか？

この記事はあるトピックについて完璧な説明をなしているか？

この記事は一目ではわからない深い分析をしているか？

友達にシェアしたりブックマークしたり推薦したいようなページか？

この記事は主文よりに対して広告が多過ぎたりしないか？

この記事を雑誌や百科事典や本で読みたいと思うか？

その記事は短すぎたり、独断に基づいていたり、詳細を欠いていたりしないか？

そのページは細部への拘りがあるか？

そのページを見たときにユーザーは不平をいったりしないか？

More guidance on building high-quality sites