WordPressでthe_contentをDOMりたい

高橋文樹

2015 年 4 月 13 日
読了2分（1,375文字）
HTML5 PHP WordPress

この投稿は 9年前に公開されました。いまではもう無効になった内容を含んでいるかもしれないことをご了承ください。

タイトルそのままですが、現在破滅派では、ePub書き出し機能を製作中で、ePub書き出し機能自体はできたのですが、また別の問題が発生しました。

あと少しで破滅派ePub書き出し機能ができそうです。4月中にはなんとか……http://t.co/VHVhxcSoq8 http://t.co/EqWcgPgUvd

— 高橋文樹『アウレリャーノがやってくる』 (@takahashifumiki) April 1, 2015

たとえば、僕は方舟謝肉祭という長編小説を発表しているのですが……

連載作品だった場合、ePubで売っているのにWebで全部読めてしまうのは困るので、途中で隠したい。
その際、全部統一したやり方で隠したい。抜粋( excerpt ) めんどくさいから入れたくない。

破滅派では何も考えずに書くとpタグが連続する感じになるので、タグの数を数えてその4分の1だけ表示するという方針でいきます。n話までは無料で読めて、あとは途中までしか読めないというパターンですね。

さて、DOMるときに使うライブラリはHTML5-PHPです。HTML5だとbrなどの空タグにスラッシュがあってもなくてもよいからパースエラーになったりとか、DOMDocumentだと日本語が全部実体参照になるとか、そういうどうしようもないエラーが回避できます。

このライブラリ、単に読み込みと書き出しがHTML5対応になっているだけっぽいので、あとはDOMDocumentと同じです。

それでは、the_contentフィルターをかけてみます。ポイントは次の通りですね。

the_contentでわたってくるタグは親ノードがないので、htmlタグを擬似的に作成する。
書き出しのとき、bodyタグの中身だけ返す
ショートコードとかwpautopとかに影響を受けないように、一番最後の方にフィルター。

add_filter('the_content', function($content){
    if( sold_in_amazon() ){ // 独自関数なのでコピペしないでね！
         // パーサーを用意
         $html5 = new Masterminds\HTML5();
         // HTMLを作る
         $html = <<<HTML
<DOCTYPE html>
<html>
<head><meta charset="utf-8" /></head>
<body>{$content}</body>
</html>
HTML;
         // DOMの一部を切り出す
         $dom = $html5->loadHTML($content);
         // bodyタグを取得
         $body = $dom->getElementsByTagName('body')->item(0);
         // bodyタグの子ノードを数える
         $dom_count = $body->childNodes->length;
         // その4分の1の数を取得
         $limit = floor( $dom_count / 4 );
         // 1/4より大きいノードは削除
         for( $i = $dom_count - 1; $i >= 0; $i-- ){
             if( $i > $limit ){
                  $body->removeChild($body->childNodes->item($i));
             }
         }
         // bodyタグの中身だけ取得して$contentに設定
         preg_match('/<body>(.*)<\/body>/s', $html5->saveHTML($dom), $match);
         $content = $match[1];
    }
    return $content;
}, 9999);

というわけで、このお尻にメッセージボックスを足したりすると、こんな感じになります。ぱっと見わからないので、デザインに工夫の余地ありかもですね……透明のフィルターっぽいのかぶせるとか。