2014-01-20
ブログ記事のURLがイミフだったのを直しました。
以前はアンダースコア(「_」)満載なイミフURLばかりだったのだけど、読めるものになるようにスクリプトをいじった。
そもそもなんで壊れてたのよ?
僕はブログやその他のサイトをBenjenというスクリプトで生成しているのだけど、このスクリプト、ローマ字と英数意外は、すべてのタイトル文字を「_」に変えてURLにしてしまう困ったさんなのだ。
元々は壊れたURLを出さないための変換なのだけど(タイトルに「/」が入っていたり)、日本語の場合、タイトルのほぼ全文がアンダースコアに変換されてしまう。
それでも機能はしていたので、1年近く放置していた。
12月に直そうとしたのだが、UTF-8の日本語文字だけをどう無視させればいいか分からず、さじを投げた[1]。しかし先日、「日本語をちゃんと検知しても、日本語がURLに入ったらダメじゃん!」という根本的な問題に気づいたので、アプローチを完全に変えて、記事ごとのMarkdownのヘッダーの項目に「URL」の項目を足して、タイトルとは別の、URL専用の文字列を与えてやることにした。
当面は(完全な自前のスクリプトを書くまでは)これでやって行こうと思う。
[1] ちなみにこれで行けるっぽい。