2014-01-20

ブログ記事のURLがイミフだったのを直しました。

以前はアンダースコア(「_」)満載なイミフURLばかりだったのだけど、読めるものになるようにスクリプトをいじった。

そもそもなんで壊れてたのよ?

僕はブログやその他サイトBenjenというスクリプトで生成しているのだけど、このスクリプト、ローマ字と英数意外は、すべてのタイトル文字を「_」に変えてURLにしてしまう困ったさんなのだ。

元々は壊れたURLを出さないための変換なのだけど(タイトルに「/」が入っていたり)、日本語の場合、タイトルのほぼ全文がアンダースコアに変換されてしまう。

それでも機能はしていたので、1年近く放置していた。

12月に直そうとしたのだが、UTF-8の日本語文字だけをどう無視させればいいか分からず、さじを投げた[1]。しかし先日、「日本語をちゃんと検知しても、日本語がURLに入ったらダメじゃん!」という根本的な問題に気づいたので、アプローチを完全に変えて、記事ごとのMarkdownのヘッダーの項目に「URL」の項目を足して、タイトルとは別の、URL専用の文字列を与えてやることにした。

当面は(完全な自前のスクリプトを書くまでは)これでやって行こうと思う。


[1] ちなみにこれで行けるっぽい。