以前どこかの記事の端っこに余談枠にでも書こうと思っていたもののすっかり忘れていたのですが、mkvToolnix などで mka (Matroska Audio) をつくるときの cue シートの文字コード(符号化形式)は、基本的に UTF-8 にしておくのが好ましいです。
cue シートを日本語環境で扱うときには Shift-JIS を用いるのが通例ですし、実際に CD を読み取ったり書き込んだりイメージにしたりするために cue シートを使用するソフトではそのように動作するのですけれども、matroska ではチャプターとして利用できる文字コードは UTF-8 に限定されています。Shift-JIS のままでは入れられません。ですから mkvToolnix のような matroska 作成ソフトは cue シート文字列のコードページをコンバートした上で格納することになるわけですが、ここでいくつかの不具合が起こることがあります。たとえば、私が遭遇したものだけでも、
- "~" が "〰" として変換される(※これは SJIS → Unicode/UTF-8 では仕方がない)
- 日本語がなぜか全部漢字になったり、もはやアルファベットですらない神の文字が現れて ('A')
など。とかく問題が起こりやすいので、可能な限りチャプターとして挿入する文字を制御したいと思う場合には、なにも考えず cue シートを UTF-8 にしておくと楽です。BOM を付けてある方(いわゆる UTF-8N でないもの)が比較的好ましいので、BOM を付けずに出力することのできない NT 系 Windows 標準装備のメモ帳でも問題はありません。事前に UTF-8 にしておけばコンバートは行われないので、UTF-8 で表現可能な文字であれば意図したものがそのままチャプターとして利用できます。もちろん、CD-TEXT を書き込まない cue シートなど、最初から ASCII コードしか使っていないような場合には Shift-JIS のまま読ませても問題は起こりません。なお、matroska の文字コードに関する詳細な仕様については Matroska Specifications を参照してください。
余談:Unicode エディタ
Unicode/UTF-8 のファイルを扱う際のエディタとしては EmEditor がいいです。イマドキのテキストエディタなら(メモ帳のような短い xml を処理するのにさえ苦労するようなカスエディタでない限り)大抵は UTF-8/UTF-8N での出力に対応しているものが多いですが、大抵は内部処理が Shift-JIS なので Unicode の文字を扱えませんし、表示もできません。EmEditor は純粋なエディタとしての機能は平均レベルな感じですけれども、オランダ語とドイツ語と日本語と簡体字が混在しているようなテキストを上手く扱えるので便利ですよ。





