CGI RESCUE チャレンジＣＧＩ - 改行コード/漢字コードについて

ＯＳによって、ファイル内に書かれたテキスト１行１行の最後を示す改行コード (リターンを押した時に記録されるコード)が異なります。

ＯＳ名改行コード名

WINDOWS CR(\r)+LF(\n)

MAC CR(\r)

UNIX LF(\n)

従って、それぞれのＯＳで編集されたテキストファイルを他のＯＳで認識させるには、そのＯＳに合った改行コードに変換しなければなりません。ＣＧＩスクリプトを設置するために大変重要な要件なので、よく理解してください。

どうやって変換するの？

当サイトで解説する際に、「アスキーモード」「バイナリモード」という言葉がよく出てきます。これは何を意味するのかをまず把握してください。

バイナリモードとは、RAW(生)データ、すなわち、そのファイルの改行コードを含めてそのままの状態で転送するモードを言います。画像やコンパイルされたプログラムなどはこのモードを使います。

私はファイル編集にWINDOWSを使っています。そこで編集されたファイルをUNIXサーバへ転送するわけです。ここで、WINDOWS→UNIXへの改行コード変換が必要になります。 WINDOWSユーザは大変多いですし、利用しているWEBサーバもUNIXで動作しているところが多いですので、ほとんどの方が私と同じ状況にあたると思います。そんなこともあってか、一般的に、WINDOWS上で動くFTPソフトは、WINDOWS上のファイルをUNIX上へ転送することを前提に設計されており、 FTPソフトでのファイルのやり取りで「アスキーモード」を指定すると、この改行コード変換が自動で行われます。

希にWINDOWS-NTサーバもありますが、当サーバではUNIX用のプログラムを提供していますので、プロバイダで採用しているのがWINDOWS-NTサーバの方は、そのソフトがNTサーバに対応しているかどうかはわかりませんし、当サイト提供のプログラムもそのままでは動作できません。

従って、当サイトで「アスキーモード」で転送することを指示している場合、「WINDOWS上で動く一般的なFTPソフトを利用して、WINDOWSで編集したファイルをUNIXで認識できる改行コードへ自動変換して転送する」ことを意味します。

ここで注意することは、「自動変換」とは、FTPソフトについているファイルの自動認識機能のことではありません。改行コードを変換しながら転送してくれることであって、ファイルの拡張子によってそのファイルをどちらのモードで転送するかを自動判別する機能と間違わないでください。ファイル転送するときは、できるだけ自分で転送モードを指定して行ってください。一般的に、*.txtや*.htmlなどがアスキー転送に設定されており、自分でその設定をしない限り、 *.cgiがアスキー転送ファイルとして設定されていなければ、自動判別にしておくとバイナリモードで転送されてしまいます。

正式にはどう処理するの？

私もいままで、アスキーモードを指定すると、改行コードに関係なくファイル転送が行えると勘違いしていました。そこで、「アスキーモード」でと指示してきましたが、それがどういう処理をすることなのかを把握しておかないと、その他の環境の方(特にＭＡＣ！)やデータの書き換えなどの際にトラブルが生じてしまいます。当サイトの説明文をすべて書き換える手間が非常に大変なので、いままでの記述を変更するつもりはありません。そこでこのページを作成し、必ず一度は見て理解しておいていただくようにしたのです。

正しくは、ファイル転送時に注意することは、 「転送先のＯＳの改行コードにあらかじめ変換したファイルをバイナリモードで転送する」ということなのです。

私はＭＡＣのことはよくわかりませんが、ＭＡＣの方はパソコン上でUNIX用の改行コードに変換保存できるソフトを用い、よく利用されている「fetch」というFTPソフトで「RAWDATA」を選択して転送することで、当サイトで言うところの「アスキーモードで転送」と同じ操作ができることになります。さらにＭＡＣの場合は「ISOトランスファ」のチェックを外してください。

■漢字コードについて

一般的に、UNIXで利用する漢字コードはEUCです。しかし、私のようにWINDOWSを利用しているユーザにとってEUCを扱うのは非常に不便です。 WINDOWS上ではSJISが使われています。そこで、当サイトのスクリプトは、特に指定が無い限り、 SJISで作成しており、SJISのまま設置することで動作するように設計しています。

しかし、SJISで設置することによって様々な弊害があります。これは、処理上、メタ文字(特殊文字)とSJISのコードが一部合致してしまう文字があるためです。さらに、マッチ処理をする際には致命的なエラーが発生してしまいますので、マッチ処理にかける前にEUC変換するなど、時間のかかる処理をしなければなりません。

文字化けになった方のほとんどが、設置時にSJIS以外の漢字コードで設置しているようです。上記の秀丸エディタ等の、保存時に漢字コードも変換できるソフトで、知らず知らずにSJIS以外のコードで保存してしまっていることがよくあります。ブラウザの表示文字コードを自動以外に設定し、ブラウザで表示した時に化けない設定が何かを確認することによって、現在の漢字コードを知ることができます。

スクリプトをEUCに変換して設置することが一番確実ですが、スクリプト中の漢字コード変換部分の設定を書き換える必要もあります。この程度であればある程度の勉強でいじることはできます。

現在ではユニコードが多く使われだしましたが、当サイトのスクリプトの多くはユニコードを使いません。ご了承ください。

以上のことを十分理解して、当サイトのスクリプトをご利用ください。