ネスケでフォルダ名とか2バイト文字はだめ?

[上に] [前に] [次に]
RYO 2000/03/15(水) 11:56:29
もしかしたら、前に同じ質問をしたかたがいらっしゃるかもしれませんが、フォルダ名とか、ファイル名に2バイト文字を使用するとページが表示されないのですが、何か解決方法はないのでしょうか?

喪黒福子 2000/03/15(水) 12:20:26
使用禁止なんです。
パスに2バイト文字使うような無頓着な人にネットを使う資格はありません。

しいば 2000/03/15(水) 12:50:58
PC上のファイルであれば、
2バイト文字を使っていてもネスケで開けますけど・・・、
web上の話なんでしょうか?
URLで2バイト文字は確かに見たことはないですねぇ。
でも、NTサーバで日本国内のみ閲覧可能とするページであれば、
可能なような気がしますが・・・。
こんな素人的な発言をすると怒られるかな?

RYO 2000/03/15(水) 13:02:04
[[解決]]
やっぱりだめですよね。
国内の人が見るとは限らないし・・・。
喪黒福子さん、しいばさんレスありがとうございました。

無責任官庁 2000/03/15(水) 13:45:51
> 使用禁止なんです。

正確に言うと“禁止”というのはちょっと違いますね。
禁止では無くて、“定義されていない”という所でしょうか。
URLに使用できるのは半角英数字と一部の記号(詳しくは知りませんが)
のみ…と定義されているんですね。何かの仕様で。
(これもよく分かりません)

ですから、IEが2バイト文字を使える方が、特別だと思った方がいいです。
Winの場合、IEがファイルシステムも管理するんで、Winのファイル
と同じものも使えてしまうだけでしょう。
ネスケがダメじゃなくて、IE以外の全てのブラウザが2バイト文字の
URLを利用できないと思います。

> NTサーバで・・・(以下略)

これは別に国内に限ったことでは無いと思います。
IE5から付いた機能に“UTF−8を使用する”というものがあります。
これが使えるサーバー・クライアント間では、2バイト文字のURLも
何も問題ナシですね。
(とか言っても結局今はIEのみの世界…)

三原克大 [E-Mail] 2000/03/15(水) 16:36:07
> 正確に言うと“禁止”というのはちょっと違いますね。
> 禁止では無くて、“定義されていない”という所でしょうか。

HTML 4 から具体的な定義とアルゴリズムが決まりました。
あえて使いたいなら...
1.当該文字を UTF-8 で表現したときのバイト列を求める
  ドキュメントが用いている文字コードは無視
2.バイト列を、URI のエンコード規則に沿って
  ASCII によるエスケープ表現に置き換える
http://www.w3.org/TR/html4/appendix/notes.html#h-B.2
既存のブラウザがドキュメントの文字コードに従うことを
前提にリンクが張られている場合もあり非互換性が出るけれど
まずは UTF-8 での操作を試すこと、
と仕様書に明記されていたりします。
URL, URI の仕様書については
上記の節からリンクが張られています。

これ、ブラウザだけでなくて
サーバも対応していないといけませんから
# URL は UTF-8 でも
# サーバ上のパス名が EUC-JP とか Shift_JIS とか
今のところは実用的でありません。

三原克大 [E-Mail] 2000/03/15(水) 18:32:24
あ。上のアルゴリズムだと、
既存のアンカーで漢字を用いているものはほぼ全滅です。
URL の定義を再確認したら
かつては '#' は unsafe だったから
%23 に置き換えなければなりませんでしたし。
# URI (RFC 2396) ではそのままで使えるようだけれど
# URL (RFC 1738) ではダメだと明言されています。
(思っていたより)すごいことになっていました。

三原克大 [E-Mail] 2000/03/16(木) 00:47:46
この話題ってあったんですね。騒いでいるのは私だけですか。
../199911/99110242.htm
../199912/99120113.htm

後の問題は GET, POST ですが、

  Note. The "get" method restricts form data set values to ASCII characters. Only the "post"
  method (with enctype="multipart/form-data") is specified to cover the entire [ISO10646]
  character set.

  The content type "application/x-www-form-urlencoded" is inefficient for sending large
  quantities of binary data or text containing non-ASCII characters. The content type
  "multipart/form-data" should be used for submitting forms that contain files, non-ASCII data,
  and binary data.

  The content "multipart/form-data" follows the rules of all multipart MIME data streams as
  outlined in [RFC2045]. The definition of "multipart/form-data" is available at the [IANA]
  registry.

という、既存の日本制 CGI プログラムには
つらいかも知れない制限がついています。
# 全て HTML 4.01 Specification より
# http://www.w3.org/TR/html4/interact/forms.html#h-17.13
RFC 2045 は、文字セットを規定していなくて、
MIME character set を指定するように、とだけ記しています。

[上に] [前に] [次に]