2ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

文字コード総合スレ part7

1 :デフォルトの名無しさん:2011/05/29(日) 00:12:44.96
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/

2 :デフォルトの名無しさん:2011/05/29(日) 02:18:26.51
■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/

3 :デフォルトの名無しさん:2011/05/29(日) 02:19:14.95
漢字袋
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/
池田証寿
http://homepage3.nifty.com/shikeda/zatsubun.htm
SJIS2004とかJISX213系の文字コード表
http://x0213.org/codetable/
※JISCの奴は無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
Windowsで扱える文字一覧(コードページ毎で良ければ)
http://www.microsoft.com/globaldev/reference/cphome.mspx
docomoの携帯コンテンツ制作者向け文字コード情報
http://www.nttdocomo.co.jp/service/imode/make/
auの携帯コンテンツ制作者向け文字コード情報
http://www.au.kddi.com/ezfactory/
SoftBank携帯コンテンツ制作者向け文字コード情報
http://creation.mb.softbank.jp/
漢字データベース
http://kanji-database.sourceforge.net/index.html

4 :デフォルトの名無しさん:2011/05/29(日) 02:20:00.21
Google Standard Unicode Emoji Mapping
http://unicode.org/~mdavis/08080r-emoji-proposal/
Proposal for Encoding Emoji Symbols/N3582
http://unicode.org/~scherer/emoji4unicode/snapshot/emoji.pdf
Emoji Symbols: Background Data
http://unicode.org/~scherer/emoji4unicode/snapshot/full.html
Amd.7のドラフト
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3580.pdf
MacOSでのShift_JISとUnicodeとのマッピング
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT
MS-DOS 5.0〜WindowsXPまでのコードページ
http://msdn.microsoft.com/en-us/goglobal/cc563921.aspx
Supported Code Pages (コードページなしは変換)
http://msdn.microsoft.com/en-us/library/aa288104(VS.71).aspx
Code Pages Supported by Windows (コード表)
http://msdn.microsoft.com/en-us/goglobal/bb964654.aspx

5 :デフォルトの名無しさん:2011/05/29(日) 02:52:45.34
リンク集も古くなっちまったな・・

6 :デフォルトの名無しさん:2011/05/29(日) 07:51:01.39
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
 内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
 機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

7 :デフォルトの名無しさん:2011/05/29(日) 07:51:54.14
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
 UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
 サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
 ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか

8 :デフォルトの名無しさん:2011/05/29(日) 07:53:14.72
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
  → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
 Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
 コントロールパネル-地域と言語のオプション-[言語]タブで
 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

9 :デフォルトの名無しさん:2011/05/29(日) 09:21:24.19
■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
http://www1.ttcn.ne.jp/~kaneto/dll/nkf32dll.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/

10 :デフォルトの名無しさん:2011/05/29(日) 09:21:52.15
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。

11 :デフォルトの名無しさん:2011/05/30(月) 09:46:51.87
今となっては>>3-4はもういらないんじゃないか
あとWG2方面のリンクがないので追加

JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/

日本の委員 (JSC2)
http://www.itscj.ipsj.or.jp/meibo/020000.pdf

12 :デフォルトの名無しさん:2011/05/31(火) 10:54:51.14
前スレdat落ち

13 :デフォルトの名無しさん:2011/05/31(火) 13:54:38.53
甲乙丙丁戊己庚辛壬癸
癸だけが第二水準

14 :デフォルトの名無しさん:2011/06/01(水) 01:05:54.50
   ___              
  / ||>>1 .||   ∧_∧  
  |  ||乙_|| (・ω・`)  
  | ̄ ̄\三⊂/ ̄ ̄ ̄/  
  |    | ( ./     /  

15 :デフォルトの名無しさん:2011/06/01(水) 04:42:56.52
あちゃー前スレ落ちちゃったかー

16 :デフォルトの名無しさん:2011/06/02(木) 07:19:52.68
ほー、日本は小書きコに反対か。
汎用電子IVDに続いてアドビとしちゃ面白くないだろうな。

17 :デフォルトの名無しさん:2011/06/02(木) 07:52:40.89
反対するのが生きがいのような連中がWG2に居座ってるからな。

つーかIRGN1757にも反対しろよ。普通なら真っ先に反対してるだろ。
返す刀で汎用電子の追加登録に何か言われたくないのか?

18 :デフォルトの名無しさん:2011/06/02(木) 08:07:17.38
汎用電子で思い出したけど
ttp://twitter.com/ogwata/status/48519614107357184
↑これってMSやAdobeみたいな実装する側の意向すら差し置いて
ああいう決定したってことでしょ
よっぽど声のでかい理屈屋がいるんだろうな

19 :デフォルトの名無しさん:2011/06/02(木) 08:47:14.90
n4091
>some discussion in Japan on the possibility to have a standard set of hentaigana.

おっ!?

20 :デフォルトの名無しさん:2011/06/02(木) 09:43:46.13
Japanって常々どうも理解しがたい主張ばかりしてる気がする

21 :デフォルトの名無しさん:2011/06/02(木) 10:02:19.08
小書きコの運命やいかに

22 :デフォルトの名無しさん:2011/06/02(木) 10:40:53.94
もういっそ五十音全部小書き版作っちゃえよ

23 :デフォルトの名無しさん:2011/06/02(木) 10:48:42.38
http://slashdot.jp/%7Eyasuoka/journal/532369
「ネ申」と「示申」でいいよ

24 :デフォルトの名無しさん:2011/06/02(木) 11:05:08.26
ねもうす
しめしもうす

25 :デフォルトの名無しさん:2011/06/02(木) 19:55:59.03
UTCは小書きこを受理済みなのね
てことは日米での殴り合い確定か

26 :デフォルトの名無しさん:2011/06/02(木) 21:04:17.55
カゲながら米を応援したいと思ってる

27 :デフォルトの名無しさん:2011/06/03(金) 16:46:44.07
日本が何らかの決断するまで変体仮名は前に進められなくなっちゃったかも

28 :デフォルトの名無しさん:2011/06/05(日) 19:39:18.80
ヘルシンキかあ。ちょうど白夜の時期なんだろうなあ。

29 :デフォルトの名無しさん:2011/06/09(木) 15:06:10.33
377 :SIM無しさん:2011/06/09(木) 06:40:25.91 ID:7+dIaRVO
Segoe UI Symbol を担当した Agfa Monotype の人間出てこい…

気になる点を調べたが…
おでんの具の刺さり方がとんでもなかったり、ひな祭りの人形が百合祭り (性指向) の人形になってたり、
出来れば製品版で直っていてほしい。

30 :デフォルトの名無しさん:2011/06/09(木) 18:23:38.45
どこで見たんだろ。SDKには入っていなかった気がするけど。

31 :デフォルトの名無しさん:2011/06/09(木) 20:13:40.68
AppleはAppleで絵文字専用フォントフォーマット作っちゃったようだし
結局プラットフォームごとにバラバラな見え方することになるんだろうな

32 :デフォルトの名無しさん:2011/06/09(木) 22:22:48.52
うむ

33 :デフォルトの名無しさん:2011/06/10(金) 21:10:14.97
安岡センセイ、文字コード関係で編集合戦の結果、ウィキペディア無期限ブロック
ttp://ja.wikipedia.org/w/index.php?title=%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80&oldid=37835032

34 :デフォルトの名無しさん:2011/06/10(金) 21:29:13.46
安岡先生どこで編集合戦したの?

35 :デフォルトの名無しさん:2011/06/10(金) 21:59:54.70
ttp://ja.wikipedia.org/wiki/QWERTY

36 :デフォルトの名無しさん:2011/06/10(金) 23:52:11.43
直接ウィキペディアをいじっちゃ駄目だろ
ウィキペディアの出典になりうる文書を書くほう(本業)を頑張ることだな

37 :デフォルトの名無しさん:2011/06/11(土) 01:42:04.40
お前ら反応する前に確認しろよ。濡れ衣だったとかで既に解除されてるぞ
http://ja.wikipedia.org/wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80


38 :デフォルトの名無しさん:2011/06/11(土) 13:06:57.30
自著を典拠にして自分でwikipediaの記事書いてた/るってこと?

39 :デフォルトの名無しさん:2011/06/11(土) 13:17:35.16
なにか問題あるの?

40 :デフォルトの名無しさん:2011/06/11(土) 13:19:40.12
アンチ安岡の病人がネットには何人かいるようだから、そのうちの一人だろ。
相手にすんな。

41 :デフォルトの名無しさん:2011/06/11(土) 13:39:48.34
>>39
別に問題はないけど>>36と同じような感想は持った。

42 :デフォルトの名無しさん:2011/06/11(土) 14:14:43.84
小書きこ入らなかったか…

43 :デフォルトの名無しさん:2011/06/11(土) 15:38:11.75
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4108.pdf
> Moreover, Japan national body is not comfortable with the idea to encode such
> ad-hoc inventions in UCS. Generally speaking, authors can do anything he/she
> considered appropriate, and most of those novel usages are just forgotten
> without any followers. We should not encode new characters unless they are
> considered to have some established usages.
JIS X 0213は吉本隆明のためだけにU+2A437「??」を収録したけどな。

44 :デフォルトの名無しさん:2011/06/11(土) 15:41:19.99
Janeから書いたら「𪐷」が文字化けした

45 :デフォルトの名無しさん:2011/06/11(土) 17:08:15.19
こんなにいっぱい矢印が入ることは見過ごせても
ちっちゃいコが二つ入ることは容認できないのね

46 :デフォルトの名無しさん:2011/06/11(土) 18:43:38.95
Jane(笑)

俺のV2C△□×

47 :デフォルトの名無しさん:2011/06/11(土) 19:19:17.91
>>46
しかも>>44がU+A437に文字化けして見えるんだぜorz

48 :デフォルトの名無しさん:2011/06/11(土) 19:21:23.38
>>45
一度入れたらなし崩しになるとでも思ってるのかね。
その観点ではもう手遅れもいいところだろ

49 :デフォルトの名無しさん:2011/06/11(土) 21:12:12.89
これが漢字なら、写研の文字セットにもある(キリッ
って逆に典拠として使いそう

50 :デフォルトの名無しさん:2011/06/11(土) 21:13:22.80
漢字はいろんな意味で特別扱いされてるよな
雪だるまとか包摂されまくりなのに

51 :デフォルトの名無しさん:2011/06/11(土) 21:17:55.05
写研といえばBA-90のUnicode収録マダー? (AAry
ログインとかうる星やつらで使用実績もあるぞ

52 :デフォルトの名無しさん:2011/06/11(土) 21:22:52.77
U+1F31Dに包摂されるんじゃないの

53 :デフォルトの名無しさん:2011/06/11(土) 21:32:23.65
(笑)が使われる以前はインタビュー記事とかでも結構使われてたな。

54 :デフォルトの名無しさん:2011/06/11(土) 21:44:56.41
今見ると{ハハッ ワロス}って吹出しがつきそうな顔だ。

55 :デフォルトの名無しさん:2011/06/11(土) 21:47:27.79
         ____
        /      \
       /  ─    ─\
     /    ⌒  ⌒  \     ハハッワロス
     |       ,ノ(、_, )ヽ    |
      \      トェェェイ   /
       /   _ ヽニソ,  く

よく雰囲気出てるな

56 :デフォルトの名無しさん:2011/06/11(土) 23:40:30.40
>>37
火のないところに煙は立たず

57 :デフォルトの名無しさん:2011/06/12(日) 00:01:57.07
ウィキペディアの管理者は一般利用者に対しては火のないところにも煙を立てるけど
CheckUserの靴下疑惑は「同棲してました」で済ませる人格者ぞろいだからな

58 :デフォルトの名無しさん:2011/06/12(日) 06:33:56.02
火のないところに火を付けて煙を立てる2ちゃんねらーが言うなw

59 :デフォルトの名無しさん:2011/06/12(日) 13:09:47.13
先週のWG2で日本に関係ありそうなのは
・コンソーシアムがUTS37などを改訂する時はWG2の意見を尊重すること
くらいかな

あとは
・Wingdings/Webdingsの記号がいっぱい受理された
・線文字A受理
・Amd8から先送りされ続けているA78Fがまた先送り
・USがこれ文字じゃないだろと言い続けて同じく先送りされてきた1BFA-1BFBがとうとう削除
・三つ巴の提案で暗礁に乗り上げていたOld Hungarianがようやく決着
・ミーティングの間隔が空きすぎているのでためしにオンライン会議を導入

60 :デフォルトの名無しさん:2011/06/12(日) 14:24:05.84
オンライン会議って動画をやりとりするの? チャットじゃなくて

61 :デフォルトの名無しさん:2011/06/12(日) 14:51:45.40
discussion list and teleconferencing facilities
って書いてあるねぇ。

62 :デフォルトの名無しさん:2011/06/13(月) 21:40:33.05
>>57-58
マジレスするが2chと同等かそれ以上にdqnのスクツ

63 :デフォルトの名無しさん:2011/06/13(月) 21:53:45.00
安岡センセイのWikipedia投稿記録、自著の宣伝ばっかり
http://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:%E6%8A%95%E7%A8%BF%E8%A8%98%E9%8C%B2/%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80

64 :デフォルトの名無しさん:2011/06/13(月) 22:42:18.60
著書にすらできない脳内ソースを延々書き連ねるよりよっぽどマシだな

65 :デフォルトの名無しさん:2011/06/13(月) 23:32:05.43
>>59
UTS37の改訂って↓コレ?
ttp://www.unicode.org/review/pri184/

66 :デフォルトの名無しさん:2011/06/13(月) 23:40:33.85
それも含めて10646からnormativeとして参照している文書すべて
らしい

67 :デフォルトの名無しさん:2011/06/14(火) 00:13:40.29
確かにUnicode側の都合だけで参照文書コロコロ変えられたらたまらんよな

68 :デフォルトの名無しさん:2011/06/14(火) 00:37:22.70
一度手にした白紙委任状をコンソーシアムがそう簡単に手放すかな〜

69 :デフォルトの名無しさん:2011/06/14(火) 13:14:23.65
>>65
俺の英語力がないのか、内容がわからん
何のためにこんな改訂するの?

70 :デフォルトの名無しさん:2011/06/14(火) 22:37:51.65
glyphic subsetが集合であることを明確化するため

71 :デフォルトの名無しさん:2011/06/15(水) 01:32:20.54
後から追加可能だったら閉集合にならないじゃん

72 :デフォルトの名無しさん:2011/06/15(水) 01:43:42.95
glyphic subsetに何が含まれないかはもともとはっきりしていない
何が含まれるかがより明確になるだけマシ

73 :デフォルトの名無しさん:2011/06/15(水) 13:51:52.85
「私の知っているKen Lundeなら必ずやる」にワロタ

74 :デフォルトの名無しさん:2011/06/15(水) 18:36:43.13
互いに素?

75 :デフォルトの名無しさん:2011/06/16(木) 10:19:49.12
無理だろうな

76 :デフォルトの名無しさん:2011/06/16(木) 23:47:48.31
>>74
2つのglyphic subsetが共通部分を持たない、って意味じゃね?

77 :デフォルトの名無しさん:2011/06/18(土) 20:18:31.95
向こうしばらくの主戦場はIVSか。

78 :デフォルトの名無しさん:2011/06/21(火) 21:28:13.55
PRI 183キター

79 :デフォルトの名無しさん:2011/06/22(水) 16:55:43.29
>互換漢字「氈v(U+FA20)はIVSの基底文字になれない
IVSの基底文字になれなかったら
艸カンムリ3画・4画の差をどうやって分けるの?

80 :デフォルトの名無しさん:2011/06/22(水) 23:06:50.55
>>79
U+FA20はバグだと主張して新たに統合漢字として追加提案する

81 :デフォルトの名無しさん:2011/06/23(木) 11:24:52.63
>>79
U+8612に艸カンムリ3画・4画のIVSを両方追加する

82 :デフォルトの名無しさん:2011/06/27(月) 00:22:37.18
うむ

83 :デフォルトの名無しさん:2011/06/27(月) 01:35:29.50
U+2B789とU+2B78Eみたいなことになりそうなのが微妙

84 :デフォルトの名無しさん:2011/06/29(水) 00:10:15.15
文字コードとRFC(2822)の関連性について、どなたか教えてください

85 :デフォルトの名無しさん:2011/06/29(水) 00:12:53.46
なんでRFC 5322に廃止された2822?

86 :デフォルトの名無しさん:2011/06/29(水) 00:15:48.26
UTS #37でdeprecationも規定してほしい

87 :デフォルトの名無しさん:2011/06/29(水) 09:51:55.55
>>85
すいません、今は更新されてRFC5322なんですね。
文字コードとRFC(5322)の関連についてのレポートを書かなければいけないのですが
いまいち良く分からないので、こんなの書いたら良いよっていうのがあれば教えてほしいです。

88 :デフォルトの名無しさん:2011/06/29(水) 11:16:40.59
文字コードのことわかってない土方大杉。

89 :デフォルトの名無しさん:2011/06/29(水) 22:44:26.13
>>87
質問が漠然としすぎててなあ。
・RFC 5322ではContent-Typeヘッダフィールドで本文の文字コードを指定する
・日本ではRFC 1468に従いふつーISO-2022-JP
・最近はUTF-8も増えてる
 (とくにRFCに根拠はないが強いてあげればIMC勧告から参照されているRFC 2277)
・添付ファイルの内容の文字コードはMIMEのRFC(2045〜2047)に従う
・添付ファイル名の文字コードはRFC 2231に従う
あとは適当にふくらませてくれ

90 :デフォルトの名無しさん:2011/06/30(木) 11:42:26.96
>>89
> ・添付ファイル名の文字コードはRFC 2231に従う

ちょっと表現が微妙ですね。


91 :天使 ◆uL5esZLBSE :2011/07/03(日) 17:50:47.53
2011年、Ruby,Perl,PHP,Pythonって並べたときにさ
ここで、Ruby以外を選ぶ奴ってマジでなんなんだろうな
ゴミグラマは社会底辺

92 :デフォルトの名無しさん:2011/07/04(月) 22:06:08.42
>>91
Rubyみたいに糞遅いもの使えるか。
どーせメンテしないなら、呪文みたいなperlのコード書く。


93 :デフォルトの名無しさん:2011/07/04(月) 22:08:15.73
荒らしはともかくそれにコメントしようとする前にせめてスレタイをみてくれないか

94 :デフォルトの名無しさん:2011/07/04(月) 22:19:29.63
>>93
何お前まだ表示してるの?
人生無駄にしてるな

95 :デフォルトの名無しさん:2011/07/06(水) 09:18:43.22
汎用電子第二陣もう来たのか。早かったなあ。

96 :デフォルトの名無しさん:2011/07/06(水) 22:54:32.65
>>95
安岡センセイが指摘したU+2B751
さっぱりわけわからん

97 :デフォルトの名無しさん:2011/07/09(土) 10:28:48.24
文字エンコーディング変換を自前で作ってしまう人はあとをたたない
http://fallabs.com/blog-ja/promenade.cgi?id=137

98 :デフォルトの名無しさん:2011/07/09(土) 12:00:15.14
全員が職業プログラマーってわけじゃないから別にいいだろ。
でもこのセンスの無い糞コードは何とかしたほうがいい。

99 :デフォルトの名無しさん:2011/07/09(土) 12:20:44.32
コンバータが大きくて不恰好なのは、過去あんまりにもめいめいに勝手な変換が行なわれたせいだ
だから、iconvが大きいと文句を言うのなら、変換にはiconvを使わなければならない
自分で文字コード変換なんて絶対にやってはいけない
ましてや公開とかありえない

100 :デフォルトの名無しさん:2011/07/09(土) 12:47:48.19
>変換にはiconvを使わなければならない
>ましてや公開とかありえない
はいはい。オマエは黙ってろ

101 :デフォルトの名無しさん:2011/07/09(土) 13:01:11.05
既存の何を使うかはともかく、自力で絶対にやってはいけないのは確かだな
自力でやって「どうしてこんなことをライブラリに頼らなければならないのだろう」と感じたならなおさら

102 :デフォルトの名無しさん:2011/07/09(土) 13:08:33.47
UTF間の変換ごときで外部ライブラリをリンクしたくないってのは同意できる。

せめて標準ライブラリが使い物になればいいんだけどな。
char16/32_tも、mbrtoc16等の関数群はあるけどこれってもしかしなくてもロケール依存だよな……?

103 :デフォルトの名無しさん:2011/07/09(土) 13:14:35.65
Unicode 6を読んでもISO/IEC 10646:2011を読んでもUTF-8は最大4バイト
としか読めないんだが、6バイトとか言う奴はなんなの?

104 :デフォルトの名無しさん:2011/07/09(土) 13:19:13.10
まあ、ライブラリの粒度がもうすこし細かければ全員ハッピーなんだと思う
そんな世界なら、わざわざ自分でやろうと考える人もおるまい

105 :デフォルトの名無しさん:2011/07/09(土) 13:19:57.06
>>103
31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
今んとこ21ビットしか使ってないからとりあえず4バイトでおkだけど
文字が割り当てられてないコードをUTF-8に変換しても維持しようとするなら6バイト対応が必要。

106 :デフォルトの名無しさん:2011/07/09(土) 13:24:33.40
>>105
>31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
それはUTF-8じゃないよ。ill-formedと書かれてるんだから。
3.9『Any UTF-8 byte sequence that does not match the patterns listed in Table 3-7 is
ill-formed.』

107 :デフォルトの名無しさん:2011/07/09(土) 13:40:06.71
サロゲートを思い出すんだ。今illだからといってry

108 :デフォルトの名無しさん:2011/07/09(土) 13:48:08.11
>>103
> 6バイトとか言う奴はなんなの?
ただのジジイ。放置でおk。

109 :デフォルトの名無しさん:2011/07/09(土) 14:10:13.34
でも最大4前提で確保したバッファを最大6前提の変換ルーチンに渡したりすると……

110 :デフォルトの名無しさん:2011/07/09(土) 14:22:50.54
どんなルーチンも、バッファサイズ等の要件は仕様に明記し、両者それに従うべきで、UTF-8がどうとかは別問題

111 :デフォルトの名無しさん:2011/07/09(土) 23:24:12.31
安岡センセイは8バイト必要って言ってる
http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/

112 :デフォルトの名無しさん:2011/07/09(土) 23:30:28.31
base (3〜4バイト) + vs (4バイト)で最大8バイトってだけの話がどうかしたか?
ちなみにUnicodeは結合文字列の長さや組み合わせに何の制限も設けていないので
よろしく

113 :デフォルトの名無しさん:2011/07/10(日) 02:09:44.32
この記事見た時いやーな予感したんだよな。
これ読んで「じゃあ8バイト分のバッファを確保すればいいのか」みたいな解釈する
プログラマが出ないかって。

114 :デフォルトの名無しさん:2011/07/10(日) 02:18:55.43
VSに関しては例外的に「複数付けられない」「合成済み文字には付けられない」
「結合文字には付けられない」という制限があってむしろ簡単な部類なんだよな

115 :デフォルトの名無しさん:2011/07/10(日) 03:36:29.63
安岡はもう引退した方がいい。既に頭が老人ぼけずぎ

116 :デフォルトの名無しさん:2011/07/10(日) 03:43:18.92
「漢字1文字につき」って書いてあるが、漢字で2つ以上結合し、それがフォントのテーブルでサポートされてるグリフってある?

117 :デフォルトの名無しさん:2011/07/10(日) 03:44:38.90
2つ以上って、ベースを除いた数ね

118 :デフォルトの名無しさん:2011/07/10(日) 07:24:51.78
VSは2つ以上くっつけられないけどその他の結合文字はいくらでも付けられる。
たとえば濁点・半濁点付きの異体字なんかも可能だし
それをさらにCOMBINING CIRCLEで丸囲みすることも可能。
実装がサポートしているかどうかは知らない

119 :デフォルトの名無しさん:2011/07/10(日) 07:26:41.38
>>115
「互換漢字にVSを付けられるようにすればいい」とか何も考えてないにもほどがあるよな

120 :デフォルトの名無しさん:2011/07/10(日) 08:17:19.12
>>118
フォントにない文字を合成しても表示できないんだし、UTF-8だと(世間一般でいう)漢字は
最大4+4=8バイトの説明でいいんじゃないかなあと。実装されたグリフがあれば別だけど。

121 :デフォルトの名無しさん:2011/07/10(日) 08:21:26.94
当然、世間一般的な説明の範囲で。

122 :デフォルトの名無しさん:2011/07/10(日) 08:59:14.71
JIS系のコードからの変換で、なんやかんや付きまくってコードポイントが3つ以上になったりするものはある?

123 :デフォルトの名無しさん:2011/07/10(日) 11:07:46.51
>>120
> フォントにない文字を合成しても表示できないんだし

なことはない。美しくないだけ。


124 :デフォルトの名無しさん:2011/07/10(日) 12:55:47.64
>>123
一応、OpenType だと ccmp の話なんだけど。他のフォーマットだとそう?

125 :デフォルトの名無しさん:2011/07/10(日) 13:44:31.80
ラテン文字のダイアクリティカルマークなんかはすべての組み合わせ済みグリフが
あらかじめ収録されているわけじゃないぞ
濁点だってそういう実装は可能だし漢字に付けるなら現実的に言ってそういう
実装しかできないだろ

126 :デフォルトの名無しさん:2011/07/10(日) 13:46:27.84
Firefoxは正しく表示できなくても基底文字+結合文字をちゃんと選択や編集の
最小単位として扱う

127 :デフォルトの名無しさん:2011/07/10(日) 14:10:37.77
>>125
すべて収録されてないのは当然そんなことわかってる。
今は漢字の話だが、表示されないってところは認めてるわけだな。

128 :デフォルトの名無しさん:2011/07/10(日) 14:43:34.31
>>127
お前わかってねーじゃんw

129 :デフォルトの名無しさん:2011/07/10(日) 14:47:13.64
>>128
お前こそ話がわかってない。
いままでの話、もう一度読んでくれ。

130 :デフォルトの名無しさん:2011/07/10(日) 15:56:20.57
>>122
JIS X 0212の11-80とか?

131 :デフォルトの名無しさん:2011/07/10(日) 18:29:04.88
MIME導入前のメールの文字コードの区別ってどうやってしていたんですか

132 :デフォルトの名無しさん:2011/07/10(日) 18:45:25.59
エスケープシーケンス入っていればISO-2022-JP
8bitならISO-8859-*のどれか
どれでもなければASCII

さらにFrom:の人間に対する知識を合わせて。

いろいろ調べてShift_JISで送ってきたことが判明したら「おまえ殺すぞ」と返事。


133 :デフォルトの名無しさん:2011/07/10(日) 21:39:04.61
>>130
それ漢字じゃないだろ

134 :デフォルトの名無しさん:2011/07/10(日) 21:48:41.74
>>119
>「互換漢字にVSを付けられるようにすればいい」

http://slashdot.jp/%7Eyasuoka/journal/533227 のこと?
>ただ、私(安岡孝一)個人としては、
>これらのカウンターアクションを必ずしも望まない。
って書いてるんだから、これ安岡センセイのブラフだろ。

135 :デフォルトの名無しさん:2011/07/10(日) 22:13:28.91
EBCDIC
SJIS変換どうやったらいい?

136 :デフォルトの名無しさん:2011/07/10(日) 22:22:59.38
漢字入りのEBCDICか?

137 :デフォルトの名無しさん:2011/07/10(日) 22:26:37.64
>>134
U+FA20は互換漢字から外すべき
とは俺も思った

138 :デフォルトの名無しさん:2011/07/10(日) 23:47:22.43
せめてどのメーカーのEBCDICかくらい指定してもらわないと答えようがない

139 :デフォルトの名無しさん:2011/07/10(日) 23:53:28.06
google先生にebcdicで問い合わせると...

140 :デフォルトの名無しさん:2011/07/10(日) 23:54:44.51
邪魔だからわからない人は書き込まないでくれないか?

141 :デフォルトの名無しさん:2011/07/10(日) 23:56:38.41
iconvとか使えばいいだけだろうに

142 :デフォルトの名無しさん:2011/07/11(月) 00:29:45.34
じゃまだから質問の仕方がわからない奴は書きこまないでほしい

143 :デフォルトの名無しさん:2011/07/11(月) 06:11:05.03
>>137
U+FA20を互換漢字でなくすのと互換漢字にVSを許すのはまったく違う

144 :デフォルトの名無しさん:2011/07/11(月) 07:41:09.86
うむ

145 :デフォルトの名無しさん:2011/07/11(月) 14:09:31.48
KEISのSJIS変換は?

146 :デフォルトの名無しさん:2011/07/11(月) 23:13:06.76
むう

147 :デフォルトの名無しさん:2011/07/12(火) 00:48:07.50
SKFのソースを見るといいかも
http://sourceforge.jp/projects/skf/

148 :デフォルトの名無しさん:2011/07/12(火) 21:03:28.00
サンキュ。とりあえず読みかけた。

149 :デフォルトの名無しさん:2011/07/13(水) 21:46:43.55


150 :デフォルトの名無しさん:2011/07/13(水) 21:48:52.77
>>149
これの読み方教えて。

151 :デフォルトの名無しさん:2011/07/13(水) 21:58:28.31
TAMIL YEAR SIGNだとさ

つ ttp://www.fileformat.info/info/unicode/char/bf5/index.htm


152 :デフォルトの名無しさん:2011/07/13(水) 22:15:08.87
>>151
どうもありがとう!

153 :デフォルトの名無しさん:2011/07/13(水) 22:20:47.01
௵これより大きな文字や記号はあるのだろうか?

154 :デフォルトの名無しさん:2011/07/14(木) 00:21:35.65


155 :デフォルトの名無しさん:2011/07/14(木) 00:23:10.13
ミス

156 :デフォルトの名無しさん:2011/07/14(木) 23:22:25.05
中国は通用規範漢字で表外字への簡化の適用を廃止してたのか。
ますますIRGN1757はアホだな。
類推適用されるなら少しは気持ちがわからんでもなかったが

157 :デフォルトの名無しさん:2011/07/15(金) 16:59:36.77
>>156
でもUTC-00071とかUTC-00677とかは、通用規範漢字なんだろ?

158 :デフォルトの名無しさん:2011/07/16(土) 10:20:08.01
>>157
y-variantは独立に符号化すべき
現在符号化されていない通用規範漢字は130文字くらいあるみたいなのに
その一部しか取り上げていないんだから通用規範漢字に対応するのが
目的でもなさそうだし

159 :デフォルトの名無しさん:2011/07/16(土) 10:23:40.24
しかもUTC-00071はExt.Eに提案中だしUTC-00677に至ってはU+2B5AFに符号化済み

160 :デフォルトの名無しさん:2011/07/17(日) 07:15:03.60
MingLiUのU+8BDEはバグってるな(U+4725と同じ字形が入ってる)

161 :デフォルトの名無しさん:2011/07/18(月) 06:00:40.12
どうすんだよもう

162 :デフォルトの名無しさん:2011/07/18(月) 11:42:31.44
もうすんだよどう?

163 :デフォルトの名無しさん:2011/07/18(月) 13:13:12.26
MSゴシックの昴の字形みたいにいつの間にかこっそり訂正されてたりして。
その結果IBM拡張文字の昴の字形が入れ替わったわけだが
誰も話題にしていないところを見るとやっぱりほとんどの人にとっては自分の
名前に使われていない限りどうでもいいらしいな

164 :デフォルトの名無しさん:2011/07/18(月) 15:00:00.04
>>163
kwsk

165 :デフォルトの名無しさん:2011/07/18(月) 15:18:33.70
>>163
同じくkwsk

166 :デフォルトの名無しさん:2011/07/19(火) 01:22:49.71
H・Kとかいうアホに戦争中の東大生の文字中毒の話を予備校の日本史講師にされたと言われた
俺もそんな感じはある
と言ったらあのアホでバカで境界性人格障害のクズはため息つきやがった

文字への強迫性は悪い部分もあるんだろうが いい部分もたくさんあるんだよ だからH・Kに対して言わせてもらう、死ね、死んじまえ!

167 :デフォルトの名無しさん:2011/07/19(火) 06:24:44.75
>>164-165
昴じゃなくて昂だった。
JIS83で昂の字形がCID7680相当からCID1993相当に変わったんだけど
IBM拡張漢字の0xFAD0にはもともとCID1993相当の字形が収録されていた。
MSゴシックでは苦肉の策としてU+6602とU+663Bの両方にCID1993と
同じような字形を収録してIBM拡張漢字の0xFAD0はU+663Bに対応
させていたけど、JIS2004対応のついでにU+663Bの字形がCID7680
相当に変更された。結果としてIBM拡張漢字の0xFAD0の字形も変わった。

168 :デフォルトの名無しさん:2011/07/20(水) 01:45:50.26
フォントといえばWin7のTVゴシックシリーズって、SP1でもまだ隠し扱いなの?

169 :デフォルトの名無しさん:2011/07/20(水) 18:56:44.69
字形の細かい違いを拾いたい人と、捨象するのを是とする人とじゃ
話は噛み合わんだろうな。

170 :デフォルトの名無しさん:2011/07/20(水) 19:24:04.68
長さnのUTF16の文字列wchar_t[n]を、UTF8のchar[m]に変換した場合、
mはどのくらいの大きさであれば十分なのでしょうか?
自分程度の知識だと、UTF8は最大6バイトで1文字を表すので、
m=6nとすれば十分な大きさになるだろうと考えているのですが、
実際はもっと小さい容量でも足りるのではないか?と思っています。

また逆に、UTF8からUTF16にする場合、nはどのくらいの大きさが
あれば十分なのでしょうか?
UTF16はサロゲートペアで最大2要素で1文字を表すので、n=2m程度の
領域を確保してあげれば十分だと考えているのですが、実際は
どの程度あれば十分なのでしょうか?

よろしくお願いします。

171 :デフォルトの名無しさん:2011/07/20(水) 20:01:16.97
UTF-8とUTF-16で各コードポイント値が必要とするオクテット数は次の通り。
(左がUTF-8、右がUTF-16)

000000..00007f 1 2
000080..00007f 2 2
000800..00ffff 3 2
010000..10ffff 4 4

wchar_tが16bit以上ある環境なら右の値は半分になるので、
UTF-16→UTF-8の場合はm=3n、逆方向はn=1/2mとなります。

172 :デフォルトの名無しさん:2011/07/21(木) 06:30:02.31
wchar_tが32bitでUCSだったら普通はUTF-32を採用するんじゃね?

173 :デフォルトの名無しさん:2011/07/21(木) 06:37:51.57
>>171
どんな場合でも、m=3n, n=1/2mだけの領域を確保してあげれば、十分
という認識でよいでしょうか?

174 :デフォルトの名無しさん:2011/07/21(木) 07:12:56.52
>>171-172
逆方向はn=mじゃね?

175 :デフォルトの名無しさん:2011/07/21(木) 09:06:09.79
> UTF16の文字列wchar_t[n]を、UTF8のchar[m]

という前提のはなしだったら
UTF16 ⇒ UTF8: m = 3n
UTF8 ⇒ UTF16: n = m + 1
じゃないの? (ヒント UTF-16LE ではなくて UTF-16)


176 :デフォルトの名無しさん:2011/07/21(木) 09:32:10.85
変換後のサイズ知りたいなら実際にスキャンして調べたら?
自分で数えても良いし、処理系にAPIあればそれでも良いし。
まさか固定サイズのバッファ使ってるから、大風呂敷広げておこう戦法?

177 :デフォルトの名無しさん:2011/07/21(木) 09:34:18.61
LionのヒラギノはIVS対応か?
SafariはIVSちゃんと表示するようになったのか?

178 :デフォルトの名無しさん:2011/07/21(木) 10:02:23.67
>>176
1文字単位で変換するときのバッファサイズぐらい固定で取りたいとかじゃね?
どっちにしろwchar_tではなくてchar16_tをだな

179 :デフォルトの名無しさん:2011/07/21(木) 18:31:13.18
>>175 がFAかな

180 :デフォルトの名無しさん:2011/07/21(木) 18:36:42.10
ヒラギノはAdobe-Japan1-6にフル対応しないのかな

181 :170:2011/07/21(木) 20:44:05.03
皆さんありがとうございます。
m = 3n, n = m(LE or BE なので)、で作ります!

自分でも調べてみて色々勉強になりました

182 :デフォルトの名無しさん:2011/07/21(木) 23:36:33.77
ICUを使ってファイルの文字コードを調べたいのですが、
ファイルの先頭何バイトを使って調査するのが普通でしょうか?

183 :デフォルトの名無しさん:2011/07/21(木) 23:48:29.06
文字コードの自動判別に王道無し。

184 :デフォルトの名無しさん:2011/07/21(木) 23:49:29.17
HTML5では1024バイトと定めているな

185 :デフォルトの名無しさん:2011/07/22(金) 00:32:39.39
マジか
じゃあ1025バイト以降にUNICODEとかあったら、誤認識すんのか

186 :デフォルトの名無しさん:2011/07/22(金) 00:48:23.86
HTML5のケースは1024バイト目までにmeta charsetタグが現れることを期待してるんじゃないかな

187 :デフォルトの名無しさん:2011/07/22(金) 01:12:21.67
あぁ、なるほど
じゃあ一般の文字認識とは様子が違いそうだ

188 :デフォルトの名無しさん:2011/07/22(金) 01:16:08.22
美乳

189 :デフォルトの名無しさん:2011/07/22(金) 06:07:55.97
>>185
するよ
Firefoxは最後まで読んでたけど
HTML5 parser導入後は今まで化けていなかったページで文字化けすることがある

190 :デフォルトの名無しさん:2011/07/26(火) 23:01:50.95
PRI #184のレビュー期間が終了したようだな
識別子に間違って'+'と'-'を使っちゃった件のつじつま合わせが6月30日に
追加されていたようだ

191 :デフォルトの名無しさん:2011/07/27(水) 01:29:04.17
あの改訂はレビュー中のAJ1と汎用電子2陣にも適用されるのかなあ

192 :デフォルトの名無しさん:2011/07/31(日) 04:58:18.71
Webアプリケーション経由で、データベースから取得する文字コードと、
ブラウザに出力する文字コードが違う場合、マルチバイト文字が文字化けします。
文字コードの変換をしてから出力すれば問題ないのですが、
変換処理を全てに行うと重くなるため、マルチバイト文字にのみ行いたいのですが、
1バイト文字だけで構成されているものについても、変換処理は行わないと、
何かセキュリティとかに問題がありますか?
16進ダンプの結果が同じものなら、変換処理は必要ないですよね?

193 :デフォルトの名無しさん:2011/07/31(日) 05:20:17.12
1バイト文字というのは正確ではないな。Latin-9だって全部1バイトだし。
それはともかくバックスラッシュとかクオーテーションとかで地雷踏まないとわかってるなら別にいいんじゃね

194 :デフォルトの名無しさん:2011/07/31(日) 05:45:19.24
>>193
ありがとうございます。
Latin-9については全然わかりません。
調べてみてそれらしきものの16進ダンプみてみましたが、6バイトになってました。
http://www.eki.ee/letter/chardata.cgi?ucode=0178
http://charset.7jp.net/dump.html
文字コード難しいですね・・・

本題ですが、SQLインジェクション対策は入力可能なものを固定値か数値にしていて、
数値カラムに対してはint型に変換してから問い合わせしてるので、平気だと思います。
;' DELETEとかうたれても固定値と一致しないので排除されるか、int変換で0になるので。
特に問題はなさそうなので、intカラムはとりあえず変換をしないことにします。
英数字で構成されてるcharカラムは一応現状維持で変換することにします。

195 :デフォルトの名無しさん:2011/07/31(日) 13:44:14.51
>>192
>変換処理を全てに行うと重くなるため、
それは10文字程度を100万回ループして、何ミリ秒ほど重くなるの?

>SQLインジェクション対策は入力可能なものを固定値か数値に
えー。Perl CGIでサニタイズ処理をコリゴリ書く人ですか?

196 :デフォルトの名無しさん:2011/08/01(月) 01:17:02.76
マルチバイト文字を構成するバイトを探すのは、
テキストを全部舐めないといけないはずだけど、
そんな事やっている間に変換できちゃわないかな。

197 :デフォルトの名無しさん:2011/08/01(月) 02:27:45.73
マルチバイトが入ってないって最初から分かってるのでは?
データベースのintカラムなんでしょ

198 : [―{}@{}@{}-] 忍法帖【Lv=6,xxxP】 !denji 株価【E】 u:2011/08/01(月) 18:27:31.88
jis委員たちはいつまで南堂久史さんの私案を無視するんだ?

sjis改訂で本質的貢献を果たしたはずなのになんの見返りもなしとか、
どうなってるの?

http://hp.vector.co.jp/authors/VA011700/moji/code00.htm
http://www005.upp.so-net.ne.jp/greentree/koizumi/75_moji.htm

199 :デフォルトの名無しさん:2011/08/01(月) 19:21:07.08
一私案を考慮しなきゃならない理由なんて、どこにもないだろ。

規格に修正を加えたいならしかるべき手続きをとらなければならない。それだけ。

200 :デフォルトの名無しさん:2011/08/01(月) 22:23:26.49
いつまでもシフトJISにしがみつくような案は無視されて当然。
JIS X 0213のShift_JISX0213が世間でdisられてるの知ってんだろ

201 :デフォルトの名無しさん:2011/08/01(月) 22:58:00.59
>>198
いつまで南堂の妄想をまに受けてんの?
http://slashdot.jp/~alp/journal/313207
http://d.hatena.ne.jp/m-hiyama/20060608/1149725701

202 :デフォルトの名無しさん:2011/08/02(火) 00:27:05.14
アンチ南堂の意見を見るほど、安岡をはじめとするスラッシュドットの住人って
変人だとしか思えない。

スラド信者は南堂の字形変更がJIS規格に採用されて正常な判断能力を失った

203 :デフォルトの名無しさん:2011/08/02(火) 07:09:26.99
安岡は本当に2004JISの委員だったのに対して南堂はただの空想家ですが何か?
頭おかしいの?
本人降臨ですか?

204 :デフォルトの名無しさん:2011/08/02(火) 07:10:27.93
スラドの日記に書かれているだけでスラド信者とか
どう考えても正常な判断能力を失ってるな

205 :デフォルトの名無しさん:2011/08/02(火) 07:23:42.07
どこの世界にも基地外っているんだなあ

206 : [―{}@{}@{}-] 忍法帖【Lv=6,xxxP】 !denji 株価【E】 u:2011/08/02(火) 17:19:39.99
>>202
そう、南堂の案は結局採用された。
本質的貢献をはたした。
なのに、委員会は南道の案を誤読し、
いざ、南堂案が正しいとわかったら、
徹底的に無視し続ける。

207 :デフォルトの名無しさん:2011/08/02(火) 18:25:02.58
南堂案って委員会に提出されてないよ
http://opac.ndl.go.jp/recordid/000003624020/jpn
そもそも南堂がアレを言いだしたのは委員会終了後

208 :デフォルトの名無しさん:2011/08/02(火) 18:27:00.43
2004年の規格が南堂案という話をしてるのに、
2001年の情報を出されても・・・

209 :デフォルトの名無しさん:2011/08/02(火) 19:26:16.14
どこの誰だか知らない人の話を延々とされても・・・

210 :デフォルトの名無しさん:2011/08/02(火) 21:40:48.16
あらま。JIS信者は南堂を無かったことにしたいのね

211 :デフォルトの名無しさん:2011/08/02(火) 21:49:56.66
あらまじゃねぇよ南堂信者

2004の委員会に提出した記録があるなら出せってんだよ

212 :デフォルトの名無しさん:2011/08/02(火) 21:55:43.01
>>207
それは違う。
南堂私案は池田委員の個人アドレスに個人メールとして送られてきた。
委員会としては公開レビュー窓口に送るよう促したが、彼は委員会を「敵」だとみなしていたらしく、
公開レビューには参加を拒否したし、もちろんヒアリングにも出席しなかった。
結局Shift_JISX0213には、レビューに参加した中島私案が採用された。

213 :デフォルトの名無しさん:2011/08/02(火) 22:05:42.80
>>212
誰?

214 : [―{}@{}@{}-] 忍法帖【Lv=7,xxxP】 !denji 株価【E】 u:2011/08/03(水) 02:54:06.88
で、結局南堂案のコンセプトが正しかったことが証明された。
にもかかわらず、南堂を無視し続けた。
それどころか南堂の案の重要な点である、字体の変更をトンデモ扱いした。
そんなことをすれば南堂が委員会を敵だとみなすのも無理は無い。
万死に値すると思うが。


215 :デフォルトの名無しさん:2011/08/03(水) 07:22:28.61
で、委員会に提出した記録は?

216 :デフォルトの名無しさん:2011/08/03(水) 08:10:17.28
>>214
南堂案のキモは字体変更じゃなくて包摂分離
南堂案を擁護するなら中身ちゃんと読めよ

217 :デフォルトの名無しさん:2011/08/03(水) 11:34:32.60
Lionのカラーフォントって、どういうフォーマットなの?

218 :デフォルトの名無しさん:2011/08/03(水) 11:50:46.08
png入ってるね

219 :デフォルトの名無しさん:2011/08/03(水) 13:13:05.60
だとすると、国旗とかKEYCAPとかは、合成後にpng処理?

220 :デフォルトの名無しさん:2011/08/03(水) 17:34:25.71
そういうこと
morxでリガチャのglyphID拾ってからpngで表示

221 : [―{}@{}@{}-] 忍法帖【Lv=7,xxxP】 !denji 株価【E】 u:2011/08/03(水) 18:30:49.33
>>216
いずれにしても、
本質的貢献をしたのに無視するのは異常。

222 :デフォルトの名無しさん:2011/08/03(水) 20:23:24.15
安岡センセイがsbixテーブルを解読
フォントのバイナリを読める人たちってどういう頭してんだろ

223 :デフォルトの名無しさん:2011/08/03(水) 20:35:41.23
TrueTypeのテーブルの基本構造は共通だし、多分解読用のフレームワークか
何か持ってるんだと思う。

224 :デフォルトの名無しさん:2011/08/03(水) 21:52:25.18
↓これのこと?
http://kanji.zinbun.kyoto-u.ac.jp/%7Fyasuoka/publications/otf.html

225 :デフォルトの名無しさん:2011/08/03(水) 21:53:52.84
URLが化けた orz
ttp://kanji.zinbun.kyoto-u.ac.jp/%7Eyasuoka/publications/otf.html

226 :デフォルトの名無しさん:2011/08/04(木) 06:24:12.51
それはFontForge使ってるだけじゃん
これのことだろ
http://slashdot.jp/~yasuoka/journal/536365
バイナリ眺めてれば普通に大体見当つくよ

227 :デフォルトの名無しさん:2011/08/04(木) 06:28:37.18
>>221
単なるあれおれ詐欺を本質的貢献と思える頭の作りが異常

228 :デフォルトの名無しさん:2011/08/04(木) 06:51:10.81
PNGかぁ。実装の簡単さを取ったんだろうけど、
ラスタ画像ってのは将来性という点でどうだろうなあ。

229 :デフォルトの名無しさん:2011/08/04(木) 08:31:37.93
CFF/Type2のカラー化ってのも難しそうだし
今ならSVGがいいのかなあ?

230 :デフォルトの名無しさん:2011/08/04(木) 10:15:32.74
҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉

テスト

231 :デフォルトの名無しさん:2011/08/04(木) 10:17:04.06
>>230

これ何て読むか教えてください。

232 :デフォルトの名無しさん:2011/08/04(木) 10:18:15.53
>>231
アナル

233 :デフォルトの名無しさん:2011/08/04(木) 10:21:18.14
҉҉҉҉҉҉҉҉ ̨ͨͤ̊͒̅̒ͪ̽͂͆̓ͤ̈̊̋ͫ̿̒͏̵̡̼͔̲̺͘ !

234 :デフォルトの名無しさん:2011/08/04(木) 10:22:11.43
>>232

なるほど。

235 :デフォルトの名無しさん:2011/08/04(木) 10:25:31.03
>>233

では、これは?

236 :デフォルトの名無しさん:2011/08/04(木) 10:26:46.40

҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉
 イボ痔


237 :デフォルトの名無しさん:2011/08/04(木) 10:38:31.05
アナル系が人気のようですね。

238 :デフォルトの名無しさん:2011/08/04(木) 14:01:41.94
sbixググってみたけど、それらしいのは↓しか見つからなかった
http://developer.apple.com/library/mac/documentation/Carbon/Reference/CTFontRef/CTFontRef.pdf
もうちょっと詳細な情報キボンヌ

239 : [―{}@{}@{}-] 忍法帖【Lv=8,xxxP】 !denji 株価【E】 u:2011/08/04(木) 17:46:57.75
>>214

南堂案骨子は字体変更。当時は字体変更はトンデモだと思われていたが、
あとで字体変更が必要だとわかって、
南堂案が正しい事が証明された。
だから、委員は南堂案の肝が字体変更だとは意地でも言わないつもりなんだよね。
南道の手柄ってことがバレるから。




240 :デフォルトの名無しさん:2011/08/04(木) 20:39:38.72
>>238
安岡センセイの日記が今の時点では最も詳細な情報

241 :デフォルトの名無しさん:2011/08/04(木) 20:46:47.72
>>987

242 :デフォルトの名無しさん:2011/08/04(木) 21:34:44.32
>>239
そんな誰でも独立して思いつくことで手柄とか言ってるのが自意識過剰の馬鹿丸出し

243 :デフォルトの名無しさん:2011/08/04(木) 22:46:56.82
おや、JIS信者が南堂の存在だけは認めたようです

244 :デフォルトの名無しさん:2011/08/04(木) 23:07:45.81
http://www.unicode.org/review/pri201/
↑これ、レビューが実質1週間しかなかったんだけど、何だったの?

245 :デフォルトの名無しさん:2011/08/04(木) 23:16:44.33
>>240
それも何だかなー

246 :デフォルトの名無しさん:2011/08/05(金) 04:17:34.27
>>244
来月最終投票入りする予定の10646の3版に間に合わせる必要があって、
そのためには今週開催中のUTCで審議する必要があって、それで
こういう極短期の公開レビューになったんだと。

247 :デフォルトの名無しさん:2011/08/05(金) 08:15:42.60
そういう形だけのレビューなら、やらない方がマシ

248 :デフォルトの名無しさん:2011/08/05(金) 10:47:00.97
大注目している時期に見逃す方がどうかしてる。

249 :デフォルトの名無しさん:2011/08/05(金) 11:04:16.06
PRI 201が公開されたのは7月27日の昼前だった。
漢字を943字も収録してるのに、それで8月3日〆切ってのは、
チェックするための時間があまりに短か過ぎる。

250 :デフォルトの名無しさん:2011/08/05(金) 11:15:50.42
943字くらい半日もあればチェックできるだろ
字形が変わってるのもUTC-00919とUTC-00929の2つくらいだし

251 :デフォルトの名無しさん:2011/08/05(金) 11:26:52.61
>>249
締め切り前に短すぎると意見すればよかった。

252 :デフォルトの名無しさん:2011/08/05(金) 11:33:57.40
>>228
データの種類はシグネチャで見てる感じだからpdfでも構わんのでしょ。
それだとOSX/iOS以外で表示が難しいのと、ちゃんとしたグリフ作るのも
大変だから、取り敢えずpng入れてみましたって所じゃないかな。

253 :デフォルトの名無しさん:2011/08/05(金) 11:34:11.54
>>250
UTC-00919とUTC-00929の字形変更って…
じゃあU+FA15とU+FA20に出てる字形はどうなるの?
http://www.unicode.org/charts/PDF/UF900.pdf

254 :デフォルトの名無しさん:2011/08/05(金) 11:37:28.07
>>225
> URLが化けた orz

なぜにDelete w


255 :デフォルトの名無しさん:2011/08/05(金) 11:39:19.79
>>253
ISOの最終投票で字形変更

256 :デフォルトの名無しさん:2011/08/05(金) 11:54:41.18
>>251
後ろがつかえてるんだから
どうせ聞く耳もたないだろ

257 :デフォルトの名無しさん:2011/08/05(金) 11:58:38.08
愚痴ですね

258 :デフォルトの名無しさん:2011/08/05(金) 12:04:35.73
だってオレ英語かけないもん

259 :デフォルトの名無しさん:2011/08/05(金) 12:28:28.94
英語が書けたらあんな提案こんな提案…

260 :デフォルトの名無しさん:2011/08/05(金) 13:10:33.53
アン アン アン

261 :デフォルトの名無しさん:2011/08/05(金) 19:27:23.87
>Unicode 6.1.0 (Planned for February, 2012)

フム

262 :デフォルトの名無しさん:2011/08/05(金) 23:12:33.65
ムフ

263 :デフォルトの名無しさん:2011/08/05(金) 23:20:18.06
フムゥ

264 :デフォルトの名無しさん:2011/08/05(金) 23:58:58.56
なかは、膣はらめぇ〜

265 : 忍法帖【Lv=9,xxxP】 !denji 株価【E】 u:2011/08/13(土) 18:34:17.05
結局南堂さんの実績は認めるの?認めないの?

266 :デフォルトの名無しさん:2011/08/13(土) 18:41:51.62
JIS信者は認めないみたいだね。
字形変更はもっての他とか言っていたのに規格が通って発狂した

267 :デフォルトの名無しさん:2011/08/13(土) 18:55:55.74
UTCは小書きコに関しては取り下げるでもなく様子見か。

268 :デフォルトの名無しさん:2011/08/13(土) 19:46:24.40
>>265
南堂信者は発狂して相手のせいにして自分を慰めてる

269 :デフォルトの名無しさん:2011/08/13(土) 22:47:15.05
「お盆」をあらわす絵文字ってないの?

270 :デフォルトの名無しさん:2011/08/13(土) 22:52:17.28
どうやってあらわすんだよ
風習は地方によって様々なのに

(という文句が付けられそうなものは他にもあるだろうけども)

271 :デフォルトの名無しさん:2011/08/14(日) 02:16:31.07
○+盆。

272 :デフォルトの名無しさん:2011/08/14(日) 05:01:22.07
盆⃝

273 :デフォルトの名無しさん:2011/08/14(日) 06:47:40.56
山に大の字だな。

274 :デフォルトの名無しさん:2011/08/14(日) 10:30:40.67
>>272
すばらしい

275 :デフォルトの名無しさん:2011/08/16(火) 14:22:05.96
解説希望

276 :デフォルトの名無しさん:2011/08/16(火) 14:37:57.50
閲覧環境によっては囲い文字になってるんだろ

277 :デフォルトの名無しさん:2011/08/16(火) 14:48:10.83
U+20DDはCOMBINING ENCLOSING CIRCLEという結合文字。
ttp://www.unicode.org/charts/PDF/U20D0.pdf

278 :デフォルトの名無しさん:2011/08/17(水) 01:21:42.61
◎にそれ重ねたら三重丸と看做していいんかな

279 :デフォルトの名無しさん:2011/08/17(水) 14:25:10.71
二重丸を三重丸とみなしてもいい。あなたの勝手。

280 : 忍法帖【Lv=10,xxxPT】 !denji 株価【E】 u:2011/08/17(水) 19:50:00.10
結局南堂の業績は認めるの?認めないの?
はっきりさせろ・

281 :デフォルトの名無しさん:2011/08/17(水) 22:55:33.31
>>280
結局って何だよ。JIS信者は南堂の業績は認めない。
これはこのスレで一貫しているだろ。
業績認めて欲しいなら南堂が貢献したというソースを出してみろ。

282 :デフォルトの名無しさん:2011/08/17(水) 23:09:36.30
今さらJISなんてどうでもいいよ

283 :デフォルトの名無しさん:2011/08/18(木) 10:02:41.00
UTS #37 v3リリース。

284 :デフォルトの名無しさん:2011/08/18(木) 15:16:18.41
グリフウィキに繋がらん

285 :デフォルトの名無しさん:2011/08/18(木) 18:10:38.20
次からといわず移せばいいのに

286 :デフォルトの名無しさん:2011/08/18(木) 22:10:31.19
>>285
kwsk

287 :デフォルトの名無しさん:2011/08/18(木) 23:25:18.88
>>286
ttp://twitter.com/kamichikoichi

288 :デフォルトの名無しさん:2011/08/20(土) 13:11:01.43
復帰したようだ

289 :デフォルトの名無しさん:2011/08/20(土) 20:15:09.39
OT版フォント復活したのかー

290 :デフォルトの名無しさん:2011/08/21(日) 23:08:53.89
>>281
ソース→ >>212

291 :デフォルトの名無しさん:2011/08/22(月) 00:26:26.56
ソースは2ちゃんの書き込み

292 :デフォルトの名無しさん:2011/08/25(木) 13:10:29.66
SEXTILEって、Unicode 6.0で追加されたみたいだけど、ソースは何?

293 :デフォルトの名無しさん:2011/08/25(木) 22:59:21.37
5.1だぬ
ソースは不明

294 :デフォルトの名無しさん:2011/08/30(火) 23:03:39.03
汎用電子のレビューコメント全然来ないのか…

295 :デフォルトの名無しさん:2011/08/31(水) 20:42:29.41
いっそ俺がレビューしてやろうか

296 :デフォルトの名無しさん:2011/09/01(木) 01:09:21.42
はにょでんし

297 :デフォルトの名無しさん:2011/09/01(木) 08:52:56.57
はにゃ〜

298 :デフォルトの名無しさん:2011/09/01(木) 18:55:46.56
LionでせっかくヒラギノがIVSに対応したのにSafariやChromeが対応してないのは勿体無いな
辻󠄀
辻󠄁

299 :デフォルトの名無しさん:2011/09/05(月) 00:27:39.83
フォントまわりはFirefoxの一人勝ちだぁね

300 :デフォルトの名無しさん:2011/09/06(火) 20:56:02.28
今使ってるCGIプログラムの文字コードがShift_JISだったから別の文字コードに変換したいんだけど
このスレ的には内部文字コードも出力もUTF-8なの?

301 :デフォルトの名無しさん:2011/09/06(火) 21:12:16.42
もしかして、内部コードって、ソースコードを表現するコードという意味で使ってる?

302 :デフォルトの名無しさん:2011/09/06(火) 21:29:09.49
このスレ的には、って?
このスレは基本、あらゆる論者が屯ってると思うが。

303 :デフォルトの名無しさん:2011/09/06(火) 22:21:14.15
内部文字コードを自由に替えられる処理系って、
BSD系のC+libc以外だと何があるんだろ?

304 :デフォルトの名無しさん:2011/09/06(火) 23:19:01.40
>>301-302
ごめんソースコードを表現するコードという意味で合ってる
ダメ文字から逃れたくて質問したけど
色んな説があるみたいだからEUC-JPにするよ
ありがとう

305 :デフォルトの名無しさん:2011/09/06(火) 23:34:33.51
いまどきEUCはないわ
SJISは論外

306 :デフォルトの名無しさん:2011/09/06(火) 23:40:34.13
好きにしろよ。スレ違いだ。

307 :デフォルトの名無しさん:2011/09/07(水) 04:19:05.45
黙ってUTF-16普及に努めるんだ

308 :デフォルトの名無しさん:2011/09/07(水) 16:06:50.47
分かりやすいデータ型の分類と役割を教えて下さい
intとかの
言語はjavaです

309 :デフォルトの名無しさん:2011/09/07(水) 16:22:24.03
スレ違い

310 :デフォルトの名無しさん:2011/09/07(水) 19:07:23.73
>>308
intは文字
charも文字
w_charも文字
とにかく文字に使う

311 :デフォルトの名無しさん:2011/09/08(木) 02:51:34.91
String s;
s = "Javaは、Unicodeです。漢字も1文字。わかりやすくて安心だ。";
t = s.substring(i, i + 1);

312 :デフォルトの名無しさん:2011/09/08(木) 03:15:44.44
そしてサロゲートペアに嵌る。

313 :デフォルトの名無しさん:2011/09/08(木) 07:25:18.84
"?田(よしだ)です。Java使いはアホが多いですね".substrin(0,1);

314 :デフォルトの名無しさん:2011/09/08(木) 16:41:09.82
サロゲートペアを解決した後は、合成文字にはまって、
合成文字を解決した後もVSが待ってるんだよな。

最初に16ビットに収めようと言い出したやつは刺されてもおかしくない。

315 :デフォルトの名無しさん:2011/09/09(金) 00:16:57.11
32bitなら合成文字も解決すると思うのか?
何文字分までの合成を想定してるの?

316 :デフォルトの名無しさん:2011/09/09(金) 01:41:03.72
合成文字ったって理論上はいくらでも繋げられるけど実際そこまでのものは無いだろ。
16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。
大文字小文字、ひらがなカタカナ濁点小書き、異体字、全角半角の違いなんかも全部詰め込めば
そこをマスクするだけで曖昧検索もできてウマーと勝手に思ってるんだが甘いかな。
ASCIIとも互換性なくなるけど。

317 :デフォルトの名無しさん:2011/09/09(金) 02:16:09.23
brainf*ckみたいなもんだな

318 : 忍法帖【Lv=14,xxxPT】 !denji 株価【E】 u:2011/09/09(金) 12:05:45.06
はっきり言ってお前らの議論は南堂先生のレベルには遠く及ばない。

319 :デフォルトの名無しさん:2011/09/09(金) 14:40:15.38
合成を使わないと某半島のアレがウン十万字分のコードポイント占めるんだよ

320 :デフォルトの名無しさん:2011/09/09(金) 14:46:18.17
タイ文字なめとんのか?

321 :デフォルトの名無しさん:2011/09/09(金) 16:22:51.70
>>319
合成済みのが追加済みじゃなかったっけ?
あまりにも数が多いので規則的にして計算式で求められるようになってて表からは除外されてる

322 :デフォルトの名無しさん:2011/09/09(金) 20:06:00.46
感じも部首に分けて登録するか

323 :デフォルトの名無しさん:2011/09/09(金) 20:13:14.50
それいいな。ついでに部首ごとにキーを振ったら新しい漢直になるぞ

324 :デフォルトの名無しさん:2011/09/09(金) 21:17:33.12
>>316
> 16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。

どこが今のUnicodeに比べて優れているのかと…

325 :デフォルトの名無しさん:2011/09/09(金) 22:03:45.75
合成文字を常態化するなら慣用や拗音も文字コード充ててしまえと

326 :デフォルトの名無しさん:2011/09/09(金) 22:18:20.96
だって全文字共通で装飾にビットを振っていくと何ビットあっても足りなry

まあそれはいいよ。
とりあえず今のUnicodeは、何をするにしてもUCDのテーブルを抱え込まないといけないので
もうちょい全体的に範囲をまとめて欲しい。
なんで新しめの仕様なはずのVSですら散らばってんだよ。連続領域に取れなかったもんだろうか。

327 :デフォルトの名無しさん:2011/09/10(土) 15:08:50.66
どうやって並べても不満の出る射影はあるのだから、
テーブル実装技術の方で頑張ってください。

328 :デフォルトの名無しさん:2011/09/10(土) 18:15:23.12
>>321
コードポイントのどのあたり?

329 :デフォルトの名無しさん:2011/09/10(土) 20:40:21.59
>>328
http://www.unicode.org/reports/tr15/tr15-33.html#Hangul

AC00から11172文字かな。

330 :デフォルトの名無しさん:2011/09/10(土) 21:25:06.55
>>329
それだと、>>319と数が合わない。
>>319は現代では使われていない古文字の合成のことじゃないのか?


331 :デフォルトの名無しさん:2011/09/15(木) 01:22:24.15
Win8プレビュー版の日本語フォント、1F2xxがちょっとアレだな。
ただのスタブならいいんだけど

332 :デフォルトの名無しさん:2011/09/17(土) 02:20:34.92
MS3フォントに325のIVSが入っているのを確認。

333 :デフォルトの名無しさん:2011/09/17(土) 16:06:00.17
シングルバイト文字しかない文字列をエディタで保存したとき、
内部文字コードをUTF-8にしてもUTF-8にはならず、SJISとなってしまいます。
単にエディタが識別できないだけだと思いますが、気にしなくてもいいですか?
例えばhtmlでContent-Typeをtext/html;charset=UTF-8と指定してるにも関わらず、
マルチバイト文字がないため、内部文字コードがSJISになってる感じです。

334 :333:2011/09/17(土) 16:07:16.97
と、書いてから気づいたんですが、
こういうときのためにBOMがあるんですかね?

335 :デフォルトの名無しさん:2011/09/17(土) 17:06:36.21
BOMはバイトオーダーを識別するためにあるんですよ。

336 :デフォルトの名無しさん:2011/09/17(土) 17:31:46.68
>>333
円記号については問題が発生する

337 :デフォルトの名無しさん:2011/09/17(土) 17:59:00.61
>>333
> 内部文字コードがSJISになってる

というのはどういう状態? なぜそう判断したの?


338 :333:2011/09/17(土) 18:19:16.94
レスありがとうございます。

>>335
一般的にはそうみたいですね。
UTF-8には無意味とも書いていました。
ただ判別するためにUTF-8でも使うみたいなことは書いてました。

>>336
よくわかりませんが確かに\は発生しそうですね。

>>337
エディタで文字コードを指定して保存する時UTF-8で保存しますが、
再度開いたときにSJISで開かれてエディタもSJISと判断してるということです。
バイナリエディタなんかで開いたとき、
シングルバイト文字は、SJISでもUTF-8でも、16進数ダンプで同じ値になるので、
エディタにはそのへんが判断できないんじゃないのかなぁと思ってます。

339 :デフォルトの名無しさん:2011/09/17(土) 18:46:10.66
そのエディタのスレで聞いたほうがいいのでは。
エディタ名伏せられたままじゃ何とも言えん。

340 :デフォルトの名無しさん:2011/09/17(土) 19:38:46.95
>>338
適合する文字コードの中でSJISを優先して選ぶエディタか、
環境(ロケール等)ってだけでは?


341 :333:2011/09/17(土) 20:11:13.62
>>339
とりあえず手持ちで確認したところ、
Windowsメモ張、サクラエディタ、TeraPadなんかはそんな感じです。
Windowsメモ張でUTF-8で保存した場合、UTF-8として開かれますが、
あれはBOMついてるので、BOMなしでUTF-8で保存した場合、
どれもSJISで開かれます。

>>340
そうですね。
UTF-8と判断する材料がない場合、優先してSJIS選んでるんでしょうね。
>>333の例であげたhtmlにしても、文字化けするというわけではないので、
気にしないのが一番なんですかね。

342 :デフォルトの名無しさん:2011/09/17(土) 20:49:54.82
ASCII範囲の文字しかなければASCII=UTF-8(BOMなし)=SHIFT_JIS=ISO 8859-1にしかならんだろ。
このなかのどれを選ぶかはエディタを作ったやつ次第。メモ帳はANSI=現在のコードページだろうし。

343 :デフォルトの名無しさん:2011/09/19(月) 04:03:24.62
PRI 183(AJ1の追加分)は明日までか

344 :デフォルトの名無しさん:2011/09/20(火) 00:55:56.10
去年ちょろっとAdobe-Japan1-7の話が出たけど、
結局とくに意味はなかったのか。

345 :デフォルトの名無しさん:2011/09/20(火) 02:27:40.76
意味のないことは多いからな

346 :デフォルトの名無しさん:2011/09/24(土) 03:13:44.95
グリフの内訳はバラバラなのに、Glyphwiki発だからって理由で
何でもかんでも花園フォントとしてリリースするのは紛らわしい。

347 :デフォルトの名無しさん:2011/09/24(土) 10:40:30.47
もう少しkwsk

348 :デフォルトの名無しさん:2011/09/24(土) 18:50:07.33
本家版にOT版にKDP実験版に。
全部花園明朝名乗ってるけどグリフの内訳はバラバラ。

349 :デフォルトの名無しさん:2011/09/26(月) 00:23:08.24
そろそろ問題だらけのUnicodeはもう捨てて新しい文字コード体型考えようぜ

350 :デフォルトの名無しさん:2011/09/26(月) 10:44:16.58
どうぞどうぞ


351 :デフォルトの名無しさん:2011/10/01(土) 02:09:31.25
まさかの一人目上島

352 :デフォルトの名無しさん:2011/10/09(日) 18:15:42.34
うにコードより先にJISコードを時代に合わせて綺麗にしようや

円記号とバックスラッシュの分離
2・1バイト幅英数アルファベットの別を無くす
囲い文字コードを無くし付加記号の仕組みを入れる
異系文字の定数引き
現行コードから変換指針の提示

353 :デフォルトの名無しさん:2011/10/09(日) 21:16:57.01
誰得

354 :デフォルトの名無しさん:2011/10/10(月) 17:03:49.36
オマエ以外

355 :デフォルトの名無しさん:2011/10/10(月) 20:09:53.20
どんな得があるわけ?

356 :デフォルトの名無しさん:2011/10/13(木) 22:10:48.22
とりあえず携帯電話を早くUnicodeに対応させてくれ

357 :デフォルトの名無しさん:2011/10/20(木) 00:12:17.70
ガラケーは死んだ

358 :デフォルトの名無しさん:2011/10/20(木) 01:31:24.35
なぜだ?

359 :デフォルトの名無しさん:2011/10/27(木) 20:19:31.86
IPAmj明朝の正式版キタコレ

360 :デフォルトの名無しさん:2011/10/28(金) 13:56:24.36
文字コードスレとはあまり関係ないよね。

361 :デフォルトの名無しさん:2011/10/28(金) 14:45:08.44
これ以外に汎用電子対応のフォント出てくるのかねー

362 :デフォルトの名無しさん:2011/10/28(金) 18:56:01.03
1週間止まってたスレが動き出したか

363 :デフォルトの名無しさん:2011/10/29(土) 10:04:35.08
IRG N 1812って何だろ
またスケジュールを遅らすことになるのか

364 :デフォルトの名無しさん:2011/10/29(土) 19:37:47.69
>>361
そういえばIPAex明朝すらIVSはAJ1だったな

365 :デフォルトの名無しさん:2011/10/29(土) 19:41:27.70
>>360
オレオレ文字コードを発明しないでISO/IEC 10646の枠組み上で
できる限り符号化しようと努力しているのを評価対象にするとか

366 :デフォルトの名無しさん:2011/10/29(土) 22:23:27.79
今日電話で話した人が「テンプレが出てるんだよ」「テンプレになっちゃうんだ」と連呼するものだから、
一体何のことなのかと首をかしげていたら「豆腐」のことを「天ぷら」と間違えて覚えているらしいことに気付いた

367 :デフォルトの名無しさん:2011/11/01(火) 04:28:14.19
ブログのログインみたいな感じの部分を想像してほしいのですが、
データベースやファイルに入っているログイン情報がUTF-8以外、
ログインするためにフォームから入力する値がUTF-8で、
これらを比較するとします。

基本ログイン情報は半角英数字だと思うので問題は起きにくいとは思いますが、
もしこの状態のまま、ログイン情報にマルチバイト文字を入れた場合、
ログインが出来なくなる以外に何か問題は発生しますか?

例えば情報があってないのにログイン出来たとか、
そんな感じのはありえますか?

368 :デフォルトの名無しさん:2011/11/01(火) 11:01:59.68
>基本ログイン情報は半角英数字だと思う
これ次第じゃね。

369 :デフォルトの名無しさん:2011/11/01(火) 11:55:39.61
そうなの?

370 :デフォルトの名無しさん:2011/11/01(火) 12:01:14.27
UTF-8の入力がそれ以外の文字コードの何かにマッチする可能性があるのは、
Ascii文字セットの領域以外の文字に限定されるでしょ。つまり、ログイン情報に
Ascii文字セットの文字しか使っていなければ間違ってマッチすることは避けられるかと。

371 :デフォルトの名無しさん:2011/11/01(火) 14:59:25.98
[ce b1] UTF-8: α, Shift_JIS: 留
[ce b2] UTF-8: β, Shift_JIS: 硫
[ce b3] UTF-8: γ, Shift_JIS: 粒


372 :デフォルトの名無しさん:2011/11/01(火) 19:06:01.01
る?

373 :デフォルトの名無しさん:2011/11/01(火) 20:37:25.12
りゅう、だろ。

374 :デフォルトの名無しさん:2011/11/01(火) 20:40:21.24
りゅう

375 :デフォルトの名無しさん:2011/11/01(火) 20:47:50.39
                  __,  -──┐
         「 ̄ ̄::/  ̄       `丶::::::::::|
         !:::::::/, - 、         \::/
         i:::::/ /:::::::::::::i      ●   }        うりゅーっす!
          ∨ {:::::●::::l         -┼-、
          {  ゝ::::::_ノ └〜┘     `X
           X´            <_ヽ
          /  >        .....:...::..::::  \__  __
             _/ . \  /  .:.::..:.:::::::::::  ::   ̄ `ヽ
      , --―'´;.:.、  ... .: .:i :i:: :  .:::..:,.‐''".    .   .:、  :.:::}
     /   . :.:.ノ:. ..\. ヽ:  , -‐''´ ..::: ..    :     .::l . :.:.::|
   /   . .:.:.:./:.     `ヽ、::/     .:::、:.. .. . :.     .::i ...:.:∧ 
    |   .:.:.:;イ::      .:i::.       . .::`''‐-=、ヽ、.:.. . .:: .:ノ: :! 
  /{::.   '´.:.i::.      . :|:      . .:: :.::::::::::::/゙"ヽ、:..:.::´::..: :| 
  ,' `: :...:.:.:.::.::;!::.. .    .:.:|:       :: :.:.:::::::::{::. .::;'`  .::.: ;!:|  
 {  :. `''''゙´|:::.:     .:::l::.      .:.::..:.:::::::::::|::. . ::i   ..:::iく ::| 
  {:.:.. .:.. . .:.:::ト、:.:.. . .  . .:.:;!、::.. . . . ... .:.::..:::::::_;;.ゝ、..:|  ..:ノ :. ヾ、
 /`'''  、,,,___:ノ \::. :.....:.:ノ::..`'ー::.....;;;_;;:.-‐''....:...:::,>'=、  .::i :.::}
. {:.:. .   ___\   ` ‐-=、:::.:.. ..::r ー-=、.....:...::..::::/      . .:::! :; ::|
 !ー: . / ___;>┐    \:.. :! ,.-―:‐、:: ,,.:‐''´    . . :__;ノ.イ
 ';.:../  /´、   ̄)ヽ. _,r―‐亠- 、!    |「:     . . - '''´. : :.:/
  ヽ!  { :..  ̄ ̄厂:く__,.-‐''    ..|    |!:. .   . .. ... - =_ヲ'


376 :デフォルトの名無しさん:2011/11/01(火) 21:27:41.60
最初が「う」ならもっと前のほうだろう

377 :デフォルトの名無しさん:2011/11/02(水) 11:55:14.43
この流れは367に責任があるんだろうか

378 :デフォルトの名無しさん:2011/11/02(水) 20:09:12.62
>>367
>例えば情報があってないのにログイン出来たとか、
>そんな感じのはありえますか?

yes

379 :367:2011/11/03(木) 20:31:49.50
みなさんありがとうございます。
とても参考になりました。
修正しにくい箇所に記述してしまったので、
バグとわかってても修正はできませんが、
ASCIIの領域内に限定して何とかやり過ごすことにします。

380 :デフォルトの名無しさん:2011/11/10(木) 21:39:05.60
パイプラインに新規追加されたtext style, emoji style用vsって何だろ。

381 :デフォルトの名無しさん:2011/11/30(水) 10:55:32.51
ハートとかを、普通の文字として表示するか絵文字として
表示するかコントロールするものじゃないかと、元見ずに予想してみる

382 :デフォルトの名無しさん:2011/12/01(木) 00:53:03.32
ドコモ式au式みたいなのじゃ?みたいな

383 :デフォルトの名無しさん:2011/12/08(木) 02:52:54.99
そのうちwg2のページで内容見られるだろー
と思ってたんだけどなかなか公開されんね。

384 :デフォルトの名無しさん:2011/12/08(木) 22:29:49.19
どうなってるんだ

79 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.02.02 2014/06/23 Mango Mangüé ★
FOX ★ DSO(Dynamic Shared Object)