美文网首页
对各字符集编码范围的总结

对各字符集编码范围的总结

作者: EitanLiu | 来源:发表于2016-07-02 01:53 被阅读192次

转载自对各字符集编码范围的总结

最近项目中用到了对文字、标点以及特殊字符的判断。
网上关于GBK、GB2312和BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断
这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。

UTF8
[/x01-/x7f]|[/xc0-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0-/xff][/x80-/xbf]{3}

UTF16
[/x00-/xd7][/xe0-/xff]|[/xd8-/xdf][/x00-/xff]{2}

JIS
[/x20-/x7e]|[/x21-/x5f]|[/x21-/x7e]{2}

SJIS
[/x20-/x7e]|[/xa1-/xdf]|([/x81-/x9f]|[/xe0-/xef])([/x40-/x7e]|[/x80-/xfc])

EUC_JP        
[/x20-/x7e]|/x81[/xa1-/xdf]|[/xa1-/xfe][/xa1-/xfe]|/x8f[/xa1-/xfe]{2}

EUC_JP标点符号及特殊字符        
[/xa1-/xa2][/xa0-/xfe]

EUC_JP全角数字
/xa3[/xb0-/xb9]

EUC_JP全角大写英文
/xa3[/xc1-/xda]

EUC_JP全角小写英文     
/xa3[/xe1-/xfa]

EUC_JP全角平假名
/xa4[/xa1-/xf3]

EUC_JP全角片假名 [color=Red]2007-03-12 15:00更新[/color]
/xa3[/xb0-/xb9]|/xa3[/xc1-/xda]|/xa5[/xa1-/xf6][/xa3][/xb0-/xfa]|[/xa1][/xbc-/xbe]|[/xa1][/xdd]

EUC_JP全角汉字 [color=Red]2007-03-12 15:06更新[/color]
[/xb0-/xcf][/xa0-/xd3]|[/xd0-/xf4][/xa0-/xfe]|[/xB0-/xF3][/xA1-/xFE]|[/xF4][/xA1-/xA6]|[/xA4][/xA1-/xF3]|[/xA5][/xA1-/xF6]|[/xA1][/xBC-/xBE]

Big5
[/x01-/x7f]|[/x81-/xfe]([/x40-/x7e]|[/xa1-/xfe])

GBK
[/x01-/x7f]|[/x81-/xfe][/x40-/xfe]

GB2312汉字
[/xb0-/xf7][/xa0-/xfe]

GB2312半角标点符号及特殊符号
/xa1[/xa2-/xfe]

GB2312罗马数组及项目序号
/xa2([/xa1-/xaa]|[/xb1-/xbf]|[/xc0-/xdf]|[/xe0-/xe2]|[/xe5-/xee]|[/xf1-/xfc])

GB2312全角标点及全角字母
/xa3[/xa1-/xfe]

GB2312日文平假名
/xa4[/xa1-/xf3]

GB2312日文片假名
/xa5[/xa1-/xf6]


補充: 
GB18030
[/x00-/x7f]|[/x81-/xfe][/x40-/xfe]|[/x81-/xfe][/x30-/x39][/x81-/xfe][/x30-/x39]


[color=Red]2007-03-12 21:35 补充[/color] 
日文半角空格
/x20

SJIS全角空格
(?:/x81/x81)

SJIS全角数字
(?:/x82[/x4f-/x58])

SJIS全角大写英文
(?:/x82[/x60-/x79])

SJIS全角小写英文
(?:/x82[/x81-/x9a])

SJIS全角平假名
(?:/x82[/x9f-/xf1])

SJIS全角平假名扩展
(?:/x82[/x9f-/xf1]|/x81[/x4a/x4b/x54/x55])

SJIS全角片假名
(?:/x83[/x40-/x96])

SJIS全角片假名扩展
(?:/x83[/x40-/x96]|/x81[/x45/x5b/x52/x53])

EUC_JP全角空格
(?:/xa1/xa1)

EUC半角片假名
(?:/x8e[/xa6-/xdf])
补充:
日文半角空格 
SJIS全角空格 
SJIS全角数字 
SJIS全角大写英文 
SJIS全角小写英文 
SJIS全角平假名 
SJIS全角平假名扩展 
SJIS全角片假名 
SJIS全角片假名扩展 
EUC_JP全角空格 
EUC半角片假名

相关文章

  • 对各字符集编码范围的总结

    转载自对各字符集编码范围的总结 最近项目中用到了对文字、标点以及特殊字符的判断。网上关于GBK、GB2312和BI...

  • Java中的字符编码的转换

    Java语言使用UTF-16这种字符集编码。 Unicode编码字符集的代码点(code point)范围在U+0...

  • Unicode 编码相关

    相关链接 Unicode编码范围表数字unicode码各个国家 不同字符集的unicode 编码范围 中文汉字UN...

  • (一)文件的编码

    1、编码格式介绍 ASCII:最早用来保存英文的编码; 扩展字符集:对ASCII编码的扩充; GB2312:对AS...

  • 关于JavaScript编码你应该知道的

    1. 字符集和编码的关系 字符集是字符的集合,编码则是字符集中的字符要如何存储的规则。 如上图,当字符集和编码一一...

  • Python编码问题详解

    继上一篇文章字符集和编码详解总结了常见字符编码后,这篇文章会对python中常见的编码问题进行分析和总结。由于py...

  • JavaWeb开发之编码格式

    编码格式 Java语言在内存当中默认使用的字符集 默认会用“Unicode”编码格式(字符集)来保存字符。 编码 ...

  • Java内存中的文本编码

    1、编码简介 1.1 概念简析:字符、字符集、编码字符集、Code Point、Code Unit和字符编码格式 ...

  • mysql字符集编码和数据类型

    字符集编码 字符集是一套符号和编码。mysql、database、table、column都可以设置编码。 更改字...

  • 字符集和字符编码

    一篇很好地字符集和字符编码的详细介绍 字符集和字符编码(Charset & Encoding)

网友评论

      本文标题:对各字符集编码范围的总结

      本文链接:https://www.haomeiwen.com/subject/zplqjttx.html