utf-8编码的汉字

utf-8编码的汉字

作者: 凉夜lrs | 来源:发表于2021-01-20 09:37 被阅读0次

lua自带的string库计算字符串长度是以字节来算的，所以一个中文字一般会占用3个字节（UTF8）。那么，如何让读取中文字符长度呢？

UTF8的编码规则：

字符的第一个字节范围： 0x00—0x7F(0-127)，或者 0xC2—0xF4(194-244)；UTF8 是兼容 ascii 的，所以 0~127 就和 ascii 完全一致。
0xC0， 0xC1，0xF5—0xFF(192, 193 和 245-255)不会出现在UTF8编码中。
0x80—0xBF(128-191)只会出现在第二个及随后的编码中(针对多字节编码，如汉字)

这样我们可以利用lua强大的模式匹配，来实现我们要的效果，关键的处理有这么两个：

local _, count = string.gsub(str, "[^\128-\193]", "")，用来得到str中的字符数。
for uchar in string.gfind(str, "[%z\1-\127\194-\244][\128-\191]*") do tab[#tab+1] = uchar end,用来把str中的每个字符映射到tab中。

相关文章

网友评论

本文标题：utf-8编码的汉字

本文链接：https://www.haomeiwen.com/subject/wpoqzktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|utf-8编码的汉字|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！