iOS开发中,比较蛋疼的一个问题,NSData转UTF-8格式的NSString,有时候会返回nil。
究其原因,无非就是:UTF-8的字符中混进了其他编码格式的字符,这样NSData转NSString的时候,就是返回nil
而现在网上的方法基本就这几个:
http://blog.csdn.net/cuibo1123/article/details/40938225
http://blog.csdn.net/xocom/article/details/50905578
http://www.cnblogs.com/xiao-love-meng/p/5757564.html
这几个方法都不完美,都不能完全解决我遇到的问题。
我的解决方法:
查了UTF-8的wiki,utf-8的编码格式如下,理论上可以到6个字节,但之用到了4个字节。
image其中,有一些特殊字节是不会出现在utf-8中的:
image其中,还指出了判断utf-8的方法:
UTF-8字符串可以由一个简单的算法可靠地识别出来。就是,一个字符串在任何其它编码中表现为合法的UTF-8的可能性很低,并随字符串长度增长而减小。举例说,字符值C0,C1,F5至FF从来没有出现。为了更好的可靠性,可以使用正则表达式来统计非法过长和替代值(可以查看W3 FAQ: Multilingual Forms上的验证UTF-8字符串的正则表达式)。
$field =~
m/\A(
[\x09\x0A\x0D\x20-\x7E] # ASCII
| [\xC2-\xDF][\x80-\xBF] # non-overlong 2-byte
| \xE0[\xA0-\xBF][\x80-\xBF] # excluding overlongs
| [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2} # straight 3-byte
| \xED[\x80-\x9F][\x80-\xBF] # excluding surrogates
| \xF0[\x90-\xBF][\x80-\xBF]{2} # planes 1-3
| [\xF1-\xF3][\x80-\xBF]{3} # planes 4-15
| \xF4[\x80-\x8F][\x80-\xBF]{2} # plane 16
)*\z/x;
因此,我们只要把上面的代码,转换成OC语言就行了:
这里我直接写了一个Category:
@implementation NSData (UTF8)
- (NSString *)utf8String {
NSString *string = [[NSString alloc] initWithData:self encoding:NSUTF8StringEncoding];
if (string == nil) {
string = [[NSString alloc] initWithData:[self replaceNoUtf8:self] encoding:NSUTF8StringEncoding];
}
return string;
}
//替换非utf8字符
//注意:如果是三字节utf-8,第二字节错误,则先替换第一字节内容(认为此字节误码为三字节utf8的头),然后判断剩下的两个字节是否非法;
- (NSData *)replaceNoUtf8:(NSData *)data
{
char aa[] = {'A','A','A','A','A','A'}; //utf8最多6个字符,当前方法未使用
NSMutableData *md = [NSMutableData dataWithData:data];
int loc = 0;
while(loc < [md length])
{
char buffer;
[md getBytes:&buffer range:NSMakeRange(loc, 1)];
if((buffer & 0x80) == 0)
{
loc++;
continue;
}
else if((buffer & 0xE0) == 0xC0)
{
loc++;
[md getBytes:&buffer range:NSMakeRange(loc, 1)];
if((buffer & 0xC0) == 0x80)
{
loc++;
continue;
}
loc--;
//非法字符,将这个字符(一个byte)替换为A
[md replaceBytesInRange:NSMakeRange(loc, 1) withBytes:aa length:1];
loc++;
continue;
}
else if((buffer & 0xF0) == 0xE0)
{
loc++;
[md getBytes:&buffer range:NSMakeRange(loc, 1)];
if((buffer & 0xC0) == 0x80)
{
loc++;
[md getBytes:&buffer range:NSMakeRange(loc, 1)];
if((buffer & 0xC0) == 0x80)
{
loc++;
continue;
}
loc--;
}
loc--;
//非法字符,将这个字符(一个byte)替换为A
[md replaceBytesInRange:NSMakeRange(loc, 1) withBytes:aa length:1];
loc++;
continue;
}
else
{
//非法字符,将这个字符(一个byte)替换为A
[md replaceBytesInRange:NSMakeRange(loc, 1) withBytes:aa length:1];
loc++;
continue;
}
}
return md;
}
@end
JSON格式数据,前面多了垃圾字符截取处理。
A{"commandType":"PLAYER_INFO","commandId":"0e752a6a-efaf-4e71-a970-b8d491170538","parameter":{"balance":0,"nickname":"","returnMessage":0,"currency":"TEST","userName":"18617024050","playerId":38795}}
messageData = [messageData replaceNoUtf8:messageData];
NSError *err;
NSString *messageString = [[NSString alloc] initWithData:messageData encoding:NSUTF8StringEncoding];
messageString = [messageString stringByReplacingOccurrencesOfString:@"\0\0\0" withString:@""];
BOOL hasPrefix = NO;
while (hasPrefix == NO) {
messageString = [messageString substringFromIndex:1];
hasPrefix = [messageString hasPrefix:@"{"];
}
NSData *utf8Data = [messageString dataUsingEncoding:NSUTF8StringEncoding];
NSDictionary *jsonDic = [NSJSONSerialization JSONObjectWithData:utf8Data options:NSJSONReadingAllowFragments error:&err];
if (err) {
NSLog(@"err = %@", err);
}
NSLog(@"收到服务器返回消息messageString:%@",messageString);
NSLog(@"收到服务器返回消息jsonDic:%@", jsonDic);
网友评论