一日一技:让emoji表情变消失
[未闻Code ]2019-03-15
当我们从微博或者推特上爬下数据以后,里面可能包含了emoji表情。这种表情本书就跟汉字一样是普通的字符,并不是图片。
如果你需要把数据存入MySQL中,这些emoji表情可能会导致插入失败,即时你已经把编码设置为 utf8mb4
也不行。
此时,就需要使用正则表达式从字符串中移除emoji表情。
----- image大部分的emoji表情对应的Unicode码分布在如下4个范围内:
1. **"\U0001F600-\U0001F64F"**
**"\U0001F300-\U0001F5FF"**
2. **"\U0001F680-\U0001F6FF"**
3. **"\U0001F1E0-\U0001F1FF"**
因此可以使用Python正则表达式的 sub
方法把emoji去掉。
1. import re
text = '不要说话😋,你知道我在想什么😉'
clear_text=re.sub('["\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF"]', '', text)
print(clear_text)
运行效果如图所示
不过需要注意的是,上面这个范围并不完全,例如:🤔 这个表情就无法被过滤。
关注更多精彩
网友评论