UTF-8 中文编码范围
主流的匹配字符有两种 [\u4e00-\u9fa5]和[\u2E80-\u9FFF],后者范围更广,包括了日韩地区的汉字
import re
pattern = re.compile("[\u2E80-\u9FFF]+")
result = pattern.findall('新浪微博')
print(result)
['新浪微博']
主流的匹配字符有两种 [\u4e00-\u9fa5]和[\u2E80-\u9FFF],后者范围更广,包括了日韩地区的汉字
import re
pattern = re.compile("[\u2E80-\u9FFF]+")
result = pattern.findall('新浪微博')
print(result)
['新浪微博']