《Fluent Python》 读书笔记:文本和字节序列

2021-12-31
标签: PYTHON

Python2 的噩梦:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xxx in position 0: illegal multibyte sequence

字符串

  • 从 Python3 的 str 对象中取出的是 Unicode 字符
  • 从 Python2 的 unicode 对象中取出的是 Unicode 字符
  • 从 Python2 的 str 对象中取出的是 原始字节序列

Unicode

Unicode 对字符的标识,称为 code point,码位。

码位的范围从 \x0 到 \x10FFFF,共 1,114,112 个。前缀 U+

如果您对本站内容有疑问或者寻求合作,欢迎 联系邮箱邮箱已到剪贴板

标签: PYTHON

欢迎转载本文,惟请保留 原文出处 ,且不得用于商业用途。
本站 是个人网站,若无特别说明,所刊文章均为原创,并采用 署名协议 CC-BY-NC 授权。