《Fluent Python》 读书笔记:文本和字节序列

2021-12-31
标签: PYTHON

Python2 的噩梦:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xxx in position 0: illegal multibyte sequence

字符串

  • 从 Python3 的 str 对象中取出的是 Unicode 字符
  • 从 Python2 的 unicode 对象中取出的是 Unicode 字符
  • 从 Python2 的 str 对象中取出的是 原始字节序列

Unicode

Unicode 对字符的标识,称为 code point,码位。

码位的范围从 \x0 到 \x10FFFF,共 1,114,112 个。前缀 U+

标签: PYTHON

精彩评论

本站是个人网站,若无特别说明,文章均为原创,并采用 署名协议 CC-BY-NC 授权。
欢迎转载,惟请保留原文链接,且不得用于商业用途。