《Fluent Python》 读书笔记:文本和字节序列

2021-12-31

Python2 的噩梦:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xxx in position 0: illegal multibyte sequence

字符串

  • 从 Python3 的 str 对象中取出的是 Unicode 字符
  • 从 Python2 的 unicode 对象中取出的是 Unicode 字符
  • 从 Python2 的 str 对象中取出的是 原始字节序列

Unicode

Unicode 对字符的标识,称为 code point,码位。

码位的范围从 \x0 到 \x10FFFF,共 1,114,112 个。前缀 U+

捐助本站

为了保证阅读体验,本站不安放广告。但是,租用服务器和编写文章需要个人资金和时间的投入。

如果您觉得文章对您有用,请考虑捐助小站(金额不限),以期待更多原创文章。捐助记录

本站是个人网站,若无特别说明,文章均为原创,并采用 署名协议 CC-BY-NC 授权。
欢迎转载,惟请保留原文链接,且不得用于商业用途。