《Fluent Python》 读书笔记:字典和集合

2021-12-13

dict 类型是 Python 语言的基石。

正因为 dict 类型至关重要,Python 对它的实现做了高度优化。性能出众的原因在于使用了散列表(或者叫哈希表),另外,set 类型也依赖散列表。

这篇文章 对比了 hashable 和 immutable 的概念。

用户自定义类型

一般来讲,用户自定义的类型的对象都是可散列(hashable)的,散列值就是对象的 id() 函数返回值。

>>> class A:
...     pass
... 
>>> a=A()
>>> id(a)
2310136739536
>>> b=A() 
>>> id(b) 
2310138637664
>>> a==b
False

setdefault 方法

虽然 dict.get(key, default) 可以给不存在的键一个默认的返回值,但是在有些场景下,这种方法不是很自然。比如:

统计每个单词出现的频率,当循环到某个从未出现过的单词时。就会有下面这种写法。

occurrences = index.get(word, [])
occurrences.append(...)
index[word] = occurrences

每次循环中,对于每一个词 word ,在 index 中要查询两次。

如果用setdefault,写法是这样:

index.setdefault(word, []).append(...)

defaultdict 方法

为了进一步的方便,还希望对于不存在的键,能得到一个默认值。可以借助 collections.defaultdict,详细的介绍在 这篇文档

__missing__ 的例子

希望有这么一个字典,名叫 StrKeyDict,key 既能用字符串类型,也能用对应的数字,比如:

>>> d=StrKeyDict(['2', 'two'], ['4', 'four'])
>>> d['2']
'two'
>>> d[2]
'two'
>>> d[1]
KeyError: '1'

为了实现这个功能,需要自定义一个映射类型,从原始类型 dict 派生而来。

class StrKeyDict(dict):
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
    ...

捐助本站

为了保证阅读体验,本站不安放广告。但是,租用服务器和编写文章需要个人资金和时间的投入。

如果您觉得文章对您有用,请考虑捐助小站(金额不限),以期待更多原创文章。捐助记录

本站是个人网站,若无特别说明,文章均为原创,并采用 署名协议 CC-BY-NC 授权。
欢迎转载,惟请保留原文链接,且不得用于商业用途。