万物之中, 希望至美.

「Python3学习笔记」读书笔记—字典

2018.06.25

字典是内置类型中唯一的映射(Mapping)结构,基于哈希表存储键值对数据。

值可以是任意类型的数据,但主键必须是可哈希的类型。常见的可变类型,如列表、集合等都不能作为主键使用。即便是元组等不可变类型,也不能引用可变类型元素,即元组中不能含有可变类型的元素。

>>> import collections
>>> issubclass(list, collections.Hashable)
False
>>> issubclass(int, collections.Hashable)
True

>>> hash((1, 2, 3))
2528502973977326415
>>> hash((1, 2, [1, 2]))		# 包含可变类型
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'

哈希计算通过调用 __hash__ 方法返回整数值,用来快速比较内容是否相同。某些类型虽然有该方法,但实际无法执行,故不能作为主键使用。另外,主键对象的哈希值必须恒定不变,否则无法查找键值,甚至会引发错误。

>>> callable(list().__hash__)
False

自定义类型默认实现了 __hash__ 和 __eq__ 方法,用与哈希和相等比较操作。前者为每个实例返回随机值;后者除非与自己比较,否则总是返回 False。这两个方法可根据需要进行重载。

作为常用的数据结构,又因为命名空间的缘故,字典的使用频率非常高。Python 开发团队也一直致力于改进其数据结构和算法,这其中自然也包括惯用的缓存复用。

Python 3.6 借鉴 PyPy 字典设计,采用更紧凑的存储结构。keys.entries 和 values 用数组按添加顺序存储主键和值引用。实际哈希表由 keys.indices 数组承担,通过计算主键哈希值找到合适的位置,然后在该位置存储主键在 key.entries 的实际索引。如此一来,只要通过 indices 获取实际索引后,就可读取主键和值信息了。

虽然该版本按添加顺序存储元素,但内部实现不能作为依赖条件。在后续版本中,可能有其他变化。如有明确顺序需求,建议使用 collections.OrderDict。

系统分别缓存复用 80 个 dict 和 keys,其中包括长度为 8 的 entries 内存。对于大量小字典对象而言,直接使用,无须任何内存分配操作。回收时,凡内存被扩张过的都会被放弃。

从开发地址法(open-address)实现方式来看,它并不适合处理大数据。轻量级方案可选用 shelve、dbm 等标准库模块,也可直接采用 SQLite、LevelDB 等专业数据库。

构建

创建字典对象可以使用大括号键值对方式创建,或调用类型构造。

>>> {"a": 1, "b": 2}
{'a': 1, 'b': 2}
>>> dict(a=1, b=2)
{'a': 1, 'b': 2}

初始化键值参数也可以用元组、列表等可迭代对象的方式提供。

>>> kvs = (("a", 1), ["b", 2])
>>> dict(kvs)
{'a': 1, 'b': 2}

基于动态数据创建时,多以 zip、map 函数或推导式完成。

>>> dict(zip("abc", range(3)))
{'a': 0, 'b': 1, 'c': 2}
>>> dict(map(lambda k, v: (k, v + 10), "abc", range(3)))
{'a': 10, 'b': 11, 'c': 12}
>>> {k: v + 10 for k, v in zip("abc", range(3))}
{'a': 10, 'b': 11, 'c': 12}

除了直接提供内容外,某些时候,还须根据一定条件初始化字典对象。比如,基于已有字典内容扩展,或初始化零值等。

>>> a = {"a": 1}
>>> b = dict(a, b=1)		# 在复制 a 内容的基础上,新增键值对
>>> b
{'a': 1, 'b': 1}
>>> c = dict.fromkeys(b, 0)		# 仅用 b 的主键,内容另设
>>> c
{'a': 0, 'b': 0}
>>> d = dict.fromkeys(("counter1", "counter2"), 0)	# 显示提供主键
>>> d
{'counter1': 0, 'counter2': 0}

相比于 fromkeys 方法,推导式可完成更复杂的操作,比如额外的 if 过滤条件。

操作

字典不是序列类型,不支持序号访问,可以使用主键(键值)读取、新增或删除内容。 若主键(键值)不存在,会引发 KeyError 异常,可以先用 in、not in 语句判断是否存在该主键(键值),或用 get 方法返回默认值。

get 方法默认值参数仅返回,不影响字典内容。但某些时候,我们还须向字典插入默认值,比如用字典存储多个计数器,那么在第一次取值时延迟初始化很有必要。在字典内有零值内容代表该计数曾被使用,没有则无法记录该行为。

>>> x = {}
>>> x.setdefault("a", 0)		# 如果有 a,那么返回实际内容,否则新增{a:0}键值对
0
>>> x
{'a': 0}
>>> x["a"] = 100
>>> x.setdefault("a", 0)
100

字典不支持加法、乘法、大小等运算,但可比较内容是否相同。

>>> {"a": 1, "b": 2} == {"a": 1, "b": 2}
True

视图

与早期版本复制数据并返回列表不同,Python 3 默认以视图关联字典内容。如此一来,既能避免复制开销,还能同步观察字典变化。

>>> x = dict(a = 1, b = 2)
>>> ks = x.keys()		# 主键视图
>>> for k in ks: print(k, x[k])		# 利用视图迭代字典
a 1
b 2

::这一段代码不是很明白,迭代获取值还是从原来的字典中获取的,为什么会叫视图呢?::

字典没有独立的只读版本,无论传递引用还是复制品,都存在弊端:

  • 直接引用有被接收方修改内容的风险
  • 复制品仅是一次快照,无法获知字典的变化

视图则不同,它能同步读取字典内容,却无法修改。且可选择不同粒度的内容进行传递,如此可将接收方限定为指定模式下的观察员。

def test(d):		# 传递键值视图(items),只能读取,无法修改
    for k, v in d:
        print(k, v)

视图还支持集合操作,以弥补字典功能上的不足。

>>> a = dict(a = 1, b = 2)
>>> b = dict(c = 3, b = 2)
>>> ka = a.keys()
>>> kb = b.keys()

>>> ka & kb		# 交集:在 a、b 中同时存在
{'b'}
>>> ka | kb		# 并集:在 a 或 b 中存在
{'b', 'a', 'c'}
>>> ka - kb		# 差集:仅在 a 中存在
{'a'}
>>> ka ^ kb		# 对称差集:仅在 a 或仅在 b 中出现,相当于“并集-交集”
{'a', 'c'}

利用视图的集合运算,可简化某些操作。例如,只更新,不新增。

>>> a = dict(a = 1, b = 2)
>>> b = dict(b = 20, c = 3)

>>> ks = a.keys() & b.keys()		# 交集,也就是 a 中必须存在的主键

>>> a.update({k: b[k] for k in ks})	# 利用交集结果提取待更新的内容
>>> a
{'a': 1, 'b': 20}

拓展

在标准库中,还有几个扩展类型的字典可供使用。

默认字典(defaultdict)类似于 setdefault 方法的包装。当主键不存在时,调用构造参数提供的工厂函数返回默认值。

将字典直接作为对外接口时,无法保证用户是否会调用 setdefault 或 get 方法。这样,默认字典的内置初始化行为就好于对用户做额外要求。

>>> import collections
>>> d = collections.defaultdict(lambda : 100)
>>> d["a"]
100
>>> d["b"] += 1
>>> d
defaultdict(<function <lambda> at 0x10bfb4f28>, {'a': 100, 'b': 101})

与内部实现无关,有序字典(OrderedDict)明确记录主键首次插入的次序。

任何时候都要避免依赖内部实现,或者说遵循“显式优于隐式”的规则。

>>> d = collections.OrderedDict()
>>> d["z"] = 1
>>> d["a"] = 2
>>> d["x"] = 3
>>> for k, v in d.items(): print(k, v)
z 1
a 2
x 3

与前面所说不同,计数器(Counter)对于不存在的主键返回零,但不会新增,即将主键添加到字典中。

可通过继承并重载 __miss__ 方法新增键值

>>> d = collections.Counter()
>>> d["a"]
0
>>> d["b"] += 1
>>> d
Counter({'b': 1})

链式字典(ChainMap)以单一接口访问多个字典内容,其自身并不存储数据。读操作按参数顺序依次查找各字典,但修改操作(新增、更新、删除)仅针对第一字典。

>>> a = dict(a = 1, b =2)
>>> a = dict(a = 1, b = 2)
>>> b = dict(b = 20, c = 30)
>>> x = collections.ChainMap(a, b)

>>> x["b"], x["c"]		# 按顺序命中
(2, 30)
>>> for k, v in x.items(): print(k, v)		# 遍历所有字典
b 2
a 1
c 30

>>> x["b"] = 999		# 更新,命中第一字典
>>> x["z"] = 888		# 新增,命中第一字典
>>> x
ChainMap({'a': 1, 'b': 999, 'z': 888}, {'b': 20, 'c': 30})

可利用链式字典设计多层次的上下文(context)结构。

合理的上下文类型,须具备两个基本特征。首先是继承,所有设置可被调用链的后续函数读取;其次是修改仅针对当前和后续逻辑,不应向无关的父级传递。如此,链式字典查找次序本身就是继承的体现,而修改操作被限制在当前第一字典中中,自然也不会影响父级字典的同名主键设置。

comments powered by Disqus