Python 的集合(set)运算

发表时间

数学里集合运算在 Python 语言的 set 数据类型中也有对应的运算。

子集⊆、真子集⊂

判断真子集的 ⊂ 符号,在 Python 语言中,对应 set 类型的 < 运算
判断子集的 ⊆ 符号,对应 <=

比如下面的例子:

A = {1, 2, 3}
B = {1, 2, 3, 4, 5}
A <= B     # True
A < B      # True
A <= A     # True
B < A      # False

另外,set 类型的内置函数 issubset() 同样可以判断是否子集:

A.issubset(B)     # A <= B

超集/包含关系⊇、 ⊃

表示真包含的 ⊃ 符号,对应 set 类型的 > 运算
表示包含的 ⊇ 符号,对应 set 类型的 >= 运算,和内置函数 issuperset()

A = {1, 2, 3}
B = {1, 2, 3, 4, 5}
B >= A      # True
B > A       # True
A >= A      # True
A > B       # False
A.issuperset(B)     # False
B.issuperset(A)     # True

两集合求交集

set 的交集 的运算符号是 & ,采用这个符号是显然的,因为交集运算与位与(bit-wise AND)运算相似。对应的内置函数是 intersection()

A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
A & B          # set([4, 5])
A.intersection(B)       #set([4, 5])

无交集

两个集合交集为空集,即任一个集合中的任何一个元素都不属于另一个集合,可以说这两个集合是不相交集(Disjoint sets)。判断函数是 isdisjoint()

A = {1, 2, 3}
B = {1, 2, 3, 4, 5}
A.isdisjoint(B)        # False

两集合的并集

set 的并集的运算符号是 | ,采用这个符号也是显然的,因为并集运算与位或(bit-wise OR)运算相似。对应的内置函数是 union()

A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
A | B       # set([1, 2, 3, 4, 5, 6, 7, 8])
A.union(B)     # set([1, 2, 3, 4, 5, 6, 7, 8])

差集(减法)运算

set的差集运算,也就是从一个集合里减去另一个集合的所有元素,理所应当的用减号表示,内置函数是 difference()

A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
A - B     # set([1, 2, 3])
A.difference(B)     # set([1, 2, 3])

对称差集(异或)运算

数学上,两个集合的对称差(Symmetric difference)的定义是:

只属于其中一个集合,但不被两个集合同时包含的元素集合

也就是并集减去交集。例如:集合{1,2,3}和{3,4}的对称差为{1,2,4}。

集合论中的这个运算相当于布尔逻辑中的异或运算。所以在Python里使用了异或的符号(^)表示,内置函数为symmetric_difference()

A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
A ^ B        # set([1, 2, 3, 6, 7, 8])
A.symmetric_difference(B)        # set([1, 2, 3, 6, 7, 8])

集合内置函数的几个特点

上面介绍的集合 set 类型内置函数里,有三个判断函数(is开头的函数)

  • issubset()
  • issuperset()
  • isdisjoint()

和四个运算函数

  • intersection()
  • union()
  • difference()
  • symmetric_difference()

其中后面四个表示运算的函数有下面几个共同特点:

  1. 可以同时传递多个参数,表示连续运算
  2. 可以传递除集合外的其他可递归类型(iterable)

比如

# 连续交集运算
A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
C = {4, 5, 9, 0}
A.intersection(B, C)    #  set([4, 5])
A & B & C  #  set([4, 5])

# list 类型求并集
A = [1, 2, 3, 4, 5]
B = [4, 5, 6, 7, 8]
set(A).union(B)    # set([1, 2, 3, 4, 5, 6, 7, 8])

# 字符串也是属于 iterable,就是可以用 for 循环遍历的类型
set('abc').symmetric_difference('cdef')    # set(['a', 'b', 'e', 'd', 'f'])

集合运算的应用

利用set的运算,我们可以方便的判断两个 sequence 类型的集合运算关系,例如 list 类型

A = [1, 2, 3]
B = [1, 2, 3, 4, 5]
set(A) <= set (B)      # True

相关文章
除非特别说明,本站文章均系原创,并采用 署名协议 CC-BY 授权。
欢迎转载,惟请保留原文链接:https://lfhacks.com/tech/python-set-operations