P2P 网络学习 | Celestial

P2P 网络是一个有别于中心化网络的东西，本文简单介绍一些实现 P2P 网络的思路。

中心化网络

首先介绍一下中心化的网络，对于中心化的网络而言，资源的存取非常简单。大概就是把资源存放在一台服务器或者一组集群上，客户端直接访问这些服务器就可以获取资源。中心化的设计要简单很多，而且不需要花很多功夫就能得到很好的性能。主要问题是服务器的维护本身需要成本，而且资源存取的速度会受到服务器带宽和集群的限制，更高的带宽与更庞大的集群意味着更高的成本。如果我们想要做一些用爱发电的事情，做成中心化是很难维持的。

混合模型

于是我们发现如果能直接把资源放在客户端上，就能缓解服务端的压力，很多年前著名的 Napster 就是采用的这个做法。具体来说，当一个客户端请求某个资源时，服务端负责返回这个资源存在哪个客户端上，于是客户端之间就能直接连接共享这个资源，服务端也就不需要存储资源了。实际上就是服务端仅仅起到一个对客户端之间进行路由的作用，而资源的存储就完全交给客户端。

这就是最早的 P2P 模型：混合模型。这种想法其实已经很节约了，然而服务端的维护成本对于个人来说仍然难以承受，用爱发电仍然很难。而且它仍然具有中心化的特点：如果服务端炸了，那还是一样全部爆炸。

非结构化网络

再接下来我们考虑能不能把路由的功能也做成分布式的。有一种简单的做法，P2P 网络中每个节点需要查询某个资源时，它向它的已知的一些节点（称为邻居）发送查询请求，邻居再把它的请求发送给邻居的邻居，直到找到资源。这种做法一听就非常操蛋，我想要找一个资源就要把消息一层一层转发给网络中的一大堆节点，我的节点本身也要时常处理网络中其他人发来的查询请求。所以直接摁发肯定是不行的，优化的策略有很多：避免广播、约束转发的上限、优化网络的拓扑结构等等。

那么这个网络拓扑是怎么构建起来的呢？这种思路要求每个节点应当维护一个邻居的列表（路由表），初始时当然是空的，所以需要有一些用爱发电的公共节点作为初始的邻居。每个节点会跟邻居进行通信，动态地获取网络上可用的其他节点，据此来维护自己的路由表，并做一些持久化。通过邻居关系连接各个节点，网络拓扑就建立起来了。

这其实也就是出现在混合模型之后的非结构化 P2P，典型代表有 Gnutella 协议和比特币。它的优点很明显，节点之间路由关系的维护可以直接交给各个节点，只需要购买一些廉价服务器做公共节点，整个 P2P 网络自己就能慢慢构建起来。缺点也很明显：寻找资源需要消耗大量的网络资源；查询速度非常慢；即使目标节点在线也有可能查不到资源。

结构化网络

继非结构化网络之后，结构化的 P2P 出现了，实际上它是在拓扑结构上进行了特殊优化。它对 P2P 网络的拓扑结构有特定的要求，并且能够确保节点对资源的访问是高效的且稳定的。典型的例子就是以太坊。

最常见的结构化网络就是分布式哈希表（DHT），它使用一个哈希函数来把每个文件分配给对应的节点管理。这样整个网络就构成一个哈希表，节点想要查询某个资源，就用它资源名的哈希值在表中查询到对应的节点获取该资源。当然资源的查询请求仍然是需要在节点之间互相转发的，因此就需要对拓扑结构进行优化，以保证转发的路径不要太离谱。具体来说就是路由表的维护策略，比如 Kademlia 算法采用二分的思路进行设计。因为 DHT 是哈希表，所以理所当然模糊匹配是比较难实现的。另外 P2P 网络中在线节点不稳定，拓扑结构变化会非常频繁，优秀的 DHT 设计应当充分考虑这一问题。负载均衡也是 DHT 需要考虑的问题。