由快播的庭审说说加密解密的问题

今天是“快播”涉黄案开庭的日子,新浪网直播了庭审全过程,过程中充满了各种欢乐。我们来说说其中的一个:

且不说这位审判员对于法律是多么地无知,用户的文件无论有没有加密都属于个人隐私,能问出这样的问题显然是对隐私保护没有一丁点的认识。

接下来我们从技术的角度来说说,为什么不能解密。

加密解密实际上是纯数学的东西。如果把一个需要加密的文件看成是一串数字,比如一个文件由一串数字序列(A0, A1, A2, ..., An)构成,这个序列可以被人阅读和理解。加密的过程就是把上述 A 序列转换为(B0, B1, B2, ..., Bn),这个 B 序列是完全杂乱无章,看不懂的内容。然后解密就是加密的逆过程,把 B 序列再翻译回 A 序列。这两个转换过程中都需要大量的计算,而计算机的产生使用大规模加密解密成为可能。

加密解密的一个典型应用场景是寄信。比如小张要写一封信给小红,为了防止信件在寄送过程中被别人看到内容,小张可以把信的内容先加密,然后收小红收到信之后再解密,即可确保寄送过程中没有人可以看懂信件的内容。

加密解密的一个重要工具是密钥。密钥的本质也是一串数字序列(C0, C1, C1, ..., Cn),把它和 A 序列以某种方式混合,即可产生 B 序列。然后再把 C 序列和 B 序列以某种方式混合,即可产生 A 序列。这种方式称为对称密钥加密。常见的对称密钥加密方式是 AES,暴力破解 AES 加密需要千百万年的计算时间,因此被认为是安全的。

使用对称密钥加密的前提条件是,传递信息的双方事先要约定一个密钥,有了统一的密钥,才能顺利地加密和解密。我们在谍战剧里经常看到的,战争的一方截获对另一方的密码本,从而监听到了重要的信息。这个密码本,就是这里说的密钥。密钥需要定期更新,否则就有可能被对方暴力破解,或是以其它的方式窃取。

从谍战剧中我们可以看到,对称密钥加密的主要缺点就是,交换密钥不方便。虽然后续的通信都加密了,但是密钥的传输过程中却是公开的。密钥的传输过程成了加密解密中的薄弱环节。

那么有没有办法解决这个问题呢?当然是有的。这种方法称为非对称密钥加密

非对称密钥加密的密钥包含两部分:公钥和私钥,公钥可以公开,私钥需要保密。而非对称密钥加密是一个外人看来很玄乎的东西。先说说它的过程:小张手里有一对公钥 P 和私钥 X,小红手里有一对公钥 Q 和私钥 Y。小红先把自己的公钥 Q 告诉小张。小张使用 Q 和自己的私钥 X 把信件的内容 A 加密成 B,然后把 B 和小张自己的公钥 P 一起告诉小红。然后小红使用自己的私钥 Y 和小张的公钥 P 对加密内容 B 进行解密,即可还原出 A 来。相信看到这里多数人都已经晕了。

具体原理这是不多说,它和素数分解有关。它对于密钥的保护措施是加密的双方只需要交换公钥即可进行加密和解密,而即使公钥被第三个人知道,他也没有办法破解加密过的文本。常见的非对称密钥加密方式是 RSA,暴力破解 RSA 同样也需要千百万年。非对称密钥加密最常见的应用是 HTTPS。这下知道为什么 HTTPS 是安全的了吧。

于是这里就解答了那位审判员的疑惑,为什么不能对用户上传的文件进行解密,因为根本解不开。如果快播的用户在上传视频时使用了非对称加密,下载视频的用户在观看时解密,这个过程中快播是没有办法知道其中的内容的。聊天软件 Telegram 也使用了类似的方式进行端到端的加密,使用聊天内容就连 Telegram 自己也不知道。

和加密相关的另一个技术称为哈希(Hashing),哈希的作用是验证源文本的真实性。举个例子,小张立了一份遗嘱,他显然不需要对这份遗嘱加密,因为遗嘱最终是要公开的。而他要做的是,确保最终公布的那份遗嘱和他最初立下的是一样的。于是小张可以在立下遗嘱的时候对这份遗嘱做一个哈希,在遗嘱公开的时候,对公开的遗嘱再做一次哈希,如果两份哈希码一致,才说明遗嘱没有被改动过。当然这其中还涉及到一些哈希保密的步骤,这里不细说了,大家知道这个意思就可以了。

哈希和加密解密的一个重要区别是,哈希生成的哈希值,是没有办法解密的,就是还原不回去,只能把 A 哈希成 B,不能再从 B 推导出 A。哈希在计算机领域的一个常见用途是保存密码。比如你在某个网站上注册了一个帐号,这个帐号包含用户名和密码。而网站的管理员不希望除了你之外的其它人看到这个密码,于是网站上所保存的内容只是密码的哈希值,而不是密码本身。在你每次登录网站的时候,网站都会对你输入的密码做一次哈希,如果哈希值和网站数据库中存放的一致,则表示你输入的密码正确。而即使有人偷取了网站所保存的哈希值,也没办法还原出密码来,也就不能登录你的帐号。

现在主流的哈希算法是 SHA-2。一个常见的应用场景是两步验证

好了,说了这么多加密解密相关的东西,回过头来说说快播。我没有用过快播的软件,也不太清楚快播对色情视频的打击做到了什么程度。但从技术的角度来看,P2P 的加密内容分享是无法被解密的,这也加速了全球日益高涨的恐怖威胁。全世界的政府都在要求商业公司提供用户的解密数据,与之相对的是数学领域的加密理论已经远远把监控和破解甩在了身后。我不认为任何公司需要对技术的进步负责,科技的进步是大势所趋,而需要改进的,是那些仍处于落后状态的事物。

如何提高电脑的运行速度

随着个人电脑的普及,各种电脑性能优化的歪门邪道也随之而来。尽管我自己不需要这些个所谓的“技巧”,但流言止于智者,写篇博客也可以帮助其他人。

常见的优化误区有那么几类:

清理硬盘,把临时文件甚至 Windows 系统文件都删掉,删得越多,速度越快

实际上,硬盘空间的使用量和电脑的速度并没有直接联系,只要不是完全用满,基本不会影响性能。不论是传统的机械硬盘,还是固态硬盘,硬盘的寻址速度并不取决于已用空间,换言之,不论存放了多少东西,Windows 找寻一个文件所用的时间是一样的。在 XP 的时代,磁盘碎片会降低文件读取的速度,但这一情况在 Windows 7 之后已经显著改善,没有必要经常进行清理了。

安装各种内存优化工具,降低内存使用率,内存用得越少,速度越快

让我们先来看看内存的用处是什么:硬盘的读写速度过慢,CPU 如果直接读写硬盘,则会使电脑非常缓慢,所以就有了内存,夹在当中做缓存之用。内存的读写速度是机械硬盘的十万倍以上,把硬盘的数据预先读取到内存中,再进行后续操作,可以提升电脑的总体运行速度。于是乎,操作系统更倾向于把不用的数据,或者还没用到的数据,暂时先放在内存中,直到用完,或者被其它更高优先级的数据所替代。而内存优化工具所做的事情,就是把这部分暂时不用的数据,从内存中清理出去,造成的结果就是,下一次用到这些数据的时候,操作系统要再去硬盘里读取,反而降低了电脑的运行速度。从另一个角度来说,如果你的电脑有 8G 内存,但你每天都只用其中的 1G 不到,那你买 8G 内存干啥,省点钱买 1G 就行了。

修改 Windows 的深层设置,“提升”速度

每个人使用电脑的方式不同,常用的功能也不尽相同,肯定会有一些设置,可以提升在某些场景下的性能。但这些设置需要按实际情况来调整,并不是使用工具“一键优化”就可以做到的。制作工具的人怎么可能想到每个人不同的需求,把这些需求都做进优化软件中。再说了,如果有一些常用的优化设置,优化软件的开发人员想得到,那 Windows 的开发人员也一定想得到,直接把 Windows 默认设置成优化过的状态不就行了,为何还需要进行二次优化。

那么,提升电脑速度的方式究竟是什么?

很简单,三个字:买买买。

为什么大家常常抱怨 Windows 没有 Mac OS 流畅?是因为 Windows 优化得不好么?显然不是。是因为很多人拿着 2000 元的 Windows 笔记本,去和上万元的 Macbook 去比。即使 Windows 优化得再好,在这种情况下也是比不过 Mac OS 的。不信的话,大可以去整一台万元的 Windows 笔记本,比如著名的 Alienware,再去和 Macbook 比,高下立见。或许多数人对 Alienware 都没什么概念,那我们就换个比喻。2000 元的笔记本,大约就相当于奇瑞 QQ。(2000 元以下的电脑属于二手 QQ。)而 Alienware 就好比宝马 M4,尽管哪辆车开得快还取决于驾驶员,但正常人都不会想着把 QQ 改装成 M4 吧。

既不肯花钱买高档的硬件,又钟情于各种歪门邪道来优化,最终只会适得其反。

Windows还是Linux

先交待一下背景,大学期间,除了课程需要和比赛之外,我基本没有用过Linux。对Linux可以算是一点都不了解。狗屎运的是,毕业后第一家公司对Linux也没什么好感,第二家公司是做广告的,对Linux知识要求也不高。于是就这么稀里糊涂地混了好几年。所以以下言论你可以认为是一面之辞。

言归正传,在大学里需要学习Linux吗?或者再深入一点,需要用Linux来替代Windows吗?

简单来说,完全没必要。除非你打定了主意以后开发Linux软件,或者从事Linux相关行业(我也不知道有没有这类的行业),那可以从大学的时候就开始准备起来。如果你还不确认以后会做什么,或者根本不知道Linux和Windows有什么差异,那基本可以不用专注于Linux,因为两者没什么本质差别,而日常使用显然是Windows有优势,比如国内的网银客户端。

那么为什么似乎身边的同学都对Linux情有独钟呢?我刚进大学的时候,有个同学一脸羡慕地跟我说,"某同学可以自行编译并安装SuSE"。好吧,当年我连SuSE是什么都不知道,装个Windows也需要光盘而不是用硬盘启动那么高深的技能,就更别说“能编译一个OS”那么牛逼的举动了,要知道有一票人连"Hello World"也编译不过……不过回过头来仔细想一下,会装个系统有什么了不起,安装程序是别人写好的,那同学只是按着说明书操作一下罢了。真正牛逼的不是跟着说明书走一遍,而是发现说明书中不合理的地方,然后尝试去改进它。多数人只是止步于如何使用,而不进一步研究一下内部的状况,从何想想如何改进。

回到Windows和Linux的问题上,从操作系统的角度来说,这两者没有本质的差别。操作系统发展了这么多年,该有的大家都有,就大学期间需要掌握的程度,学Windows和学Linux的效果是一样的。只是Windows对于日常使用更方便,所以没有必要在艰难困苦中自欺欺人,大学生活有很多更有意义的事情等着你。

什么是 DNS?

这个问题要从 IP 地址说起。IP 地址相关于网络设备的“门牌号”,每个在连上互联网的设备,都至少有一个 IP 地址。IP 地址的形式有两种,形如 104.155.216.90(IPv4)或者 2a00:1450:4002:804::1003(IPv6)。每个网络设备,包括服务器(网站)、终端用户,都有一个独立的 IP 地址(在使用的时候独立,使用完之后可能会被回收并复用)。

这样就产生了一个问题,IP 地址非常难记,显然 104.155.216.90 没有"leonax.net"好记。于是开发人员就发明了一种把 IP 地址转换成域名的服务。域名就是类似 leonax.net 这样的字符串,俗称网址。这个转换的服务被称为 DNS,全称是 Domain Name System。

DNS 的工作原因大致是这样的:如果终端计算机需要访问 leonax.net,它会先向管理 .net 域名的根 DNS 服务器发向请求,得到负责管理 leonax.net 的 DNS 服务器(假设是 A),然后再发送请求给 A,询问 leonax.net 的 IP 地址,最终得到结果为 104.155.216.90。然后终端计算机的浏览器就可以访问到http://leonax.net了。

根 DNS 服务器在全球一共有 13 个(以及一些镜像),显然这 13 个服务器没有能力响应来世界各地的所有 DNS 请求,于是就有了各种 DNS 缓存技术。通常终端计算机只需连接到最近的一台 DNS 缓存服务器上,如果那台服务器刚好有 leonax.net 的数据,就可以直接告诉终端计算机,而不需要麻烦根服务器。这样就大大地平衡了各个 DNS 服务器之间的负载,也减少了终端设备的等待时间。比如 Google 就开设了两个 DNS 缓存服务器,IP 地址分别为 8.8.8.8 和 8.8.4.4。

至于 DNS 的具体技术细节和实现,请自行 Google……

为什么学计算机的同学都讨厌修电脑

基本上每个专业的同学都会碰到类似的问题吧,比如学英语的同学会碰到“不看字幕能听懂吗”“听不懂”“这么多年都在读什么书”之类的问题,只是电脑在日常生活中比较常见,所以计算机专业的同学碰到这类事情的机率比其它专业要多得多。

这个问题的原因,简单来说是术业有专攻,不是所有计算机专业学生学的都是“修电脑”,大多数同学在读完本科之后,依然不知道如何修电脑。

所谓“修电脑”,多数是指电脑出现问题了,无法正常使用的时候,尝试解决所出现的故障。故障的原因不外乎三大类,硬件问题、软件问题 和 软硬件结合的问题。

硬件的知识,在计算机专业课中涉及得非常少,除非自己有兴趣研究,一般学生和普通人一样,是不懂这方面知识的。即使辛辛苦苦读了四年大学,还是不懂。而电脑硬件故障的时候,即使懂一些硬件知识,也是很难维修的,因为电脑硬件的复杂程度已经远远超过用电烙铁、万用表能修的范畴了。通常能做的事情只有重新插拔一下、换一个新的部件试试之类的方法,这种方法一般人都会。

软件故障,听上去像上计算机专业所学的内容,其实也不然。全世界有成千上万的软件,一个人不可能每个软件都熟练使用,即使是最常见的Windows,多数人也只处在一知半解的状态。软件故障的原因,通常是由之前的误操作导致的,这样就不仅需要维修人员有软件的知识,还要有一定的交流能力,从而分析出可能的故障原因,才能对症下药。所以出了故障,除非之前碰到过同样的问题,一般都需要花至少几个小时才能解决。这还是只在能接触到电脑的情况下,更别说那些只是电话求助或者网络求助的了,解决的概率非常之低。

软硬件结合的问题是指,比如硬件是A,而软件认为硬件是B,其实软件和硬件本身都没问题,只是它们之间没法交流了。这类问题出现的机率比较少,也通常可以搞定,但也需要在能接触到电脑的情况下。

总之,修电脑没有多数人想象中那么容易,请对身边修电脑的同学好一点。

最后引用一句经典的回答:如果你是萌妹纸,大多数同学都不会介意帮你修电脑的。