大数跨境

高手的秘诀——抽样与压缩

高手的秘诀——抽样与压缩 卢火纯青
2020-08-22
2
导读:抽样是为了去除时间上的冗余,压缩是为了去除空间上的重复。

(本文某些地方涉及数学概念,可能会引起部分人的不适,直接跳过不影响阅读)


有没有过这样的体会:跟一个低层次的人谈话,你会感到非常费劲,感觉用12匹的动力都拉不过来,到最后恨不得一巴掌拍死;而跟一个高层次的人谈话,则会感到非常轻松,如沐春风,甚至说着说着还被人家拉着走。


为什么会这样?这里涉及到两个很重要的概念——信息的抽样与压缩。高层次的人,懂得对信息的抽样与还原、压缩与解压,仅需少量信息即可充分沟通;而低层次的人则不然,需要大量初级的、冗余的信息才能似懂非懂。


抽样与压缩都是为了去除重复冗余。抽样是为了去除时间上的冗余,压缩是为了去除空间上的重复。


什么是抽样?抽样是从原始信息中抽取部分信息。从数学角度来说,原始信息都是连续信号(咱不懂量子理论,不考虑量子态哈)。初中数学课堂上,老师让我们画的函数曲线,都是连着的吧?这就是连续信号。自然界的信息都是连续的。说起信号分析,想起了《信号与系统》那门课程,读书期间学了三遍。第一遍是因为当初专业不是电子类,想弄个双学位,于是放弃暑假回到学校自学,把清华郑君里版和国外奥本海默版都看了。然而电子系的课程太多,对数学的要求又太高,自学太累了,别说双学位,搞不好连一个学位都拿不到。所以后来还是想办法转系了,结果又在课堂上学了一遍。后来读研期间,为了巩固基础又有这门课程,又学了一遍,唉。不过这也说明了这门课程极其重要。因为学了这么多遍,所以印象还是比较深的。


什么样的信息可以抽样?就是时间上存在冗余的信息。对于按周期性重复变化的信息,在一个变化周期内,取两个点,就足以获取该时间段内的全部信息了,其他时间的信息都是“废话”。采样节奏跟上变化的节奏,这样就足够了。


从数学角度来理解,抽样的依据是奈奎斯特抽样定理。想必电子专业的很多人工作后都忘了这条定理及其推导过程。可以这么记:“抽样”就是拿原始信号去乘以周期性的抽样脉冲(最理想的是“冲激脉冲”),周期性抽样脉冲的频谱(频谱就是信号的傅里叶变换)是冲激函数序列(间隔为抽样频率);由于时域相乘就是频域卷积,而任何函数与冲激函数的卷积等于其自身,所以,抽样之后的信号频谱就是原始信号频谱在频率坐标轴上不断以抽样频率为间隔平移叠加而成。这个频谱函数图形很容易想象吧?只要抽样频率大于原始信号频谱宽度的两倍(因为考虑到负数频率还有一半),最终信号的频谱就完整包含了原始信号的频谱,只需要一个低通滤波器就可以将信号还原。


简言之,如果原始信号的频率限制在某个范围内,那么,只需要按高于最大频率两倍的频率对其进行抽样,就不会丢失任何信息。为什么打电话,8kHz的采样率就够了?因为人的语音,只需要限制在4kHz范围内,就完全可以清晰地通话了。人耳能听到的最高频率是20kHz,所以,我们的mp3音乐采样频率大多是44.1kHz(两倍加点冗余),如果照顾到极少数天赋异禀者,最大也就48kHz。高于这个频率来采样,就是浪费。


那什么又是压缩?压缩的原理其实很简单,就是把空间上重复的信息剔除掉。比方说,篮子里有100个鸡蛋,怎么表达?在没有发明数字符号之前,你得画上一百个圆圈,一个圆圈代表一个鸡蛋,这样你就得需要很大的纸张,如果有一万个鸡蛋,你得费百倍的纸张。而有了数字之后,你直接写上100加个圆圈就可以了。这就是压缩,就是把相同的信息用统一的索引来表示。当然还有其他办法,但目标都一样。


抽样与压缩,根本目的是一致的,都是为了去除冗余,在不失真或在一定的容许程度下,对信息进行精简。压缩后的信息,通过解压器进行还原;抽样后的信息,通过滤波器进行还原。这就是计算机对信息的处理过程。


之所以说这么多,是因为,上述原理不光适用于机器,其实对人类而言也是一样的。


人们平常说话,很多时候都是翻来覆去,颠三倒四,车轱辘来回转。从频谱角度来分析,其实也就是限制在一个有限的频率窗口之内,完全可以“抽样”;从内容来看,很多话都是重复的,完全可以“压缩”。越啰嗦频谱越窄重复越多,信息量越小;越利落频谱越宽,重复越少,信息量越大。我们只需要采用合适的抽样频率,合适的压缩算法,对信息进行精简。高层次的人,能顺利地把这些有限的、零散的简化信息还原成原始信息,完全理解对方想要表达的意思。而低层次的人,缺乏对这些简化信息的还原能力,所以得提高采样频率,弱化压缩算法才行。对于后者,你得不断重复,不断举例,不断强调,否则,对方听不懂。


我们可以将每个人都看成是一台信息处理机,由抽样器、压缩器、解压器、还原器组成。抽样器就是电脑中的A/D转换器,还原器就是D/A转换器。所谓高层次的人,就是上述各部件处理能力强的人;反之,就是低层次的人。交流双方,如果处理能力匹配,那么就会沟通顺畅;能力越强,沟通越高效。


对于一般人,处理能力不太强,沟通时,话要说全,要说得有艺术,要反复举例,反复论证,数据图表不能落下,还要配合各种表情,不但不能剔除重复冗余信息,而且还要增加重复冗余,要不然就没法还原了。一个极端是,对于傻子,相当于所有部件都废掉了,油盐不进。而另一个极端是,对于天才,按最大程度抽样、压缩即可,甚至还可以允许“超频”、失真,他们能通过自己的算法对丢失的信息进行补全。有些更厉害的人还带有“预测”部件,还能对未来信息进行精准预测。


天才是很难跟常人沟通的。天才眼里,再普通不过、甚至还包含大量冗余的信息,到了常人眼里,却是“缺胳膊断腿”的。天才认为说得够慢够详细了,常人却还是觉得他们语无伦次。常人对天才的印象往往是思维很跳跃,跨度很大,就是因为天才的采样频率低、压缩算法复杂,常人的解压器、还原器配置不够,被卡死了。而天才们也很着急——我最新一代i7的CPU,128GB内存,1T的SSD硬盘,就陪你们玩扫雷?!


去年马斯克、马云同台对决的场景,想必大家都还记得吧。毫无悬念,马云获得了全世界的点赞,而马斯克则给人有些语无伦次,答非所问的感觉,也似乎远没有马云那种普惠全人类的情怀。现在大家应该明白为什么了吧?大多数人,需要的并不是马斯克作为科技天才那种跳跃式的思维,而是需要像马云这样声情并茂娓娓道来的布道者。


为什么真正优秀的创新项目,往往不被投资人看好?因为这些项目在前期,能获得的信息很少,都是东鳞西爪的采样信息与极度压缩的变形信息,缺乏论证依据。普通人是无法对这些少得可怜的信息进行解压与还原的,更不用说预测了。只有那些具备强大“处理器”并带有“预测”部件的人才可以肩负起这样的使命,当然也注定了孤独。只有承受住极大压力,才能把项目从构想带进现实,也只有把事实摆到大众眼前,人们才会恍然大悟——哦,原来是这样。


理工科专业的人,往往给人以不善社交的印象,主要原因也在于此。他们习惯了收敛思维,习惯了对信息的精简要求,因为他们要靠这项技能吃饭。而人文社科专业的人,需要的是发散思维,需要对信息进行大量扩充处理,要不然没人会听,这也是他们的吃饭本领。理工科人才需要强大的抽样器、压缩器、解压器、还原器,非理工科人才不需要这些,但需要强大的“渲染器”。没有“渲染器”,社交就会落于下风。正因如此,所以不少理工科人才在后面的时间,会从前述处理器割出一部分算力,转移到“渲染器”,以加强对人的“渲染”功能,这样,就变成了文理通才。


但我还是认为,在当今信息爆炸、知识爆炸的时代,人与人之间的沟通应当以高效简洁为主。没必要为了讨好某些人,而放弃自己的“处理能力”。谈不拢就谈不拢,换人!每个人都应当想办法,尽可能提高自己的处理器配置,以顺应如今的信息化社会。要不然,沉溺于被算法控制得来的快感,沉溺于讨好炫耀的无用社交,到头来沦为被少数高级头脑控制的韭菜。


如何提升“处理器”的处理能力?


对周期性的事件进行抽样,并学会善于发现重复。有哪些周期性且充满重复的事件?海了去了。历史是周期性的,经济波动是周期性的,名人们的言行是周期性的,流行元素是周期性的,天下大势是周期性的。所以,关心时政的同时,多读历史,“一切历史都是当代史”。木心说“莎士比亚对他的时代,毫不关心,他最杰出的几部作品,都不写他的当代”。不必太关心流行时尚,王尔德说“时尚总是丑得难以容忍,所以每隔六个月我们都只好改一次。”乔布斯能引领科技时尚,就是因为他自己的T恤八百年不换一件。也不必太注重名人们的所谓“名言”,绝大多数都是老调重弹,老生常谈。


最关键的还是提升发现本质的能力。本质很稳定,所以周期很长;本质也很简单,所以极少重复,一旦重复也很容易看出。抓取了本质,就可以制造大量信息,你将成为信息的源头。抓不住本质,淹没在信息的海洋,“人或为鱼鳖”。


关于对本质的思考,参考《如何抓取本质》《金刚——诸相非相》。


【声明】内容源于网络
0
0
卢火纯青
观天地万象,行深般若波罗蜜多时,得见炉火纯青,度一切苦厄。
内容 124
粉丝 0
卢火纯青 观天地万象,行深般若波罗蜜多时,得见炉火纯青,度一切苦厄。
总阅读99
粉丝0
内容124