大数跨境
0
0

【数据科学之基础思维系列】第1讲:向量简介

【数据科学之基础思维系列】第1讲:向量简介 简博士数据分析吧
2022-04-10
1
导读:数学统计+应用实践,简洁、系统地带你学会数据科学思维。



内容提要:

*线性代数有何用

*向量的概念

 * 向量的作用

点击蓝字 |关注我们

欢迎回来。从本期开始,我们将开启「数据科学的基础思维」的系列篇章,以数学为基础,以应用为目标,简洁、清晰、系统地带你学会数学思维不可或缺的真谛。

在开始之前,咱们先讲个小故事。

谷歌的研究总监做了一个小实验,把一组相同的数据分给「数据科学家、统计学家、数学家」三人去分析,总监是这样想的:即使不同方向的科学家可能采用不同的方法,但是最终三人分析出的结果应该是一样的。可是,实际情况却大相径庭

「数据科学家」把全部的数据都拿来分析,并且构造了一个非常复杂的数学模型。

「统计学家」只是用了其中1%的数据来分析这组数据的特征。

「数学家」则是做了一系列的推导和证明。

可见,对于相同的数据,不同领域的研究者都有自己独到的见解和方法。

那么怎么样的方法是最合适的呢?

这就需要「数学统计方法+应用实践」相辅相成啦。

这也就是本系列讲义的初衷。好啦,接着,咱们开启今天的第一讲,「线性代数之向量简介」

壹 线性代数有何用

大数据时代,我们的原材料就是数据,为了从数据中提炼出知识乃至升级为智慧,至少得知道数据的形式。

1.以抽象的视角看待世界

线性代数则赋予了我们一个这样看待数据的能力:「以抽象的视角看待世界」

大家在使用C语言、Python、R语言等进行编程时,应该深有体会。但凡要对数据进行处理,基本上都要保存为「线性代数」中的向量、矩阵、数组等形式。

那么它到底是怎么从抽象的视角来看待世界呢?

无非就是将我们世界万物转化成计算机能够处理的形式,如同毕达哥拉斯所言“万物皆数”。数学思维奇妙夜-直播回顾

数字,包括由数字扩展而来的向量、矩阵和张量,都是计算机能够识别和处理的。世界万物,只要能转化成数的形式,都可以量化,都可以用「计算机运算」

我们将其转化成数的形式,所有那些模糊、抽象的概念,都可以量化表示。有了这个工具,处理数据的一些方法才有用武之地。

2.以运动的视角来观察世界

数字的世界是静止的,而向量的世界是运动的。

现实世界中,「很多不规则的运动很难用数字表示」,比如运动员某一时刻的运动状态,用数字还勉强可以记录,但是如果是连续的运动状态,用一个数字就很难记录了,因为一个数字没有方向,我们也称这类数字为标量。

此时,用向量记录就很方便,「因为向量本身既具有大小,又具有方向」。而且向量中的每个元素都可以继续扩展成向量,这时向量就变成了「矩阵」。矩阵中的每个向量也继续扩展成向量,矩阵就变成了「张量」「向量、矩阵、张量」这些都是线性代数研究对象的基本形式,能够更好地描述复杂的运动。

用一个魔方,可以直观形象地描述「标量、向量、矩阵、张量」之间的关系。

魔方

举个例子,比如1,2,5这些「标量」,每一个数字就是一个元素,「将其排列为一组,就变成了一个向量」。也就是说从一个标量到向量,就是从一个「静态」到一个「动态」的状态。

如果把向量看成静态的话,我们接着去扩充每一个向量中的元素,把之前每一个元素扩展为一个向量,比如 5 那个位置就用三个蓝色方块取代了,于是我们就得到一个 阶的矩阵,也就是「魔方最底下的那一层」

接着,「矩阵」里的每个元素继续用一个向量去填充,我们就得到一个三维的张量,也就是图中这个魔方。

标量和向量,一个是静态的,一个是动态的。向量和矩阵之间是也是从静态到动态的变化,「矩阵到三维张量」,同样如此。

从静态到动态,每一次都是相对而言的。

罗马不是一日建成的,每一个元素就相当于是一块砖头,恰好就是我们需要的,将一块一块砖头垒起来......

贰 向量的概念

1.什么是向量?

「向量」:具有「大小」「方向」的量,是一个矢量。

如果你尝试解决立体几何问题,可是想象力不足,怎么办?向量就是一个好工具!

在平面坐标系中, 点到 点的量就是一个向量。用 表示,它既包含了从 的方向,也包含了从 的大小。

「向量具有方向性」,所以从 指向 与从 指向 是不同的,即

这种方式为坐标表示法。

线性代数的向量用的就是「坐标表示法」。仍以二维平面为例,有时我们看到的向量是 形式的。怎么看起来像一个坐标点呢?它还是向量吗?

现在,请跟我一起移动一下向量 , 将 点挪到原点

虽然位置不同,但是此时 表示的是同一个向量,因为它们的大小和方向完全相同。

所以,一个坐标点就可以表示我们刚才的向量,只不过表示的是起始点在原点的向量而已。

在我们常见的坐标空间中,「点和向量是一一对应的」。我们可以通过加个箭头表示向量 ,也可以通过粗体的方式来表示,比如

我们最熟悉的就是一维、二维、三维空间。宇宙到底是几维的,我们尚无从得知。不过「丘成桐先生」提出的“卡拉比-丘”空间是六维的。

卡拉比-丘流形

「“卡拉比-丘”」 空间看起来就像一个攥成团随手扔掉的纸团,可实际上空间中的迂回曲折和翻转可比你那随手一攥,拧出来的形状复杂多了,它们就像一条条龙,盘旋、翻绕、或许再打个滚,揉个环,「丝毫没有一种规则可以用传统的欧几里德几何描述」

我们常常用于处理的数据也是多维的,或许无法直观感受,可是我们可以从特征的角度来理解。比如要形容一个人的面容,「包括额头的宽度、眉毛的长度、眉心的间距、鼻梁的高度、嘴唇的厚度等,这里每一项都是一个特征,对应的就是多维向量」

2.如何表示向量?

向量有「行向量」「列向量」之分,简单一想,行向量就是元素按行排列

因为“行”这个字的右半部分,就写了两条横线嘛。

列向量自然是元素按照一列排下来

因为“列”这个字的右半部分,写了两条竖线。

温馨小提示:在各种教科书里,所涉及到的向量通常采用列向量的形式,而在python等编程时,常常默认的是行向量。

举个例子:咱们来看看这个表格,它表示的是「不同品牌的电脑在不同地区的销售量」,对应的有「品牌」「地区」两个「双因素」

不同品牌的电脑在不同地区的销售量

那么列因素和行因素分别是什么呢?

对于「列因素而言」,就是在竖直方向上,某一地区的不同品牌的销售量。

「行因素」就是水平方向上,某一品牌在不同地区的销售量。

3.特殊的向量

零向量

最常见的特殊向量莫过于「零向量」啦,它代表了每一个元素都是0,以下是一个 维的零向量:

此处上标 表示转置,也就是行列位置互换,此处用以表示列方向的零向量。

那么「零向量」是有方向的还是无方向的呢?

向量是矢量,一定是有方向的,所以「零向量有方向的」,但是它的方向是不确定的。如同我们所拉行李箱的那个万向轮,360度,各个方向都都属于它。

在计算机中,零向量都是默认以行向量的形式,举个例子。

在Python中输入:

a = np.zeros(6, dtype =int)
print(a)
#[0 0 0 0 0 0]

因为python语言里是从0开始记数的,假如要把其中的第2位改成1,就需要输入:

a[1] =1
print(a)
#[0 1 0 0 0 0]

单位向量

「单位向量」代表模等于1的向量。

向量的模用以表示向量的大小,假如向量

它的模定义为

即向量的各元素平方和的平方根。之后,我们会发现,也其实就是一种范数定义。

对于一个非零向量 ,要想得到一个单位向量,只需要除以它的模即可。

特别地,「标准单位向量」是指,向量中只有一个元素为 1,其余元素都是 0。比如

举个二维的例子,两个坐标轴的方向,分别可以用标准单位向量表示:

这里 可以决定坐标系,是这个二维空间的一组「标准正交基」

全 1 向量

「全 1 向量」代表所有元素都是 1 的向量。

a = np.ones(6, dtype =int)
print(a)
#[1 1 1 1 1 1]

稀疏与稠密

「稀疏向量」代表是大多元素为 0 的情况。比如之前介绍的标准单位向量就是稀疏的。因为它只有一个元素是非 0 的。

生活中,稀疏的场景也是非常多的,比如现如今统计的新冠致死率,一个病人的死亡可能是多方面原因导致的,如果主要原因是新冠,才会归入统计人数中。死亡的主要原因只有少数几个,那么就是一个稀疏的情况。

再比如,电商销售的每一个产品,所对应的数据量特征也是非常多的,比如说是颜色、款式、价格、评价等等,但是我们肯定是要找到影响成交量的最主要特征。不然只会造成大量的累计误差。

稀疏性告诉我们:必要时需要抓住少数的主要矛盾,忽略多数的次要矛盾。

与之相反,还有稠密性。

今莽草蜀道、襄、汉、浙江湖间山中有,枝叶稠密,团欒可爱。——《梦溪笔谈 药议》

在《梦溪笔谈》中,第一次出现稠密一词,指量多且密度大。

「稠密向量」也是类似的含义,指多数元素是非零的。比如我们之前我提到的全1向量。

举个例子,比如有癌症患者需要化疗,化疗使得患者体内细胞中的分子发生变化,而且每个分子都会发生一个微小的变化,倘若我们用向量把每个分子的变化记录下来,那么这个向量中每个元素都是非零的,即使力量很微弱,可是汇聚起来,就能起到治疗的作用。

稠密性告诉我们:团结就是力量!

叁 向量的应用

向量的应用多种多样,以如下几个方面为例。

1. 位置与位移

对于向量和位移,相信大家并不陌生,在咱们的数学中就常常见到:

向量与位移

2. 图片颜色

咱们以「颜色」举个例子,在计算机中常用16进制来表示某一个颜色,16进制写为:「0123456789ABCDEF」依次代表了「0~15」,比如:FF0000,这里我们把这六位按两位拆开,分别对应的是:

然后呢,应用16进制来计算。

就代表了:

那这个数可以写成:「255,0,0」 正是用向量描述了颜色。

向量与颜色

3. 投资组合

在投资组合方面,我们假设有 种投资模式

它的收益率可以写成

同理,对应的概率可以写成

那么求总的收益不就是计算期望那么简单?

向量与投资

4. 药方与菜谱

同理,凡是能用到这种组合的场景,都可以用到向量来轻松解决。

比如药方和菜谱的配比,也可以是分别将药或者菜谱的特性分为两类,来代入计算总得效果。

向量与药方

5. 时间序列

在时间序列上,如果我们想知道某一特征持续时长的作用,那么也可以利用到向量的内积,来计算中不同特征和其所对应时长下的总体影响。

向量与时间序列

6. 文本分析

在文本分析上,最熟悉的莫过于词云的生成。文本中统计关键词的词频,就是以向量的形式呈现。

向量与文本分析

看完这些例子,相信大家就能触类旁通了,用向量可以代表我们生活中各种场景下的数据特征。

好啦,这期的开篇就到这里,下期我们继续说说向量的「外积、范数和距离等」。感兴趣的小伙伴记得「点赞+关注+在看」,谢谢你的支持哦~

拓展阅读

  1. 数学漫谈-重谈回归的起源

  2. 数学漫谈-贝叶斯的起源

  3. 数学漫谈-贝特朗奇论

欢迎大家关注简博士的B站和公众号,在公众号私信“入群”,可以与小伙伴们一起讨论问题哦。

扫码关注我们

微信号|Dr_Janneil

B站|简博士

【声明】内容源于网络
0
0
简博士数据分析吧
信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
内容 181
粉丝 0
简博士数据分析吧 信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
总阅读42
粉丝0
内容181