人工智能就是用编程实现各种算法和数据建模,AI时代首选Python。
机器学习
机器学习的流程
一般来说,机器学习流程大致分为以下几步。
第①步:数据收集与预处理。例如,新闻中会掺杂很多特殊字符和广告等无关因素,要先把这些剔除掉。除此之外,可能还会用到对文章进行分词、提取关键词等操作,这些在后续案例中会进行详细分析。
第②步:特征工程,也叫作特征抽取。例如,有一段新闻,描述“科比职业生涯画上圆满句号,今天正式退役了”。显然这是一篇与体育相关的新闻,但是计算机可不认识科比,所以还需要将人能读懂的字符转换成计算机能识别的数值。这一步看起来容易,做起来就非常难了,如何构造合适的输入特征也是机器学习中非常重要的一部分。
第③步:模型构建。这一步只要训练一个分类器即可,当然,建模过程中还会涉及很多调参工作,随便建立一个差不多的模型很容易,但是想要将模型做得完美还需要大量的实验。
第④步:评估与预测。最后,模型构建完成就可以进行判断预测,一篇文章经过预处理再被传入模型中,机器就会告诉我们按照它所学数据得出的是什么结果。
环境配置
环境配置时只需下载Anaconda即可,它相当于一个“全家桶”,里面不仅有Python所需环境,而且还把后续要用到的工具包和编程环境全部搞定了。首先登录Anaconda官网(https://www.anaconda.com/download/),下载对应软件,如图所示。
下载完成后,双击下载的文件进行安装,在安装过程中连续单击“Next”按钮,即可顺利将Anaconda软件安装到电脑上,就跟安装游戏一样简单,如图所示。
安装完成后,如果是Windows系统,可以在“开始”菜单看到如图所示的安装结果(其他系统可以到安装路径下启动)。
简单介绍一下之后会用到的几个工具,首先选择“Anaconda Prompt”选项,打开一个命令行窗口,所有工具包的安装都在这里完成。
可以在窗口中输入不同的命令,以实现不同的操作,例如输入“conda list”命令,可以查看目前已经安装的各种库函数,如图所示。
上图所示的工具包都安装好了,如果需要额外安装一些其他的工具包,则可以使用“pip install”命令,例如,输入“pip install seaborn”命令,系统就会开始下载并自动安装seaborn包。如果在安装过程中报错(在安装过程中基本都会遇到),可以先尝试下载安装包,然后进行安装(这招百试不爽)。
首先打开https://www.lfd.uci.edu/~gohlke/pythonlibs/网址,进入如图所示的界面,这里面也提供了各种工具包供大家下载。
然后选择要下载的工具包以及合适版本,如图所示。
注意:下载时一定要选择符合自己电脑系统的版本,“0.80”表示当前工具包的版本号,“cp27”和“cp36”则分别表示Python版本是2.7还是3.6,最后就对应操作系统。下载完成后随便保存到某一个位置,然后在命令行中(Anaconda Prompt)执行“pip install xgboost-0.80-cp37-cp37m-win_amd64.whl”命令,系统就会自动进行安装了。
Jupyter Notebook
Jupyter Notebook相当于在浏览器中完成编程任务,不仅可以写代码、做笔记,而且还可以得到每一步的执行结果,效果非常好。
Notebook案例
上哪儿找资源?这里推荐两个站点,没事儿可以常去逛逛:GitHub和kaggle。

