
01
什么是机器学习?
第一,它免费且易学,不必为了小任务而浪费大量注意力;
第二,它是面向对象的语言,这也是其被大型开发者社区支持的原因;第三,巨大的开源库支持。 Python具有相当数量的开源库,能够更迅速地实现数据科学和机器学习解决方案,而无须从头开始编写每一个算法。像Pandas、 scikit-learn、 SciPy、 NumPy、 Keras这样的库对于快速实现机器学习算法非常有用。
1numberList = list([43,23,1,67,54,2,34,56,23,65,12,9,87,4,33])
1sumSelector = raw_input()
1numberList = numberList.sort()
1def isPrizeGiven(numberList,sumSelector):
2
3sumOfTwo = sumSelector
4
5 i=0
6
7 j = len(numberList) -1
8
9 if(i>=j):
10
11 return False
12
13 while(i<=j):
14
15 currentSum = numberList[i]+numberList[j]
16
17 print(i,j,currentSum)
18
19 if(currentSum==sumOfTwo):
20
21 return True
22
23 if(currentSum>sumOfTwo):
24
25 j=j-1
26
27 else:
28
29 i=i+1
30
31 return False
1if (isPrizeGiven(numberList,sumSelector):
2 print("No Escape. Give Prize to Everyone")
3else:
4 print("You Saved Yourself!!")
1.问题定义
任务(T):根据图像中是否包含人对图像进行分类。
经验(E):带有是否包含人的标签的图像。
性能(P):错误率。在所有的分类图像中,错误预测的百分比是多少。错误率越低,准确率越高。
2.数据采集
3.数据准备
清理(Cleaning):数据可能含有需要移除的错误。假设数据中缺少某些属性的数值,由于目前并没有适合的算法能够处理值缺失问题,因此可以用一些值(数值的均值/中值和分类值的默认值)代替缺失值。如果数据包含敏感信息,如电子邮件的ID和用户的联系号码,则需要在与团队共享数据之前删除数据中的敏感信息。
格式化(Formatting):算法需要预定义格式的数据。基于Python机器学习库的要求,采用Python列表的形式表示数据。一些实时的机器学习库使用的是JSON格式的数据,而Excel文件使用CSV格式的数据。根据使用工具或技术的不同,需要对数据进行格式化,使其满足使用工具或技术对数据格式的要求。
采样(Sampling):并非所有的数据都是有用的。一些在模型中存储数据的算法很难实时生成预测,可以从数据中删除类似的实例。如果是分类模型,可以按照标签进行等比例采样。
分解(Decomposition):分解会使得一些特征更加有用。以数据库中的日期属性为例,可以把日期分解成日、月、年,还可以创建诸如周末或工作日、季度、闰年或日期等特征,使其在预测中更有用。
缩放(Scaling):不同的属性遵循不同的单位和值。假设通常以厘米为单位测量一个人的身高,而对于一些数据,可能是以英寸为单位。所以,需要先将其换算成厘米。另外,一个属性的高/低值可能会影响到其他属性。例如有3个特征,如人的年龄、体重和年收入,现在希望根据它们预测医疗保险计划。如果直接使用这些数据,模型将高度依赖于工资,因为工资的数值远远高于其他属性的值。所以,需要对每个属性的值进行缩放,调整为[0,1]或[-1,1 ]。
4.数据分割——训练数据和测试数据
5.算法选择
6.算法训练
7.测试数据评估
8.参数调整
9.模型使用
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|


