实用机器学习

2024-02-09 20:26:05 | 作者: cctv2026

随着计算机和互联网深入到生活的方方面面人们收集的数据也呈指数增长

在这种情况下，大数据( big data )应运而生。

实用机器学习

通常，大数据的卷非常大且数据复杂，无法直接使用传统的数据库工具进行存储和管理。

大数据带来了数据的收集、组织、存储、共享、分析、可视化等诸多课题。

广义大数据处理涵盖上述所有领域；狭义的大数据是指如何运用机器学习分析大数据，从海量数据中提取有用信息。

大数据分析的核心是机器学习算法。

在很多情况下，我们有足够的数据，但我们对如何利用这些数据并不了解。

同时，实际问题往往很复杂，不能直接应用机器学习算法。需要对实际问题进行一些转换，以便机器学习算法可以应用。

虽然实际问题的表现形式不同，但在将它们转化为机器学习可以处理的问题时，一般要转化为以下四类问题。 (1)回归问题； )2)分类问题)3)推荐问题)4)排序问题。

这四类问题是实际应用中最主要的类型，涵盖了大部分实际问题。

1.3节详细介绍各类问题的具体例子。

1.1何谓机器学习

机器学习是计算机科学的一个分支，也可以被认为是模式识别

recognition (，人工智能)、artificial intelligence (统计学)、数据挖掘)、数据挖掘)等多门学科的交叉学科。

机器学习和数值优化( numerical optimization )也有很高的重叠。

机器学习研究如何从数据中学习有效模型，进而预测未来。

例如，如果商店能预测某个商品将来的销售量，就可以事先预约相应数量的商品。这样，既可以避免缺货，也可以避免商品进入过多而滞留。

与传统的决策算法不同，机器学习算法依赖于数据。

上一个示例通过从过去的数据中学习适当的模型来预测未来。

这有两个优点。第一，由于算法依赖于数据，利用新数据不断更新模型，使模型能自适应处理新数据。第二，对人的干预要求很少。

在使用机器学习的过程中，有时会尽量利用人的经验，但更强调如何利用人的经验知识从数据中训练出更好的模型。

目前，机器学习已经成为研究和应用的热点之一。

可以通过机器学习解决的实际问题包括：

基于信用卡交易历史数据，判定哪个交易是欺诈交易

从字母、数字或汉字图像中有效地识别适当的字符；

根据用户过去的购物历史向用户推荐新商品；

根据用户当前的咨询和历史消费推荐合适的网页、商品等，根据汽车发动机排量、年份、类型、重量等信息推算汽车油耗。

这些问题的具体形式虽然不同，但都可以转化为机器学习能解答的问题形式。

从概念上讲，机器学习的目标是从给定的数据集学习模型，并能从失败的数据中有效地预测感兴趣的量。

根据问题的不同，我们感兴趣的量(或称为目标值)可以有不同的形式。

例如，在分类问题中，目标值是几个类别之一；在排序问题中，目标值是与文档有关的序列。

在机器学习中，解决问题的过程通常如下。

(一)收集充分的数据

)2)通过分析问题本身和分析数据，我们认为模型堤坝可以从数据中学习

)3)选择合适的模型和算法，根据数据学习模型f；

)4)评估模型f，并实际利用它处理新数据。

实际上，需要根据APP应用的实际情况及时更新模型。例如，如果数据发生了显著变化，则需要更新模型t。

因此，在实际引入机器学习模型的情况下，上面的步骤3和步骤4是重复循环的过程。

在机器学习的同时，经常提到的相关领域之一是数据挖掘( data mining )。

数据挖掘和机器学习往往(严格地说)是混淆的。要说为什么，那是因为两者有很多重叠的地方。

从传统意义上讲，机器学习侧重于算法和理论方面，而数据挖掘侧重于实践方面。

数据挖掘的许多算法来自机器学习或相关领域，少数来自关联规则( association rule )等数据挖掘领域。

另一个与机器学习密切相关的领域是统计学。

在统计学方面，我们学到了很多传统的数据处理方法，包括数据统计量的计算、模型的参数估计和假设验证。

但在实际问题中，往往不能直接使用统计学方法来解决问题。

同时，随着数据规模的扩大，统计学中许多传统的数据分析方法需要大量的计算才能获得结果，时效性不高，而传统的统计学方法更多地考虑了算法的数学性质，实际上忽视了如何更好地应用这些算法。

1.2実用化

本部分介绍机器学习可以解决的实际问题，包括患者住院时间预测、信用评分估计、Nettix视频推荐和酒店推荐。

每个例子都对应着不同类型的机器学习问题。

通过这些不同类型的机器学习问题，读者对机器学习可以有更多直观的感受。

1.2.1 病人住院时间预测

机器学习在医疗行业有着广泛的应用。

我们以Heritage Health Prize竞赛作为例子以说明如何使用机器学习来预测病人未来的住院时间。

在美国每年都有超过7000万人次住院。

根据相关统计， 2006年在护理病人住院上所花的无关费用就已经超过了300亿美元。

如果我们能够根据病人的病历提前预测病人将来的住院时间，那么就可以根据病人的具体情况提前做好相关准备从而减少那些无谓的开销。

同时，医院可以提前向病人发出预警，这样就能在降低医疗成本的同时提高服务质量。

在从2011年开始的Heritage Health Prize竞赛( HHP )中，竞争者成功地使用机器学习的方法，由病人的历史记录预测了病人在未来一年的住院时间。

图1-1显示了竞赛中使用的病历数据的一部分样本。

图1-1 病历数据示例

1.2.2信用分数估计

在现实生活中，向银行申请贷款是比较常见的，如房屋贷款、汽车贷款等。

银行在办理个人贷款业务时，会根据申请人的经济情况来估计申请人的还款能力，并根据不同还款能力确定安全的借款金额和相应的条款(如不同的利率)。

在美国，每个成年人都有相应的信用分数( credit score ) ,用来衡量和评估借款者的还款能力和风险。

在估计申请者的还款能力时，需要搜集用户的多个方面的信息，包括：

收入情况；

年龄、性别；

职业；

家庭情况，如子女数量等；还款历史，包括未按时还款的记录、还款金额等；现有的各种贷款和欠款情况等。

如何将这些因素综合考虑从而决定借贷者的信用分数呢？直观地讲，可以使用一些简单的规则来确定信用分数。

例如，某申请者的当前借款金额很高但收入一定，则进一步借款的风险很高，信用分数将会较低；又如，某申请者的某张信用卡在过去经常没有按时还款，则其信用分数也会较低。

虽然使用简单的规则能够大致解决信用分数估计的问题，但是这个办法最大的问题是不能自适应地处理大量数据。

随着时间的变化，申请者不还款的风险模型可能会发生变化，因此，相应的规则也需要修改。

银行通常可以得到海量的申请者数据和对应的历史数据。

利用机器学习的方法，我们希望可以从这些申请者过去的还款记录中自适应地学习出相应的模型，从而能够“智能”地计算申请者的信用分数以了解贷款的风险。

具体地讲，在机器学习模型中，将申请者的信息作为输入，我们可以计算申请者在未来能够按时还款的概率。

作为一个典型的例子， FICO分数就是美国FICO公司利用机器学习模型开发出来的一个信用分数模型。

1.2.3 Nettix上的影片推荐

Netflix是美国的一家网络视频点播公司，成立于1997年，到2015年该公司已经有了近7000万的订阅者并且在世界上超过40个国家或地区提供服务。

Netflix上的一项很重要的功能是根据用户的历史观看信息和喜好推荐相应的影片，如图1-2所示。

2006年10月至2009年9月， Netflix公司举办了Netflix Prize比赛，要求参赛者根据用户对于一些电影评价(1星~5星) ,推测用户对另外一些没有看过电影的评价。

如果能够准确地预测用户对于那些没有看过的电影的评价，就可以相应地向这些用户推荐他们感兴趣的电影，从而显著提高推荐系统的性能和Netflix公司的盈利水平。

图1-2 Netflix上的电影推荐

在Netflix Prize赛中，获胜的标准是将Netflix现有推荐系统的性能提高10%。

在2009年， Bellkor's Pragmatic Chaos队赢得了比赛。

其主要方法是基于矩阵分解的推荐算法，并使用集成学习的方法综合了多种模型。

Netflix Prize比赛显著地推动了推荐算法的研究，特别是基于矩阵分解的推荐算法的研究。

在本书中，我们也将详细介绍这些推荐算法。

1.2.4 酒店推荐

Expedia是目前世界上最大的在线旅行代理( online travel agency , OTA )之一。

它的一项很重要的业务是向用户提供酒店预订，作为用户和大量酒店之间的桥梁。

对于用户的每个查询， Expedia需要根据用户的喜好，提供最优的排序结果，这样用户能够方便地从中选出最合适的酒店。

Expedia于2013年年底与国际数据挖掘大会( International Conference on Data Mining , ICDM )联合举办了酒店推荐比赛。

在该项比赛中， Expedia提供了实际数据，包括用户的查询以及其对所推荐结果点击或者购买的记录。

在进行酒店推荐时， Expedia考虑了如下因素：

用户的位置和酒店的位置；

酒店的特征，如酒店的价格、星级、位置吸引程度等；

用户过去预订酒店的历史，包括价格、酒店类型、酒店星级；其他竞争对手的信息。

根据用户的查询及用户的背景信息， Expedia返回推荐的酒店序列。

在Expedia.com上，典型的酒店搜索界面如图1-3所示。

根据返回的推荐结果，用户有3种选择： (1)付款预定推荐的酒店； (2)点击推荐的酒店但没有预订； (3)既没有点击也没有预订。

显然，根据用户的反应，我们希望在理想的酒店推荐结果中，对应于第一种选择的酒店能够排在最前面，并且对应于第二种选择的酒店排在对应于第三种选择的酒店前面。

图1-3 在Expedia.com上搜索酒店

1.2.5讨论

上文中的4个例子分别对应于机器学习中的4类典型问题：

回归( regression ) ;

分类(classification ) ;

体育足球

实用机器学习

相关新闻

用心2020，《用心》

2005年NBA全明星扣篮大赛

24小时热文

热门球队称霸榜首

江苏卫视今晚的电视剧叫什么名字，江苏卫视今晚的节目预告

火爆血战引爆英超！

2008年欧洲杯冠军，2004年欧洲杯冠军

拉齐奥vs马赛比赛结果，拉齐奥vs马赛比分预测

zhongguonanlan

相关推荐