不可发布违法信息,一旦发现永久封号,欢迎向我们举报!
百科|常识分享
分享各种百科|日常
18常识网 > 餐饮行业新闻资讯 > 百科|常识 >  度小满严澄:数据科学与金融风控模型 不炼大模型的互联网公司,趟出AI转型第一波经验|腾讯云|云计算|大数据|公有云|ai转型


度小满严澄:数据科学与金融风控模型 不炼大模型的互联网公司,趟出AI转型第一波经验|腾讯云|云计算|大数据|公有云|ai转型

发布时间:2024-09-19 08:27:13  来源:网络整理  浏览:   【】【】【

度小满严澄:数据科学与金融风控模型 不炼大模型的互联网公司,趟出AI转型第一波经验|腾讯云|云计算|大数据|公有云|ai转型 

度小满严澄:数据科学与金融风控模型

分享嘉宾:严澄 度小满 风控模型负责人

编辑整理:王鑫彤

出品平台:DataFunTalk

导读:众所周知,信息时代下的数据就是能源,就是生产力。但是面对海量、纷繁的数据,特别是在金融领域,如何充分地利用数据是核心问题。本次分享主要想和大家一起探讨下,在金融风控场景下,如何通过数据对齐模型和业务目标,哪些数据、方法可以应用于风控模型,通过哪些指标可以正确地评估模型效果,以及最终如何用数据科学解释模型结果。今天的介绍会围绕下面四点展开:

科学定义数据

科学应用数据

科学评估数据

科学解释数据

01

科学定义数据

1. 金融风险管理

信贷业务本质是储蓄转化为投资的一种形式。类比于其他的互联网业务,电商平台的推荐系统实现的是客户和商品需求之间的精准匹配,广告平台的投放系统实现的是客户和潜在兴趣之间的精准匹配,互联网信贷业务的风险管理目标就是实现资金供给方和资金需求方的精准风险匹配。在风险匹配的两端,资金供给方期望的风险目标是明确的,所以风险管理的核心是预测资金需求方的风险,从而进行精准匹配。接下来我们讲讲风险定义以及如何科学地预测风险。

2. 科学定义数据

在信贷行业内,对风险最常见的定义是年化风险,即年化不良金额除以年化余额。 这是因为简化收益大多是按照年化定价 - 年化风险 - 年化资金成本来计算的。一整包资产的年化风险受很多因素影响:逾期的用户分布,逾期的金额分布,放款的久期分布。虽然年化风险从业务上来看是个非常直观的指标,但如果要直接预测年化风险则是非常困难的。从更易实现的角度来看,预测逾期的用户分布会更直接而简单。

假设有一个模型可以较好地预测人数逾期率,那么我们怎么与年化风险目标挂钩呢?即模型的目标如何与业务的目标对应。在真实的业务场景中,我们很容易发现,资产的年化风险与人数逾期率(MOB12)的比值是一个在1附近的数值。对于这个数值的解读,即当年化风险除以人数逾期率显著大于1时,意味着整体额度过高,尤其是风险相对低的客户的风险敞口没有控制好;当年化风险与人数逾期率接近时,意味着额度和风险匹配得比较好;而当年化风险除以人数逾期率显著小于1时,意味着整体的额度策略过于保守,虽然从风险角度讲是好事,但从业务视角看其实是制约了整体的余额规模。经过一定量的迭代以后,往往都会使得年化风险和人数逾期率之间的关系趋近于1。这时候如果人数逾期率预测得足够准确,那么意味着年化风险预测就会很容易。

在前面的定义中提到了“逾期”的概念,那么如何定义逾期,以及如何定义用户的“好”“坏”呢?

逾期本身是一个随时间变化的状态量, 比如在约定还款的15天内都没有还款,而在第16天成功还款,那么在前15天是逾期的,而第16天之后则不是逾期状态。显然,逾期的时间越长越坏,最终逾期的概率越高。如何选择一个合适的时间尺度去定义一个用户是逾期的“坏”用户?在实际操作中,我们往往通过观察逾期N天后到最终逾期180天以上的概率。比如说当这个概率已经大于90%时,我们就可以认为这个N已经是一个很好的时间刻度了。在实际业务中,我们一般取N=30。

同样的,对于“好”的定义,一样有一个时间问题。显然,观察越长时间没有逾期发生,用户“好”的概率越高。然而对于用户的观察时间越长,会导致可用于学习的样本量越少(尤其是新发展的业务本身数据就很少),并且样本都是过去很久以前的数据(这在内外环境快速变化的情况下影响更大)。

那么如何设定一个合适的观察时间窗呢?通过右侧的vintage曲线图,我们可以看到,随着时间的推移,不断有新的用户发生逾期,但新逾期发生的增速在缓慢地下降(斜率在变小)。理想情况下,我们希望找到斜率为0的那个时间点作为观察窗口;而在实际操作中,我们往往根据业务的发展阶段和vintage曲线的斜率变化来决策观察窗口。在我们的实际业务中,一般取MOB=12作为中长期的风险表现观察窗口。

02

科学应用数据

当有了样本和模型的目标以后,接下来看哪些特征数据可以应用于风控模型。从整个金融视角来看,可用数据类型有以下几类:

征信报告:用户历史信用记录

互联网数据:用户在互联网上的各种数据

第三方金融科技公司的合规数据

用户在自身产品下的行为数据

从三个视角来描述用户:

基本属性画像:描述用户的基本属性画像,如年龄、性别、婚姻、职业、文化水平、兴趣爱好、人生阶段、常驻地等(通过各种机器学习、NLP等算法预测);

行为序列:用户在一段时间内的行为,总是有很强的相关性。尤其在信贷场景下,行为序列很好地反映了用户的需求(通过各种RNNs做序列建模);

社交关系:物以类聚,人以群分。比如通过用户周围人的收入及消费能力,例如同小区的人或者同事,可以一定程度从侧面反映用户的资产能力(通过各种GNNs做关联网络的建模)。

以下是一些简单的模型、特征设计示例,由于我们今天主要讨论数据科学,就不详细展开了。

文本类数据:利用Attention网络提取大量文本的核心数据;

时序类数据:利用大量借还款行为做RNNs模型预测用户未来风险;

关联类数据:1)分群算法:群属性作为特征;2)基于深度图卷积网络,充分利用相邻节点的信息。

回顾之前关于选择观察期窗口的vintage图表。如上图红框中所示,可以看到很多月份的曲线斜率突然大幅上扬。按时间去对应的话,就会发现这段时间正是2020年初新冠疫情爆发的时间。疫情的爆发导致逾期率大幅上涨,而对疫情的影响我们没有任何历史经验,也就是说历史学习到的特征X(用户属性)与目标Y(逾期率)之间的关系已经不适用在疫情场景下了。于是针对当下,我们需要考虑三个问题:

疫情影响是否结束?这涉及到我们该选择什么样的X—Y关系用于建模和预测。

疫情影响了哪些样本?疫情显然是特殊场景,不应该和正常环境下的数据混合在一起。

如何利用疫情下的样本?

疫情持续反复,但影响在不断减弱,我们主要探讨下面两个问题。

找出受疫情影响的用户,可以把客户分成以下两种:

表现期不在疫情期间:包括正常用户和自然逾期的用户;即这些用户是不受疫情影响的。

表现期在受疫情影响期间:包括正常用户和逾期用户,而逾期用户里必然有自然逾期和受疫情影响而逾期的用户。

我们将表现期不在疫情期间逾期的用户标识为0,将表现期在受疫情期间的逾期用户标识为1,基于二分类模型进行训练。经过模型训练以后,那些预测高概率为1的用户就是那些受疫情影响而逾期的用户,而那些预测高概率为0的用户就是不管有没有疫情都大概率会逾期的客户。这样,我们设定一个阈值,就可以将大部分受疫情影响而逾期的用户找出来。

另一种方法是通过EM迭代进行识别。如上图所示,我们按照授信月的各个MOB是否在疫情发生时期来对逾期客户标记颜色。蓝色:自然逾期;红色:在疫情期间内逾期。

通过每一轮的EM迭代,我们可以将红色分布里面近似于蓝色分布的部分逐渐找出来并加入到蓝色区块内。当整体的风险水平接近疫情前时停止,那么依然留在红色区域内的逾期用户就是受疫情影响而逾期的用户了。

通过以上两种方法过滤后,我们再观察下随时间的逾期率变化。从上图可以看到,原先逾期30天以上的曲线在疫情发生期间是大幅上扬的,但过滤后整个线就比较平了。

03

科学评估数据

接下来讲一下如何科学准确地评估模型的效果。

风险模型最核心的指标就是排序指标KS。KS值可以很好地度量一个集合内好坏用户的排序分布。一个常见的情形是,离线评测模型的KS值很高,但是等到上线应用后,模型的KS很快就大幅“衰减”了,而且很多时候都是离线提升的越多,线上衰减越大。那么是模型出问题了吗?这里其实有个观察的误区,所谓的“衰减”是指在不同时期的不同用户集合上的KS值比较,而实际上不同集合间的KS绝对值是没有比较意义的。

举一个简单的例子,某一场考试预测排名,试想对全校去年成绩前50的学生进行排序预测容易还是对任意一个班的学生预测排序容易,显然对后者的预测必然会更准确一些。上图中右边部分描述模型上线后KS“衰减”的原因。新模型V2的排序能力高于V1,它可以将V1授信通过的用户中更多的坏用户排到靠后。当V2上线后,V2高准确度识别的类似坏用户无法通过了(也就是只剩下全校排名靠前的学生了),因此对V2决策通过的用户算KS自然就下降了。上图中,只有KS2与KS1、KS3与KS4是有比较意义的。

模型稳定性是另一个关键因素。分布稳定性最基础的指标是PSI,只有预测分数分布是稳定的,这样才有信心可以基于历史数据去预测未来的风险;性能稳定性则是指,要保证预测分数区间对应的真实风险是相对稳定的,比如600-650分之间对应的逾期风险是1%,那么我们希望在所有月份上真实风险都能稳定在1%的水平附近。

而在策略对模型的实际应用中, 核心则是基于Swap in & out的分析。通过分段交叉的矩阵,考量在人数相同的情况下,新模型的整体逾期率是否显著低于旧模型;而在相同逾期率的水平下,新模型的通过率提升多少,可以提升整体规模多少。

那些被拒绝掉的用户,是没有风险表现的,只有那些最终通过且发生信贷行为的用户才有风险表现。试想,用于学习的样本都是历代模型认为较好的客户,随着模型不断迭代,模型学习的样本向好用户收敛,样本的特征空间就越来越窄了。常见的一种方式是引入拒绝推断,给拒绝的用户赋予label,让其参与到模型训练里。上图介绍了一种做拒绝推断的方法。

给拒绝的用户按照模型1给出的打分,比如某个用户模型1的分数是0.2(逾期率20%),那么将这个用户的样本复制10份,其中8份样本的label设成0,2份设置成1。这样10份样本特征一样,但整体label为1的比例就是20%。当然也可以不复制样本,很多模型都支持设置样本权重。通过这种方式增加了X取值的多样性,可以一定程度提升模型的适用性。

客户分群的方法有很多,上图展示了一种划分方法:最顶层先考虑实际的借款用途,区分为小微和消费;然后基于客户的活跃程度进一步划分成活跃和非活跃;最后再根据如行业或者行为上的差异进一步细分客群。细分客群的核心思想是,不同客群之间存在明显的差异性,一种是特征上的差异,一种是风险表现上的差异。这种情况下,细分客群建模,可以让每个模型充分学习自身样本的信息,而不是从全局上平均化地去拟合。但是,如果寻找不到显著的差异,特别是样本总量还不是很充足的时候,分客群不是一个好的选择。

04

科学解释数据

最后讲一下如何解释模型结果。

V1:逻辑回归模型:优点——可解释强。缺点——特征数量少,模型简单,对特征的质量要求非常高,预测的能力相对较弱。

V2:决策树模型:优点——避免大量特征工程,模型效果较好。缺点——特征多,且特征之间是非线性关系,难以解释。

V3: 两层模型:把成千上万的变量基于数据源,通过各种机器学习、深度学习的算法构建子模型,然后把这些子分作为上层LR或浅层XGB模型的输入,完成最终的模型。优点是在顶层模型上解释性很好,子分与结果具有一定线性关系,可以快速定位子分的问题,非常便于排查问题。

今天的分享就到这里,谢谢大家。

发布于:北京


不炼大模型的互联网公司,趟出AI转型第一波经验|腾讯云|云计算|大数据|公有云|ai转型

一水 发自 凹非寺

量子位 | 公众号 QbitAI

AI应用落地,算力不足仍是摆在众人面前的第一道槛。

这不,作为国产芯片设计公司,燧原科技成立时就碰上了这个老大难。

好在后来通过上云,其验证、benchmark测试效率从2周准备环境缩短至30分钟,算力充足加速了芯片研发。

△燧原科技副总裁任树峰

当下,云+AI基础设施已成为企业智能化转型的关键支撑。

在以生成式AI为代表的技术驱动下,互联网行业作为云+AI应用的先锋,已经找到了新的增长点。

具体是如何做到的呢??

9月6日,腾讯数字生态大会「互联网AI应用专场」在深圳拉开序幕,现场人从人…(头顶台风摩羯)

整场大会只做一件事,讲干货、讲干货、讲干货。例如:

作为C端消费玩家,值得买科技如何让AIGC内容点击率是用户生产内容的103% ?

作为国产算力先锋,燧原科技最初如何摆脱峰值算力供给难题?

作为和技术没那么近的文娱行业,猫眼娱乐如何完成几十上百TB动画渲染?

话不多说,这就挑重点为大家奉上。

关于用AI转型升级,他们有话说

在大会现场,大家达成了一个基本共识:

技术方案的选择将影响AI应用的效率。

至今为止,有3条技术路径成为趋势:

结合专业领域知识做RAG

Agent将成为应用落地的主要方式

云计算是夯实基础的重要底座

引用腾讯云副总裁许华彬的话来解释:

RAG结合企业自有知识,无需企业花费较多人力和算力,以及对大模型SFT精调,是当前企业级AI应用落地的成熟方案。

近期来多行业场景的AI Agent蓬勃发展,面向C端的原生应用,以及B端企业级业务流程自动化,将成为后续应用落地的主要方式。

云计算是夯实基础的重要底座,云原生技术助力企业实现敏捷开发,以新技术、新市场的创新,实现增长突破。

那么问题来了,不同行业/企业如何根据自身情况做选择?

下面有请几位代表性玩家为我们“现身讲案例”:

用户更喜欢点击AIGC内容了

作为聚焦消费领域的玩家,值得买科技分享了一个有意思的数据:

在最新内部测试中,通过AIGC生产的内容,它的点击率已经是用户生产内容的103%。

该公司CTO王云峰坦言,一般情况下,人们不太喜欢AI生产的内容(担心虚假信息),而现在,这一点击率已经打破了旧有印象。

why??

复盘背后的原因,王云峰首先分享了值得买对AI的不同认知:

AI不仅仅是一个技术,其实它本身也是一个生态。

按他的话说,如果AI纯粹是一个技术,那么AI应用落地可能意味着单纯使用通用模型;而实际上,AI不仅仅是生产力,很多时候它在重塑我们的生产流程。

放到消费领域的AI生态,一个明显特征让它区别于金融、医疗等领域。

在消费领域,经验远大于知识。

也就是说,不同于金融、医疗等领域有很多确定性的知识可供模型训练学习,用户消费主要凭借经验,个性化非常强。

概括下来,消费领域的特点主要包括:

内容场景灵活。用户消费更多凭借个人经验而非知识,且动态变化;

能力外延拓展。消费不单指买东西本身,还有之后的一系列体验,边界非常广;

消费需求复杂。消费需求复杂多样,个性化强;

认知有了,行业特点也理清了。

所以,AIGC内容之所以能逐渐赢得青睐,答案正式揭晓:

让AI在更大程度上帮助用户做功课。

值得买发现,让AI帮用户去做那些以前要做很多功课才能解决的问题,用户点击率和阅读效率、阅读时长都会比通过AI单纯生成内容要好很多。

具体而言,值得买的做法是:推出一套AI解决方案。

包括1个“值得买消费大模型”(自研13B消费模型),“商品库”和“内容库”2大数据库,AIUC分析引擎、AIGC生成引擎和AGENT调度引擎3个应用构建框架,以及提供针对性的AI解决方案的4类应用AI战略。

在这一方案中,上云是值得买战略的关键:

通过腾讯混元大模型等理解语音、视频、图像的多模态数据;

自购算力托管+多云算力,迅速进行模型训练和推理部署;

通过腾讯云容器场景GPU虚拟化,实现对单个GPU的更细粒度划分,提升资源利用率、减少资源和人力消耗;

实现10亿+条商品库与近百亿条内容库的数据处理;

芯片设计也能上云了

作为国产AI算力先行者,燧原科技副总裁任树峰一上台就回顾了创业初期面临的痛点:

对一家芯片设计创业公司来说,如何保证峰值算力供给一直是个难题。

据他介绍,一个芯片设计项目的研发周期大概在1~2年,不同时间对算力的需求呈现波峰波谷状态。

实际情况是,公司一般会集中在两三个月内做很复杂、压力很大的模拟仿真和各种运算。

与此同时,通常大家认为芯片设计就是写IP或者写代码,但实际上,一家芯片公司还需要建机房、买服务器,以及管理服务器。

那么问题来了,对当时的燧原来说:

面对扩容需求,公司需要买服务器,这个过程需要工程师等待算力;而且,整个机房的建设也属于一件很复杂的工程。

结果就是,千万级IT开销花出去了,工程师还是因为算力不够需要等物理扩容、等算力。

后来的解决方案是:上云。

据任树峰介绍,芯片设计上云在整个行业还不太常见,原因主要是相关数据过于敏感。

对此,燧原科技联合腾讯云打造了本地+上云的存算分离式新架构。

效果上,通过腾讯云保障燧原的峰值算力供给,燧原验证、benchmark测试效率从2周准备环境缩短至30分钟,提升作业并发100%、缩短仿真周期30%。

动画渲染更丝滑了

到了看似和技术没那么近的文娱行业,猫眼娱乐副总裁徐晓也揭露了业内痛点:

在动画电影制作时,涉及跨城市协作且数据量达到数十至上百TB时,使用传统网络进行传输非常缓慢。

这里要补充下,一般一个动画项目的服务公司和工作人员可能分散在全国各地,需要将四散的工程文件进行汇总并统一渲染。

通常情形是,大家只能依赖快递U盘或硬盘给对方,跨市传输至少需要1天,跨省则需2天,而跨国协作甚至可能拖延到十几天。

经过试验,猫眼基于腾讯云数据传输、数据存储安全方面能力打造了猫眼渲染平台。

让工作者全部用远程桌面登录到集群,集群上安装了常用工作软件。

如此一来,工作者只需远程在集群里制作,不仅省去了素材交换下载环节,还能更好保护版权方。

解决了这个大问题后,再用AI去做建模……

另外,关于猫眼AI转型之路,徐晓在会中透露:

(我们)没有基建建设能力,只能做一些垂类模型。

他重点分享了票房预测这一场景,当前,猫眼能够根据单个影片特征和同期大盘预估票房。

这里依托了基于腾讯云打造的大数据平台。具体包括:

基于腾讯云Wedata数据开发治理平台,提供数据集成,数据开发、数据资产管理等;

基于腾讯云DLC数据湖产品,提供Serverless方式使用存储计算资源,按需自动弹性扩缩容;

基于腾讯云DLC数据湖产品,提供统一湖格式存储、实时写入和更新数据入湖;

腾讯云BI提供查询加速能力,联合TCHouse-D提供的高性能查询和加载报表数据到缓存,提供秒级交互式分析能力;

数据显示,该平台可实现日均3万+离线数仓调度任务稳定运行,核心任务执行效率提升20%。

还有哪些看点

事实上,本次大会聚齐了SaaS、文娱、社交、营销、电商、招聘等多个泛AI应用场景,到场分享的企业还有金蝶云、趣丸科技、智谱、猎聘、筷子科技……

篇幅有限,下面只能分享部分嘉宾看法。

作为LLM的头部玩家,智谱企业商业技术中心总经理柴思远分享了:

把大模型真正变成企业生产力,有几件事值得思考。

具体而言,企业要选一个好的基座模型,同时内部最好也有类似业务BP的角色(懂模型价值、懂业务)。

更重要的是,最好发动全员去使用AI。

真正好的应用还是基于业务场景当中一些原生应用,而这些应用的创新肯定是来自于自下而上的组织内部的元素。

随着数据资产的沉淀和变现,企业可以构筑自身竞争优势。

今天我们在大模型上落地应用,大家做的所有的指令工程和SRT的内容,随着这个场景越来越深入的探索,这就会成为我们企业自身在大模型这个时代数据的资产或者是数据的壁垒。

最后是业务场景,前期可能适合将大模型嵌入已有工作流程;更长远的,企业需要找到一些新的场景和业务模式,然后把模型的能力使用进去。

另外,趣丸技术保障负责人刘亚丹分享了:

应用AI赋能工具要回答的3个问题。

展开来说,刘亚丹首先提醒AI转型也要讲ROI,即“愿意为AI转型花多少?想得到怎样的成果?”。

然后还要寻找切入点。按他的说法:

提升3到5倍效率的事情,我们才投资去做。

同时,基于以往向客户交付颠覆性东西的尝试,他还分享了一条经验教训:

在切入点上,不要改变现有的流程。

最后,腾讯混元高级AI策略产品经理张汉策分享了如何构建AI角色。

他们构建的《长相思》AI角色获得了成功:长相思AI角色对话总热度超亿,“相柳” 单角色热度超2亿。

重点是,他详细介绍了不同训练方法踩过的坑,包括纯prompt法、RAG法,以及Agent法。

并最终总结了长相思采用的方法。

腾讯云:让企业更聚焦自身核心业务

相信大家也发现了一个华点:这些企业在AI转型升级中都用上了腾讯云。

据了解,腾讯云拥有广泛的全球基础设施,覆盖21个地区,运营58个可用区,全球服务器数量超过100万台,全球加速节点超过3200个,带宽储备达到200Tbps。

一直以来,腾讯云都以深厚的公有云实力和分布式云战略,持续推动各行各业的数字化转型。

截至目前,腾讯云AI产品已覆盖超过400家互联网头部企业,累计服务超过12万家互联网客户。

从AI应用落地面临的挑战出发,腾讯云行业架构副总监邱浩分享了腾讯云AI全栈解决方案。

从基础设施层、模型层、模型加速层、机器学习平台层、应用平台层和业务应用层阐述了腾讯云在计算、存储、网络,一站式AI开发平台腾讯云TI-ONE以及云原生产品等方面的能力,并给出了对应不同阶段AI应用开发的具体方案。

具体而言,腾讯云提供了如下开箱即用的产品:

腾讯混元大模型。企业和个人开发者,都可以通过API直接调用腾讯混元;

腾讯云TI平台。打通从数据获取到模型训练部署、最后到AI应用开发的全流程链路;

数据库TDSQL。涵盖金融级分布式、云原生、分析型等多引擎融合的完整数据库产品体系,支持数据库迁移;

大数据处理套件TBDS。可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件;

总之,一句话概括腾讯云的作用,那就是可以让企业更聚焦自身核心业务。

借用值得买科技王云峰的说法:

企业面临的不确定性不会消失,但可以让专业的人来解决。

BTW,就在大会前一天,腾讯混元发布了全新Turbo大模型,作为新一代的旗舰模型。

相比上一代混元pro,推理性能提升超过100%的情况下,成本降低了50%,效果对标GPT-4o。

此外,新模型也支持角色扮演、代码生成FunctionCall,以及全新推出的支持腾讯生态整合的AI搜索联网的能力。

对了,Turbo模型这一次的定价也降低了50%。[db:内容]?

热门阅读排行

会员最新动态

实力展示

  • 鞋子信息
  • 常识知识
  • 各种信息百科
  • 信息发布
  • © 18常识网