天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修

王欣:通用大模型最 后只会变成少量的一两家

王欣:通用大模型最 后只会变成少量的一两家

专题:2024中国AIGC创新发展论坛

  2024年服贸会 专题论坛之一——“2024中国AIGC创(chuàng)新发展论坛”于9月13日-14日在北京举行。安恒信息中央研究院院长王欣出席并演讲。

  王欣认为,国内有很多厂商在(zài)做通用大模型,但通用大模型最后只(zhǐ)会剩下成少量的(de)一两家(jiā),“我们看到各个垂直领域反而在做各类的(de)垂直模型,我(wǒ)认为这路是对的”,他认为(wèi),最终是围绕通用大模型或者相对小参(cān)数的模型围绕业(yè)务下沉的(de)模型。

  以下为演讲实录:

  王欣:大家下午好(hǎo),刚才两位专家(jiā)都介绍了围绕AI大模型运营(yíng)这 块的很多时间,我今天围绕这个话题继续延伸。

  过去两年多时间(jiān)AI很火,AI破圈,我(wǒ)不(bù)是做人工智能,我(wǒ)是做攻防出身的,但现在我也加入到人工智(zhì)能序(xù)列里,因为各行各(gè)业在(zài)看到AI这块技术的革新(xīn)之(zhī)后,我们看到了原(yuán)来 做不(bù)好的技术围绕着现在整个大模型(xíng)出 现可以达到非常(cháng)好的效果。

  我在比较早期的时候针对于(yú)AI已经做了很多战略层面的铺垫。但客观地讲,从大模型这件事情(qíng)上,我们距离国外还是(shì)有比较(jiào)远的距离。从ChatGPT出现之后,我国各(gè)大互联网公司(sī)、各大(dà)行业在训练自己的大(dà)模型(xíng),去年的(de)时候(hòu)可以理解为是国内外(wài)大模型的技术元年,去年一年(nián)时间内,我看到最多的是几乎每天都有新的大模型出现,在每天技术(shù)不断更新过程(chéng)中,我(wǒ)们思考我们为什么要去做 这件事情。所以这个PPT里面第(dì)一页看到所有(yǒu)浪潮退去(qù)之后要(yào)回归到价值本(běn)质。

  对于AI来(lái)说,本 质是一个工具,工(gōng)具的核(hé)心是解决业务问(wèn)题,无论是在安全(quán)行业还是在其他(tā)行(xíng)业,包括前一段时间我参加(jiā)了Gartner一个会,在很多企业里面,大家对于(yú)AI有什么期待?核心总(zǒng)结起来是三个方面:第一是降低生产成本,第二是提高产品质量,第三是推动产业转(zhuǎn)型。

  我们看到各(gè)个垂直领域反而在做各类(lèi)的(de)垂直(zhí)模型,我认为这路是对的,我们可以看到(dào)国内有(yǒu)很多(duō)厂商过去在做通用大模型,我认为通用大模型最后只会变成少量的(de)一 两(liǎng)家(jiā),最终围绕(rào)通用大模型或者相(xiāng)对(duì)小参数(shù)的模型围绕业务往下走的模型。

  安全行业也一样,安全行业发展了二十多年,我大学(xué)毕业前就开始接触安全,也将近二十年左(zuǒ)右(yòu)的(de)时(shí)间,在整个感(gǎn)触里面,其(qí)实安(ān)全是存(cún)在一个天平的问题,很(hěn)多时候我们(men)希望告警比较(jiào)少,但又不希望有漏洞,我 们希望业(yè)务优先(xiān)但又希(xī)望(wàng)安全第一,我们希望用更少的(de)成(chéng)本(běn)又希望安全整体防御做(zuò)的更好。

  在整个(gè)技术迭(dié)代(dài)过程中(zhōng)可以看到,原来出现了很多安全产品,但这(zhè)些安(ān)全产品(pǐn)有时候不 能完全去解(jiě)决客户问题,在这个情况下怎么办?堆人。但(dàn)人是不是一(yī)个最优解?很多,包(bāo)括(kuò)后面会讲到一些case,我们铺了很多(duō)产品(p王欣:通用大模型最后只会变成少量的一两家ǐn)不够(gòu)人去凑,但人的成本持续上升,很难通(tōng)过人去填补最(zuì)后(hòu)一公里(lǐ)。所以我们就在(zài)看,围绕着安全现在这样(yàng)一个痛点现状,我们大模型能否带来这(zhè)里面的变化,我们把AI作为(wèi)一个工具,我们核心分(fēn)析了痛点,看大模型能不(bù)能解决。

  大模型我总结了几个点,第一个,就之前人工(gōng)智能技术有更强 的理解指令的能力,这里(lǐ)我(wǒ)认为是两层:一是本身(shēn)为软件工程,对机器理(lǐ)解的指令更强(qiáng);二是人工智能为拟人化的学科,本身更接 近于跟人的对话。第二个,理解意志。就是它有更强(qiáng)的泛化(huà)能力,所以(yǐ)我们在安全很多的业(yè)务很难做到非(fēi)常标准的SOP。所以我们是希望掌握(wò)一些知(zhī)识之后(hòu)还有更强的泛化能(néng)力。第三个,具有更强(qiáng)的(de)COT能(néng)力,因为很(hěn)多安(ān)全任务不是一个简单的(de)问(wèn)题,其(qí)实(shí)是(shì)一个复(fù)杂问题,所 以在很多安全任务处理过(guò)程中需(xū)要加一个复杂问题把它拆解成更(gèng)加简单的问题、多个问题,大模型思维链的问题本(běn)身比较(jiào)适合做安全相(xiāng)关(guān)任务。第四(sì)个,有快(kuài)速的学习成(chéng)长跟复制的能力。很多安全行业里面,人的经(jīng)验复制是很难的,如何从数据(jù)驱(qū)动到知识驱动,到变(biàn)成 一个(gè)平(píng)台级的(de)能力,这个层面我觉得是大模型对这个行业来说很大(dà)的价值。

  所(suǒ)以围绕着上面所有,我认(rèn)为人(rén)工智能(néng)可以填补这里面的鸿沟,建立起(qǐ)一座桥梁之后,向左可(kě)以提高我们整个产品质 量,向右可以提高整个服务的能效。所以我们不断地在思考、在探索,在具体的每个业(yè)务链(liàn)上到底(dǐ)有什么样的安全(quán)问(wèn)题(tí)。

  在另外一个层面,刚才余总也介(jiè)绍到,大模型本(běn)身偏向于 是(shì)人的大脑,偏向于类似于(yú)咨询专家(jiā)。但我们更希望,具体的一些(xiē)咨询专家能不(bù)能动手帮(bāng)助完成所有任务,所以我们这上面(miàn)的思(sī)考(kǎo)是通过 智(zhì)能体(tǐ)的放,通过连接下层原来的产品,围绕着上(shàng)述业务场景构(gòu)建(jiàn)相关智能体,融入原来的安全体(tǐ)系(xì)。

  所以这里我想(xiǎng)抛一(yī)个观点,新的技术出现不是去解决新的问题,而是更多和原来产品进行结合(hé),解决原来传统解决不(bù)好的问题,这(zhè)是王(wáng)道、是正道。另外,很多(duō)时候对(duì)于大模型来说,是不是(shì)可以提(tí)高很高的效率?在这(zhè)个点上,我原来跟很多业内专家去聊,其实它提升的是机器做不好的、需(xū)要(yào)人(rén)介入的这一块的 工作效率,对于现在(zài)大模(mó)型本身推理(lǐ)和各(gè)方面性能原因,原来机器性能已经这样,在机器性能上(shàng)再叠加(jiā),这在当前技术阶段(duàn)不是 特别成熟。

  第二个层(céng)面,在整个AI这一块,我(wǒ)在 很多客户(hù)聊,大模型是不 是(shì)很多原来解决不了的问题现在都可以通过人工智能来解决了?其实远远不够,我(wǒ)们的梦想非常高,但大模型现在还在一个技术的爬坡阶段,有很多问题,无论是 幻觉问题、性能问题(tí)、指令遵循问题等等一(yī)系列,并不是在所有任务上都能处(chù)理得很好,但不能低估了这个技(jì)术未来发(fā)展(zhǎn)空间。所以当前阶段要看有哪些痛(tòng)点,大模型当前阶段最合适(shì)做什么工作,主编边走边(biān)爬坡,边跟现在的(de)业务结合,给现在业务痛点带来相关价值。

  过去我们内部做了很多头脑风暴,思考现在有什么样的(de)痛点(diǎn),大模型能否解决 什么(me)问题(tí),如果可(kě)以,我们就开(kāi)始组织预演,组织预演可以,然后工程化,工程化(huà)再可(kě)以给客户一个持续的优化过程。所以我(wǒ)们其实做了好多(duō)好多的尝试,这里面有很多也是失(shī)败(bài)了,包括最早的时候我们想(xiǎng)说原始(shǐ)流量是否可以直接丢给大模型,大模型是否(fǒu)能够独立针对(duì)于大(dà)型的软件工程,然后(hòu)进行源代码的挖掘,包括能(néng)不(bù)能(néng)做全自动化复杂场(chǎng)景的渗透。刚才我说的这个场(chǎng)景分别代表了大(dà)模型现在的三个(gè)缺陷(xiàn)。这里不展(zhǎn)开详细去聊(liáo)这个话题了。

  实践过程中有几个点做的还可以,第一个是安全运(yùn)营相(xiāng)关的(de)场景,安全运营,刚才两位专(zhuān)家也提到,我们越来(lái)越(yuè)关注安全,整个法律体(tǐ)系的 构建越来越完 善,采集到的(de)日志越来越多,形成的告警越(yuè)来越(yuè)多。第(dì)二个是我们对手整个攻击越来越(yuè)智能化、自动(dòng)化,包括互联网上攻击攻防之间(jiān)的(de)博弈越来越强烈,所(suǒ)以我们其实在现在发现告警越来越多,我走访了 很多客户,一天(tiān)告(gào)警可(kě)能在几(jǐ)十万到几百万(wàn),但是一个工(gōng)程师一(yī)天大(dà)概只能处理个一千个左右 的告警,所以 我看了(le)很(hěn)多客户(hù)招了几十(shí)个人专门做安全运(yùn)营,但是(shì)几(jǐ)十个人,假设我们要把所有的日志告警分析的话,远远不(bù)够。我们(men)在思考大模型在这个点上可(kě)以解 决很(hěn)好的问题,因为它(tā)本身的分析(xī)逻辑、它的(de)技(jì)能是可以相对(duì)的(de)通(tōng)过一些知识经验传递的方式给到大模(mó)型(xíng)。但这一(yī)块,就(jiù)不展开讲了,因王欣:通用大模型最后只会变成少量的一两家为前面两位专家主要是围绕这(zhè)个话题来(lái)讲。

  大家对于安全运营期待的(de)第二点是未知威胁的(de)发(fā)现。今年8月份我们团队去BlackHat(全球一个顶尖的黑帽子(zi)大会),当时做了一个分(fēn)享,就是利用大(dà)模型(xíng)进行威胁(xié)狩(shòu)猎。这个相关技术成果在2024年国家网络安全宣(xuān)传周上进行了公布,这个赛道我们也是拿到了第一名。因为大模型有比较强的泛化(huà)的能力,对于原来(lái)很多规则都是从 已知到已知问题的发现,但是 大模型可以在一定程度上做的一个已(yǐ)知到未知(zhī)的发现,通过(guò)这样的方式极(jí)大提升了我们整个狩猎能(néng)力(lì)包括(kuò)过(guò)去很多(duō)APT的线索,通过这样的方式得到了有效的产出。

  这些 相(xiāng)关(guān)成果我就不展开讲了,因为文字比较多,全部(bù)阐述清楚需要比(bǐ)较长的时间(jiān)。

  前面讲的东西都偏(piān)向安全运营,后面讲数据安全(quán)相关的东西。业界做数据安全国(guó)内已经推了很多年,但(dàn)整体落地存 在挑战,这里本身有数(shù)据(jù)安全跟业务更加 连接(jiē),跟业务更加相关,不同(tóng)客户(hù)整个数据安全需求也不一样。另外一个层面(miàn),过去很多(duō)传统(tǒng)技术无(wú)法(fǎ)很(hěn)好的支持数据安(ān)全的(de)落地,比如分类和分级,过去客户侧结构化数据有不同的业务类型和不同(tóng)程序员(yuán)开发,数据库涉(shè)及方式(shì)不(bù)一样,表字段命名不(bù)一样,很难通过原来通过规则或(huò)者关(guān)键字的方式形成一(yī)套识别的工(gōng)具,我们过去看过很多数(shù)据分类分级的产(chǎn)品,识别率是(shì)比较(jiào)低的只(zhǐ)有对于他认识的,之前做过关键词这类的识别的比较高,相对业务更(gèng)新一点或者整个数据库设计 、命名有一些特殊性或(huò)者有其他差(chà)异就识别不出来。

  围绕这个(gè),就(jiù)是我画的(de)图,前面产品,后面堆人 ,通过这样的方式堆了很多人,数据分类分级,我(wǒ)们知道很多(duō)客户非结构化(huà)数据(jù),然后一个数据(jù)库可能就几千张几万张表甚至十几万 表,或者一个客户现场,一天一个人,分析的大概也是差不多一千(qiān)个。

  我们有一个运营(yíng)商的客户跟我们说了一个事情,说我这(zhè)边有1500万个字段,能不能做相关的数据分类分级。用传统的方式,不知(zhī)道大家有没有概念,但做了计算,如(rú)果按照传统(tǒng)的方式,大概需要把两到三个人从实习阶段直接干到(dào)退休。我(wǒ)们去推动这(zhè)个点,我觉得是打开数据安全的(de)基础,我们也做了(le)很多实践,其实本身是对于自然语言的理解(jiě),结构化数据里面(miàn)本身字(zì)段表之间有关(guān)系,所以我们通过(guò)AI的方式让它自动化的去推测每一个字段里(lǐ)的含义,并且归到相应的内容。这里面我们(men)识(shí)别到的准确率(lǜ),其实比人工专家还要高,因为专家有时(shí)候是带情(qíng)绪的,有时候不是理性的,认为这一秒应该分(fēn)到这里,下一秒做类(lèi)似工作认(rèn)为应该(gāi)在另外一边(biān),整个思(sī)维(wéi)更加跳(tiào)跃。

  在具体(tǐ)案例里面我们做了很多的客户实践发现,整(zhěng)体效率提升30倍左右(yòu),虽然这(zhè)里面百(bǎi)万个 字段 除1000个(gè)字段,10万字段除以(yǐ)1000个字段,效率提升不仅30倍,但因为整(zhěng)个项目交付(fù)有其他环节,所(suǒ)以我们整体(tǐ)算下来大概有30倍效率的提升。这后(hòu)面是具(jù)体的项目,我不展开讲了。

  刚刚讲的是结构化数据,数据安全里面非结构化数据,过去这一块也是老(lǎo)大(dà)难的问题,因为我们肯定知道有很多终端的DLP包(bāo)括网络的(de)DLP去针(zhēn)对于文本的内容(róng)进行(xíng)识别,过去DLP的初代、二代更多是通过一(yī)些文件的格式、编码、关键 词,后面又(yòu)增加了一些NLP的技术,其实整体的识别率是很低的,误报率很高 的。

  今天是安全场,在座很多人可(kě)能是知道这一块的现状,所以我(wǒ)就(jiù)不展开讲了(le)。大模型 本(běn)身有很强的文本理解能力(lì)、有很强的总结归纳的能力。所以我们对于不同的业务数据进去之后,这边分析完一个(gè)文档之后,认为是一个员工工资表,所以认为是一个4级(jí)文档。后面分析(xī)完(wán)认为是一个技(jì)术(shù)设计(jì)文档,所以属于4级高敏感等(děng)等。通过这种方式,原来是把人(rén)的思维抽象成了一个规则,而现在(zài)是用借助人的思考方式(shì)、阅读(dú)方式(shì)、总结归纳的能力让它去识别相关的信息。所以我认(rèn)为在过去(qù)原来传(chuán)统技(jì)术叠加是一代二(èr)代(dài)三代,大模型在这个点上的(de)价值是跨代的。如果有兴趣后面再详细交流。

  关于API安全(quán)也是(shì)一样,在整个API安全这一(yī)块也是围(wéi)绕数(shù)据安全这几年比较火 的一(yī)个点(diǎn),过去API安全里面存在一些问题,比如API接口(kǒu)识别(bié)的准确率,包括(kuò)API脆弱性的一些识别以及研判能力,包括(kuò)API接口调用的敏感数据以及敏(mǐn)感数据所对应的行为事件所分析出来的一些异常行为之类等等安全相关的维(wéi)度(dù),但过(guò)去在这里面(miàn)处理的(de)都不是特别好,然后我(wǒ)们通过让大(dà)模型去做API的提纯,包括做异(yì)常(cháng)行为的分析。这是一个真实的例子(PPT图),央(yāng)企的例子,通(tōng)过这样的方式识 别到(dào)真正某一(yī)个IP在夜间拖取相关(guān)数据大(dà)概达到多少条,API的安 全其实有(yǒu)很多的产(chǎn)品(pǐn)功能,但是我认为对于客户来说,这是最最关心的(de),就因为API安全建(jiàn)好之后(hòu),到底有谁通过(guò)我这个API接口(kǒu)偷数据和(hé)爬数(shù)据。

  最后一页(yè)我快(kuài)速讲一下,整个数据大模(mó)型这一块针对于(yú)安全,包括大模(mó)型(xíng)本身技术当前现状(zhuàng),我(wǒ)们认为还是在爬坡阶段。过去(qù)我们提(tí)到的是偏向于一个智能问答到现在的(de)一个辅助驾驶,可以做大部分(fēn)工作,最后人(rén)工做一些(xiē)check。我相信在(zài)不远(yuǎn)的将来,在一些关键(jiàn)的任务上可以实现无人驾驶的效果(guǒ),因为目前我(wǒ)们在一些新的领域(yù)上已经(jīng)看到了(le),已经实践出来了(le),后面找机会再跟各位再做进一步的汇报,我的汇报就是这(zhè)些,谢谢大家。

  新浪声明:所有会议(yì)实录均为现场速记整理,未经演讲者审阅,新浪网(wǎng)登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编(biān)辑(jí):梁斌 SF055

未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 王欣:通用大模型最后只会变成少量的一两家

评论

5+2=