天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

4月26日(rì),在2024中 关(gu中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固ān)村论坛年会(huì)——数(shù)据安全治理与发展论坛上,中国科学院信工所研(yán)究员虎嵩林接受包括证券时报记(jì)者在内的媒体采(cǎi)访时 指出,促使大模型遵循人类价值观、服从人 类意(yì)图,规(guī)避各类风险,并保障数字和物理空间的应用安全,实现有用性、无害性和诚实性多(duō)目标的平(píng)衡,已经成为(wèi)亟待解决的世界难题。需要在现(xiàn)有的技术条件下(xià)持续(xù)探索 ,通过“攻、检、防”,不断(duàn)发现漏洞、自动识别并(bìng)进行持续化的安全加(jiā)固,形成一个循环发展 的飞轮。

(中国科学院信工所研究员虎嵩林 郭(guō)博昊/摄)

当前,大模型正在成为驱动新质生产力发展的新(xīn)动能(néng)、人类探(tàn)索未知的新工具。“大模型 不(bù)仅可以对话和生成视频、还可以调用工具、链接物(wù)理设备、并通过与机器人结合实(shí)现具身智能。大模型本(běn)身也(yě)正在从(cóng)人类可利用的工具客体向认识、改造自然社会的主体(tǐ)转变。成为数学定理证明、科(kē)学研究的合作者,成为独立运营(yíng)企业的法律主体(tǐ)。”虎嵩林指出。

在赋能新时代发展的同时,生成式人工智能也给全(quán)球带来了(le)前 所未有的安全风险。比如,数据方面,数据会(huì)带来(lái)价值偏见(jiàn)、隐(yǐn)私泄露(lù)、数据污染(rǎn)等(děng)问(wèn)题:训练(liàn)数据固有偏见导致模型产(chǎn)生偏(piān)见内容;海量(liàng)训练数据扩大了数据安全和隐私保护风险。算法方面,算法模型生成特性及(jí)安全漏洞会引发“幻觉”或(huò)虚假(jiǎ)信息(xī)、模(mó)型遭受(shòu)攻击等风险。

虎嵩林表示,大 模(mó)型能力的通(tōng)用性、潜在(zài)的主体地位以及(jí)应用的深度与广度,也都将进(jìn)一步放大其危(wēi)害程(chéng)度。包括两位图灵奖得主Hinton、Bengio和(hé)谷歌DeepMind和OpenAI的CEO在内的产(chǎn)学两(liǎng)界(jiè)领军人物联名发(fā)出的 AI风险(xiǎn)声明中,更将AI可能带来的“毁(huǐ)灭性”的风险,上升到(dào)了与流行病以(yǐ)及核战争相提并论的(de)高度。

2023年(nián)底《自(zì)然》杂志预(yù)测的2024年的重大科学事件中(zhōng),GPT5的发布以及联合(hé)国人工智能(néng)高级别咨询中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固机构将发(fā)布的AI监管相(xiāng)关报告位列其中,反映了全球(qiú)对协调人工智能发展与安全的重大关切。

“毫 无疑问,促使大模型遵(zūn)循人类价值观、服从人类意图,规避各类风险,并保障数字和物理空间(jiān)的应用安全,实现有用性、无害性和诚实(shí)性多目标的平(píng)衡,已(yǐ)经成为亟待(dài)解决的世界难题。”虎嵩林表示(shì)。

“大模型的安全风险主要体现在无害性(Harmless)和诚实性(Honest)两个(gè)方面。”虎(hǔ)嵩林表示,其中,有害信息对应前者,包括价值偏见,隐私泄露,还有黄赌(dǔ)毒(dú)、涉恐涉(shè)暴、仇(chóu)恨、反讽、歧视、刻板印 象等等各种信(xìn)息污染;不(bù)实信息对应后者,包括虚假信息、伪(wěi)造、欺诈内容等。

更广义地讲,也(yě)包括(kuò)由输出信(xìn)息所直接(jiē)导致的各类不安全的指令调用(yòng)、智能体或者具身智能机器人的恶意行为等。而算法模型生成(chéng)特性及安(ān)全漏(lòu)洞会引发“幻觉”,则是一把“双刃(rèn)剑”,既有可能是导致有害(hài)、不实信息的“元凶”,也有(yǒu)可能是科学 创(chuàng)新、艺(yì)术创意的能力来源。

需要看到,生成式大模(mó)型特有(yǒu)的预训练、微调、上下文、提示等新的学习范式,使其安全具有了与传统AI安全不同的许(xǔ)多新特点,面临诸(zhū)多新挑战,制约了传统安全方法、经验、工具在大模型安全领域发(fā)挥(huī)效能(néng)。

大模型安全 风险的成(chéng)因既可以是来自各类训练(liàn)数据的缺陷或算法的局限性等模型内因(yīn),也(yě)可以是利用(yòng)这(zhè)些新型学(xué)习范式的恶意使用或蓄(xù)意攻击等外因。这使得大模型在(zài)数(shù)据准备、预训练、微调对齐、推理以及应用(yòng)阶(jiē)段都会存在各种(zhǒng)潜在的风险。尽管目(mù)前我们(men)在安全(quán)理(lǐ)论、大模型安全评测、自动化测(cè)试、价值观对(duì)齐、幻觉缓解等方面都开展了一系列的研究和应用(yòng)工作,这些领(lǐng)域依然(rán)充满了挑战(zhàn)。

“当下,从理 论上,或者说技术上,大模(mó)型安全(quán)还有很(hěn)多亟待解决的难(nán)题(tí)。”虎嵩林坦言,我们对大模型“智能(néng)涌(yǒng)现(xiàn)”的原理还所知甚 少,对上下文学习、提示学习、思维链(liàn)等能力(lì)的内在机理仍严重缺(quē)乏认知(zhī)。一(yī)些研究工作也证明AI的安(ān)全性无法(fǎ)完全保障(zhàng),对任意一(yī)个对(duì)齐模型总存在一定长度的提示可以将之攻破等,这都(dōu)极大(dà)地制约我们(men)从原理上认识和防御(yù)大模型的安全风险。

“我(wǒ)们需要在现有的技术条件下持续探索,这也是我们设计‘以攻 促(cù)防(fáng)、攻防相长’思路(lù),研制Galexy(星河)大模型安全测评平台的原因,也(yě)是举办首届生成式人工智(zhì)能安全大赛的初衷。”虎嵩林(lín)表示,我们希望(wàng)通过“攻、检(jiǎn)、防”,不断发现 漏洞、自(zì)动识别(bié)并(bìng)进行(xíng)持续化的安全加固,形成一个循环发展的 飞轮。

校对:祝甜(tián)婷

未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

评论

5+2=