AI 护 AI,铸盾大模型!瑞莱智慧发布人工智能安全平台
近几个月来,以ChatGPT为代表的生成式人工智能狂飙突进,大模型时代已
近几个月来,以 ChatGPT 为代表的生成式人工智能狂飙突进,大模型时代已然降临。在 " 百模大战 " 越战越酣之时,大模型其内生及衍生安全威胁也愈演愈烈,数据泄露、幻想、生产歧视、排斥和有害内容等安全问题层出不穷。如何将制约大模型应用发展的 " 绊脚石 " 变为 " 压舱石 "?
7 月 7 日,在 2023 世界人工智能大会上,清华大学人工智能研究院孵化企业瑞莱智慧(RealAI)发布了全新人工智能安全平台 RealSafe3.0,为加速发展的大模型系好 " 安全带 "、把好 " 方向盘 "。
"双刃剑"效应,制约大模型落地
(相关资料图)
新技术往往会伴随新的安全问题。自人工智能诞生的那一刻起,创造技术的力量和控制技术的力量就存在不对等,大模型亦是如此。尽管它的强大让人类瞥见了通用人工智能的曙光,但也让众多学界、业界人士心生忧惧。近段时间,关于大模型的安全隐患多次被提及,比如秘密文件可能遭泄露、添加无意义的字符后大模型竟给出完全相反的回答、输出违法有害信息、隐含某些偏见和歧视内容等。
这些风险已引起各国高度关注。国家互联网信息办公室 4 月 11 日起草《生成式人工智能服务管理办法 ( 征求意见稿 ) 》;欧盟于 6 月 14 日投票通过了《人工智能法案》,全球 400 多位专家甚至发布联名公开信,提出对于人工智能发展过快、同时缺乏监管的担忧。
瑞莱智慧联合创始人、算法科学家萧子豪认为,大模型 " 落地难 ",本质是因为当前仍处于 " 野蛮生长 " 阶段,还未找到场景、风险和规范三者间的平衡点。而要探寻这一平衡点,目前缺少易用和标准化的工具,无法科学评判大模型能否同时实现规范和低风险,也难以进一步定位问题并给出优化建议。
源头上找症结,技术上找对策
基于上述问题,瑞莱智慧在世界人工智能大会上正式发布人工智能安全平台 RealSafe3.0 版,集成了主流及企业独有的世界级安全评测技术,能提供端到端的模型安全性测评解决方案,解决当前通用大模型安全风险难以审计的痛点问题。相较上一版本,RealSafe3.0 新增了对通用大模型的评测,评测维度已覆盖数据安全、认知任务、通用模型特有漏洞、滥用场景等近 70 个方面,未来还会持续扩增测评维度。
萧子豪说,评测只是手段,帮助通用大模型提升安全性才是目的。而瑞莱智慧的办法是从源头上入手,找准症结,基于自研多模态大模型底座,用 AI 的神奇守护神奇的 AI。比如,由于数据集的质量直接影响模型的内生安全,因此 RealSafe3.0 集成了多个自研模型和专家论证高质量数据集,帮用户修复模型中的问题。针对黑盒不可解释的通用大模型,自研的红队对抗模型取代人工设计问题,能自动化地挖掘出更多漏洞,真正从源头化解风险。
此外,新安全平台还能通训练,推动大模型安全性迭代提升。瑞莱智慧推出的教练模型,能对被测大模型进行多轮次的提问 - 回答训练,使其掌握好坏答案的要点及区别,直至问答能力迭代至最优。值得一提的是,教练模型基于瑞莱智慧自有数据集,还经过数十位价值观领域的专家论证,确保了输入数据高质量且领域多元。
用AI守护AI,用智慧驾驭智能
除了可提升生成式大模型安全性的 RealSafe3.0,瑞莱智慧此次还带来了能够防范生成式人工智能恶意滥用的 DeepReal2.0,该技术此前名为深度伪造内容检测平台,能检测 Deepfake 内容,此次则新增两个模块,可以检测 Diffusion、LLM 这两类 AI 生成的数据,从而对生成式人工智能技术滥用进行管控和治理。同时也支持检测图像、视频、音频、文本等是否伪造,适用于打击网络诈骗和声誉侵害行为、检测网络内容合规性、检测音视频物证真实性等场景。
萧子豪说,从古至今,技术始终都是一把‘双刃剑’。通用人工智能的时代必将到来,如何让人工智能扬长避短,如何用人类智慧驾驭人工智能,是从业者的一道长久课题。事实上,这也是瑞莱智慧一直努力的方向。自 2018 年成立以来,瑞莱智慧坚持源头创新和底层研究,致力于研究和发展安全可控的第三代人工智能技术,建立通用 AI 模型能力和人工智能安全能力。
未来,在通过 RealSafe3.0 保障通用大模型和专有模型安全、可靠、可控的同时,瑞莱智慧也将持续迭代技术、打磨产品,以确保在这场人工智能安全 " 攻防战 " 中始终掌握主动,将人工智能这一 " 关键变量 " 化为高质量发展的 " 最大增量 "。
作者:张懿
编辑:商慧
* 文汇独家稿件,转载请注明出处。
关键词:
[ 相关文章 ]
近几个月来,以ChatGPT为代表的生成式人工智能狂飙突进,大模型时代已
盛夏时节,沿着盘山公路记者登上贵州省紫云苗族布依族自治县坝羊镇平塘
青岛今日天气今天是7月8日,星期六,农历五月廿一。多云转小雨,东南风
引导和规范市场主体诚信守法经营,促进商业特许经营规范有序发展。详情
黄金周四多1903多!周五反手1933空1924附近收!纳指白天吃两小波,晚上
7月7日,“新型储能产业发展国际论坛暨绿色发展企业家高峰对话”主题论
【环球网报道】据“政治新闻网”欧洲版5日报道,关于近日在法国爆发的
直播吧7月7日讯中超第15轮,浙江队vs上海申花。第53分钟,于汉超传中,
移动模架造桥施工现场 黄诗伟摄中新网佛山7月7日电(郭军吴善基黄诗伟)
03:06齐鲁网·闪电新闻7月7日讯今天下午,省委常委会召开会议,传达学
7月7日,胡锡进晒出自己炒股第9天的战绩,今天虽然大盘下跌,但老胡逆
7月5日,摄影爱好者在海西蒙古族藏族自治州都兰县沟里乡地区,近距离拍
科学家:地球正处于12 5万年来的最热期还会更热
当年要有这投入?塔帅执教枪手4年净支出5 3亿镑,超温格22年总和,枪手,
《咒术回战》的饭圈化一直蛮严重的,不过大部分时候都属于小群体讨论
笔性 心性--王清州书法新作展海报展览名称:笔性 心性--王清州书法新作
近日,据相关报道,奇瑞汽车旗下品牌捷途的首款硬派越野车——捷途旅行
中新网7月7日电据湖南省娄底市娄星区人民法院网站消息,2023年7月7日,
中新网7月6日电题:6月亚洲制造业PMI为50 4%保持平稳增势中新财经记者
摘要:2023年07月07日锐捷网络(301165)换手率大于8%,主力资金净流出
[ 相关新闻 ]
Copyright 2015-2022 华东医院网 版权所有 备案号:京ICP备2022016840号-41 联系邮箱:2 913 236 @qq.com