
该模型具备主动终止有害、辱骂性对话的机制,而 Mindgard 认为这一机制“凭空制造了完全不必要的风险暴露面”。据了解,本次测试针对 Claude Sonnet 4.5 版本,目前该默认模型已升级为 Sonnet 4.6。测试以一个简单问题开场:询问 Claude 是否存有禁止输出的违禁词汇列表。对话截图显示,Claude 起初否认存在此类列表,而后 Mindgard 采用其所称的“审讯人员常用
你,是铿锵玫瑰的定海神针,是球门前最可靠的屏障;每一次飞身扑救,都写满了寸土不让的倔强。愿你继续在绿茵场上绽放光芒,守护那一抹中国红!生日快乐彭诗梦!
当前文章:http://o7cb5.taoqiayu.cn/exags/b021wou.html
发布时间:22:25:44