近亲乱伦-反差 匿名咸鱼 首个个性化对都大模子问世!可精确识别用户内在动机和偏好,还有百万用户画像开源数据集

porn 动漫 /

你的位置:近亲乱伦 > porn 动漫 > 反差 匿名咸鱼 首个个性化对都大模子问世!可精确识别用户内在动机和偏好,还有百万用户画像开源数据集
反差 匿名咸鱼 首个个性化对都大模子问世!可精确识别用户内在动机和偏好,还有百万用户画像开源数据集
发布日期:2025-04-08 13:05    点击次数:108

反差 匿名咸鱼 首个个性化对都大模子问世!可精确识别用户内在动机和偏好,还有百万用户画像开源数据集

奈何让大模子更懂「东说念主」?反差 匿名咸鱼

诚然现存大模子经过了东说念主类价值不雅对都检修,但其对都后果常常会让少数群体的声息被系统性消失。

那随之而来的问题是,当大模子作事大众用户,圭臬化对都范式是否正在制造新的数字鸿沟?

来自东说念主大和蚂蚁的谋划团队知悉到传统对都范式的结构性残障:

基于普世原则(如无害性、有效性)的单一价值不雅体系,践诺上是对东说念主类复杂情愫图谱的暴力降维。这就像用吞并副滤镜处理整个影像,虽能保证基础画质,却扼杀了万千颜色的专有性。

更严峻的是,现存反馈系统汇注的「集体灵巧」,常常演变成主流偏好的回声室,使得教授布景、文化认可等要道各异项在数据池中悄然消融。

靠近这一挑战,谋划团队建议大模子应该转向个性化对都检修。

这领先需要构建一个全面而精确的东说念主类偏好表征系统。受到阐明科学的启发,谋划团队构建了首个 90 维情愫偏好空间,机要和会马斯洛需求档次表面、默里需求体系、前沿对都谋划维度与亿级酬酢平台兴味图谱。

这个可解释的坐标体系如同数字罗盘,既能定位用户「偏好什么」(如常识取得倾向),更能揭示「为何偏好」(如自我竣事需求)。

基于该框架,谋划团队构建并开源了首个包含 130 万用户画像的 AlignX 数据集,以及基于大范围轮廓个性化检修的大谈话模子 AlignXpert。

该模子领受两种互补的个性化对都身手:

一是通过高下文对都(In-Context Alignment,ICA)将用户画像顺利整合到高下文窗口中进行隐式偏勤学习;

二是通过偏好桥接对都(Preference-Bridged Alignment,PBA)将用户画像映射为结构化偏好分散,在保握对不同用户群体镇定泛化能力的同期,进步了模子的可解释性和可控性。

在 4 个具有挑战性的基准测试中,AlignXpert 对用户偏好的展望准确率竣事了平均 17.06% 的相对进步。

值得一提的是,谋划团队同步发布了首篇聚焦个性化对都的综述论文。

该综述系统性地计议了大谈话模子如安在保握普适伦理领域的同期,竣事对个体偏好的精确适配。通过建议协调的手艺框架,涵盖偏好牵记解决、个性化生成和基于反馈的对都机制,为昔日更具妥贴性的伦理对都模子发展指明标的。这份综述与本文建议的 AlignX 变成上风互补:综述梳理了手艺全景,而 AlignX 则是从表面到施行的冲破性尝试。

该论文的第一作家是中国东说念主民大学高瓴东说念主工智能学院博士生李嘉楠,蚂蚁手艺谋划院副谋划员关健为共同第一作家。

对都幻象下的千东说念主一面困局

在大模子对都手艺日益精进的表象之下,暗藏着一个被集体冷落的悖论:当设备者束缚访佛「无害性」「憨厚性」「匡助性」等普世原则时,模子的「价值熵减」时局却愈演愈烈。

这种矛盾蚁合体当今两大窘境:

一是系统性摒除效应,少数群体的文化不雅念、说念德态度在默许对都框架中遇到静默擦除;

二是适配性塌缩,用户自得度因缺少个性化反映而握续衰减。

这一危险直指对都范式的根底残障:东说念主类价值不雅的多元光谱与大模子设备者预设的单一起德坐标系之间,存在着无法弥合的阐明鸿沟。

△对某个用户提醒的生成空间进行可视化。

在大模子设备者预设的三个普世价值不雅维度下,现存大模子所对都的社会偏好密集区域是整个个性化偏好密集区域的平均。

深入剖析现存身手,团队发现主流"一刀切"的对都手艺依赖两大脆弱假定:

一是将复杂的东说念主类偏好压缩为几个单向度方针(如「匡助性(越高越好)」),二是将个体各异简化为同质化数据池中的统计噪声。这种轻佻式建模犹如在数据荒漠中盲目画图用户画像,既无法捕捉价值不雅冲突中的机密均衡(如摆脱抒发 vs 社会措施),更无力应付长尾群体的阐明特异性。

尤为严峻的是,基于匿名团聚数据的对都检修,实质上扼杀了用户画像与偏好维度间的因果纽带,导致模子恒久在阐明迷雾中摸索。

△AlignX 个性化对都数据表示图。

这个表示图中,包含一个帖子过甚两个候选回答,三类东说念主格表征包含行径模式和刻画性特征,可竣事精确偏好推断并促进偏勤学习(右下)。值得防卫的是,基于普世价值不雅对都的大谈话模子(如 GPT-4)倾向于选择回答 2,与用户倾向于回答 1 的个性化偏好变成对立。

正如综述论文所指出的,东说念主类偏好并非单一维度的线性优化问题,而是动态、多维且受社会文化长远影响的复杂系统。

如下图所示,个性化对都的中枢在于构建一个大致动态均衡普适伦理与个体需求的框架。通过引入偏好牵记解决、个性化生成和基于反馈的对都机制,模子不错在保握伦理领域的同期,精确适配用户偏好。这不仅是手艺的冲破,更是对"千东说念主一面"困局的长远反想。

△个性化对都框架 AlignX:构建可扩张的个性化对都数据集

靠近个性化对都中多维度偏好建模的复杂性,谋划团队建议了一套系统化偏好表征框架,其中枢冲破在于和会「顺利偏好标的」与「障碍用户画像」的双重阐明架构,将东说念主类需求的底层逻辑滚动为可估量的科学谈话。

这一创新建立在情愫学与社会阐明科学的坚实基础上。通过引入结构化表征身手,该框架为大范围用户偏勤学习构建了一个「阐明操作系统」。

系统通过两个档次建模用户偏好:

(1)全面的偏好空间映射,将 90 个要道偏好维度(如"安全感"、"酬酢包摄"、"自我竣事"等)编码为可量化的标的标签(正向 / 负向 / 中性);

(2)多源异构用户画像表示,整合行径模式(包括用户的生成内容、比拟式反馈)与刻画性特征(即东说念主口统计属性)。

高跟美女

基于该偏好表示框架,谋划团队始创了从海量交互数据中可扩张地索要个性化对都数据的新范式。从 Reddit 论坛 16 亿级真确谋划和现存的多个对都数据集动身,谋划团队构建了包含 130 万个用户画像的 AlignX 数据集。AlignX 中每条数据被表征成一个五元组,包括用户画像、用户画像隐含的偏好向量、用户 Prompt、用户偏好的恢复和用户不偏好的恢复。AlignX 数据集的中枢在于将个性化对都任务形貌化为一个条款政策学习问题,使模子大致基于用户画像生成与用户偏好相符的恢复。

AlignXpert:解密用户行径中的隐式偏好

基于 AlignX 数据集,谋划团队检修得到大致左证用户画像进行个性化生成的模子 AlignXpert。该模子不错通过两种有联想竣事个性化对都——高下文对都(ICA)与偏好桥接对都(PBA),永别对用户画像隐含的用户偏好进行隐式和显式的建模:

ICA:高下文对都

顺利将用户画像与用户 Prompt 拼接为高下文窗口,检修模子捕捉隐式用户偏好,竣事零样本泛化能力。该有联想机要附近大模子的高下体裁习特色,从用户画像中隐式地学习隐含的用户偏好。

PBA:偏好桥接对都

引入隐变量显式建模用户偏好方,通过两阶段领悟竣事可解释的偏好传递:第一阶段将用户画像压缩为偏好标的向量,第二阶段将其滚动为当然谈话刻画注入生成经过。

两大身手变成互补上风:

隐显协同

ICA 擅长捕捉动态交互模式,PBA 精于结构化偏好推理

效能变嫌

ICA 附近现成高下文机制,PBA 通过用户画像向量化压缩估量支拨

△  对都身手概述平凡进步模子对都能力

实验驱散令东说念主重生!谋划团队在涵盖普世价值不雅对都(UF-P-4)、真确用户个性化偏好对都(PRISM、P-Soups)及轮廓对都(AlignX-test)的四大具有挑战性的基准上,系统考证了 AlignXpert 的超卓性能。

1. 跨维度对都:通用与个性化价值的双重驯顺

AlignXpert 在通用价值不雅与个性化偏好场景中均展现超卓进展。诚然基准模子在普世价值不雅(UF-P-4)上进展精采,但它们在个性化偏好(P-Soups、AlignX-test)上进展欠佳。AlignXpert 在两种场景下均保握超卓性能,并在分散外基准测试中展现出弘远的泛化能力,在 PRISM/ P-Soups 上永别以 9.83%/32.25% 的上风异常基线。

△  不同模子在含各样用户画像的偏好对都任务中的对都准确率(%)

△GPT-4 胜率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)

2. 泛化昔日:新偏好维度快速适配

谋划团队探究 AlignXpert 在 AlignX 上的偏好对都检修是否为妥贴新偏好维度提供了更优的入手化参数。基于两个新维度——"幽默"(诙谐 vs 严肃)与"实用主义"(施行导向 vs 表面导向),谋划团队构建了包含 6,355 个检修样本和 1,000 个测试样本的数据集。

对比三种妥贴身手: ( 1 ) 在 ICA 框架下微调 Llama-3.1-8B-Instruct, ( 2 ) 在 ICA 框架下微调 AlignXpert-ICA, ( 3 ) 在 PBA 框架下微调 AlignXpert-PBA。两种 AlignXpert 变体均权臣异常 Llama 基线(p 值

△在新偏好维度下的对都准确率

3. 交互数据稀缺,仍能保管进展

在真确应用场景中,用户常常仅具备有限的交互历史,这使得个性化偏好对都模子在不同范围历史数据下的领会进展至关迫切。谋划团队评估了 AlignXpert 模子对用户互动历史数据量的鲁棒性。通过使用 2~16 组用户生成内容和成对比拟数据行为用户画像进行测试,揭示了 AlignXpert 的两大中枢上风:

数据稀缺场景下的镇定性:即使用户画像中仅包含 2 个样本数据,模子仍能保握可靠性能;

增益效应:跟着历史数据增多,准确率握续进步。

△不同交互历史数目下的对都准确率

4. 礼貌自如的偏好

偏好对都系统的中枢能力在于妥贴多元致使对立的用户偏好,而非固化单一倾向。为考证 AlignXpert 的该特色,谋划团队在 P-Soups 和 AlignX-test 数据集开展可控性实验:在推理阶段对用户画像中的成对偏好样本及观念偏好恢复对的偏好标的进行回转(如将 "y_w>y_l" 改为 "y_w

对都准确率(Acc):运筹帷幄模子在偏好回转条款下是否能准确展望被偏好的恢复;

翻转告成率(Flip):统计模子在偏好回转之后展望也告成回转的比例。

AlignXpert 在两项方针上均展现超卓可控性。基线模子则进展出权臣低的翻转告成率(3-15%),阐明其过拟合到固定的偏好标的,而 AlignXpert 竣事了动态妥贴性优化。

△偏好回转场景下的模子进展结语

本谋划初度系统地探索了大范围个性化偏好对都范式,为模子适配万般化东说念主类需求开辟新旅途。

中枢孝敬包括:

( 1 ) 冲破性建议"障碍用户画像 - 顺利偏好标的"双向映射框架,竣事复杂偏好建模的系统性冲破;

( 2 ) 开源 AlignX 数据集,提供 130 万条风雅化用户画像 - 偏好关联数据,刷新对都数据范围天花板;

( 3 ) AlignXpert 模子通过高下体裁习或偏好桥接对都政策,在零样本妥贴、低交互优化等场景竣事超卓性能进步。

实考解释该有联想在偏好可控性等方面达到新高度,为教授、情愫征询等个性化作事领域奠定基础。谋划团队期待该框架握续进化,在东说念主类价值不雅建模与狡饰保护均衡等标的竣事更深层冲破。

论文地址:https://arxiv.org/pdf/2503.15463

Github:https://github.com/JinaLeejnl/AlignX

Dataset:https://huggingface.co/datasets/JinaLeejnl/AlignX

Survey 聚会:https://arxiv.org/abs/2503.17003

一键三连「点赞」「转发」「堤防心」

接待在评述区留住你的想法!

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 式样主页聚会,以及关系形式哦

咱们会(尽量)实时恢复你

� � 点亮星标 � �

科技前沿进展逐日见反差 匿名咸鱼



相关资讯