通过LLM构建聊天机器人必备技巧-当前关注

哔哩哔哩 2023-06-21 19:03:00

聊天机器人在AI领域并不稀奇，尤其是ChatGPT问世之后，很多人都把它当成一个可以随时对话随意提问的聊天机器人。而在实际应用领域，聊天机器人的场景也愈加丰富多样。

【资料图】

比如很多人熟知的客服聊天机器人，常用在电商领域，能够快速回答常见问题或者跟踪发货状态等等；还有医疗聊天机器人，在读取患者的症状并且持续提问后，就患者下一步应该采取的措施提出正确的建议；以及还有辅助销售的聊天机器人，用于财务计算、法务咨询相关的聊天机器人等等。

那么，如何拥有一个符合自己场景需求的聊天机器人？语言技术教育家RachaelTatman博士为使用LLM（Large LanguageModels）开发聊天机器人提供了一些建议和想法，详细说明了数据扩充的内容、原因和方式。同时还展示了以数据多样性为重点进行数据扩充的建议，以及一些使用Cohere LLM的例子。

使用LLM的建议

首先，出于对用户体验考虑，以及存在的一些不可预测性，Rachael Tatman博士不建议向用户展示原始生成的文本。这是由于，对LLM的大多数对抗性攻击都需要访问原始生成的文本，如果不公布原始数据，那么就不必应对对抗性攻击。她建议在训练或者微调聊天机器人时，可以在人机交互的方面进行数据增强，从而使得用户能够在使用时感受到温暖。

注：对抗性攻击（Adversarial attacks），由于机器学习算法的输入形式是一种数值型向量（Numeric vectors），所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判，这便被称为对抗性攻击。

数据增强什么时候有用？

数据增强什么时候有用呢，答案是，在没有目标用户的代表性数据的时候。她还指出，在我们有足够完善的代表性数据时，数据扩充当然是有效的，但是会缺乏一些有特殊含义或者其他意图的内容。比如说因为热点事件或者新的含义，某些事物会从不相关变成相关。，此外，在处理一些非常干净且不能完全代表用户生成文本的研究数据时，数据扩充是非常重要的。

为什么使用LLM而不是其他？

与其他基于模板规则的数据扩充技术相比，LLM可以避免重复和意外错误。并且基于模板规则的方法在生成具有不同语法的数据方面存在滞后。Rachael Tatman博士提到，对比其他模型，LLM是一种生成数据更快、更便宜、更可靠的方法。虽然LLM也会被各种各样的用户生成文本而干扰，因此，在训练我们的模型时，多样性的数据增强是非常有必要的。

Cohere是如何收集数据来训练模型的？

Cohere的Generation LargeLanguage Model是在Cohere基础设施团队从网上抓取的Google Books数据集、Common Crawl和其他文本上训练的。Cohere团队筛选出的前十个域名包括：wordpress.com,medium.com, stackexchange.com, tumblr.com, elsevier.com, genius.com, bbc.co.uk,libsyn.com, yahoo.com, nytimes.com。在这个基础上，Cohere LLM使用了各种数据来训练模型，包括干扰数据。

如何使用LLM更快构建聊天机器人？

虽然根据具体情况和实际场景，数据会各不相同，但建议通过尽可能有代表性并且齐全的数据，来进行模拟训练以生成新数据。正如Rachael Tatman博士所介绍的，她使用SLURP数据集[U1] 创建的一个例子。她之所以会使用这些数据，是因为它非常干净而且正式。

再举个例子，当你有一些训练数据时，如何利用这些训练数据来生成更多基于它的数据。在Cohere的AI聊天机器人对话框内，

我们给了一个指示：play music有了这个，我们提供了一堆例子。当我们单击生成按钮时，它将生成相关文本。

演示了使用Cohere聊天机器人生成文本的另一个示例。在这里，我们给它喂食一个意图，例如，设置闹钟或提醒。

如何为数据增加多样性？

到目前为止，我们已经看到了使用数据增强技术增加数据的方法。但是，生成的数据与现有数据类似。如果我们想增加数据多样性怎么办？她将增加多样性的方法分为两部分。

l 基于情绪或使用角色的提示

基于情绪的提示，也就是喂给一些情绪的提示。例如，当要求聊天机器人愤怒地播放音乐时，她发现播放音乐的意图发生了变化，聊天机器人生成的文本建议关闭音乐。如下图，聊天机器人给到的文本与可能我们的意图完全相反。所以，情感背景和意图不是IID（独立和相同分布）。然而，这种方法可能适合生成负面情绪的数据集。

l 基于特定用户角色的提示

在使用基于用户的特定角色时，它主要基于刻板印象。人们不太可能通过一些人口统计的数据来介绍自己，除非他们想引入一些基于此的刻板印象，比如说“我现在20岁，请播放音乐”“我是法国人，请播放音乐”。但是，使用多语言数据是个特殊情况，有可能就会由数据衍生一些结论，如下图所示。所以，我们应该谨慎地采取这种做法。

l 基于网站人口统计数据的提示

通过引用特定网站进行提示，她提供了一种风险较小的方法来使用社交媒体网站的人口统计数据来创建提示。她提到这种方法可以用作提示中角色的代理，这种方法也考虑了主题的影响。

比如说当引入不同社交网站的数据后，Twitter、Facebook、YouTube上的不同用户，对聊天机器人要求播放音乐，会得到不同的回复。

Facebook：

YouTube：

使用LLM的一些注意事项

在一些场景下，如果和聊天机器人表达的意图过于具体或独特，上述方法将无法很好生效。如果您的目标用户是大量现有社交媒体用户，那么提供的方法将最有效。此外，如果您的目标用户的确是比较独特的，那么可以尝试，以给定方式添加数据多样性，尽管这并不能完全代表您的实际用户，但是算是个权宜之计。

如何验证生成的数据？

建议在第一遍进行手动验证。如果能增肌人机交互的内容将会得到更好的性能。除此之外，她建议使用嵌入可视化来确保整个分布中真实数据和生成的数据的混合。还可以使用嵌入可视化来确定您是否对新集群感到满意。

最后的思考

总结一下，LLM可以帮助我们通过数量和多样性来增加数据，直到我们得到一些实际数据，使我们的系统的可用性更高。她补充说，我们可以提示现有和新生成的数据。最后，建议在第一遍手动验证生成的数据，以确保它符合我们正在寻找的标准和质量。

[U1]https://arxiv.org/abs/2011.13205?ref=txt.cohere.com

相关标签

相关阅读


全球热头条丨高尔夫球全锦赛落幕上海男队夺冠

2023-06-21

“中国城市高铁第一隧”首个基坑开挖，南通至宁波高铁迎新进展当前滚动

2023-06-21

win10系统设置环境变量（win10环境变量在哪里设置）

2023-06-21

荔枝怎么卖还得尊市场为“师”_天天快资讯

2023-06-21

“黑科技”亮相第二十届住博会业界：智能建造条件日趋成熟

2023-06-21

北大教授姚洋反对中考分流：40%孩子锁定为低收入者应10年义务教育

2023-06-21

朱琳晋级伯明翰网球赛16强

2023-06-21

天天新资讯：下午3点，正式归队！李梦抵达澳大利亚，女篮多人赴美参加亚洲杯

2023-06-21

焦点观察：腾讯控股(00700)6月21日斥资约4.02亿港元回购118万股

2023-06-21

北京交警：中考期间送考车辆尾号限行违法不作处罚-全球聚焦

2023-06-21

权威发布

1 有全网搜索功能的小说软件排行系统乐园

2 每日信息：云南缉毒警心声：不希望战友回不来中国网

3 为学患无疑疑则有进这句话的意思是什么_为学患无疑疑则有进全球新资讯互联网

4 八一钢铁：拟将HyCROF成熟技术移植到2500m³A高炉上_天天短讯云财经

5 我爱我家一员工跳楼身亡，公司：会配合公安机关调查观察者网

6 全网首家!琴雨花洒水幕挑战,用艺术展现九牧实力_天天速读中关村在线

7 【全球时快讯】提高记忆力吃什么好_提高记忆力吃什么好元宇宙网

8 成都蒙彼利埃幼儿园：课题研究谋发展，专业深耕待花开当前要闻成都蒙彼利埃幼儿园

9 衡阳蒸湘区：“粽”享端午佳节节日氛围拉满红网衡阳

10 世界快报:广州灵活就业社保多少钱一个月2023 广东灵活就业社保缴费最新标准律法网

ZAKER出品

热点

娱乐

汽车

体育

天天微头条丨2023海口白沙门沙滩夜市临时公交路线

ZAKER热点

当前快看：三峰环境：计划与控股股东重庆德润环境有限公司、合作方厦门海辰储能科技股份有限公司、厦门北辰星储能发展有限公司、江苏冠华新能源科技有限公司、铭语（北京）

ZAKER热点

2023上半年新疆喀什地区疏勒县第二批中小学和幼儿园教师资格认定补充公告_微头条

ZAKER热点

焦点快看：重庆轨道交通5号线大石坝至石桥铺段实现“车通”

ZAKER热点

每日速递：博纳影业：全资子公司浙江博纳近期获得政府补助款1633.92万元

ZAKER热点

河北秦皇岛在水一方小学举行“聚焦新课标赋能新课堂”语文主题教学研讨会|世界独家

ZAKER热点

上海一线职工周末免费课堂来了！第四期“匠心学堂”将招收千名学员_观焦点

ZAKER热点

世界实时：汉字王者办公室爱情找不对劲的地方攻略

ZAKER热点

浙大中控dcs教学浙大中控dcs采购哪里家好|全球微头条

ZAKER热点

全球今头条！湖北襄阳：发布实施《就业见习服务规范》

ZAKER热点

漫步者：6月20日公司高管肖敏减持公司股份合计150.17万股|环球热消息

ZAKER热点

天天快看点丨芳源股份：与盟固利签订《战略合作协议》

ZAKER热点

太谷租房子_太谷租房_焦点报道

ZAKER热点

增额终身寿险和年金险哪个增值多？分享中国好的复利型保险_全球热闻

ZAKER热点

“国际可持续农业发展对话机制” 启动|环球新动态

ZAKER热点

王者荣耀游戏介绍文字怎么写（王者荣耀游戏介绍文字）|要闻

ZAKER热点

今日最新不锈钢期货价格行情查询（2023年6月21日）

ZAKER热点

你有92个选择，通往湖北大学！_天天热讯

ZAKER热点

纯芝麻酱有点苦正常吗_芝麻酱好坏怎样分_全球视点

ZAKER热点

大通T60皮卡及雪佛兰Suburban怎么样世界新动态

ZAKER热点

查看更多内容

PTA污水处理工艺

ZAKER娱乐

“高质量发展调研行”继续采访媒体记者为泉州高质量发展点赞环球热议

ZAKER娱乐

专家预测2023年四川新旅游发展方向

ZAKER娱乐

环球快消息！有感_对于有感简单介绍

ZAKER娱乐

焦点！帮48名被冒名者走出困局

ZAKER娱乐

各民族专家学者学习贯彻文化传承发展座谈会精神研讨会在京召开|全球观焦点

ZAKER娱乐

腾讯新手游《饥荒：新家园》招募测试活动即将举行_全球观察

ZAKER娱乐

供需博弈！节前猪价小幅上涨，局部回温明显（第24周综述）-当前观点

ZAKER娱乐

天天通讯！证监会：将扎实推进债券注册制改革走深走实，加快完善公司（企业）债券制度规则体系

ZAKER娱乐

控股股东未按期还款宋都集团存单累计被划扣15.71亿元

ZAKER娱乐

【环球报资讯】中考能带水、手表、纸巾进考场吗？厦门中考赴考指南＋省教育考试院提醒来了

ZAKER娱乐

从一“面”之缘到“面”向世界——重庆小面爆红背后的启示|环球速看

ZAKER娱乐

夏至丨流光半夏美好日长-天天报资讯

ZAKER娱乐

华润万家购物卡网上能用吗_华润万家购物卡可以网上购物_当前热门

ZAKER娱乐

猪洞迷阵怎么走_猪洞石墓阵走法

ZAKER娱乐

进入第三年的“沪惠保”，可持续性会有变化吗？首席承保这么回应

ZAKER娱乐

热讯：干部学习会丨党员干部要擦亮“端午底色”

ZAKER娱乐

商务部：6月12日至18日食用农产品价格略有下降

ZAKER娱乐

世界焦点！高考志愿怎么填？广东省教育考试院副院长：做好这4个功课

ZAKER娱乐

激光去颈纹的原理和效果每日观察

ZAKER娱乐

查看更多内容

室内盆栽的风水禁忌（室内盆栽有什么讲究）

ZAKER汽车

环球实时：FAST发现迄今最短轨道周期脉冲双星系统

ZAKER汽车

天天热点评！IPO动态：宏石激光拟在深交所主板上市募资13.2亿元

ZAKER汽车

环球热门:奉化溪口旅游攻略两日游_奉化溪口旅游攻略

ZAKER汽车

财政部：新能源汽车车辆购置税减免政策延长至2027年底-动态

ZAKER汽车

全球微速讯：湖北省DB42/T 1897-2022《农用航空器水稻播种技术规程》解读

ZAKER汽车

环球看点！隆鑫系破产重整波折不断，核心关键并非“理财”

ZAKER汽车

世界微速讯：太和县水上社区开展水上消防安全应急演练和水上救援演练活动

ZAKER汽车

制定战略的重要目的是_控制的实质就是使实践符合于计划计划就是控制的标准_ 天天信息

ZAKER汽车

普惠路小学开启禁毒法制研学之旅|快资讯

ZAKER汽车

福建龙岩：跨昼夜地震救援演练锤炼“硬核”队伍_聚焦

ZAKER汽车

石家庄市和平西路小学开展端午主题系列活动世界聚焦

ZAKER汽车

泰山石油：与国网电动汽车等签订战略合作协议推动新能源产业发展布局

ZAKER汽车

中建清能悦和城项目B区交付

ZAKER汽车

python中计算三角形面积计算三角形面积

ZAKER汽车

甘肃银行数据中心消防钢瓶检测服务项目废标公告

ZAKER汽车

当前观点：鲜奶炖鸡汤_关于鲜奶炖鸡汤简述

ZAKER汽车

世界今亮点！润建股份(002929)实控人及其控制企业累计减持润建转债155.41万张

ZAKER汽车

【全球新视野】国信期货贵金属日评（7月19日）

ZAKER汽车

天天日报丨禁止进口俄罗斯黄金国际金价日盘分析

ZAKER汽车

查看更多内容

医疗事故的赔偿法律常识

ZAKER体育

【记者手记】在藏博盛会感受多元文化碰撞全球今日报

ZAKER体育

you raise me up歌谱westlife

ZAKER体育

葡萄之乡、白色之城

ZAKER体育

杨毅:乔尔杰维奇带男篮就像带小学生他不骂街因为队员是能力问题|天天新消息

ZAKER体育

6月21日必康退（002411）龙虎榜数据

ZAKER体育

襄城县委统战部：节前送温情，“粽”暖老人心|当前热讯

ZAKER体育

辽宁高考成绩什么时候出?2020年-2022年辽宁高考录取分数线

ZAKER体育

【世界快播报】汽车抵押贷款装gps钱要自己付吗情况是这样的

ZAKER体育

为什么懂营销的品牌，都爱开「快闪店」？世界新动态

ZAKER体育

又一个北京65㎡老破小，直接封神：小而乱，根本逛不完热闻

ZAKER体育

郎溪：“四个度”推进蓝莓产业高质量发展

ZAKER体育

南风过境全文txt_南风过境txt下载

ZAKER体育

环球要闻：海南全省行动！两个月内把不动产证取回家！

ZAKER体育

世界新资讯：三高有军训吗?_泰山颜悦蓝色价格多少钱一盒

ZAKER体育

焦点关注：年纪轻轻当了反派爹_年纪轻轻

ZAKER体育

工信部：深化“5G+工业互联网”发展推动不少于3000家企业建设5G工厂

ZAKER体育

环球最新：大宗交易：特力A成交820.5万元，折价7.18%（06-21）

ZAKER体育

社会实践报告个人鉴定怎么写_个人鉴定怎么写

ZAKER体育

【世界新要闻】明星基金经理最新动作曝光：萧楠加仓次高端白酒，韩创大买地产龙头

ZAKER体育

查看更多内容

24小时综合

1 市场监管总局：大力支持老旧电梯更新改造_世界快看点电影

2 烟台市莱山区初中物理教研活动在院格庄中学举行_今日观点房产

3 2023郑州美术馆端午节开放时间环球热点评星座

4 生效顺序_生效_快资讯杭州

5 环球快消息！上海江杨农产品市场经营管理有限公司招聘济宁

6 重要提醒！事关达州人出行|世界快资讯健康

7 天天新资讯：广东海洋大学首个中外合作办学机构揭牌成立！本地资讯

8 韩媒深扒朴叙俊绯闻网红女友，竟然也是韩娱圈出身？互联网

9 江西持续推进碧水保卫战本地资讯

10 当前快报:i5-13500HX 硬刚 R7 7840H，RTX 4060 本的“核芯” PK 互联网

11 触乐夜话：年长玩家科学

12 当前速讯：美国国会或修改贸易法案加强小额邮包监管将影响跨境电商星座

13 全球微资讯！精工科技：接受富国基金等机构调研长春

14 小粮库大“蠹虫”：粮食购销贪腐为何频频得手？全球热消息亲子

15 医疗事故的赔偿法律常识体育

16 拿房产证需要注意什么细节今日要闻河源

17 民营企业员工因个人纠纷截留公司款项的行为是否构成职务侵占罪？_全球播资讯平顶山

18 广汽集团：同意合营企业如祺出行开展规模约为8.42亿元融资国际

19 当前资讯!公司上市有什么好处六盘水

20 人民银行开展1450亿元逆回购操作中标利率1.9%|世界速递南昌

查看更多内容

搞机团

通过LLM构建聊天机器人必备技巧-当前关注

相关阅读

全球热头条丨高尔夫球全锦赛落幕 上海男队夺冠

“中国城市高铁第一隧”首个基坑开挖，南通至宁波高铁迎新进展 当前滚动

win10系统设置环境变量（win10环境变量在哪里设置）

荔枝怎么卖还得尊市场为“师”_天天快资讯

“黑科技”亮相第二十届住博会 业界：智能建造条件日趋成熟

北大教授姚洋反对中考分流：40%孩子锁定为低收入者 应10年义务教育

朱琳晋级伯明翰网球赛16强

天天新资讯：下午3点，正式归队！李梦抵达澳大利亚，女篮多人赴美参加亚洲杯

焦点观察：腾讯控股(00700)6月21日斥资约4.02亿港元回购118万股

北京交警：中考期间送考车辆尾号限行违法不作处罚-全球聚焦

权威发布

ZAKER出品

24小时综合

全球热头条丨高尔夫球全锦赛落幕上海男队夺冠

“中国城市高铁第一隧”首个基坑开挖，南通至宁波高铁迎新进展当前滚动

“黑科技”亮相第二十届住博会业界：智能建造条件日趋成熟

北大教授姚洋反对中考分流：40%孩子锁定为低收入者应10年义务教育