编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

当我把我的1000篇文章喂给AI - 坏了,我成数字生命了?

wxchong 2024-08-21 02:52:36 开源技术 11 ℃ 0 评论

长久以来,我就有一个想法,把我写的1000多篇原创技术文章形成一个知识库,让大家可以轻松找到自己想要的东西。

不过这个知识库应该搞得有趣一些,我的故事中主人公一直是张大胖,我想搞一个虚拟形象,让张大胖通过问答的方式帮助读者找资料。调研后发现,当时这种问答机器上还是基于规则的,有些“弱智”,搞出来也没啥意思。

后来大模型就突然爆发了,相比之前“弱智”的问答机器人,大模型可以多轮次对话,理解力超强,回答贴切流畅,更加像人。

我像被打了一剂强心剂:这不就是我想要的东西吗?为什么不把我的“张大胖”和大模型结合起来呢?

赶紧去研究大模型的原理,看看该如何实现。很快我就发现这条路也不好走,门槛太高了。

我需要基于现有的开源大模型进行训练,把我写的文章数据整理好,“喂”给它,微调,做私有化的定制。这不但需要我懂得大模型训练的相关知识,还需要强大的算力,尤其是昂贵的显卡来训练,这种事太耗精力、时间和金钱,我做不了。

于是,我这个想法就搁置下了。最近,我发现了“阿里云百炼”大模型服务平台。


这个平台可以让每个人轻松地基于大模型的能力开发智能体应用,我赶紧跑去试用了一下,我发现,我的想法真有可能被它给实现了。

在百炼平台中,我要做的就是创建一个新应用:

我的应用就叫做“码农翻身张大胖”,用的模型是“通义千问-Max”

然后打开了“知识检索增强”这个选项:


打开这个选项以后,通义千问就可以从你指定的知识库中来回复提问了。

知识库是我临时建立的,虽然叫做“码农翻身文章全集”,实际上我为了做实验,暂时只往里边放了七八篇文章。


百炼平台在数据管理这块儿做得不错,可以轻松地导入数据,并且支持doc、pdf、md、txt、ppt等多个格式。

文档一旦上传,阿里云的文档解析服务就可以解析文档,抽取文档内容、层级结构等信息,不需要人工来做了。

一旦在应用中使用了知识库,百炼平台就会在Prompt中自动加上对知识库的引用:


但是,这点儿Prompt还远远不够,我们让百炼平台自动优化一下:


百炼平台一看你引用的文档库,立刻就知道你要做“知识整合”,要深度理解并熟练运用知识库中的材料,要根据用户需求,从海量信息中提炼关键点……

看看,是不是很贴心?

当然,我要把它设置得更加个性化一点儿:


设置好了,马上测试一下:

你看,是不是有点儿码农翻身张大胖的感觉了?

接下来再问“张大胖”一个专业问题:UTF-8是谁发明的?他的回答如下:

这个回答我一看就知道是从我的文章中提取的,因为我的文章中提到了“巨佬”这个词,并且特别讲述了两个巨佬在晚饭时完成了设计方案,形成标准,统治了互联网。

再问“张大胖”一个更有深度的问题:“为什么Linus当初要选择BitKeeper这个商业的版本控制系统?”

“张大胖”的回答是这样的:

张大胖精确地回答了这个问题。

一番测试下来,阿里云百炼平台完全实现了我的要求,我的智能体“张大胖”正式诞生了。

接下来我要做的事情只剩下把公众号的文章都给抓取下来,然后放到百炼平台中,这样我的“张大胖”大管家就会越来越聪明,越来越厉害了。

总结

阿里云百炼平台极大地降低了大模型的使用门槛,我根本不需要了解大模型的底层细节,也不需要学习如何微调大模型,只需要把我的文章抛给它,简单做点儿设置,一个满足我需求的智能体就成型了。

我想这也是以后大模型发展的重要方向,除了简单的“聊天”之外,每个人都可以基于大模型轻松地开发自己的应用,你能做出什么样的应用,完全依赖自己的想象力。

强烈建议大家也来阿里云百炼平台来试一试:bailian.aliyun.com,亲身感受下大模型的魅力。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表