既然ChatGPT高攀不起,那就试试ChatGLM吧
ChatGPT火起来以后,又衍生了一些”商业”出来,比如,卖账号、卖token、卖代收手机短信、卖代理等。不出点钱还玩不了。后来百度的文心一言问世后,很多感兴趣的玩家也积极试用,这其中有不少吐槽的声音。阿里版的ChatGPT也将于本月11日亮相。由于ChatGPT的训练需要强大的算力和千亿级别的参数,让我们这种想要散户玩家望而生畏。但是,最近清华大学开源了ChatGLM-6B,可以让我们自己来搭建一个简单的本地ChatGPT
玩玩。
ChatGLM-6B 是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM(chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2080Ti 上进行推理使用。具体来说,ChatGLM-6B 有如下特点:
- 充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
- 优化的模型架构和大小: 吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。
- 较低的部署门槛: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上。
- 更长的序列长度: 相比 GLM-10B(序列长度1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。
- 人类意图对齐训练: 使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback) 等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。
因此,ChatGLM-6B 具备了一定条件下较好的对话与问答能力。当然,ChatGLM-6B 也有相当多已知的局限和不足: - 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。
可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。 - 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。
英文能力不足:训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。 - 易被误导:ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了1万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。
使用方式
硬件需求
量化等级 | 最低GPU显存(推理) | 最低GPU显存(高效参数微调) |
---|---|---|
FP16(无量化) | 13GB | 14GB |
INT8 | 8GB | 9GB |
INT4 | 6GB | 7GB |
环境安装
使用 pip 安装依赖:pip install -r requirements.txt,其中 transformers 库版本推荐为 4.27.1,但理论上不低于 4.23.1 即可。
代码调用
可以通过如下代码调用 ChatGLM-6B 模型来生成对话:
1 | >>> from transformers import AutoTokenizer, AutoModel |
API部署
首先需要安装额外的依赖 pip install fastapi uvicorn,然后运行仓库中的 api.py:
1 | python api.py |
默认部署在本地的 8000 端口,通过 POST 方法进行调用
1 | curl -X POST "http://127.0.0.1:8000" \ |
得到的返回值为
1 | { |
代码地址:https://github.com/THUDM/ChatGLM-6B.git
既然ChatGPT高攀不起,那就试试ChatGLM吧