开发喵星球

ChatGPT fine tune微调

ChatGPT fine tune微调

如何使用ChatGPT

首先需要安装openai的包

pip install openai

安装好openai以及获得API key后,我们就可以调用接口了

import openai
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"

models = openai.Model.list()

for model in models['data']:
    print(model['id'])

目前提供的模型有如下:

babbage 
davinci
babbage-code-search-code 
text-similarity-babbage-001 
text-davinci-001 ada
curie-instruct-beta
babbage-code-search-text 
babbage-similarity 
whisper-1
code-search-babbage-text-001 
text-curie-001
code-search-babbage-code-001 
text-ada-001
text-embedding-ada-002 
text-similarity-ada-001 
ada-code-search-code 
ada-similarity 
text-davinci-003
code-search-ada-text-001 
text-search-ada-query-001 
davinci-search-document 
ada-code-search-text 
text-search-ada-doc-001 
davinci-instruct-beta
text-similarity-curie-001 
code-search-ada-code-001 
ada-search-query
text-search-davinci-query-001 
curie-search-query 
gpt-3.5-turbo-0301 
davinci-search-query 
babbage-search-document 
ada-search-document
text-search-curie-query-001 
text-search-babbage-doc-001 
gpt-3.5-turbo
curie-search-document
text-search-curie-doc-001 
babbage-search-query 
text-babbage-001
text-search-davinci-doc-001 
text-search-babbage-query-001 
curie-similarity curie
text-similarity-davinci-001 
text-davinci-002 
davinci-similarity 
cushman:2020-05-03 
ada:2020-05-03
babbage:2020-05-03

现在介绍一下我们应该怎样去调用接口,获取我们想要的结果。

图片生成 (image generation)

import openai
import json

# 设置API密钥
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"

def image_genaration(prompt):
    response = openai.Image.create(
    prompt=prompt,
    n=1,
    size="1024x1024"
    )
    image_url = response['data'][0]['url']
    return image_url

if __name__=='__main__':
    prompt='a delicious dessert'
    result = image_genaration(prompt)
    print(result)

prompt=‘a delicious dessert’其中返回url地址,我们将地址复制到浏览器中,打开看到如下图:

image-20240328144556531

prompt=‘母亲在厨房忙碌着’,OpenAI返回的效果图如下:

image-20240328144635953

人物画像细节生成还不够逼真。来试一试中国的古诗词效果,prompt=‘踏花归去马蹄香’

image-20240328144721193

对话(chat)

api接口调用代码如下所示:

import openai
import json

# 设置API密钥
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"
def chat(prompt):

    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    prompt='人口最多的国家'
    result = chat(prompt)
    print(result)

结果如下:

image-20240328144828686

中文纠错 (Chinese Spelling Correct)

我们可以通过合理的写prompt,基于问答形式,让gpt-3.5做NLP任务。比如对中文纠错,我们可以这样写prompt,让chagpt能够做纠错NLP任务。如下所示:

def correct():
    prompt="改正错词输出正确句子:\n\n我在京东电商平台买了苹果耳几和华为体脂称"  #建议prompt: 改正错词输出正确句子:\n\n input_sentence
    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    result = correct()
    print(result)

结果如下:

image-20240328144908468

关键词提取 (keyword extract)

def keyword():
    prompt="对下面内容识别2个关键词,每个词字数不超过3个字:\n\n齐选汽车挂件车内挂饰车载后视镜吊坠高档实心黄铜玉石出入平安保男女 红流苏-玉髓平安扣"  #建议prompt: 对下面内容识别n个关键词,每个词字数不超过m个字:\n\n input data
    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    result = keyword()
    print(result)

image-20240328144951434

对于不同的prompt,输出的结果差异也较大。所以对于具体的任务场景,我们需要尝试不同的prompt, 根据结果的反馈,不断的调整和优化prompt,从而得到更加准确的结果。

抽取文本向量 (Embedding)

def embedding():
    content = '苹果手机'
    response = openai.Embedding.create(
    model="text-embedding-ada-002",
    input=content
)
    answer = response.data[0].embedding
    return answer

if __name__=='__main__':
    result = embedding()
    print(len(result))
    print(result)

image-20240328145049312

微调 (fine tune)

openAI提供了接口可以用我们自己的数据进行fine tune,得到适应我们自己业务场景的新模型。假如我们需要训练一个适应我们自己领域知识的聊天机器人,我们可以按照下面流程来做fine tune。

数据准备

我们可以先把数据转成csv格式,需提供prompt列和对应的completion列,其中prompt相当于问题,completion就是对应的答案,如下是我们要用来fine tune模型的result.csv训练样本内容显示:

image-20240328145134926

然后我们可以用openAI提供的数据处理工具对数据转成json格式的文件

openai tools fine_tunes.prepare_data -f result.csv

执行完后,我们会得到一个对应的json文件:result_prepared.jsonl

模型微调训练

接下来我们就可以用已有的模型 (ada, babbage, curie, davinci) 进行fine tune,官方给出的具体可以用来做微调的模型主要如下

image-20240328145218870

首先需要指定我们自己的API key:

export OPENAI_API_KEY="sk-Wljk3BVhN0VieGCwAzEX*********"

然后开始训练

openai api fine_tunes.create -t result_prepared.jsonl -m ada

在这里用我们自己的数据result_prepared.jsonl,基于base model: ada模型提交fine tune任务。提交后会返回给我们一个JOB ID,通过这个job id我们可以跟进模型在远程服务器训练情况:

 openai api fine_tunes.follow -i ft-sWKDNnTmUyOGEdpvbAOvEaZt

我们可以看到结果如下:

image-20240328145359583

可以看到我们的模型训练好了模型名称叫做:ada:ft-personal-2023-03-27-03-24-09,然后我们就可以试用我们训练好的模型看效果了,测试如下:

openai api completions.create -m ada:ft-personal-2023-03-27-03-24-09 -p <YOUR_PROMPT>

其中<YOUR_PROMPT>写入我们要测试的问题就好。

现在我们可以去远程服务器上查看下我们fine tune好的模型是否已经有了:

models = openai.Model.list()

发现有了刚刚fine tune的模型:

image-20240328145452101

对于分类,实体识别等任务,OPNAI官网也提供了如何做处理数据,让模型做fine tune,详情可以参考官网https://platform.openai.com/docs/introduction/overview

   
分类:玩技术 作者:荡荡, 浩浩 发表于:2024-03-28 14:55:18 阅读量:85
<<   >>


powered by kaifamiao