开发喵星球

Lora微调LLM报错

Lora微调LLM报错

没有保存adapter_model.bin

导致预测的时候, 报错 Please check that the file adapter_model.bin is present at Peft…

解决:

# 1. Trainer保存时没保存.bin, 在构造TrainingArguments参数时控制
args = TrainingArguments(
    output_dir=OUTPUT_DIR, # checkpoint的存储目录
    per_device_train_batch_size=BATCH_SIZE, # 单设备上的batch size
    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS, # 梯度累加的step数
    warmup_steps=100,
    num_train_epochs=EPOCHS,
    learning_rate=LEARNING_RATE,
    fp16=True, # 使用混合精度训练
    logging_steps=1,
    evaluation_strategy="no", # 不进行评估
    save_strategy="steps",
    save_steps=1000, # 保存checkpoint的step数, 这个保存很耗时间
    save_total_limit=5, # 最多保存5个checkpoint
    deepspeed=DS_CONFIG,
    remove_unused_columns=False,
    save_safetensors=False # 这个参数控制保存格式, False保存.bin, True保存.safetensors
)

trainer = Trainer(
    model=model,
    train_dataset=train_data,
    eval_dataset=None,
    args=args,
    data_collator=collate_fn

)

# 2. 使用model.save_pretrained时, 没保存.bin
model.save_pretrained("best_model", safe_serialization=False) # safe_serialization 参数False保存.bin, True保存.safetensors# 1. Trainer保存时没保存.bin, 在构造TrainingArguments参数时控制
args = TrainingArguments(
    output_dir=OUTPUT_DIR, # checkpoint的存储目录
    per_device_train_batch_size=BATCH_SIZE, # 单设备上的batch size
    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS, # 梯度累加的step数
    warmup_steps=100,
    num_train_epochs=EPOCHS,
    learning_rate=LEARNING_RATE,
    fp16=True, # 使用混合精度训练
    logging_steps=1,
    evaluation_strategy="no", # 不进行评估
    save_strategy="steps",
    save_steps=1000, # 保存checkpoint的step数, 这个保存很耗时间
    save_total_limit=5, # 最多保存5个checkpoint
    deepspeed=DS_CONFIG,
    remove_unused_columns=False,
    save_safetensors=False # 这个参数控制保存格式, False保存.bin, True保存.safetensors
)

trainer = Trainer(
    model=model,
    train_dataset=train_data,
    eval_dataset=None,
    args=args,
    data_collator=collate_fn

)

# 2. 使用model.save_pretrained时, 没保存.bin
model.save_pretrained("best_model", safe_serialization=False) # safe_serialization 参数False保存.bin, True保存.safetensors

lora训练保存的adapter_model.bin很小, 只有7K

# # 转换模型
# 参考别人代码时, 有下边的几行代码, 把我注释掉的内容注释掉就可以保存正常大小的文件了
model = get_peft_model(model, config)
model.config.use_cache = False
# old_state_dict = model.state_dict
# model.state_dict = (
#     lambda self, *_, **__: get_peft_model_state_dict(self, old_state_dict())
# ).__get__(model, type(model))
# # 打印模型中的可训练参数
model.print_trainable_parameters()

预测的时候报,IndexError: list index out of range

│                                                                                                  │
/anaconda3/envs/xraypulse/lib/python3.9/site-packages/peft/peft_model.py:174 in        │
│ from_pretrained                                                                                  │
│                                                                                                  │
│   171 │   │   │   │   │   low_zero=(device_map == "balanced_low_0"),                             │
│   172 │   │   │   │   )                                                                          │
│   173 │   │   │   if isinstance(device_map, str):                                                │
│ ❱ 174 │   │   │   │   device_map = infer_auto_device_map(                                        │
│   175 │   │   │   │   │   model, max_memory=max_memory, no_split_module_classes=no_split_modul   │
│   176 │   │   │   │   )                                                                          │
│   177 │   │   │   model = dispatch_model(model, device_map=device_map)                           │
│                                                                                                  │
/anaconda3/envs/xraypulse/lib/python3.9/site-packages/accelerate/utils/modeling.py:531 │
│ in infer_auto_device_map                                                                         │
│                                                                                                  │
│   528 │   │   elif tied_param is not None:                                                       │
│   529 │   │   │   # Determine the sized occupied by this module + the module containing the ti   │
│   530 │   │   │   tied_module_size = module_size                                                 │
│ ❱ 531 │   │   │   tied_module_index = [i for i, (n, _) in enumerate(modules_to_treat) if n in    │
│   532 │   │   │   tied_module_name, tied_module = modules_to_treat[tied_module_index]            │
│   533 │   │   │   tied_module_size += module_sizes[tied_module_name] - module_sizes[tied_param   │
│   534 │   │   │   if current_max_size is not None and current_memory_used + tied_module_size >   │
╰──────────────────────────────────────────────────────────────────────────────────────────────────╯
IndexError: list index out of range

原因:一个是环境依赖包的问题, 我两个conda环境, 一个不报错, 另一个报错, 具体哪个影响了没排查

解决办法:

是因为LLM和LORA权重不在一个CUDA上, 只需要手动通过device_map指定下即可

model = BloomForCausalLM.from_pretrained(MODEL_PATH, torch_dtype=torch.float16, device_map={'':0})
print(next(model.parameters()).device)
LORA_WEIGHTS = 'best_model'
bloom_model = PeftModel.from_pretrained(model, LORA_WEIGHTS, torch_dtype=torch.float16, device_map={'':0})
   
分类:玩技术 作者:荡荡, 浩浩 发表于:2024-06-04 15:26:25 阅读量:101
<<   >>


powered by kaifamiao