导致预测的时候, 报错 Please check that the file adapter_model.bin is present at Peft…
解决:
# 1. Trainer保存时没保存.bin, 在构造TrainingArguments参数时控制
args = TrainingArguments(
output_dir=OUTPUT_DIR, # checkpoint的存储目录
per_device_train_batch_size=BATCH_SIZE, # 单设备上的batch size
gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS, # 梯度累加的step数
warmup_steps=100,
num_train_epochs=EPOCHS,
learning_rate=LEARNING_RATE,
fp16=True, # 使用混合精度训练
logging_steps=1,
evaluation_strategy="no", # 不进行评估
save_strategy="steps",
save_steps=1000, # 保存checkpoint的step数, 这个保存很耗时间
save_total_limit=5, # 最多保存5个checkpoint
deepspeed=DS_CONFIG,
remove_unused_columns=False,
save_safetensors=False # 这个参数控制保存格式, False保存.bin, True保存.safetensors
)
trainer = Trainer(
model=model,
train_dataset=train_data,
eval_dataset=None,
args=args,
data_collator=collate_fn
)
# 2. 使用model.save_pretrained时, 没保存.bin
model.save_pretrained("best_model", safe_serialization=False) # safe_serialization 参数False保存.bin, True保存.safetensors# 1. Trainer保存时没保存.bin, 在构造TrainingArguments参数时控制
args = TrainingArguments(
output_dir=OUTPUT_DIR, # checkpoint的存储目录
per_device_train_batch_size=BATCH_SIZE, # 单设备上的batch size
gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS, # 梯度累加的step数
warmup_steps=100,
num_train_epochs=EPOCHS,
learning_rate=LEARNING_RATE,
fp16=True, # 使用混合精度训练
logging_steps=1,
evaluation_strategy="no", # 不进行评估
save_strategy="steps",
save_steps=1000, # 保存checkpoint的step数, 这个保存很耗时间
save_total_limit=5, # 最多保存5个checkpoint
deepspeed=DS_CONFIG,
remove_unused_columns=False,
save_safetensors=False # 这个参数控制保存格式, False保存.bin, True保存.safetensors
)
trainer = Trainer(
model=model,
train_dataset=train_data,
eval_dataset=None,
args=args,
data_collator=collate_fn
)
# 2. 使用model.save_pretrained时, 没保存.bin
model.save_pretrained("best_model", safe_serialization=False) # safe_serialization 参数False保存.bin, True保存.safetensors
# # 转换模型
# 参考别人代码时, 有下边的几行代码, 把我注释掉的内容注释掉就可以保存正常大小的文件了
model = get_peft_model(model, config)
model.config.use_cache = False
# old_state_dict = model.state_dict
# model.state_dict = (
# lambda self, *_, **__: get_peft_model_state_dict(self, old_state_dict())
# ).__get__(model, type(model))
# # 打印模型中的可训练参数
model.print_trainable_parameters()
│ │
/anaconda3/envs/xraypulse/lib/python3.9/site-packages/peft/peft_model.py:174 in │
│ from_pretrained │
│ │
│ 171 │ │ │ │ │ low_zero=(device_map == "balanced_low_0"), │
│ 172 │ │ │ │ ) │
│ 173 │ │ │ if isinstance(device_map, str): │
│ ❱ 174 │ │ │ │ device_map = infer_auto_device_map( │
│ 175 │ │ │ │ │ model, max_memory=max_memory, no_split_module_classes=no_split_modul │
│ 176 │ │ │ │ ) │
│ 177 │ │ │ model = dispatch_model(model, device_map=device_map) │
│ │
/anaconda3/envs/xraypulse/lib/python3.9/site-packages/accelerate/utils/modeling.py:531 │
│ in infer_auto_device_map │
│ │
│ 528 │ │ elif tied_param is not None: │
│ 529 │ │ │ # Determine the sized occupied by this module + the module containing the ti │
│ 530 │ │ │ tied_module_size = module_size │
│ ❱ 531 │ │ │ tied_module_index = [i for i, (n, _) in enumerate(modules_to_treat) if n in │
│ 532 │ │ │ tied_module_name, tied_module = modules_to_treat[tied_module_index] │
│ 533 │ │ │ tied_module_size += module_sizes[tied_module_name] - module_sizes[tied_param │
│ 534 │ │ │ if current_max_size is not None and current_memory_used + tied_module_size > │
╰──────────────────────────────────────────────────────────────────────────────────────────────────╯
IndexError: list index out of range
原因:一个是环境依赖包的问题, 我两个conda环境, 一个不报错, 另一个报错, 具体哪个影响了没排查
解决办法:
是因为LLM和LORA权重不在一个CUDA上, 只需要手动通过device_map指定下即可
model = BloomForCausalLM.from_pretrained(MODEL_PATH, torch_dtype=torch.float16, device_map={'':0})
print(next(model.parameters()).device)
LORA_WEIGHTS = 'best_model'
bloom_model = PeftModel.from_pretrained(model, LORA_WEIGHTS, torch_dtype=torch.float16, device_map={'':0})
powered by kaifamiao