阿里通义千问传送门:
https://tongyi.aliyun.com/chat
百度文心一言传送门:
为了给大家直观的体现对比结果,我从以下个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、跨语言能力和代码能力等。
设置的题目:
事实性问答
科普文写作
小红书文案写作
项目计划撰写
爆炒钢筋混凝土
代码理解
对对联
数值计算
推理解题
跨语言能力
弱智吧混战
通义千问:
文心一言:
结论:
可以看出两者的回答都比较准确,但是通义千问给出的答案更加的详细,一目了然。本轮通义千问获胜!
通义千问:
文心一言:
总结:
本次两者都完美完成了要求,内容和风格都保持的很不错。但是通义千问更像一个故事集,更加的引人入胜。本次也算通义千问小胜一筹。
通义千问:
文心一言:
总结:
通义千问的表情包使用要比文心一言更加的丰富多彩,两者在内容上都比较不错,但是通义千问赢在了emoji表情的使用上。
通义千问:
文心一言:
总结:
可以非常直观的看出,通义千问的更加详细,给出了阶段性的目标和工作,而文心一言就要比较粗糙了。通义千问再下一城
这一题考察模型的常识能力和反事实推理能力。
通义千问:
文心一言:
总结:
本题两者都给出了正确答案,且算平手
model.compile(optimizer='admin',
loss='binary_crossentropy',
metrics=['accuracy'])
通义千问:
文心一言:
总结:通义千问将参数admin
当成了adam
,而文心一言则是指出了错误并做了修正。文心一言扳回一分
通义千问:
文心一言:
总结:我觉得应该是通义千问赢了,感觉文心一言对不上,你们怎么看。
通义千问:
文心一言:
总结:
本次两者战平
虽然文心一言是国内第一个AIGC模型,本以为是行业龙头,结果测试中大部分被通义千问占了上风。
powered by kaifamiao