内容目录
LMSYS
加州大学伯克利分校主导的排行榜,众筹题目,英文大模型的权威
https://arena.lmsys.org
AlpacaEval Leaderboard
斯坦福大学研发的大语言模型评测
https://tatsu-lab.github.io/alpaca_eval
SuperCLUE
由北京大学人工智能研究院发布,专注于中文大模型评测,提供基准数据集、评测任务和评测结果等。
https://www.superclueai.com
司南OpenCompass
上海人工智能实验室,国内领先的大模型能力评测体系。
https://opencompass.org.cn/home
FlagEval(天秤)
北京智源研究院将联合多个高校团队打造
https://flageval.baai.ac.cn/#/leaderboard
windows的cmd命令行,整理成可执…