北京大學知識計算實驗室聯合四川天府銀行 AI 團隊,正式開源 70 億參數的代碼大模型 CodeShell,并提供了與 CodeShell 配套的部署方案與 IDE 插件,具體查看 CodeShell 代碼庫。
官方介紹稱,CodeShell 具有 70 億參數,采用五千億 Tokens 進行了訓練,上下文窗口長度為 8192。CodeShell 的原始訓練數據基于自己爬取的 GitHub 數據、Stack 和 StarCoder 數據集,以及少量高質量的中英文數據。
在權威的代碼評估 Benchmark(HumanEval 與 MBPP)中,CodeShell 取得同等規模最好的性能。
本次開源的模型如下:
- CodeShell Base:CodelShell 底座模型,具有強大的代碼基礎能力。
- CodeShell Chat:CodelShell 對話模型,在代碼問答、代碼補全等下游任務重性能優異。
- CodeShell Chat 4bit:CodelShell 對話模型 4bit 量化版本,在保證模型性能的前提下內存消耗更小,速度更快。
- CodeShell CPP:CodelShell 對話模型 CPP 版本,支持開發者在沒有 GPU 的個人電腦中使用。注意,CPP 版本同樣支持量化操作,用戶可以在最小內存為 8G 的個人電腦中運行 CodeShell。
下圖是 CodeShell 代碼助手的 VS Code 插件截圖:
IDEA 插件: