開源大模型(LLM)

對國內外開源 LLM 較為全面的整理。 https://gitee.com/oschina/awesome-llm

加載中

CodeFuse-13B —— 代碼大語言模型

CodeFuse-13B 是基于 GPT-NeoX 框架訓練的 13B 參數代碼生成模型,能夠處理 4096 個字符的代碼序列。 該模型在 1000B Token 的代碼、中文、英文數據數據集上進行預訓練,覆蓋超過 40 種編程語言。 為了進一步提升生成代碼的效果和質量,該模型還在 CodeFuse-Evol-instruction-66k 數據集上進行了微調,使得該模型能夠生成更加準確、高效、符合要求的代碼。在 HumanEval 評測集上 Pass@1 達到 37.1%(采用 BeamSearch 解碼,其中 BeamSize=3)。
更新于 2023/10/12 15:45

MiLM-6B —— 小米 AI 大模型

MiLM-6B 是由小米開發的一個大規模預訓練語言模型,參數規模為 64 億。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。 根據 C-Eval 給出的信息,MiLM-6B 模型在具體各科目成績上,在 STEM(科學、技術、工程和數學教育)全部 20 個科目中,計量師、物理、化學、生物等多個項目獲得了較高的準確率。
更新于 2023/10/12 15:44

Code Llama —— 基于 Llama 2 的 AI 代碼生成大模型

Code Llama 是基于 Llama 2 的 AI 代碼生成大模型,可根據代碼和自然語言提示生成代碼和有關代碼的自然語言,支持多種主流編程語言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。 Code Llama 基于 Llama 2 大語言模型打造,提供了三種模型: - Code Llama - 基礎代碼模型 - Code Llama - Python - 專門針對 Python 進行優化 - Code Llama - Instruct - 專門用于理解自然語言指令 它們具有開放式模型中領先的性能、填充能力、對大型輸入上下文的支持以及用于編程任務的零指令跟隨能力。所有模型都是基于 16k 標記序列進行訓練,并在最多 100k 標記輸入上顯示出改進。
更新于 2023/10/12 15:43

通義千問-7B —— 基于 Transformer 的大語言模型

通義千問 - 7B(Qwen-7B) 是阿里云研發的通義千問大模型系列的 70 億參數規模的模型。Qwen-7B 是基于 Transformer 的大語言模型,在超大規模的預訓練數據上進行訓練得到。預訓練數據類型多樣,覆蓋廣泛,包括大量網絡文本、專業書籍、代碼等。同時,在 Qwen-7B 的基礎上,使用對齊機制打造了基于大語言模型的 AI 助手 Qwen-7B-Chat。Qwen-7B 系列模型的特點包括: - 大規模高質量預訓練數據:使用了超過 2.2 萬億 token 的自建大規模預訓練數據集進行語言模型的預訓練。數據集包括文本和代碼等多種數據類型,覆蓋通用領域和專業領域。 - 優秀的模型性能:相比同規模的開源模型,Qwen-7B 在多個評測數據集上具有顯著優勢,甚至超出 12-13B 等更大規模的模型。評測評估的能力范圍包括自然語言理解與生成、數學運算解題、代碼生成等。 - 更好地支持多語言:基于更大詞表的分詞器在分詞上更高效,同時它對其他語言表現更加友好。用戶可以在 Qwen-7B 的基礎上更方便地訓練特定語言的 7B 語言模型。 - 8K 的上下文長度:Qwen-7B 及 Qwen-7B-Chat 均能支持 8K 的上下文長度,允許用戶輸入更長的 prompt。 - 支持插件調用:Qwen-7B-Chat 針對插件調用相關的對齊數據做了特定優化,當前模型能有效調用插件以及升級為 Agent。
更新于 2023/10/12 15:42
通義千問-7B —— 基于 Transformer 的大語言模型

ChatGLM2-6B —— 開源雙語對話語言模型

ChatGLM2-6B 是開源中英雙語對話模型 ChatGLM-6B 的第二代版本,在保留了初代模型對話流暢、部署門檻較低等眾多優秀特性的基礎之上,引入了如下新特性: - 更強大的性能:基于 ChatGLM 初代模型的開發經驗,全面升級了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目標函數,經過了 1.4T 中英標識符的預訓練與人類偏好對齊訓練,評測結果顯示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等數據集上的性能取得了大幅度的提升,在同尺寸開源模型中具有較強的競爭力。 - 更長的上下文:基于 FlashAttention 技術,將基座模型的上下文長度(Context Length)由 ChatGLM-6B 的 2K 擴展到了 32K,并在對話階段使用 8K 的上下文長度訓練,允許更多輪次的對話。但當前版本的 ChatGLM2-6B 對單輪超長文檔的理解能力有限,會在后續迭代升級中著重進行優化。 - 更高效的推理:基于 Multi-Query Attention 技術,ChatGLM2-6B 有更高效的推理速度和更低的顯存占用:在官方的模型實現下,推理速度相比初代提升了 42%,INT4 量化下,6G 顯存支持的對話長度由 1K 提升到了 8K。 - 更開放的協議:ChatGLM2-6B 權重對學術研究完全開放,在獲得官方的書面許可后,亦允許商業使用。
更新于 2023/06/26 18:00

baichuan-7B —— 開源中英文大模型

baichuan-7B 是開源的大規模預訓練模型,基于 Transformer 結構,在大約 1.2 萬億 tokens 上訓練的 70 億參數模型,支持中英雙語,上下文窗口長度為 4096。
更新于 2023/06/15 14:58

TigerBot —— 多語言多任務大語言模型

TigerBot 是一個多語言多任務的大規模語言模型 (LLM)。 根據 OpenAI InstructGPT 論文在公開 NLP 數據集上的自動評測,TigerBot-7B 達到 OpenAI 同樣大小模型的綜合表現的 96%。目前已開源: - 模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B (research version), - 代碼:基本訓練和推理代碼,包括雙卡推理 180B 模型的量化和推理代碼, - 數據:預訓練 100G,從 2TB 過濾后的數據中經過去噪去重清洗而得;監督微調 1G 或 100 萬條數據,按比例涵蓋用戶指令常見的 10 大類 120 小類任務, - API: chat, plugin, finetune, 讓用戶能在半小時內無代碼的訓練和使用專屬于自己的大模型和數據, - 領域數據:涵蓋金融,法律,百科,廣邀大模型應用開發者,一起打造中國的世界級的應用。
更新于 2023/06/08 15:08
TigerBot —— 多語言多任務大語言模型

YuLan-Chat —— 基于中英文混合指令微調的大語言對話模型

YuLan-Chat 是基于高質量中英文混合指令微調的大語言對話模型。 YuLan-Chat 采用 LLaMA 作為底座,采用精心優化的高質量中英文混合指令進行微調。其中 YuLan-Chat-65B 模型目前能夠在中英文相關評測數據集上顯著超越已有開源模型效果。團隊稱后續會繼續優化指令微調方法與底座模型,持續更新 YuLan-Chat 模型。
更新于 2023/06/08 15:07
YuLan-Chat —— 基于中英文混合指令微調的大語言對話模型

Falcon-40B —— 因果解碼器大模型

Falcon-40B 是 400 億參數的因果解碼器模型,它在 RefinedWeb 的 1000B token 上進行訓練,并使用精選數據集增強。它在 Huggingface 的 OpenLLM 排行榜上排首位,其性能優于 LLaMA、MPT、RedPajama 和 StableLM 等。 Falcon-40B 使用自定義工具構建,包含一個獨特的數據管道,該管道從公開網絡中提取訓練數據。 Falcon 從公網上抓取內容構建好 Falcon 的初始預訓練數據集后,再使用 CommonCrawl 轉儲,進行大量過濾(包括刪除機器生成的文本和成人內容),并消除重復數據,最終得到一個由近 5 萬億個 token 組成的龐大預訓練數據集。
更新于 2023/06/01 16:13

華佗GPT —— 開源中文醫療大模型

HuatuoGPT(華佗 GPT)是開源中文醫療大模型,基于醫生回復和 ChatGPT 回復,讓語言模型成為醫生,提供豐富且準確的問診。 HuatuoGPT 致力于通過融合 ChatGPT 生成的 “蒸餾數據” 和真實世界醫生回復的數據,以使語言模型具備像醫生一樣的診斷能力和提供有用信息的能力,同時保持對用戶流暢的交互和內容的豐富性,對話更加絲滑。 HuatuoGPT 使用了四種不同的數據集,分別如下: - 蒸餾 ChatGPT 指令數據集(Distilled Instructions from ChatGPT):這個數據集受到 Alpaca 模型創建指令集的方法啟發,從 ChatGPT 中提煉出醫療相關的指令。與之前工作不同的是,本方法還加入了科室和角色信息,根據采樣的科室或角色生成符合條件的指令數據集。 - 真實醫生指令數據集(Real-world Instructions from Doctors):這個數據集來源于真實醫生和患者之間的問答。醫生的回復通常簡潔且口語化,因此本方法通過潤色以提高其可讀性。 - 蒸餾 ChatGPT 對話數據集(Distilled Conversations from ChatGPT):這個數據集通過為兩個 ChatGPT 模型提供共享的對話背景,讓它們分別模仿醫生和患者進行對話。 - 真實醫生對話數據集(Real-world Conversations with Doctors):這個數據集來源于真實醫生的對話,但對醫生的回復使用模型進行了潤色。 這些數據集共同為模型提供了一個統一的語言模式、醫生的診斷能力以及指令跟隨能力。
更新于 2023/06/01 15:44

BLOOMChat —— 可商用多語言聊天 LLM

BLOOMChat 是一個新的、開放的、多語言的聊天 LLM。 SambaNova 和 Together 使用 SambaNova 獨特的可重構數據流架構在 SambaNova DataScale 系統上訓練了 BLOOMChat;其建立在 BigScience 組織的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進行了微調。
更新于 2023/05/31 17:52

CPM-Bee —— 中英文雙語大語言模型

CPM-Bee 是一個 完全開源、允許商用的百億參數中英文基座模型。它采用 Transformer 自回歸架構(auto-regressive),使用萬億級高質量語料進行預訓練,擁有強大的基礎能力。 CPM-Bee 的特點可以總結如下: 開源可商用:OpenBMB 始終秉承 “讓大模型飛入千家萬戶” 的開源精神,CPM-Bee 基座模型將完全開源并且可商用,以推動大模型領域的發展。如需將模型用于商業用途,只需企業實名郵件申請并獲得官方授權證書,即可商用使用。 中英雙語性能優異:CPM-Bee 基座模型在預訓練語料上進行了嚴格的篩選和配比,同時在中英雙語上具有亮眼表現,具體可參見評測任務和結果。 超大規模高質量語料:CPM-Bee 基座模型在萬億級語料上進行訓練,是開源社區內經過語料最多的模型之一。同時,我們對預訓練語料進行了嚴格的篩選、清洗和后處理以確保質量。 OpenBMB 大模型系統生態支持:OpenBMB 大模型系統在高性能預訓練、適配、壓縮、部署、工具開發了一系列工具,CPM-Bee 基座模型將配套所有的工具腳本,高效支持開發者進行進階使用。 強大的對話和工具使用能力:結合 OpenBMB 在指令微調和工具學習的探索,我們在 CPM-Bee 基座模型的基礎上進行微調,訓練出了具有強大對話和工具使用能力的實例模型,現已開放定向邀請內測,未來會逐步向公眾開放。 CPM-Bee 的基座模型可以準確地進行語義理解,高效完成各類基礎任務,包括:文字填空、文本生成、翻譯、問答、評分預測、文本選擇題等等。
更新于 2023/05/31 11:28

MMS —— AI 語音識別大模型

Massively Multilingual Speech (MMS) 是 Meta 開源的 AI 語音識別模型,支持 1107 種語言的語音轉文本和文本轉語音,以及 4000 多種語言的語言識別。 MMS 項目將支持的語言數量增加了 10-40 倍,具體取決于任務。主要成分是一個新的數據集,該數據集基于對公開宗教文本的閱讀,并有效地利用了自我監督學習。
更新于 2023/05/31 11:27

DB-GPT —— 數據庫大語言模型

DB-GPT 是一個開源的以數據庫為基礎的 GPT 實驗項目,使用本地化的 GPT 大模型與數據和環境進行交互,無數據泄露風險,100% 私密,100% 安全。 DB-GPT 為所有以數據庫為基礎的場景,構建了一套完整的私有大模型解決方案。 此方案因為支持本地部署,所以不僅僅可以應用于獨立私有環境,而且還可以根據業務模塊獨立部署隔離,讓大模型的能力絕對私有、安全、可控。
更新于 2023/05/24 17:19

LaWGPT —— 基于中文法律知識的大語言模型

LaWGPT 是一系列基于中文法律知識的開源大語言模型。 該系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基礎上擴充法律領域專有詞表、大規模中文法律語料預訓練,增強了大模型在法律領域的基礎語義理解能力。在此基礎上,構造法律領域對話問答數據集、中國司法考試數據集進行指令精調,提升了模型對法律內容的理解和執行能力。
更新于 2023/05/24 17:18

VisualGLM-6B —— 多模態對話語言模型

VisualGLM-6B 是一個開源的,支持圖像、中文和英文的多模態對話語言模型,語言模型基于 ChatGLM-6B,具有 62 億參數;圖像部分通過訓練 BLIP2-Qformer 構建起視覺模型與語言模型的橋梁,整體模型共 78 億參數。 VisualGLM-6B 依靠來自于 CogView 數據集的 30M 高質量中文圖文對,與 300M 經過篩選的英文圖文對進行預訓練,中英文權重相同。該訓練方式較好地將視覺信息對齊到 ChatGLM 的語義空間;之后的微調階段,模型在長視覺問答數據上訓練,以生成符合人類偏好的答案。
更新于 2023/05/19 14:44

Chinese BERT —— 中文預訓練語言模型

在自然語言處理領域中,預訓練語言模型(Pre-trained Language Models)已成為非常重要的基礎技術。 為了進一步促進中文信息處理的研究發展,我們發布了基于全詞遮罩(Whole Word Masking)技術的中文預訓練模型 BERT-wwm,以及與此技術密切相關的模型:BERT-wwm-ext,RoBERTa-wwm-ext,RoBERTa-wwm-ext-large, RBT3, RBTL3。
更新于 2023/05/16 16:25

PERT —— 基于 BERT 的預訓練語言模型

PERT 提出了一種基于亂序語言模型的預訓練模型(PERT),在不引入掩碼標記 [MASK] 的情況下自監督地學習文本語義信息。 PERT 在部分中英文 NLU 任務上獲得性能提升,但也在部分任務上效果較差,請酌情使用。目前提供了中文和英文的 PERT 模型,包含兩種模型大?。╞ase、large)。
更新于 2023/05/16 16:22

ChatDoctor —— 醫學聊天模型

ChatDoctor 是一個使用醫學領域知識在 LLaMA 模型上微調的醫學聊天模型。
更新于 2023/05/16 16:20

GPT Neo —— 開源 GPT 模型

GPT Neo 使用 mesh-tensorflow 庫實現了 GPT 系列的語言模型,其中包括 GPT-2 和 GPT-3,聲稱可以擴展到完整的 GPT-3 大小。
更新于 2023/05/16 16:19

沒有更多內容

加載失敗,請刷新頁面

返回頂部
頂部
一本久久综合亚洲鲁鲁五月天,无翼乌口工全彩无遮挡H全彩,英语老师解开裙子坐我腿中间