本專區由 AI & 大數據 團隊提供資訊和技術支持,歡迎社區成員申請加入管理小組。
Artificial Intelligence 人工智能是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。大數據(big data),是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。AI 研究通常需要大量數據支撐。
本專區由 AI & 大數據 團隊提供資訊和技術支持,歡迎社區成員申請加入管理小組。
導言 顏色控制一直是AIGC的難點,prompt會污染、img2img太隨機… 今天帶來利用controlnet,實現對畫面顏色的有效控制。都說AIGC是抽卡,但對把它作為工具而非玩具的設計師,必須掌握如何控制它,讓我們一起開始可控AI生成。? 想給AI點顏色瞧瞧,怎么這么難 大家或許已經通過各種《三分鐘包會》《五分鐘出道》的教程,可以手拿把掐的將一張商品圖,完美植入需要的背景中??陀^的說,無論從角度、投影、還是商品與背景的語義關系... 展開更多
背景: 目前,大模型的發展已經非?;馃?,關于大模型的訓練、微調也是各個公司重點關注方向。但是大模型訓練的痛點是模型參數過大,動輒上百億,如果單靠單個GPU來完成訓練基本不可能。所以需要多卡或者分布式訓練來完成這項工作。 一、分布式訓練 1.1 目前主流的大模型分布式訓練主要包括兩種: 數據并行訓練 模型并行訓練 二、DeepSpeed DeepSpeed是由Microsoft提供的分布式訓練工具,旨在支持更大規模的模型和提供更多的優化... 展開更多
[YARN](https://www.dtstack.com/dtengine/easymr?src=szsm)(Yet Another Resource Negotiator)是 Hadoop 生態系統中的[資源調度器](https://www.dtstack.com/dtengine/easymr?src=szsm),主要用于資源管理和作業調度。YARN 自身具備[隊列管理功能](https://www.dtstack.com/dtengine/easymr?src=szsm),通過對 YARN 資源隊列進行配置和管理,實現集群資源的分配,以滿足不同應用和用戶的需求。YARN 的引入為集群在利用率、資... 展開更多
生成式人工智能時代,開發者可以借助大語言模型(LLM)開發更智能的應用程序。然而,由于有限的知識,LLM 非常容易出現幻覺。檢索增強生成(RAG)[https://zilliz.com/use-cases/llm-retrieval-augmented-generation](https://zilliz.com/use-cases/llm-retrieval-augmented-generation) 通過為 LLM 補充外部知識,有效地解決了這一問題。 在 Chat Towards Data Science 博客系列中,我們將詳細介紹如何使用個人的數據知識庫構建... 展開更多
## 遷移背景 有部分用戶原來是使用 Airflow 作為調度系統的,但是由于 Airflow 只能通過代碼來定義工作流,并且沒有對資源、項目的粒度劃分,導致在部分需要較強權限控制的場景下不能很好的貼合客戶需求,**所以部分用戶需要將調度系統從 Airflow 遷移到 Apache Dolphinscheduler。**  秉承著解決用戶實際需求的角度出發,**Whaleops 研... 展開更多
生成式 AI 可以將程序員的開發速率提高兩倍。技術管理者有望通過 AIGC 應用,大幅縮短四類關鍵開發任務的完成時間,進而提升組織生產力。 ——麥肯錫《通過生成式 AI 釋放開發者生產力》 01 生成式 AI 將如何影響研發效能? 麥肯錫最近的一項實證研究發現,生成式 AI 工具可以顯著提升程序員的開發速率,進而顯著提升組織生產力。 該研究對來自美國和亞洲各地的 40 余名開發者展開了觀察和實驗。參與者們需要執行三種常見的開發... 展開更多
一、前言: 目前,大模型的一個熱門應用方向text2sql它可以幫助用戶快速生成想要查詢的SQL語句。那對于用戶來說,大部分簡單的sql都是正確的,但對于一些復雜邏輯來說,需要用戶在產出SQL的基礎上進行簡單修改,Text2SQL應用主要還是幫助用戶去解決開發時間,減少開發成本。 Text to SQL: 簡稱Text2SQl,是將自然語言文本(Text)轉換成結構化查詢語言SQL的過程,屬于自然語言處理-語義分析(Semantic Parsing)領域中的子任務... 展開更多
論文: Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang, Weining Qian. Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models. CIKM 2023 背景 近年來,在圖像生成領域,對于擴散模型的成功我們有目共睹。與基于 GAN 的生成模型不同,擴散模型需要多次調用模型進行前向推理,經過多次迭代,才能得到清晰完整的圖像。擴散模型在大幅度提升生成效果的同時,也因其迭... 展開更多
作者:施晨、尹豐彬、張曉雯、李林楊、黃俊 等 寫在前面 本方案已在阿里云線上多個場景落地,將覆蓋阿里云官方答疑群聊、研發答疑機器人、釘釘技術服務助手等。線上工單攔截率提升10+%,答疑采納率70+%,顯著提升答疑效率。 本方案最佳實踐已上線阿里云官網,詳細介紹了使用PAI和向量檢索搭建大模型知識庫對話的具體操作步驟,開始服務云上客戶使用。詳見:PAI+向量檢索快速搭建大模型知識庫對話 全流程代碼分模塊系統化實現,開... 展開更多
近日,阿里云人工智能平臺 PAI與華東師范大學陳岑副教授團隊合作在深度學習頂級會議 CIKM 2023 上發表 OLSS (Optimal Linear Subspace Search) 算法,這是一種針對擴散模型的采樣加速算法。在這篇論文中,擴散模型加速算法的本質被建模成線性子空間的擴張過程,給出了目前方法的統一分析,并基于此設計了新的加速算法,大幅度提升了擴散模型的生成速度。 論文: Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang, Weining Qi... 展開更多
> 編者按:Transformers 是人工智能領域近年來最引人矚目的技術之一,它為語言生成模型的發展做出了巨大的貢獻。隨著大語言模型(LLM)的興起,公眾對其背后的技術原理也越來越感興趣。但是由于Transformers本身具有一定的復雜性,想要真正理解其中的原理并不容易。 > > 今天,我們開始為大家帶來了一系列以通俗易懂的語言解釋Transformers的好文章。作者Chen Margalit希望通過本系列文章,用最簡單的語言把Transformers的關鍵要... 展開更多
珍島集團致力于打造全球領先的智能營銷云平臺,在國內率先推出的Marketingforce(營銷力)平臺,專注于人工智能、大數據、云計算在數字營銷及企業數字化智能化領域的創新與實踐,面向全球企業提供營銷力軟件及服務,以一站式智能營銷生態助力企業進行數字化轉型。  之前,珍島集團使用完全開源的Apache DolphinScheduler任務調度框架,... 展開更多
在大數據時代,數據的遷移和流動已經變得日益重要。為了使數據能夠更加高效地從一個源流向另一個目標,我們需要可靠、高效和易于配置的工具。今天,我們將介紹 JDBC SQL Server Sink Connector,這是一個專為 SQL Server 設計的連接器,能夠確保數據的精準、高效傳輸。  不僅如此,它還支持多種流處理引擎,例如 Spark、Flink 和 SeatTu... 展開更多
 作者 | 搜索內容技術部 >導讀 > >深度偽造檢測算法無法檢出未知偽造算法生成的攻擊數據。以往算法采取手動建模偽造特征的方式提升模型泛化性,然而這種方式限制了算法可行域,影響了模型泛化性進一步提升,同時這類方法參數量巨大,無法滿足工業實時檢測要求。本文發現過往采取二分類訓練檢測算法的方式,使模型過多關注了樣本中的用戶身份... 展開更多
本文分享自華為云社區《昇騰CANN 7.0 黑科技:大模型訓練性能優化之道》,作者: 昇騰CANN 。 目前,大模型憑借超強的學習能力,已經在搜索、推薦、智能交互、AIGC、生產流程變革、產業提效等場景表現出巨大的潛力。大模型經過海量數據的預訓練,通常具有良好的通用性和泛化性。用戶基于“大模型預訓練+微調”開發范式即可在實際業務場景取得理想的效果。從經濟成本和時間成本來看,預訓練是構筑各種行業模型的主要部分,優化大... 展開更多
LMM將會全面替代大語言模型?人工智能新里程碑GPT-V美國預先公測,醫療領域/OCR實踐+166頁GPT-V試用報告首發解讀 ?? ChatGPT Vision,亦被廣泛稱為GPT-V或GPT-4V,代表了人工智能技術的新里程碑。作為LMM (Large Multimodal Model) 的代表,它不僅繼承了LLM (Large Language Model) 的文本處理能力,還加入了圖像處理的功能,實現了文本與圖像的多模態交互。與傳統的LLM相比,GPT-V更加強大和靈活,能夠更深入地理解和生成與圖... 展開更多
在上篇文章中,我們向大家解釋了為什么實時湖倉是當前企業數字化轉型過程中的解決之道,介紹了實時計算和[數據湖](https://www.dtstack.com/dtengine/easylake?src=szsm)結合的應用場景。([“數據驅動”時代,企業為什么需要實時湖倉?](https://mp.weixin.qq.com/s?__biz=MzU5ODYyNTkxMA==&mid=2247496216&idx=1&sn=122c60ea1721f5f7dce53b93106b3592&chksm=fe43e901c93460171122cf9660caf0e4c3ff567da2875090decce2a5293cf6... 展開更多
Hello world, this is CodeFuse! 2023 年 9 月 8 日下午,在上海舉行的“2023 inclusion·外灘大會--云端 Al:探索新興技術和發展模式”論壇上,螞蟻集團首次開源了代碼大模型 CodeFuse。這是螞蟻自研的代碼生成專屬大模型,根據開發者的輸入,幫助開發者自動生成代碼、自動增加注釋、自動生成測試用例、修復和優化代碼等,以提升研發效率。無論用戶是初學者還是有經驗的開發者,CodeFuse 都能夠極大地提高編程效率和準確性。 ... 展開更多
近日,由輕金融特別策劃并推出的采訪報道中,輕金融與京東金融實戰團隊進行了一次深入交流,雙方深度解析了銀行數智運營體系之破局、開局、布局問題。 以下為采訪內容正文: 重劍無鋒,大巧不工。 豐富的業務場景、龐大的客戶群體、倍增的交易規模,造就了中國金融機構數字化轉型的重劍模式。該模式,不同于其他行業的輕量化Saas再造,而是以數字基礎設施的全面建設,重構了金融行業運營的底層邏輯。 重劍已鑄,未見威力。金融行... 展開更多
 作者 | 木白 >導讀 > >本文將為您介紹百度碼的譯碼技術,包括關鍵的譯碼流程和關鍵的優化手段。百度碼目前已經在高考等活動中進行應用,在未來的發展中,百度碼的譯碼技術將繼續升級和完善,以滿足更多場景的需求。百度碼的譯碼技術將在現有的基礎上不斷演進和完善,以提供更為優質、便捷、安全的譯碼體驗,從而為人們的生活和工作帶來更多... 展開更多