# 大模型長文本能力大比拼:從4000到40萬token,AI"閱讀力"飆升大模型正以驚人的速度提升其長文本處理能力。從最初的4000 token到如今的40萬token,長文本能力似乎已成爲大模型廠商的新標配。國際上,OpenAI通過多次升級將GPT-3.5的上下文輸入長度從4千提升至1.6萬token,GPT-4則從8千增至3.2萬token。其競爭對手Anthropic更是一舉將上下文長度提升至10萬token。LongLLaMA甚至將上下文長度擴展到25.6萬token以上。國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文與MIT合作開發的LongLoRA技術則可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將拓展上下文長度作爲重點升級方向。這些公司普遍受到資本市場的青睞,融資規模和估值均呈現快速增長態勢。大模型公司如此重視長文本技術,40萬token的突破意味着什麼?表面上看,這代表着模型的輸入文本長度和閱讀能力大幅提升。從最初僅能處理一篇短文,到現在可以閱讀整本長篇小說,模型的應用場景得到顯著拓展。更深層次來看,長文本技術正推動大模型在金融、司法、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力是這些領域智能化升級的關鍵。然而,與模型參數類似,文本長度並非越長越好。研究表明,模型支持的上下文長度與效果之間並不存在簡單的正相關。關鍵在於模型如何有效利用上下文內容。目前,長文本技術的探索仍未達到瓶頸。國內外大模型公司仍在持續突破,40萬token可能只是一個開始。# 爲何大模型公司競相"卷"長文本?月之暗面創始人楊植麟表示,大模型輸入長度的限制造成了許多應用落地的困境,這正是當前各大公司聚焦長文本技術的原因。例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色可能遺忘重要信息。在開發劇本殺類遊戲時,輸入長度不夠會導致規則和設定被削減,影響遊戲效果。在法律、金融等專業領域,深度內容分析和生成也常常受到限制。長文本在未來的Agent和AI原生應用中扮演重要角色。Agent需要依靠歷史信息進行規劃和決策,AI原生應用則需要上下文來維持連貫、個性化的用戶體驗。楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,而執行步驟數即上下文長度。長文本技術不僅可以解決大模型早期的一些問題,還是推進產業和應用落地的關鍵技術之一。通過月之暗面新發布的Kimi Chat,我們可以一窺長文本時代大模型的升級功能:1. 超長文本的關鍵信息提取、總結和分析2. 代碼生成與修改能力的提升3. 長對話場景中的角色扮演這些功能顯示,對話機器人正朝着專業化、個性化、深度化的方向發展,有望成爲推動產業落地和超級APP出現的重要抓手。# 長文本的"不可能三角"困境在長文本技術中,存在文本長短、注意力和算力的"不可能三角"困境。這表現爲:1. 文本越長,越難聚集充分注意力,難以完整消化信息2. 注意力限制下,短文本無法完整解讀復雜信息3. 處理長文本需要大量算力,提高成本這一困境的根源在於大多數模型基於Transformer結構。該結構中的自注意力機制使計算量隨上下文長度呈平方級增長。目前主要有三種解決方案:1. 借助模型外部工具輔助處理長文本2. 優化自注意力機制計算3. 利用模型優化的一般方法長文本的"不可能三角"困境暫時還無解,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者之間尋找最佳平衡點,既能處理足夠的信息,又能兼顧注意力計算與算力成本限制。
大模型長文本能力突破40萬token 推動AI在金融法律等領域應用
大模型長文本能力大比拼:從4000到40萬token,AI"閱讀力"飆升
大模型正以驚人的速度提升其長文本處理能力。從最初的4000 token到如今的40萬token,長文本能力似乎已成爲大模型廠商的新標配。
國際上,OpenAI通過多次升級將GPT-3.5的上下文輸入長度從4千提升至1.6萬token,GPT-4則從8千增至3.2萬token。其競爭對手Anthropic更是一舉將上下文長度提升至10萬token。LongLLaMA甚至將上下文長度擴展到25.6萬token以上。
國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文與MIT合作開發的LongLoRA技術則可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將拓展上下文長度作爲重點升級方向。這些公司普遍受到資本市場的青睞,融資規模和估值均呈現快速增長態勢。
大模型公司如此重視長文本技術,40萬token的突破意味着什麼?表面上看,這代表着模型的輸入文本長度和閱讀能力大幅提升。從最初僅能處理一篇短文,到現在可以閱讀整本長篇小說,模型的應用場景得到顯著拓展。
更深層次來看,長文本技術正推動大模型在金融、司法、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力是這些領域智能化升級的關鍵。
然而,與模型參數類似,文本長度並非越長越好。研究表明,模型支持的上下文長度與效果之間並不存在簡單的正相關。關鍵在於模型如何有效利用上下文內容。
目前,長文本技術的探索仍未達到瓶頸。國內外大模型公司仍在持續突破,40萬token可能只是一個開始。
爲何大模型公司競相"卷"長文本?
月之暗面創始人楊植麟表示,大模型輸入長度的限制造成了許多應用落地的困境,這正是當前各大公司聚焦長文本技術的原因。
例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色可能遺忘重要信息。在開發劇本殺類遊戲時,輸入長度不夠會導致規則和設定被削減,影響遊戲效果。在法律、金融等專業領域,深度內容分析和生成也常常受到限制。
長文本在未來的Agent和AI原生應用中扮演重要角色。Agent需要依靠歷史信息進行規劃和決策,AI原生應用則需要上下文來維持連貫、個性化的用戶體驗。
楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,而執行步驟數即上下文長度。長文本技術不僅可以解決大模型早期的一些問題,還是推進產業和應用落地的關鍵技術之一。
通過月之暗面新發布的Kimi Chat,我們可以一窺長文本時代大模型的升級功能:
這些功能顯示,對話機器人正朝着專業化、個性化、深度化的方向發展,有望成爲推動產業落地和超級APP出現的重要抓手。
長文本的"不可能三角"困境
在長文本技術中,存在文本長短、注意力和算力的"不可能三角"困境。這表現爲:
這一困境的根源在於大多數模型基於Transformer結構。該結構中的自注意力機制使計算量隨上下文長度呈平方級增長。
目前主要有三種解決方案:
長文本的"不可能三角"困境暫時還無解,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者之間尋找最佳平衡點,既能處理足夠的信息,又能兼顧注意力計算與算力成本限制。