投資理財
    金融圈注意了 BloombergGPT來了

    金融圈注意了 BloombergGPT來了

    發布日期:3/31/2023

    A- A A+

    新聞視界時報

    ChatGPT引爆的AI熱潮也燒到了金融圈,彭博社重磅發佈為金融界打造的大型語言模型(LLM——BloombergGPT

    3月30日,根據彭博社最新發佈的報告顯示,其構建迄今為止最大的特定領域資料集,並訓練了專門用於金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。

    報告顯示,該模型依託彭博社的大量金融資料來源,構建了一個3630億個標籤的資料集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。

    一般來說,在NLP領域,參數數量和複雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。

    關於BloombergGPT

    報告指出,研究人員利用彭博社現有的資料,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域資料集來完成BloomberGPT,並基於通用和金融業務的場景進行混合模型訓練:

    彭博社主要是一家金融資料公司,資料分析師在公司成立的四十年的時間裡收集了大量的金融檔,擁有廣泛的金融資料檔案,涵蓋了一系列的主題。

    我們將這些資料添加到公共資料集中,以創建一個擁有超過7000億個標籤的大型訓練語料庫。

    使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和Le Scao等人的指導方針設計,基於通用和金融業務的場景進行混合模型訓練。

    結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優於現有模型。

    1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博資料來源可靠

    {{AD}}

    在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:

    除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般資料來源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。

    此外,我們的訓練資料不同于傳統的網路爬取資料,網路上的資料總有重複和錯誤,但我們的資料來源可靠。

    2.BloombergGPT的訓練資料集:

    BloombergGPT的訓練資料庫名為FINPILE,由一系列英文金融資訊組成,包括新聞、檔、新聞稿、網路爬取的金融檔以及提取到的社交媒體消息。

    為了提高資料品質,FINPILE資料集也使用了公共資料集,例如The Pile、C4和Wikipedia。FINPILE的訓練資料集中大約一半是特定領域的文本,一半是通用文本。為了提高資料品質,每個資料集都進行了去重處理。

    對金融領域的理解更准

    報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:

    以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。

    報告指出,從測試來看,BloombergGPT在五項任務中的四項(ConvFinQA,FiQA SA,FPB和Headline)表現最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其優勢性。

    測試一:ConvFinQA資料集是一個針對金融領域的問答資料集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。

    測試二:FiQA SA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。

    測試三:標題,資料集包括關於黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定資訊,例如價格上漲或價格下跌等。

    測試四:FPB,金融短語庫資料集包括來自金融新聞的句子情緒分類任務。

    測試五:NER,命名實體識別任務,針對從提交給SEC的金融協定中收集金融資料,進行信用風險評估。

    對於ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理並生成答案,具有一定挑戰性。

    ChatGPT為彭博點贊

    華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:

    它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的資料和任務,並且在金融領域的基準測試中表現出色。

    這將有助於金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。

     

     

    狂賀!奇點空間設計粉絲專頁按讚數突破 18,000!

    感謝大家的熱情支持與肯定,未來我們將持續為大家帶來更多創意設計與優質服務,與您一起打造更美好的空間體驗! 🎉🎉

    相關新聞

    全球跨境匯款服務:萬事達卡提供快速支付體驗

    全球跨境匯款服務:萬事達卡提供快速支付體驗

    萬事達卡:跨境匯款服務促進台灣境內外人士金融便利

    2/26/2024

    一週攬下數十萬用戶,基於Solana的AR加密遊戲GG怎麼做到的

    一週攬下數十萬用戶,基於Solana的AR加密遊戲GG怎麼做到的

    透過病毒式行銷, 推出不到一週的GG獲得天胡開局。

    2/4/2024

    FTX擬出售14億美元的Anthropic股份

    FTX擬出售14億美元的Anthropic股份

    美國法官在最終判決中命令Ryder Ripps等人向Yuga Labs支付900萬美元;Genesis尋求破產法院批准出 ...

    2/4/2024

    以太坊坎昆升級將至:盤點利好賽道及20個項目

    以太坊坎昆升級將至:盤點利好賽道及20個項目

    2月1日,Cointelegraph報告,以太坊開發人員計畫2月8日確定Dencun升級的主網啟動日期。在Reddit社 ...

    2/3/2024

    交易所爭上的Solana生態交易聚合器Jupiter(JUP)究竟有何特殊

    交易所爭上的Solana生態交易聚合器Jupiter(JUP)究竟有何特殊

    1月31日,包括Binance、OKX、Bitget等在內的多個主流交易所紛紛宣布上線Solana生態交易聚合器Jupi ...

    2/3/2024

    許正宇:香港將於短期內就擬議的虛擬資產OTC監管框架展開諮詢

    許正宇:香港將於短期內就擬議的虛擬資產OTC監管框架展開諮詢

    據信報道,香港財經事務及庫務局局長許正宇在網志「財庫論」表示,虛擬資產生態圈包括一些場外交易所(Over-the-cou ...

    2/2/2024

    FTX律師:FTX放棄重啟加密交易所,但將全額償還債權人

    FTX律師:FTX放棄重啟加密交易所,但將全額償還債權人

    根據The Block報道,FTX律師Andrew Dietderich在周三的聽證會上表示,已放棄重啟交易所的計劃,但 ...

    2/1/2024

    “和解”已兩個月,幣安終“回血”

    “和解”已兩個月,幣安終“回血”

    儘管11月Binance的資金流出給其他競爭者帶來的分食份額的機會,但市場情況又給了Binance守住基本盤的助力。同時 ...

    2/1/2024

    DWF Labs為2023年交易數量最多的加密風險投資者,Coinbase Ventures排名第二

    DWF Labs為2023年交易數量最多的加密風險投資者,Coinbase Ventures排名第二

    根據彭博社報道,根據PitchBook發布的「2023年交易數量最多的加密風險投資者」排行榜,排名前11位的投資機構分別 ...

    1/31/2024

    彭博:隨著比特幣現貨ETF時代終止了關鍵套利交易,比特幣期貨需求降溫

    彭博:隨著比特幣現貨ETF時代終止了關鍵套利交易,比特幣期貨需求降溫

    根據彭博社報道,比特幣現貨ETF在美國上市後,投資者對比特幣期貨的需求有所緩解,這初步顯示該產品將如何影響加密貨幣交易趨 ...

    1/31/2024