Gemini for Google Cloud 和負責任的 AI 技術

本文件說明我們在設計 Gemini for Google Cloud 時,如何考量生成式 AI 的功能、限制與風險。

大型語言模型的功能和風險

大型語言模型 (LLM) 可執行許多實用的工作,例如:

  • 翻譯語言。
  • 產生文字摘要。
  • 產生程式碼和創意寫作。
  • 為聊天機器人和虛擬助理提供動力。
  • 補足搜尋引擎和推薦系統的功能。

同時,LLM 的技術能力不斷進步,可能會導致誤用、濫用,以及意外或未預期的後果。

LLM 可能會產生您意料之外的輸出內容,包括令人反感、未顧及感受或違反事實的文字。由於 LLM 的功能多元,令人難以準確預測會輸出什麼出乎意料或未預期的內容。

考量這些風險和複雜性, Google Cloud 版 Gemini 是按照 Google 的 AI 開發原則設計,不過,使用者必須瞭解 Gemini for Google Cloud 的部分限制,才能安全且負責任地使用。

Google Cloud 專用 Gemini 的限制

使用 Gemini for Google Cloud 時,可能會遇到下列限制 (但不限於):

  • 極端案例:邊緣情況是指訓練資料中未充分呈現的異常、罕見或特殊情況。這些情況可能會導致 Gemini 模型輸出內容受到限制,例如模型過度自信、誤解上下文或輸出不當內容。

  • 模型幻覺、建立基準和事實性。Gemini 模型可能缺乏真實世界知識、物理性質或準確理解的基礎和事實性。這項限制可能會導致模型產生幻覺,也就是說, Google Cloud 的 Gemini 可能會產生看似合理,但實際上違反事實、無關、不當或毫無意義的輸出內容。幻覺也可能包括捏造連結,連往不存在的網頁。詳情請參閱「為 Gemini for Google Cloud撰寫更有效的提示」。

  • 資料品質和調整。為 Google Cloud產品輸入 Gemini 的提示資料,其品質、準確度和偏差都可能對成效產生重大影響。如果使用者輸入不正確或錯誤的提示,Gemini for Google Cloud可能會傳回次佳或錯誤的回覆。

  • 偏差放大。語言模型可能會無意放大訓練資料中現有的偏見,導致輸出內容進一步強化社會偏見,並對特定族群做出不公平的對待。

  • 語言品質。雖然 Gemini for Google Cloud在我們評估的基準測試中展現出令人印象深刻的多語言能力,但大多數的基準測試 (包括所有公平性評估) 都是以美式英文進行。

    語言模型可能會為不同使用者提供不一致的服務品質。舉例來說,文字生成功能可能無法有效處理某些方言或語言變體,因為訓練資料中不常出現這類內容。對於較少人使用的非英文語言或英文變體,成效可能會較差。

  • 公平性基準和子群組Google Research 對 Gemini 模型的平等分析並未詳述各種潛在風險。舉例來說,我們會著重於性別、種族、族裔和宗教軸線的偏差,但只針對美國英語資料和模型輸出內容進行分析。

  • 專業領域知識有限。Gemini 模型已針對 Google Cloud 技術進行訓練,但可能缺乏提供精確且詳細回覆所需的深度知識,因此無法針對專業或技術性主題提供正確資訊,導致資訊不夠深入或不正確。

    當您在 Google Cloud 主控台中使用 Gemini 窗格時,Gemini 無法瞭解您的特定環境脈絡,因此無法回答「我上次建立虛擬機的時間是什麼時候?」這類問題。

    在某些情況下,Gemini for Google Cloud 會將特定的內容片段傳送至模型,以便接收特定內容的回應,例如當您在「錯誤回報」服務頁面中按一下「疑難排解建議」按鈕時。

Gemini 安全和有害內容過濾機制

系統會根據適用於每個用途的安全屬性清單,檢查 Google Cloud 提示和回應的 Gemini。這些安全性屬性旨在篩除違反《使用限制政策》的內容。如果系統判定輸出內容有害,就會封鎖回應。

後續步驟