http://www.kadhoai.com.cn 2026-04-11 12:05:04 來源:機器之心報道
隨著大型語言模型(LLM)技術的日漸成熟,其應用範圍正在不斷擴大。從智能寫作到搜索引擎,LLM 的應用潛力正在一點點被挖掘。
最近,微軟亞洲研究院提出可以將 LLM 用於工業控製,而且僅需少量示例樣本就能達成優於傳統強化學習方法的效果。該研究嚐試使用 GPT-4 來控製空氣調節係統(HVAC),得到了相當積極的結果。

論文地址:http://export.arxiv.org/abs/2308.03028
在智能控製領域,強化學習(RL)shizuiliuxingdejuecefangfazhiyi,danquecunzaiyangbendixiaowentiyijiyoucidaozhidexunlianchengbengaowenti。dangzhinengticongtoukaishixuexiyigerenwushi。chuantongdeqianghuaxuexifanshiconggenbenshangjiangjiunanyijiejuezhexiewenti。bijingjiusuanshirenlei,tongchangyexuyaoshuqianxiaoshidexuexicainengchengweilingyuzhuanjia,zhedagaiduiyingyushubaiwancijiaohu。
但是,對於工業場景的許多控製任務,比如庫存管理、量化交易和 HVAC 控製,人們更傾向於使用高性能控製器來低成本地處理不同任務,這對傳統控製方法而言是巨大的挑戰。
舉個例子,我們可能希望隻需極少量的微調和有限數量的參考演示就能控製不同建築的 HVAC。HVAC 控製可能在不同任務上的基本原理都類似,但是場景遷移的動態情況甚至狀態 / 動作空間可能會不一樣。
不(bu)僅(jin)如(ru)此(ci),用(yong)於(yu)從(cong)頭(tou)開(kai)始(shi)訓(xun)練(lian)強(qiang)化(hua)學(xue)習(xi)智(zhi)能(neng)體(ti)的(de)演(yan)示(shi)通(tong)常(chang)也(ye)不(bu)夠(gou)多(duo)。因(yin)此(ci),我(wo)們(men)很(hen)難(nan)使(shi)用(yong)強(qiang)化(hua)學(xue)習(xi)或(huo)其(qi)它(ta)傳(chuan)統(tong)控(kong)製(zhi)方(fang)法(fa)訓(xun)練(lian)出(chu)普(pu)遍(bian)適(shi)用(yong)於(yu)這(zhe)類(lei)場(chang)景(jing)的(de)智(zhi)能(neng)體(ti)。
使(shi)用(yong)基(ji)礎(chu)模(mo)型(xing)的(de)先(xian)驗(yan)知(zhi)識(shi)是(shi)一(yi)種(zhong)頗(po)具(ju)潛(qian)力(li)的(de)方(fang)法(fa)。這(zhe)些(xie)基(ji)礎(chu)模(mo)型(xing)使(shi)用(yong)了(le)互(hu)聯(lian)網(wang)規(gui)模(mo)的(de)多(duo)樣(yang)化(hua)數(shu)據(ju)集(ji)進(jin)行(xing)預(yu)訓(xun)練(lian),因(yin)此(ci)可(ke)作(zuo)為(wei)豐(feng)富(fu)先(xian)驗(yan)知(zhi)識(shi)的(de)來(lai)源(yuan)而(er)被(bei)用(yong)於(yu)各(ge)種(zhong)工(gong)業(ye)控(kong)製(zhi)任(ren)務(wu)。基(ji)礎(chu)模(mo)型(xing)已(yi)經(jing)展(zhan)現(xian)出(chu)了(le)強(qiang)大(da)的(de)湧(yong)現(xian)能(neng)力(li)以(yi)及(ji)對(dui)多(duo)種(zhong)下(xia)遊(you)任(ren)務(wu)的(de)快(kuai)速(su)適(shi)應(ying)能(neng)力(li),具(ju)體(ti)的(de)案(an)例(li)包(bao)括(kuo) GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語言模型(LLM)的代表,後兩者則能處理文本和圖像。
基礎模型近來取得的巨大成功已經催生出了一些利用 LLM 執行決策的方法。這些方法大致上可分為三類:針對具體下遊任務對 LLM 進行微調、將 LLM 與可訓練組件組合使用、直接使用預訓練的 LLM。
之前的研究在使用基礎模型進行控製實驗時,通常選用的任務是機器人操控、家庭助理或遊戲環境,而微軟亞洲研究院的這個團隊則專注於工業控製任務。對傳統強化學習方法而言,該任務有三大難點:
1) juecezhinengtitongchangmianduideshiyixilieyigouderenwu,birujuyoubutongdezhuangtaihedongzuokongjianhuoqianyidongtaiqingkuang。qianghuaxuexifangfaxuyaoweiyigouderenwuxunlianbutongdemoxing,zheyangzuodechengbenhengao。
2) 決策智能體的開發過程需要很低的技術債(technical debt),這說明所提供的樣本數量不夠(甚至可能沒有),而傳統的強化學習算法需要大數據才能訓練,因此可能無法設計針對特定任務的模型。
3) 決策智能體需要以在線方式快速適應新場景或不斷變化的動態情況,比如完全依靠新的在線交互經驗而無需訓練。
為了解決這些難題,微軟亞洲研究院的 Lei Song 等研究者提出直接使用預訓練 LLM 來控製 HVAC。該方法隻需少量樣本就能解決異構的任務,其過程不涉及到任何訓練,僅使用樣本作為少樣本學習的示例來進行上下文學習。
據介紹,這項研究的目標是探索直接使用預訓練 LLM 來執行工業控製任務的潛力。具體來說,他們設計了一種機製來從專家演示和曆史交互挑選示例,還設計了一種可將目標、指示、演示和當前狀態轉換為 prompt 的 prompt 生成器。然後,再使用生成的 prompt,通過 LLM 來給出控製。
研究者表示,其目的是探究不同的設計方式會如何影響 LLM 在工業控製任務上的表現,而該方法的很多方麵都難以把控。
研究者希望通過解答這些問題凸顯出這些方法的潛力以及展現可以如何為技術債較低的工業控製任務設計解決方法。
這篇論文的主要貢獻包括:
方法
該研究使用 GPT-4 來優化對 HVAC 設備的控製,工作流程如下圖 1 所示:

圖 1:使用 GPT-4 控製 HVAC 的工作流程示意圖
該工作流程中的 LLM 和環境組件如下:
LLM:一個預訓練大型語言模型,用作決策器。它會根據給出的 prompt 生成對應的響應。其 prompt 中應包含對當前狀態的描述、簡單的 HVAC 控製指令、相關狀態的演示等。
環境:一個交互式環境或模擬器,可以執行 LLM 建議的動作並提供反饋。實驗中所使用的具體評估環境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創建環境,必須提供兩個參數:建築類型(如大型辦公室、小型辦公室、醫院等)和天氣條件(如炎熱幹燥、炎熱潮濕、溫暖幹燥等)。此外,值得注意的是,每種天氣狀況都對應於特定的城市。例如,炎熱幹燥的天氣狀況與水牛城有關。
在 BEAR 中(zhong),每(mei)個(ge)狀(zhuang)態(tai)都(dou)由(you)一(yi)個(ge)數(shu)值(zhi)向(xiang)量(liang)表(biao)示(shi),其(qi)中(zhong)除(chu)了(le)最(zui)後(hou)四(si)個(ge)維(wei)度(du)外(wai),每(mei)個(ge)維(wei)度(du)都(dou)對(dui)應(ying)於(yu)建(jian)築(zhu)物(wu)中(zhong)一(yi)個(ge)房(fang)間(jian)的(de)當(dang)前(qian)溫(wen)度(du)。最(zui)後(hou)四(si)個(ge)維(wei)度(du)分(fen)別(bie)代(dai)表(biao)室(shi)外(wai)溫(wen)度(du)、全局水平輻射(GHI)、地麵溫度和居住者功率。在所有環境中,首要目標是保持室溫在 22 ℃ 附近,同時盡可能減少能耗。
BEAR 中的操作被編碼為範圍從 -1 到 1 的(de)實(shi)數(shu)。負(fu)值(zhi)表(biao)示(shi)製(zhi)冷(leng)模(mo)式(shi),正(zheng)值(zhi)表(biao)示(shi)加(jia)熱(re)模(mo)式(shi)。這(zhe)些(xie)動(dong)作(zuo)的(de)絕(jue)對(dui)值(zhi)對(dui)應(ying)於(yu)閥(fa)門(men)打(da)開(kai)程(cheng)度(du),這(zhe)能(neng)說(shuo)明(ming)能(neng)耗(hao)情(qing)況(kuang)。如(ru)果(guo)絕(jue)對(dui)值(zhi)更(geng)大(da),那(na)麼(me)能(neng)耗(hao)也(ye)就(jiu)更(geng)大(da)。在(zai)兼(jian)顧(gu)舒(shu)適(shi)度(du)和(he)能(neng)耗(hao)的(de)條(tiao)件(jian)下(xia),研(yan)究(jiu)者(zhe)在(zai)實(shi)驗(yan)中(zhong)使(shi)用(yong)了(le)以(yi)下(xia)獎(jiang)勵(li)函(han)數(shu):

其中 n 表示房間數,T=22℃ 是目標溫度,t_i 表示第 i 個房間的溫度。超參數 α 用於實現能耗和舒適度的平衡。
此外,該工作流程中還包含在線緩衝器、轉譯器、嵌入模型、專家演示數據集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執行過程如圖 2 所示,其中紫色的文本僅用於說明,而非 prompt 的一部分。

圖 2:新方法是如何生成 prompt 的
實驗
該研究通過實驗展示了 GPT-4 控製 HVAC 設備的效果,其中涉及不同的建築物和天氣條件。隻要能提供適當的指示和演示(不一定與目標建築和天氣條件相關),GPT-4 的表現就能超過專門為特定建築和天氣條件精心訓練的強化學習策略。此外,研究者還進行了全麵的消融研究,以確定 prompt 中每個部分的貢獻。

表 1:GPT-4 使用不同專家演示時的表現

表 2:GPT-4 使用不同類型和數量的演示時的表現

圖 3:在相同天氣條件下,不同建築對應不同的專家策略的情況

圖 4:在不同天氣條件下,同一建築使用不同專家策略的情況

表 3:GPT-4 使用不同類型的注釋時的表現

表 4:GPT-4 使用不同類型的描述和指示時的表現

表 5:在 prompt 中實數是否進行舍入的不同情況下,GPT-4 的性能

表 6:PPO 和 GPT 在天氣擾動下的表現