在人工智能(AI)技術(shù)蓬勃發(fā)展的當(dāng)下,AI Agent(智能體)作為實(shí)現(xiàn)智能交互與任務(wù)執(zhí)行的關(guān)鍵角色,正逐漸滲透到各個(gè)領(lǐng)域。AI Agent涵蓋眾多復(fù)雜且相互關(guān)聯(lián)的核心概念,這些概念猶如構(gòu)建智能大廈的基石,對(duì)于深入理解和應(yīng)用AI技術(shù)至關(guān)重要。
本文聚焦AI Agent的八大核心概念,從基礎(chǔ)的智能體定義,到多智能體系統(tǒng)的協(xié)同運(yùn)作,再到RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)、工作流、微調(diào)、函數(shù)調(diào)用等關(guān)鍵技術(shù)手段與協(xié)議,進(jìn)行全面解讀,力求為讀者揭開這些概念的神秘面紗。
一、智能體(Agent)
所謂智能體,指的是能夠獨(dú)立采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的AI實(shí)體??梢哉f(shuō),智能體就是你身邊的貼心“小跟班”,你讓它做什么,它就照做不誤。
舉個(gè)例子,AI面試官就是一個(gè)十分出色的智能體。它能夠根據(jù)招聘要求,自主向候選人發(fā)送面試邀請(qǐng),接著自主開展視頻面試,隨后自主進(jìn)行面試評(píng)價(jià),再自主發(fā)放錄用通知
(offer),最后將招聘的統(tǒng)計(jì)報(bào)告發(fā)送給你。
當(dāng)然,智能體也存在很多缺陷。尤其是在對(duì)準(zhǔn)確性要求極高的場(chǎng)景中,完全自主的智能體容易出現(xiàn)明顯的“幻覺(jué)”問(wèn)題。
比如,某大廠發(fā)布的DataAgent(數(shù)據(jù)分析智能體),你只需要說(shuō)你的需求,它就能查詢數(shù)據(jù)庫(kù)并生成精美的圖表。但仔細(xì)查看它生成的圖表,就會(huì)發(fā)現(xiàn)諸多問(wèn)題,比如數(shù)據(jù)錯(cuò)誤,甚至數(shù)據(jù)編造。
在這種情況下,我們就需要使用RAG(檢索增強(qiáng)生成)、微調(diào)等技術(shù)手段來(lái)減少智能體的“幻覺(jué)”問(wèn)題。
二、多智能體系統(tǒng)(Mult i -Age nt System)
多智能體系統(tǒng),是將多個(gè)智能體整合在一起,使它們協(xié)同合作以完成復(fù)雜任務(wù)。這就如同一個(gè)團(tuán)隊(duì),各個(gè)成員各司其職、相互配合。
比如,在智能交通系統(tǒng)中,路口的智能體負(fù)責(zé)收集車流量和路況信息,然后將這些信息傳遞給控制中心的智能體??刂浦行牡闹悄荏w經(jīng)過(guò)分析后,可精準(zhǔn)調(diào)整信號(hào)燈的時(shí)長(zhǎng),使得車流變得更加順暢。
相較于單個(gè)智能體,多智能體系統(tǒng)有著更高的要求。因?yàn)樵诙嘀悄荏w系統(tǒng)中,若其中一個(gè)智能體出現(xiàn)故障(死機(jī)),整個(gè)多智能體系統(tǒng)都可能陷入停擺。
要解決這個(gè)問(wèn)題,可以為每個(gè)智能體都配備一個(gè)“克隆體”,一旦某個(gè)智能體出現(xiàn)故障,“克隆體”能立即接替其工作。
三、RAG
RAG的本質(zhì)就是,先從指定的外部知識(shí)庫(kù)中檢索相關(guān)信息,再利用這些信息生成回答。由于這些信息本質(zhì)上源自企業(yè)知識(shí)庫(kù),而非AI的“自由生成”,因此生成的回答會(huì)更加準(zhǔn)確、可信。
RAG就如同為智能體配了個(gè)超級(jí)知識(shí)庫(kù)。當(dāng)智能體遇到復(fù)雜問(wèn)題時(shí),它會(huì)先在這個(gè)知識(shí)庫(kù)中快速搜索資料。在找出相關(guān)內(nèi)容后,再用自己的語(yǔ)言將其整理成一篇完整的回答。
舉個(gè)例子,在智能客服系統(tǒng)中,RAG就起著至關(guān)重要的作用。當(dāng)顧客詢問(wèn)產(chǎn)品的詳細(xì)使用方法時(shí),智能客服便會(huì)借助RAG在知識(shí)庫(kù)中快速查找答案,然后生成一份詳細(xì)、準(zhǔn)確的回答并發(fā)送給顧客。
當(dāng)然,RAG也存在很多難點(diǎn)。比如知識(shí)庫(kù)的內(nèi)容必須做好分類、分級(jí),避免信息相互沖突,同時(shí)還需要實(shí)時(shí)更新,否則就會(huì)出現(xiàn)“輸入的是無(wú)效信息,輸出的也是無(wú)效信息”的情況。
四、工作流(Work Flow)
所謂工作流,是指一系列相互關(guān)聯(lián)的任務(wù)和步驟,它們按照特定的順序依次執(zhí)行,以完成特定的業(yè)務(wù)目標(biāo)。
工作流就好比是一條流水線。它把一個(gè)復(fù)雜任務(wù)拆解成一個(gè)個(gè)小步驟,每個(gè)步驟由專門的“工人”(智能體組件)負(fù)責(zé)完成。第一個(gè)“工人”完成指定任務(wù)后,把結(jié)果傳遞給第二個(gè)“工人”,再由第二個(gè)“工人”接著開展工作,直至最終完成整個(gè)任務(wù)。這種分工方式明確,有助于提升任務(wù)完成的質(zhì)量和效率。
值得注意的是,在準(zhǔn)確性要求很高的場(chǎng)景中,如果讓智能體自行規(guī)劃任務(wù)執(zhí)行步驟,可能會(huì)加重“幻覺(jué)”問(wèn)題。因此,我們可以通過(guò)工作流來(lái)固定智能體執(zhí)行的步驟,從而減輕“幻覺(jué)”現(xiàn)象。
比如,在訂單處理智能體系統(tǒng)中,員工錄入訂單信息后,工作流會(huì)自動(dòng)觸發(fā)庫(kù)存檢查。
若庫(kù)存充足,智能體便直接安排發(fā)貨;若庫(kù)存不足,智能體則創(chuàng)建補(bǔ)貨任務(wù),并通知采購(gòu)部門。與此同時(shí),智能體還會(huì)向客戶發(fā)送消息,告知其預(yù)計(jì)發(fā)貨時(shí)間。
當(dāng)然,工作流也不是完美的。倘若工作流設(shè)計(jì)不合理,例如步驟過(guò)多或者順序有誤,那么任務(wù)處理的速度就會(huì)變慢。因此,工作流需要專業(yè)的產(chǎn)品經(jīng)理對(duì)其進(jìn)行梳理和優(yōu)化。
五、微調(diào)(Fine-Tuning)
所謂的微調(diào),簡(jiǎn)單來(lái)說(shuō),就是利用一部分行業(yè)或企業(yè)的數(shù)據(jù)對(duì)大模型進(jìn)行訓(xùn)練,以此讓大模型更深入地理解行業(yè)或企業(yè)的業(yè)務(wù)。
要知道,行業(yè)內(nèi)存在大量的專業(yè)名詞或“行業(yè)黑話”,標(biāo)準(zhǔn)大模型難以理解這些術(shù)語(yǔ),自然也就無(wú)法給出準(zhǔn)確的答復(fù)。那么,基于標(biāo)準(zhǔn)大模型構(gòu)建的智能體,必然也無(wú)法精準(zhǔn)地完成相關(guān)業(yè)務(wù)。
在這種情況下,我們就可以通過(guò)微調(diào)來(lái)增強(qiáng)智能體對(duì)行業(yè)的認(rèn)知。
舉個(gè)例子,通用的質(zhì)量檢測(cè)模型在處理企業(yè)的特定產(chǎn)品數(shù)據(jù)時(shí),檢測(cè)準(zhǔn)確率較低。于是,企業(yè)可收集大量生產(chǎn)線上的產(chǎn)品圖像數(shù)據(jù),包括合格品和殘次品,并安排專業(yè)的標(biāo)注人員對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注。隨后,企業(yè)利用這些標(biāo)注后的數(shù)據(jù)對(duì)質(zhì)量檢測(cè)模型進(jìn)行微調(diào),最終使檢測(cè)準(zhǔn)確率提升。
當(dāng)然,微調(diào)也不是完美的,它存在對(duì)數(shù)據(jù)依賴度高、成本高等問(wèn)題。
六、函數(shù)調(diào)用(Function Calling)
雖然這種理解不太準(zhǔn)確,但是我們可以把“函數(shù)”簡(jiǎn)單地理解為“API(應(yīng)用程序編程接口)”。當(dāng)我們有多個(gè)軟件程序時(shí),就編制多個(gè)“函數(shù)”(API)。如此,當(dāng)智能體需要使用某個(gè)程序時(shí),直接“調(diào)用”這個(gè)“函數(shù)”即可。
例如,有一個(gè)函數(shù)能夠計(jì)算兩個(gè)數(shù)之和。當(dāng)智能體要計(jì)算1+1時(shí),可直接調(diào)用這個(gè)函數(shù)就能立刻得出結(jié)果2,而無(wú)需再編寫一個(gè)求和程序。
再例如,在圖像處理系統(tǒng)里,智能體要識(shí)別一張照片中的物體,就可調(diào)用好幾個(gè)對(duì)應(yīng)的函數(shù):先調(diào)用邊緣檢測(cè)函數(shù),把照片里物體的輪廓勾勒出來(lái);再調(diào)用特征提取函數(shù),分析物體的形狀和紋理……經(jīng)過(guò)這樣一層一層的處理,智能體就能識(shí)別出照片中的物體。
函數(shù)調(diào)用雖然功能強(qiáng)大,但也有很多問(wèn)題。比如,不同大模型之間的“函數(shù)調(diào)用”標(biāo)準(zhǔn)存在差異,這導(dǎo)致為了適配多個(gè)大模型,可能需要編寫多個(gè)函數(shù)。
而MCP(Model Context Protocol,模型上下文協(xié)議)可以很好地解決這一問(wèn)題。
七、MCP
MCP是一種用于AI智能體與外部軟件進(jìn)行協(xié)作的標(biāo)準(zhǔn)開放協(xié)議。借助MCP,一個(gè)軟件只需要按MCP協(xié)議開發(fā)一個(gè)標(biāo)準(zhǔn)接口,便能被多個(gè)模型調(diào)用。
舉個(gè)例子,生活智能體通過(guò)MCP服務(wù)集成了多個(gè)軟件工具。當(dāng)我們要求智能體“點(diǎn)一杯咖啡”時(shí),它就可以自動(dòng)調(diào)用“外賣程序”下單購(gòu)買;當(dāng)我們?cè)儐?wèn)智能體“今天是什么天氣”時(shí),它就會(huì)自動(dòng)調(diào)用“天氣查詢工具”。
要注意,如果大家都遵循某一個(gè)大廠的MCP標(biāo)準(zhǔn),就可能形成另一個(gè)“蘋果稅”。
八、A2A
A2A(Agent-to-Agent Protocol)是谷歌推出的一項(xiàng)開源通信協(xié)議,旨在為不同框架開發(fā)的AI智能提供標(biāo)準(zhǔn)化協(xié)作方式,使其能夠跨越技術(shù)壁壘,相互協(xié)同完成復(fù)雜流程。
簡(jiǎn)單地說(shuō),MCP解決了智能體與外部軟件之間的協(xié)作問(wèn)題;而A2A則解決了智能體與智能體之間的協(xié)作問(wèn)題。
比如,影像分析智能體和病歷信息綜合智能體就可以通過(guò)A2A協(xié)議來(lái)交流:影像智能體把看到的病變特征發(fā)給病歷智能體,病歷智能體再把相關(guān)的病歷信息發(fā)回來(lái),倆人這么一“對(duì)話”,診斷報(bào)告就生成得又快又準(zhǔn)。
通過(guò)對(duì)這些核心概念的簡(jiǎn)單解讀,相信你對(duì)AI Agent有了初步的認(rèn)識(shí)。在不斷發(fā)展的AI領(lǐng)域,掌握這些關(guān)鍵概念是進(jìn)一步探索和應(yīng)用的基礎(chǔ),期待你能將這些知識(shí)靈活運(yùn)用到實(shí)際場(chǎng)景中。
評(píng)論
-
最新最熱
行業(yè)資訊 -
訂閱欄目
效率閱讀 -
音頻新聞
通勤最愛(ài)