萬字干貨!11個章節(jié)深度思考人工智能體驗設(shè)計
原文引自 Maximillian Piras 的文章《When Words Cannot Describe: Designing For AI Beyond Conversational Interfaces》。該譯文并非完整原文,內(nèi)容已做刪減和調(diào)整。
人工智能的不斷發(fā)展給設(shè)計師打造更直觀的用戶界面創(chuàng)造了機會?;谖谋镜拇笮驼Z言模型解鎖了許多新的可能性,因此許多人認為從圖形界面轉(zhuǎn)向諸如聊天機器人之類的對話界面是一種必然。然而,有大量證據(jù)表明,對許多交互模式來說,對話界面并不理想。Maximillian Piras 探討了最新的人工智能能力如何在不局限于”對話”的情況下重塑人機交互的未來。
很少有技術(shù)創(chuàng)新能徹底改變我們與計算機的交互方式。幸運的是,我們已經(jīng)獲得了親眼目睹下一次范式(paradigm)轉(zhuǎn)變的機會。
這些轉(zhuǎn)變往往會開啟一個新的抽象層(abstraction layer),以隱藏子系統(tǒng)的運作細節(jié)。細節(jié)的泛化使我們的復(fù)雜系統(tǒng)看起來更簡單、更直觀。這不僅簡化了計算機程序的編碼,也簡化了交互界面的設(shè)計。例如,命令行界面創(chuàng)建了一個抽象層,使得人們通過存儲的程序進行交互成為可能。這隱藏了早期計算機中暴露的子系統(tǒng)細節(jié),那些計算機只能通過開關(guān)輸入 1 和 0 來編程。
圖形用戶界面(GUI)進一步抽象了這一概念,使我們能夠通過視覺隱喻來操控計算機。這些抽象化使得計算機對非技術(shù)專業(yè)用戶來說也變得易于上手。
盡管取得了這些進步,我們?nèi)匀粵]有找到完全直觀的界面 —— 網(wǎng)絡(luò)上大量相關(guān)文章證明了這一點。然而,人工智能的最新進展已經(jīng)使許多技術(shù)專家確信,計算機的下一個進化周期已經(jīng)到來。
界面抽象的層次,從底層到頂層依次為:命令行界面、圖形用戶界面和由人工智能驅(qū)動的對話界面。
一、下一個界面抽象層
機器學(xué)習(xí)分支,生成式人工智能(generative AI)推動了最近大部分創(chuàng)新。它利用對數(shù)據(jù)集(datasets)的模式識別(pattern recognition)來建立概率分布(probabilistic distributions),從而實現(xiàn)文本、媒體和代碼的新建構(gòu)。比爾·蓋茨認為這是“自圖形用戶界面以來技術(shù)上最重要的進步”,因為它可以使控制計算機變得更加容易。對于解釋非結(jié)構(gòu)化數(shù)據(jù)(如自然語言),解鎖了新的輸入和輸出方式,從而使不同以往的形式變得可行。
現(xiàn)在,我們的信息宇宙可以通過一個與人面對面交談一樣直觀的界面立即調(diào)用。這就是我們在科幻小說中夢想中的計算機,類似于《星際迷航》中的數(shù)據(jù)系統(tǒng)。也許到目前為止的計算機只是原型,而我們現(xiàn)在正準備進行實際產(chǎn)品的推出。想象一下,如果構(gòu)建互聯(lián)網(wǎng)就像鋪設(shè)軌道,那么人工智能可能就是以極快的速度運輸所有信息的火車,我們將看到當它們沖進城鎮(zhèn)時會發(fā)生什么。
“很快,人工智能出現(xiàn)之前的時代將變得遙遠,就像使用計算機意味著在 C:> 提示符下打字而不是點擊屏幕的日子一樣。
— 比爾·蓋茨,《人工智能時代已經(jīng)開始》
如果一切即將發(fā)生變化,軟件設(shè)計師的心智模型也必須跟著改變。正如 Luke Wroblewski 曾經(jīng)推廣移動優(yōu)先設(shè)計一樣,下一個時代的主導(dǎo)思潮很可能是 AI 優(yōu)先。只有通過理解 AI 的限制和能力,我們才能打造出令人愉悅的設(shè)計。它對界面演變的討論已經(jīng)開始產(chǎn)生影響。
例如,大型語言模型(LLMs)是一種在許多新應(yīng)用中使用的人工智能類型,它們以文本為基礎(chǔ)的特性使許多人相信對話界面,如聊天機器人,是未來合適的形式。多年來,AI 是一種可以交流的概念一直在行業(yè)中蔓延。UX 雜志的合作所有者 Robb Wilson 在他的書《無形機器時代》(2022)中將對話稱為“無限可擴展的界面”。Figma 的產(chǎn)品設(shè)計副總裁 Noah Levin 認為,“學(xué)會如何與某物交談是一件非常直觀的事情?!鄙踔潦?GUI 的先驅(qū)比爾·蓋茨也提出,“我們控制計算機的主要方式將不再是 pointing and clicking?!?/p>
微軟 Copilot 是一個新的對話式人工智能功能,正在整合到他們的辦公套件中。
希望對話式計算機能夠拉平學(xué)習(xí)曲線。Rabbit 的創(chuàng)始人 Jesse Lyu 斷言,自然語言方法將是“如此直觀,以至于你甚至不需要學(xué)習(xí)如何使用它”。
畢竟,《星際迷航》中的數(shù)據(jù)(Data)并沒有附帶說明手冊或入門教程。從這個角度來看,對話界面取代 GUI 的演化故事似乎是合乎邏輯的,與早期遠離命令行的轉(zhuǎn)變相呼應(yīng)。但也有一些人持相反的意見,一些人甚至像 Maggie Appleton 一樣稱聊天機器人等對話界面為“懶人解決方案”。
乍看之下,這似乎是一種分裂,但其實更多是界面演化的框架簡化。命令行遠未滅絕;技術(shù)用戶仍然更喜歡它們,因為它們更靈活、更高效。對于軟件開發(fā)或自動化腳本等用例來說,圖形化無代碼工具中的額外抽象層可能會成為一種障礙,而不是一座橋梁。
圖形用戶界面(GUIs)是革命性的,但并非萬能解決方案。然而,有大量研究表明,對話界面也不會成為萬能解決方案。對于某些交互,相對于圖形用戶界面(GUIs),它們可能會降低可用性,增加成本,并引入安全風(fēng)險。
那么,人工智能應(yīng)用的正確界面是什么?本文旨在通過對比對話作為界面的能力和限制來提供設(shè)計決策的信息。
二、連接像素
我們將從一些歷史背景開始,因為了解未來的關(guān)鍵往往從回顧過去開始。對話界面看起來很新,但我們幾十年來一直能夠與計算機進行對話。
Joseph Weizenbaum 在 1966 年的麻省理工學(xué)院實驗中發(fā)明了第一個聊天機器人 ELIZA。這為接下來的語言模型世代奠定了基礎(chǔ),衍生出了從像 Alexa 這樣的語音助手到那些讓人煩惱的電話樹菜單。然而,除了設(shè)置計時器等基本任務(wù)外,大多數(shù)聊天機器人很少投入使用。
似乎大多數(shù)消費者畢竟并不那么喜歡與計算機交談。但去年發(fā)生了一些變化。我們從 CNET 報道“72% 的人認為聊天機器人是浪費時間”,到 ChatGPT 獲得了 1 億周活躍用戶。
與首個聊天機器人 ELIZA 的對話,該機器人于 1966 年發(fā)明。
是什么讓聊天機器人從“沉悶”變得“驚人”?大多數(shù)人將其歸功于 OpenAI 在 2018 年發(fā)明的預(yù)訓(xùn)練生成變換器 (GPT) 。這些是一種新型的大型語言模型,具有顯著的自然語言理解能力。然而,GPT 的核心是 2017 年推出的轉(zhuǎn)換器架構(gòu)這一更早的創(chuàng)新。這種架構(gòu)使得捕捉自然語言輸入文本周圍的長期上下文所需的并行處理成為可能。更深入地說,這種架構(gòu)之所以能實現(xiàn),要歸功于 2014 年引入的注意力機制。這使得對輸入的不同部分進行選擇性權(quán)衡成為可能。
通過這一系列相輔相成的創(chuàng)新,對話式界面現(xiàn)在似乎能夠在更廣泛的任務(wù)上與圖形用戶界面競爭。將圖形用戶界面作為命令行的一種可行替代方案,也是通過驚人相似的途徑才得以實現(xiàn)的。當然,這需要鼠標等硬件來捕捉鍵盤以外的用戶信號,還需要分辨率足夠高的屏幕。然而,研究人員在多年后發(fā)現(xiàn)了缺失的軟件要素,這就是位圖的發(fā)明。
1963 年,Ivan Sutherland 使用 Sketchpad 的圖形用戶界面。
位圖允許處理復(fù)雜的像素模式,而早期的矢量顯示則難以處理。例如,Ivan Sutherland 的 Sketchpad 是首個圖形用戶界面(GUI),但無法支持諸如重疊窗口之類的概念。IEEE Spectrum 的《Of Mice and Menus》(1989)詳細描述了由 Alan Kay 在 Xerox Parc 的團隊發(fā)明位圖的進展。這項新技術(shù)使得革命性的 WIMP(窗口、圖標、菜單和指針)范式成為可能,通過直觀的視覺隱喻幫助整整一代人熟悉個人電腦。
計算不再需要在開始時預(yù)先設(shè)定一組步驟。回顧歷史可能會覺得微不足道,但在 1963 年 Sketchpad 的麻省理工學(xué)院演示中,演示者們已經(jīng)在暗示一個人工智能系統(tǒng)。這是一個轉(zhuǎn)折點,將一個復(fù)雜的計算機轉(zhuǎn)變?yōu)橐粋€探索性的工具。設(shè)計師現(xiàn)在可以為需要探索的體驗打造界面,這遠遠超越了命令行所提供的靈活性和效率的需求。
Susan Kare 早期繪制的蘋果圖形用戶界面指針圖標草圖
三、并行范式
對現(xiàn)有技術(shù)的新穎調(diào)整使得每種新的界面都適用于主流使用。在這兩種情況下,基礎(chǔ)系統(tǒng)都已經(jīng)可用,但是不同的數(shù)據(jù)處理決策使輸出變得有意義,足以吸引技術(shù)專家以外的主流用戶。
通過位圖,圖形用戶界面可以將像素組織成網(wǎng)格序列,以創(chuàng)建復(fù)雜的擬態(tài)結(jié)構(gòu)。通過 GPT,對話界面可以組織非結(jié)構(gòu)化數(shù)據(jù)集,以創(chuàng)建具有類似人類(或更高)智能的響應(yīng)。
這兩種范式的原型界面都是在 20 世紀 60 年代發(fā)明的,隨后在其發(fā)展時間上出現(xiàn)了巨大的差異——這本身就是一個案例研究?,F(xiàn)在我們發(fā)現(xiàn)自己又處于另一個轉(zhuǎn)折點:除了計算機和探索性工具之外,計算機還可以扮演栩栩如生的生命實體。
Geoff McFetridge 為電影《她》中展示的對話界面的早期草圖
但我們的哪些需求需要對話界面而不是圖形界面呢?在電影《她》中,我們看到了對我們對陪伴的需求的理論解決方案,主人公愛上了他的數(shù)字助手。但對于我們這些滿足于有機關(guān)系的人來說,有什么好處呢?我們可以期待驗證對話是更直觀界面的假設(shè)。這似乎是合理的,因為 WIMP 范式的一些核心組件存在著廣為人知的可用性問題。
Nielsen Norman Group 報告稱,文化差異使得圖標的普遍認知變得罕見——隨著時間的推移,菜單趨向于變得混亂不堪,不可用性不斷增加。對話界面似乎更易用,因為你可以在困惑時直接告訴系統(tǒng)!但正如我們將在接下來的部分中看到的,它們也有很多可用性問題。
用輸入框代替菜單,我們不禁要問,這是否是在用一個可用性問題代替另一個可用性問題?
四、對話的成本
為什么在科幻電影中對話界面如此受歡迎?在一篇《根莖》(Rhizome)的文章中,Martine Syms 理論認為,它們使得“互動更具電影性,制作更簡潔?!边@種成本/效益也同樣適用于應(yīng)用程序開發(fā)。通過書面或口頭交流提供的文本完成是大型語言模型(LLM)的核心功能。從設(shè)計和工程的角度來看,這使得對話成為最簡單的這種功能的包裝。
杰出的 AI 研究工程師 Linus Lee 將其描述為“暴露算法的原始界面”。由于交互模式和組件已經(jīng)在很大程度上定義好,因此沒有太多需要發(fā)明的 —— 一切都可以放入一個聊天窗口。
“如果你是一名工程師或設(shè)計師,負責(zé)將這些模型的力量轉(zhuǎn)化為軟件界面,最簡單、最自然的方式將這種能力“包裝”到 UI 中就是對話界面?!?— Linus Lee ,《構(gòu)想更好的語言模型界面》
這一觀點得到了《大西洋月刊》對 ChatGPT 發(fā)布的報道的進一步驗證,報道將其描述為“低調(diào)的研究預(yù)覽”。OpenAI 不愿將其定位為產(chǎn)品,表明對用戶體驗缺乏信心。內(nèi)部預(yù)期如此之低,以至于員工對首周采用情況的最高猜測僅為 10 萬用戶(比實際數(shù)字少 90%)。
對話界面建設(shè)成本低廉,因此它們是一個合乎邏輯的起點,但一分錢一分貨。如果界面不適用,那么后續(xù)的用戶體驗債務(wù)可能會超過任何前期節(jié)省下來的成本。
一個可視化的圖示,展示了將 LLM 的原始輸出包裝成對話界面有多容易。
五、被遺忘的可用性原則
史蒂夫·喬布斯曾說過:“人們不知道自己想要什么,直到你向他們展示?!睂⑦@種思維應(yīng)用于界面設(shè)計,與一種稱為“可發(fā)現(xiàn)性”的可用性評估相呼應(yīng)。Nielsen Norman 集團將其定義為用戶“遇到了他們之前不知道的新內(nèi)容或功能”的能力。
設(shè)計良好的界面應(yīng)能幫助用戶發(fā)現(xiàn)現(xiàn)有的功能。如今,許多流行的生成式人工智能應(yīng)用程序的界面都圍繞著一個輸入框,用戶可以在其中輸入任何內(nèi)容來提示系統(tǒng)。問題是,用戶往往不清楚應(yīng)該輸入什么內(nèi)容才能獲得理想的輸出結(jié)果。具有諷刺意味的是,解決寫作障礙的理論方案本身可能就存在空白頁問題。
“我認為人工智能在這些缺失的用戶界面方面存在問題,大多數(shù)情況下,它們只是給你一個空白框讓你輸入,然后就看你能不能想出它能做什么了” — Casey Newton, Hard Fork 博客
對話界面擅長模擬人與人之間的互動,但在其他方面可能表現(xiàn)不佳。例如,一個名為 Midjourney 的流行圖像生成器起初只支持文本輸入,但現(xiàn)在正在向圖形用戶界面轉(zhuǎn)變,以實現(xiàn)“更易于使用”。
這提醒我們,在涉足這個新領(lǐng)域時,我們不能忘記 Don Norman 在其里程碑式著作《日常物品的設(shè)計》(1988 年)中提出的經(jīng)典的以人為中心的原則。圖形界面似乎更符合他的建議,即提供明確的功能和指示符以增加可發(fā)現(xiàn)性。
此外,Jakob Nielsen 還列出了 10 個可用性啟發(fā)式;如今的許多對話界面似乎都忽略了其中的每一個。第一個可用性啟發(fā)式解釋了系統(tǒng)狀態(tài)的可見性如何讓用戶了解其行為的后果。它使用了地圖上的 "您在這里 "圖釘來解釋正確的定位是如何為我們的下一步行動提供信息的。
導(dǎo)航與聊天機器人等對話式界面的關(guān)系比想象的要密切,盡管所有的交互都是在同一個聊天窗口中進行的。ChatGPT 等產(chǎn)品的后臺會在神經(jīng)網(wǎng)絡(luò)中進行導(dǎo)航,通過將注意力集中在訓(xùn)練數(shù)據(jù)集的不同部分來完成每個反饋。
這是一個可視化示例,演示了在提示工程中進行角色扮演是如何寬松地指導(dǎo)人工智能模型制作不同的輸出結(jié)果。
大型語言模型(LLM)是如此的不透明,以至于連 OpenAI 都承認它們“不理解它們是如何工作的”。然而,定制輸入是有可能的,這種方式可以松散地引導(dǎo)模型從其知識的不同領(lǐng)域做出反應(yīng)。
一個常用的引導(dǎo)注意力的技術(shù)是角色扮演。您可以要求一個 LLM 扮演一個角色,比如輸入“想象你是一名歷史學(xué)家”,以有效地切換其模式。Prompt 工程研究所解釋說,當“在大量不同領(lǐng)域的文本數(shù)據(jù)中進行訓(xùn)練時,模型形成了對各種角色及其相關(guān)語言的復(fù)雜理解?!?扮演角色會喚起 AI 訓(xùn)練數(shù)據(jù)中的相關(guān)方面,如語氣、技能和理性。
例如,歷史學(xué)家角色會以事實細節(jié)回應(yīng),而講故事者角色則以敘述性描述回應(yīng)。角色還可以通過工具提高任務(wù)效率,例如將數(shù)據(jù)科學(xué)家角色分配給生成 Python 代碼的響應(yīng)。
角色也強化了社會規(guī)范,正如 Jason Yuan 所言,“您的銀行 AI 代理可能不應(yīng)該能夠與您進行深入的哲學(xué)交談。”然而,對話界面會將這類系統(tǒng)狀態(tài)隱藏在其消息歷史中,迫使我們將其保留在工作記憶中。
AI 聊天機器人使用分段控制器( segmented controller),讓用戶在一次點擊中指定一個角色。每個按鈕都會自動調(diào)整 LLM 的系統(tǒng)提示。
缺乏像角色扮演這樣的持續(xù)性上下文標志會導(dǎo)致可用性問題。為了清晰起見,我們必須不斷詢問人工智能的狀態(tài),就像在終端輸入 ls 和 cd 命令一樣。專家可以做到這一點,但新手可能會承受額外的認知負擔。問題不僅在于人類的記憶,系統(tǒng)也存在類似的認知超載問題。由于上下文窗口中的數(shù)據(jù)限制,用戶最終必須恢復(fù)任何低于系統(tǒng)級別的角色扮演。如果這類信息能在界面中持續(xù)存在,用戶就會一目了然,并能在每次提示時自動向人工智能重申。
http://character.ai 通過將歷史人物作為熟悉的焦點來實現(xiàn)這一點。文化線索會引導(dǎo)我們向 "阿爾-帕西諾 "和 "蘇格拉底 "提出不同類型的問題。人物 "成為一種啟發(fā)式方法,可以設(shè)定用戶期望并自動調(diào)整系統(tǒng)設(shè)置。這就像在餐廳張貼菜單一樣,來訪者不再需要詢問有什么吃的,而是直接點餐即可。
“人類的短期記憶有限。促進識別的界面減少了用戶所需的認知成本。” — 雅各布·尼爾森(Jakob Nielsen),《用戶界面設(shè)計的 10 個可用性啟發(fā)式》
另一個被遺忘的可用性教訓(xùn)是,有些任務(wù)比解釋更容易完成,尤其是通過圖形用戶界面中流行的直接操作方式。
Photoshop 的新生成 AI 功能通過與其圖形界面集成來強化這一概念。雖然生成填充包括一個輸入字段,但它也依賴于類似于其經(jīng)典套索工具的擬態(tài)控件。描述要操作圖像的哪一部分要困難得多。
當文字交流效率低下時,交互界面應(yīng)當保留。對于調(diào)整大小來說,滑塊似乎更合適,因為說“變大”留下了太多的主觀性。像顏色和縱橫比這樣的設(shè)置比描述更容易選擇。標準化的控件還可以讓系統(tǒng)更好地在幕后組織提示。例如,如果一個模型接受某個參數(shù)的特定值,那么界面就可以為如何輸入該參數(shù)提供一個自然的映射。
示意圖展示了圖形控件如何幫助系統(tǒng)在界面后組織提示(prompt)
大多數(shù)可用性原則大多已有三十多年的歷史,這可能會讓一些人懷疑它們是否仍然適用。Jakob Nielsen 最近就這些原則發(fā)表了自己的看法,他認為:"如果一件事情在 26 年里都是正確的,那么它很可能也會適用于未來幾代的用戶界面。然而,遵守這些可用性原則并不需要遵循經(jīng)典的組件。像 Krea 這樣的應(yīng)用程序已經(jīng)在探索新的圖形用戶界面,以操作生成式人工智能。
六、Prompt 工程確實是一項工程
今天的對話界面最大的可用性問題是它們將技術(shù)工作轉(zhuǎn)嫁給了非技術(shù)用戶。除了可發(fā)現(xiàn)性差之外,它們與命令行的另一個相似之處在于,理想的輸出只能通過學(xué)習(xí)命令來實現(xiàn)。我們將將輸入調(diào)整以與生成式人工智能系統(tǒng)進行最佳溝通的做法稱為“提示工程”。這個名字本身就表明這是一項專家級的工作,而且精通這項工作可以獲得 20 萬美元的薪水。
用自然語言進行編程是一項令人著迷的進步,但似乎在消費者應(yīng)用中要求這樣做有些不合時宜。僅僅因為現(xiàn)在任何人都可以說出與計算機相同的語言,并不意味著他們知道應(yīng)該說什么或最佳的說法方式 — 我們需要引導(dǎo)他們。盡管所有新技術(shù)都有學(xué)習(xí)曲線,但這個學(xué)習(xí)曲線似乎太陡峭,會阻礙進一步的應(yīng)用和長期的發(fā)展。
Canva 將其人工智能功能稱為 "Magic Studio"
作為高質(zhì)量產(chǎn)出的先決條件,prompt 工程似乎已被賦予了黑暗藝術(shù)的神秘色彩。許多人工智能功能的營銷材料通過 "魔法 "等術(shù)語強化了這一點。如果我們假設(shè)有一個正反饋循環(huán)在起作用,那么這種不透明性一定會激發(fā)消費者的好奇心。
但是,將產(chǎn)品定位在魔法書和巫師的領(lǐng)域,也暗示著一種難以解讀的體驗--這是否是一個好的長期戰(zhàn)略呢?如果我們假定 Steve Krug 在《別讓我思考》一書中提出的具有影響力的教訓(xùn)仍然適用,那么大多數(shù)人就不會費心去研究適當?shù)奶崾荆堑眠^且過。
但在生成式人工智能中,"試錯 "的問題在于根本不存在任何錯誤狀態(tài),你總會得到回應(yīng)。例如,如果你讓 LLM 做數(shù)學(xué)運算,它會給你提供自信的答案,但這些答案可能是完全錯誤的。因此,當我們不知道一個回應(yīng)是否是幻覺時,從錯誤中學(xué)習(xí)就變得更加困難。正如 OpenAI 的 Andrej Karpathy 所說,幻覺并不一定是錯誤,因為 LLM 是 "造夢機器",所以這完全取決于界面如何設(shè)定用戶期望。
"但與人一樣,要從人工智能中找到最有意義的答案,就必須提出正確的問題。人工智能既不會通靈,也不會心靈感應(yīng)"?!?Stephen J. Bigelow ,《成為 prompt 工程師所需的 5 項技能》
使用神奇的語言有可能讓新手誤以為人工智能無所不知。人工智能的知識僅限于訓(xùn)練數(shù)據(jù),這一點可能并不明顯。
① 當達到這個數(shù)據(jù)集的極限時,用戶是否知道用 "檢索增強生成"(Retrieval Augmented Generation)來補充?
② 用戶是否知道要探索不同的提示技術(shù),如 "少射"(Few-Shot)或 "思維鏈"(Chain of Thought),以調(diào)整人工智能的推理能力?
一旦魔法塵褪去,軟件設(shè)計師就會意識到,這些決定就是用戶體驗!
為完成任務(wù)選擇正確的提示技術(shù)、知識來源和模型選擇,才能讓用戶感到愉悅。我們應(yīng)該探索如何從用戶手中卸下這些工作。
③ 空狀態(tài)可以解釋人工智能知識的局限性,并允許用戶根據(jù)需要填補空白。
④ 入門流程可以學(xué)習(xí)用戶目標,推薦經(jīng)過正確推理調(diào)整的相關(guān)模型。
⑤ 類似于模糊搜索的方法可以對用戶的輸入進行標記,以指導(dǎo)他們進行有用的調(diào)整。
通過 OpenAI 的圖像生成器,我們已經(jīng)開始看到這方面的蛛絲馬跡,它可以在幕后重寫用戶輸入,以優(yōu)化圖像輸出。
圖片展示了如何將圖形用戶界面與自主輸入結(jié)合,利用檢索增強生成(RAG)等技術(shù)來自動化提示(prompt)。
七、博基尼送披薩外賣
除了可用性問題的認知成本外,還有考慮到經(jīng)濟成本。與在圖形用戶界面內(nèi)點擊按鈕相比,與對話界面的每次交互都需要通過人工智能來推理響應(yīng)。這需要比在 GUI 內(nèi)進行操作更多的計算資源。在當前的計算成本下,這種開銷可能是禁止性的。在某些任務(wù)中,增加智能可能帶來的價值可能不值得這個代價。
例如,《華爾街日報》認為,使用 LLM 來完成電子郵件摘要等任務(wù),"就像讓蘭博基尼來送披薩一樣"。成本較高的部分原因是人工智能系統(tǒng)無法像標準軟件那樣利用規(guī)模經(jīng)濟。每次交互都需要大量計算,因此成本與使用量成正比增長。如果再生產(chǎn)的邊際成本為零,那么常見的軟件訂閱模式就變得不那么站得住腳了。
消費者是否愿意為對話界面支付更高的價格,還是更青睞以高性價比的圖形用戶界面包裝的人工智能功能?具有諷刺意味的是,這種困境讓人想起了早期 GUI 面臨的挑戰(zhàn)。僅當 RAM 芯片價格幾年后下降時,才能提供所需的處理器邏輯和內(nèi)存速度來支持底層位圖。我們希望歷史能重演。
施樂 Alto 光柵顯示器的早期草圖,在 RAM 芯片價格下降之前,這種顯示器的成本難以承受。(圖片來源:Brett Victor)
另一個需要考慮的成本是安全風(fēng)險:如果你的蘭博基尼在送披薩時被偷了怎么辦?如果讓人們向人工智能提出任何問題,其中一些問題將具有操縱性。提示注入就是試圖通過自然語言滲透系統(tǒng)。正確的單詞序列可以將輸入字段轉(zhuǎn)化為攻擊載體,讓惡意行為者訪問私人信息和集成。
因此,在將人工智能定位為團隊成員時一定要謹慎,因為員工已經(jīng)被視為網(wǎng)絡(luò)安全防御中最薄弱的環(huán)節(jié)。錯誤的業(yè)務(wù)邏輯可能會意外優(yōu)化企業(yè)遭受的網(wǎng)絡(luò)釣魚郵件數(shù)量。
好的設(shè)計可以通過確定人工智能對用戶最有意義的地方來降低這些成本。在這些時刻強調(diào)類似人類對話的互動,但在其他地方使用更具成本效益的元素。通過對敏感數(shù)據(jù)進行分區(qū),使其只有安全系統(tǒng)才能訪問,從而防止及時注入。
八、世代預(yù)測
在我之前的 Smashing 文章中,我解釋了算法友好界面的概念。它們將每次交互視為通過雙向反饋改進理解的機會。它們向用戶提供系統(tǒng)反饋,同時向系統(tǒng)報告性能反饋。它們的成功取決于最大化數(shù)據(jù)收集接觸點,以優(yōu)化預(yù)測。預(yù)測輸出的準確性增益往往會導(dǎo)致更好的用戶保留率。因此,良好的數(shù)據(jù)通過網(wǎng)絡(luò)效應(yīng)增強自身而成倍增值。
盡管我之前的重點是內(nèi)容推薦算法,但我們能否將其應(yīng)用于生成式 AI?盡管輸出非常不同,但它們都是預(yù)測模型。我們可以使用特定數(shù)據(jù)定制這些預(yù)測,比如個人用戶的特征、偏好和行為。
因此,就像 Spotify 通過了解你的音樂品味來推薦新歌一樣,理論上我們也可以個性化生成人工智能。Midjourney 可以根據(jù)過去的使用情況或偏好推薦圖像生成參數(shù)。ChatGPT 可以在正確的時間調(diào)用正確的角色(希望系統(tǒng)狀態(tài)是可見的)。
一個算法友好界面中的反饋循環(huán)。
這一領(lǐng)域仍處于未知階段,因此目前還不清楚對話式界面對算法的友好程度。影響其可用性的可發(fā)現(xiàn)性問題也可能影響其分析參與信號的能力。如果無法將信號與噪音區(qū)分開來,就會削弱個性化的努力??紤]一下像點擊 "喜歡 "按鈕這樣的簡單交互;它會向后臺發(fā)送一個非常干凈的信號。
與此相對應(yīng)的會話是什么呢?輸入 "喜歡 "一詞似乎并不是一個可靠的信號,因為它可能是在一個比喻或無意識的感情色彩中被提及的。
也許一種解決方案是使用另一種 LLM 作為推理引擎,將非結(jié)構(gòu)化輸入自動格式化為清晰的參與信號。但在數(shù)據(jù)收集效率明確之前,設(shè)計者應(yīng)該問一問,對話式界面的好處是否大于個性化程度降低的風(fēng)險。
九、邁向下一個抽象層
隨著計算領(lǐng)域新范式的轉(zhuǎn)變,我希望這篇文章能成為思考下一層界面抽象的入門指南。對話界面必將成為下一個人工智能優(yōu)先設(shè)計時代的主流。增加語音功能將使計算機能夠增強我們的能力,而不是只讓我們在不健康的屏幕時間里弓起脊柱。然而,僅有對話是不夠的,我們還必須設(shè)計出語言無法描述的需求。
因此,如果說任何界面都不是萬能的,那么讓我們避免簡單化的進化論,而要追求卓越體驗的原則。我們想要的界面是綜合的、情景化的和多模態(tài)的。它知道有時我們只能用手勢或圖表來描述我們的意圖。當我們忙得沒時間交談,但又需要快速提問時,它也會尊重我們的需求。當我們確實想聊天時,它可以看到我們所看到的,這樣我們就不必再寫冗長的描述。當文字無法表達我們的意思時,它仍然能理解我們的要點。
十、避免對未來的局限性想象
這一刻讓我想起了移動優(yōu)先設(shè)計時代的一個警世故事。在 iPhone 上市幾年后,觸摸屏成為未來集體愿景的流行主題。但是,蘋果公司受人尊敬的人機界面發(fā)明家 Bret Victor 將觸摸屏視為對未來的狹隘看法。
在他對外設(shè)可能性的簡短評論中,他指出這些外設(shè)是如何諷刺性地完全忽略了觸摸。大多數(shù)交互主要利用的是我們的視覺,而不是我們雙手所擁有的豐富觸覺反饋能力。我們?nèi)绾尾拍艽_保人工智能優(yōu)先的設(shè)計能夠放大我們的所有能力?
“工具通過增強人類的能力來滿足人類的需求。” — Bret Victor,《交互設(shè)計的未來簡論》
老實說,此刻的不確定性讓我無法預(yù)測新的設(shè)計原則。我所能做的,就是向 Charlie Munger 學(xué)習(xí),把事情倒過來思考。
我們通常通過追求卓越來推進設(shè)計,但有時我們需要通過反轉(zhuǎn)問題來避免愚蠢。
十一、逆向設(shè)計
如果我們嘗試設(shè)計下一個抽象層,我們似乎最終會得到一個類似聊天機器人的東西。我們現(xiàn)在知道為什么這本身就是一個不完整的解決方案。如果我們向后看問題,找出我們想要避免的不良結(jié)果,會怎么樣?畢竟,避免愚蠢比追求卓越要更容易。
要避免的一個明顯錯誤就是強迫用戶參與對話,而不考慮時間限制。當聊天的時機成熟時,聊天的方式不應(yīng)該以同樣令人沮喪的新問題取代現(xiàn)有的可用性問題。對于與送披薩同等重要的基本任務(wù),我們應(yīng)該找到實用的解決方案,而不是像駕駛蘭博基尼那樣奢侈。此外,我們不應(yīng)該把 prompt 的工程專業(yè)知識作為對非專業(yè)用戶的要求。最后一點,隨著系統(tǒng)變得越來越像人類,我們也不應(yīng)該輕信它,以免我們的努力在無意中卻使它更容易地獲取到我們的私人數(shù)據(jù)。
一個更智能的界面不會犯這些愚蠢的錯誤。
作者:We-Design
想了解更多網(wǎng)站技術(shù)的內(nèi)容,請訪問:網(wǎng)站技術(shù)