【人工智能】厭惡無用資訊充斥互聯網?arbor從資訊洪流中提取精華
AI內容摘要平台
Cheney和拍檔Jake(陳力衡)近期推出一個建基於生成式AI的內容摘要平台——arbor。程式可把描述同一事件的資訊,歸納總結為一篇百字文章;更能把這些資訊,以不同敘事角度進行分類,並以摘要形式呈現給讀者,形成一個「事件目錄」。
arbor摘要式的呈現方法,對閱讀和寫作雙方都有好處。「一方面能幫助讀者快速了解事件全貌,另一方面能讓獨特觀點的文章出現在大眾視野,不至被洪流般的資訊所埋沒。」Cheney解釋道。
搜尋引擎演算法存漏洞
光看文字,可能覺得抽象。Cheney便以自己使用搜尋引擎Google時所遇到的現象,希望能進一步解說arbor的優勢。他描述,當自己輸入某關鍵詞後,會得到十餘個不同的結果;但從第二頁開始,出現的往往是一些不知所云、胡亂拼接而成的內容。
Cheney解釋,這一現象的出現,皆因上一代AI沒有理解整篇文章的能力。只能判斷文中是否存在網民感興趣的關鍵字,以此作為文章排序的邏輯。這樣的模式令不少人可以透過搜尋引擎最佳化(SEO)玩弄規則,使搜尋引擎成為垃圾文章的溫床。想讓文章在特定領域的搜尋結果中排名高位,只需要在文中堆砌和該主題相關的關鍵字;文章不必高質,就可以輕鬆騙過演算法。
Jake在談及現時搜尋引擎的用戶體驗時,揚言自己有心想令大眾在未來「不是Google一下,而是arbor一下」。他表示,現時固然有方法可以透過搜尋引擎精準找到自己想要的答案,只不過今時今日,這功夫應該由AI代勞。
兩人的野心不止於此,他們認為arbor具備龐大潛能,透露將很快把其摘要功能拓展至影片領域。
冀拓影片摘要功能
談及當初為何萌生建立arbor的想法,Jake憶述,自己曾在內地某互聯網教育平台任職。過程中收到不少客戶反映,表示網上學習資料數目雖多,卻十分散亂,難以在重複性資訊中找到真正有價值的內容。
有見及此,arbor以資訊重整為核心理念,幫助用戶快速、精準地獲取自己想要的內容;甚至能對問題進行擴展、延伸閱讀,令問題變得更深入、細緻。
Cheney則介紹自己在八九年前,從事金融業時的「慘痛」經歷。他不諱言,自己作為基金經理,常常妒忌坐在身邊的量化投資基金團隊。只因基金經理需要閱讀大量年報以及參與大大小小的業績發布會,而量化團隊卻可以利用AI處理數據、產生投資訊號並作出決策。
他續稱,他當年經常和工作夥伴討論,為何AI還不夠聰明,還無法讀懂文字?在ChatGPT出現的2023年,他和團隊迎來這個黃金機會。希望借AI這股東風,為用戶打造一種全新體驗。
研模型防AI憑空捏造
藍圖早已構思好,惟實踐過程困難重重。「很多人覺得ChatGPT好玩,但從好玩到實用,中間有很多看不見的辛酸。」Cheney這樣描述團隊的研發經歷。
相信不少人都感受過,ChatGPT在資訊量不足的情況下,會憑空捏造文章內容,造成事實性謬誤。arbor團隊為保證ChatGPT在生成內容時不至於胡編亂造,額外訓練一個幻覺偵測模型(Hallucination Detection Model),用於檢測內容摘要的真實性和準確度。
此外,如何判斷不同文章所述主題,亦花費團隊大量時間。Cheney形容,一個產品愈簡單易用,背後花在簡化程序上的功夫就愈多。