Amazon OpenSearch Serverless 向量引擎預覽版正式推出,助力客戶輕鬆構建現代生成式 AI 應用

亞馬遜雲科技宣佈推出 Amzon OpenSech Seeless 向量引擎預覽版。該向量引擎在 Amzon OpenSech Seeless 中提供了一種簡單、可擴展、高性能的相似性搜索功能,讓用戶能夠輕鬆構建由現代化機器學習(ML)增強的搜索體驗和生成式 AI 應用程序,無需管理底層向量數據庫基礎設施。

向量嵌入助力機器學習增強的搜索和生成式 AI 的應用

所有行業的企業都在迅速採用生成式 AI,因爲它能夠處理龐大的數據集、生成自動化內容,並提供媲美人類的交互式響應。通過集成聊天機器人、問答系統和個性化推薦等先進的對話生成式 AI 應用程序,客戶正在想方設法徹底變革最終用戶體驗以及與數字平臺的交互。這些對話應用程序讓用戶能夠用自然語言進行搜索和查詢,並通過理解語義、用戶意圖和查詢上下文,生成酷似人類的響應。

機器學習增強的搜索應用和生成式 AI 的應用程序都需要使用向量嵌入,向量嵌入作爲文本、圖像、音頻和視頻數據的數字表示,可以用來生成動態的相關內容。向量嵌入基於用戶私有數據進行訓練,代表信息的語義和上下文屬性。理想情況下,這些嵌入可以就近存儲和管理,如接近現有的搜索引擎或數據庫等特定領域數據集。由此,企業能夠通過處理用戶查詢找到最近的向量,並將它們與其他元數據結合,從而集成搜索結果。

這一過程完全無需依賴外部數據源或其它應用程序。客戶希望向量數據庫是易於構建的,且便於從原型設計快速到生產環境,這樣他們就可以將精力集中在創建差異化應用程序上。Amzon OpenSech Seeless 向量引擎擴展了 Amzon OpenSech 的搜索能力,使用戶能夠實時存儲、搜索和追溯數十億向量嵌入,並精確進行相似性匹配和語義搜索,無需考慮底層基礎設施。

探索向量引擎功能

構建於 Amzon OpenSech Seeless 的向量引擎天然具備魯棒性。使用向量引擎,用戶不必擔心後端基礎設施的選型、調優和擴展問題。向量引擎可自動調整資源,來適應不斷變化的工作負載模式和需求,從而提供始終如一的快速性能和適當規模。即便向量數量從原型設計期間的數千個猛增至生產環境中的數億個,向量引擎也可以無縫擴展,無需重新索引或重新加載數據來擴展基礎設施。

此外,向量引擎爲索引和工作負載搜索提供了單獨的計算資源,讓用戶可以實時無縫地獲取、更新和刪除向量,同時確保用戶查詢性能絲毫不受影響。所有數據都長久地存儲在 Amzon Simple Stoge Seice(Amzon S3) 中,因此用戶可以獲得與 Amzon S3 相同的數據持久性保證(個9,即99.999999999%)。儘管目前還處於預覽階段,但向量引擎是爲生產環境工作負載設計的,具有應對可用區中斷和基礎設施故障的冗餘機制。

Amzon OpenSech Seeless 向量引擎由開源 OpenSech 項目中的 k 近鄰(kNN)搜索功能提供支持,該功能能夠提供可靠而精確的結果。現今,許多客戶在託管集羣中使用 OpenSech kNN 搜索,以便在應用程序中提供語義搜索和個性化推薦。向量引擎的用戶體驗與 Seeless 環境一樣簡單易用。向量引擎支持歐氏距離、餘弦距離和點積等流行的距離指標,可容納6000個維度,因而非常適合支持各種基礎模型及其他 AI/ML 模型。

用戶還可以存儲各種數據的不同字段,例如元數據中的數字、布爾值、日期、關鍵字和地理位置,以及包含描述性信息的文本等,來爲存儲的向量添加更多上下文信息。多種類型數據的合併降低了複雜性,提升了可維護性,並且避免了數據重複、版本兼容性難題和許可問題,有效地簡化了應用程序棧。向量引擎支持相同的 OpenSech 開源套件 API,讓用戶可以充分利用其豐富的查詢功能,例如全文搜索、高級過濾、聚合、地理空間查詢、嵌套查詢,以加快數據檢索和增強搜索結果。以要求查找距離用戶5英里以內的結果的用例爲例,向量引擎可以在單個查詢中完成這項任務,而不需要維護兩個不同系統,並利用應用邏輯將結果合併。通過集成 LngChin、Amzon Bedock 和 Amzon SgeMke,用戶可以輕鬆地將首選機器學習和 AI 系統與向量引擎集成。

向量引擎支持不同領域的廣泛用例,包括圖像搜索、文檔搜索、音樂檢索、產品推薦、視頻搜索、基於位置的搜索、欺詐檢測以及異常檢測。亞馬遜雲科技預測,將詞彙搜索方法與先進的機器學習和生成式 AI 功能結合的混合搜索將會日益流行。例如,當用戶在電子商務網站上搜索“紅色襯衫”時,語義搜索通過檢索所有紅色來擴大搜索範圍,同時在詞法(BM25 算法)搜索上實現調優和邏輯增強。利用 Amzon OpenSech 過濾功能,企業可以爲用戶提供基於尺寸、品牌、價格範圍和附近商店等信息來優化搜索選項,從而進一步增強搜索結果的相關性,以便打造更個性化、更精準的體驗。向量引擎支持的混合搜索使得用戶能夠在單個查詢調用中查詢向量嵌入、元數據和描述性信息,從而在不構建複雜應用程序代碼的情況下,輕鬆地提供更準確的,與上下文相關的搜索結果。

從預覽到正式可用

亞馬遜雲科技近日宣佈推出向量引擎的預覽版,用戶可以立即開始試用。

在向量引擎正式可用之前,亞馬遜雲科技計劃提供兩項功能,降低客戶首個集合的成本。第一項功能是新的開發-測試選項,它使用戶能夠在沒有備份或副本的情況下啓動集合,從而將入門成本降低50%。向量引擎仍然提供持久性保證,因爲它將所有數據保存在 Amzon S3 中。第二項功能是在初始階段配置0.5 OCU(OpenSech 計算單位)資源,資源將根據用戶的實際工作負載來擴展;如果初始工作負載的規模是數萬到數十萬個向量(取決於維度數量),用戶則可以進一步降低成本。除了這兩項功能外,亞馬遜雲科技將把支持用戶首個集合所需的最低 OCU 從每小時4個降至每小時個。

亞馬遜雲科技還在開發一些新功能,在未來幾個月,將會幫助用戶實現工作負載暫停與恢復,這項新功能對向量引擎十分有用,因爲其中許多用例不需要持續索引數據。