數據是這個時代的數字黃金,因為在這個時代,注意力在線上。2024年全球平均屏幕使用時間為每天6小時40分鐘,比往年有所增加。在美國,平均使用時間甚至更高,達到了每天7小時3分鐘。
在如此高的參與度下,產生的數據量是驚人的——2024年每天產生328.77百萬TB的數據。當考慮到所有新生成、捕獲、複製或消費的數據時,這大約是每天0.4澤字節(ZB)。
然而,儘管每天產生和消費的數據量巨大,用戶實際上擁有的數據卻極少:
- 社交媒體:像Twitter、Instagram等平臺上的數據由公司控制,儘管這些數據是由用戶生成的。
- 物聯網(IoT):智能設備的數據通常歸設備製造商或服務提供商所有,除非有特定的協議另行規定。
- 健康數據:雖然個人擁有自己的醫療記錄的權利,但來自健康應用或可穿戴設備的數據大部分由提供這些服務的公司控制。
加密貨幣和社交數據
在加密領域,我們看到@_kaitoai的崛起,它將Twitter上的社交數據進行索引,並將其轉化為項目、KOL和思想領袖可操作的情感數據。Kaito團隊因其增長黑客經驗(他們流行的mindshare和yapper儀表盤)以及在Crypto Twitter上吸引有機興趣的能力,而使“yap”和“mindshare”這兩個詞廣為流傳。
“Yap”旨在激勵Twitter上的優質內容創作,但仍然有許多問題沒有解答:
- “yap”是如何被打分的?
- 提到Kaito是否能獲得額外的yap?
- Kaito真的獎勵優質內容嗎,還是偏愛有爭議的熱點話題?
除了社交數據之外,關於數據所有權、隱私和透明度的討論也愈加激烈。隨著AI的迅速發展,新的問題浮現:誰擁有用於訓練AI模型的數據?誰從AI生成的輸出中受益?
這些問題為Web3數據層的崛起奠定了基礎——這是一個朝著用戶擁有、去中心化數據生態系統轉變的過程。
數據層的興起
在 Web3 中,數據層、協議和基礎設施的生態系統正在不斷髮展,重點是實現個人數據主權 —— 即讓個人對其數據擁有更多控制權,並提供將數據變現的選項。
- Vana @vana 的核心使命是讓用戶控制他們的數據,特別是在 AI 領域,數據對訓練模型至關重要。
Vana 推出了 DataDAO,這是一種社區驅動的實體,用戶將數據彙集在一起,以便集體受益。每個 DataDAO 專注於一個特定的數據集:
- r/datadao:專注於 Reddit 用戶數據,使用戶能夠控制和變現他們的貢獻。
- Volara:處理 Twitter 數據,允許用戶從他們的社交媒體活動中獲益。
- DNA DAO:旨在管理遺傳數據,同時注重隱私和所有權。
Vana 將數據代幣化為可交易資產,稱為 “DLP”。每個 DLP 聚合一個特定領域的數據,用戶可以將代幣質押到這些池中以獲得獎勵,排名前列的池會根據社區支持和數據質量獲得獎勵。
Vana 的獨特之處在於其簡便的數據貢獻方式。用戶只需:
- 選擇一個 DataDAO
- 通過 API 集成或手動上傳數據
- 賺取 DataDAO 代幣和 $VANA 作為獎勵
- Ocean Protocol @oceanprotocol 是一個去中心化的數據市場,允許數據提供者共享、出售或授權他們的數據,同時消費者可以將其用於 AI 和研究。
Ocean Protocol 使用 “數據代幣” (ERC-20 代幣)來表示對數據集的訪問權限,使數據提供者在保持對訪問條件控制的同時,能夠將數據變現。
Ocean 上交易的數據類型:
- 公共數據:例如天氣信息、公共人口統計數據或歷史股市數據 —— 對 AI 訓練和研究非常有價值。
- 私人數據:醫療記錄、金融交易、物聯網傳感器數據或個性化用戶數據 —— 需要嚴格的隱私控制。
“計算即數據” 是 Ocean 的另一個關鍵功能,允許在不移動數據的情況下進行計算,確保敏感數據集的隱私和安全。
- Masa @getmasafi 專注於創建一個開放層,用於 AI 訓練數據,提供實時、高質量、低成本的數據供 AI 代理和開發者使用。
Masa 在 Bittensor 網絡上推出了兩個子網:
- Subnet 42 (SN42):每天聚合和處理數百萬條數據記錄,為 AI 代理和應用開發提供基礎。
- Subnet 59 (SN59) – “AI 代理競技場”:這是一個競爭環境,在這裡由 SN42 提供實時數據支持的 AI 代理根據表現指標(如認知度、用戶參與度和自我提升)爭奪 $TAO 獎勵。
Masa 與 @virtuals_io 合作,賦能 Virtuals 代理實時數據能力。同時,還推出了 $TAOCAT,展示其能力(目前在 Binance Alpha 上線)。
- Open Ledger @OpenledgerHQ 正在構建一個專門為數據設計的區塊鏈,特別適用於 AI 和 ML 應用,確保數據管理的安全、去中心化和可驗證性。
主要亮點:
- Datanets:OpenLedger 內的專門數據源網絡,策劃和豐富現實世界數據,用於 AI 應用。
- SLMs:專為特定行業或應用定製的 AI 模型。其目標是提供更適合特定應用場景的高精度模型,同時具備隱私合規性,並減少在通用模型中常見的偏見。
- 數據驗證:確保用於訓練專業語言模型(SLMs)的數據的準確性和可靠性,以保證特定應用場景下的準確性和可靠性。
AI 訓練數據的需求
為了推動 AI 和自主代理的發展,對高質量數據的需求正在急劇上升。除了初步訓練,AI 代理還需要實時數據來進行持續學習和適應。
關鍵挑戰與機遇:
- 數據質量勝過數量:AI 模型需要高質量、多樣化且相關的數據,以避免偏見或性能不佳。
- 數據主權與隱私:正如 Vana 所示,推動用戶擁有並變現數據的趨勢正在興起,這可能會重塑 AI 訓練數據的獲取方式。
- 合成數據:隨著隱私問題的關注,合成數據正在成為一種訓練 AI 模型的方式,同時解決倫理問題。
- 數據市場:數據市場(中心化與去中心化)的興起正在創造一個數據可交易的經濟體系。
- AI 數據管理:AI 現在被用來管理、清理和增強數據集,從而提高用於 AI 訓練的數據質量。
隨著 AI 代理變得更加自主,它們訪問和處理實時、高質量數據的能力將決定其效能。這個不斷增長的需求催生了專門面向 AI 代理的數據市場——在這些市場中,人工和 AI 代理都能獲取高質量的 AI 代理數據
Web3 代理數據市場
- @cookiedotfun 聚合了 AI 代理的社交情緒和與代幣相關的數據,並將其轉化為可供人工和 AI 代理行動的洞察。
- Cookie DataSwarm API 允許 AI 代理訪問當前的高質量數據,獲取與交易相關的見解——這是加密領域中最受歡迎的應用之一。
- Cookie 擁有 20 萬月活躍用戶(MAU)和 2 萬日活躍用戶(DAU),使其成為最大的 AI 代理數據市場之一,$COOKIE 代幣居中。
其他關鍵參與者:
總結第一部分
這僅僅是一個開始。第二部分將深入探討:
- 數據經濟中不斷髮展的挑戰與機遇
- 合成數據在AI訓練中的作用
- 數據隱私問題及其解決方式
- 去中心化AI訓練的未來
誰控制數據將塑造未來,而在這一領域構建的項目將決定在AI時代數據的所有權、共享和變現方式。隨著對高質量數據需求的持續增長,打造一個更加透明、以用戶為主的數據經濟的競爭才剛剛開始。
敬請關注第二部分!
個人備註:感謝閱讀!如果你在加密AI領域並希望聯繫,隨時可以發我私信。
如果你想推介一個項目,請使用我簡介中的表單——它優先於私信。
免責聲明:本文件僅供信息和娛樂目的使用。文中表達的觀點並不構成投資建議或推薦,不應被解讀為投資建議。接收本文件的人應進行盡職調查,考慮其具體的財務狀況、投資目標和風險承受能力(本文件中未涉及這些內容)後再做投資決策。本文件不是買賣本文中提到的任何資產的要約或招攬。
聲明:
- 本文轉載自【X】,著作權歸屬原作者【@Defi0xJeff】,如對轉載有異議,請聯繫 Gate Learn 團隊,團隊會根據相關流程儘速處理。
- 免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。
- 文章其他語言版本由 Gate Learn 團隊翻譯, 除非另有說明,否則不得複製、傳播或抄襲經翻譯文章。