在生成AI的激增中,數據是新的石油。那麼,為什麼你不能自己出售呢?
從大型科技公司到初創公司,AI製造商正在從數據經紀人那裡授權電子書、圖像、視頻、音頻等,以培訓更有能力(也更合法可靠)的以AI為動力的產品。Shutterstock與Meta、Google、Amazon和蘋果達成協議,提供數百萬張圖像進行模型訓練,而OpenAI已與多家新聞機構簽訂協議,以訓練其在新聞檔案上的模型。
在許多情況下,這些數據的個人創作者和擁有者並沒有分文一毛的現金逐漸流失。一家名為Vana的初創公司想要改變這一情況。
2021年,安娜·卡斯勞斯卡斯和阿特·阿巴爾在麻省理工學院Media Lab的一門課程上相遇,專注於為新興市場建立技術。兩人共同創立了Vana。在加入Vana之前,卡斯勞斯卡斯在麻省理工學院學習計算機科學和經濟學,最終離開該學院,成立了一家金融科技自動化初創公司Iambiq,進入Y Combinator。阿巴爾是一名受過培訓的公司律師,在波士頓的咨詢公司The Cadmus Group擔任助理律師,之後在數據註釋公司Appen負責影響採購。
通過Vana,卡斯勞斯卡斯和阿巴爾著手建立平台,該平台允許用戶將他們的數據(包括聊天、語音錄音和照片)合併為數據集,然後用於生成AI模型訓練。他們還希望通過在該數據上調整公共模型來創建更加個性化的體驗,例如基於您的健康目標的每日激勵語音郵件,或者理解您風格喜好的生成藝術應用程序。
卡斯勞斯卡斯告訴TechCrunch:“實際上,Vana的基礄建設創建了一個用戶擁有的數據庫。” “它通過允許用戶以非保管方式封裝其個人數據來實現這一點...... Vana允許用戶擁有AI模型並在AI應用程序中使用其數據。”
以下是Vana向開發人員展示其平台和API的方式:
Vana API將用戶的跨平台個人數據連接在一起...,從而允許您定制應用程序。您的應用程序立即獲得用戶的個性化AI模型或底層數據的訪問權限,簡化入職流程並消除計算成本的擔憂......我們認為用戶應該能夠將其來自諸如Instagram、Facebook和Google等圍欄花園的個人數據帶入到您的應用程序中,以便您可以從用戶與您的消費者AI應用程序互動的第一時間開始創建令人驚喜的個性化體驗。
使用Vana創建帳戶非常簡單。確認電子郵件後,您可以將數據附加到數字化頭像(例如自拍照片、個人描述和語音錄音),並通過使用Vana平台和數據集構建的應用程序。應用程序範圍從ChatGPT風格的聊天機器人和互動式故事書到Hinge配置文件生成器。
現在,您可能會問,在這個日益重視數據隱私意識和勒索軟件襲擊的時代,有什麼理由使某人願意自願將個人信息提供給一家匿名的初創企業,更不用說一家風險投資支持的企業了?(到目前為止,Vana已經從Paradigm、Polychain Capital和其他支持者籌集了2000萬美元。)任何以獲利為目的的公司真的可以信任其不會濫用或搞亂其手中可交易的任何數據?
卡斯勞斯卡斯對這個問題的回答強調了Vana的整個目的是讓用戶“重新控制其數據”,指出Vana用戶可以選擇自行托管其數據,而非將其存儲在Vana的服務器上,並控制其數據如何與應用程序和開發人員共享。她還辯稱,由於Vana通過向用戶收取每月訂閱費(從3.99美元起)並向開發人員徵收“數據交易”費用(例如,用於轉移數據集進行AI模型訓練),該公司沒有動機利用用戶及他們攜帶的大量個人數據。
卡斯勞斯卡斯說:“我們希望創建由所有貢獻其數據的用戶擁有和治理的模型,並允許用戶將其數據和模型帶到任何應用程序中。”
現在,盡管Vana並未將用戶的數據出售給公司進行生成AI模型訓練(或它所聲稱的),但它希望讓用戶自行選擇這樣做——從其Reddit帖子開始。
本月,Vana推出了所謂的Reddit Data DAO(Digital Autonomous Organization),這個計劃將多個用戶的Reddit數據(包括他們的Karma和帖子歷史)池化在一起,讓他們一起決定如何使用這些結合的數據。在加入Reddit帳戶,提交對Reddit數據的請求並將該數據上傳到DAO後,用戶將獲得與DAO其他成員一起投票的權利,以決定將組合數據授權給生成AI公司進行共同獲利。
我們已經統計了數據,r/datadao現在是歷史上最大的數據DAO:第1階段歡迎了141,000個reddit用戶,其中包括21,000個完整的數據上傳。
— r/datadao (@rdatadao) 2024年4月11日
這在某種程度上回應了Reddit最近對其平台上的數據進行商業化的舉措。
Reddit之前沒有為生成AI訓練的目的對帖子和社區進行閘門控制。但在去年底,首次公開募股之前,它改變了立場。自政策改變以來,Reddit已從包括Google在內的企業中獲得超過2.03億美元的許可費。
“DAO的廣義想法是從試圖壟斷和從中賺錢的主要平台中釋放用戶數據,”卡斯勞斯卡斯說。“這是第一步,也是我們努力幫助人們將其數據聚合成用戶擁有的數據集以用於訓練AI模型的推動的一部分。”
不出意外,Reddit沒有與Vana以任何官方容量合作,對DAO並不滿意。
Reddit禁止了Vana專注於討論DAO的子版塊。一位Reddit發言人指責Vana“利用”其數據導出系統,該系統旨在遵守數據隱私法規,如GDPR和加州消費者隱私法。
發言人告訴TechCrunch:“我們的數據安排允許我們對此類實體設定監管機制,即使是對於公共信息。” “Reddit不會將非公開的個人數據與商業企業分享,並且當Reddit用戶向我們請求導出數據時,根據適用法律,他們將從我們那裡收到非公開的個人數據。Reddit與經過篩選的組織之間的直接合作夥伴關係對我們很重要,具有清晰的條款和問責制,這些合作夥伴關係和協議可以防止對人們數據的濫用。”
但Reddit是否真的有理由擔憂呢?
卡斯勞斯卡斯希望DAO發展到一個程度,能影響Reddit向客戶收取數據的費用。這還有很長的路要走,假設有一天會實現;DAO只有超過141,000名成員,這只是Reddit7,300萬用戶數量的一小部分。而且,這些成員中可能含有機器人或重複帳戶。
然後,如何公平分配DAO可能從數據買家那裡獲得的付款就是一個問題。
目前,DAO將“代幣”——加密貨幣——分配給用戶,與其Reddit Karma相對應。但Karma可能不是衡量對數據集的優質貢獻的最佳標準——特別是在Reddit社區較小、機會較少的情況下。
卡斯勞斯卡斯提出的想法是,DAO的成員可以選擇分享他們的跨平台和人口統計數據,使DAO可能更有價值並激勵人們註冊。但這也要求用戶對Vana更加信任,以負責任地處理他們的敏感數據。
就個人而言,我不認為Vana的DAO會達到臨界質量。道路上的障礙太多了。然而,我認為這不會是最後一次企圖主張控制日益使用來訓練生成AI模型的數據的基層努力。
像Spawning這樣的初創公司正在努力找到方法,允許創作者制定規則來指導其數據用於培訓,而像Getty Images、Shutterstock和Adobe這樣的供應商則繼續嘗試補償計劃。但沒有人找到解決之道。這可能嗎?鑒於生成AI行業的競爭激烈性,這顯然是一個艱鉅的任務。但也許有人會找到方法,或者政策制定者將迫使找到解決之道。