Як побудувати децентралізований маховик даних для великих моделей

12/26/2023, 7:09:02 AM
Середній
Блокчейн
У цій статті обговорюється, як побудувати маховик даних для великих прикладних програм, побудованих на інфраструктурі Web3, яка об’єднує цінність особистих і загальнодоступних даних, забезпечуючи співпрацю та досягнення взаємної вигоди між користувачами, постачальниками та платформами.

Посилення конкуренції даних і тенденції до демократизації даних

Дані є основою та рушійною силою для навчання та вдосконалення моделей ШІ. Без достатньої кількості високоякісних даних моделі штучного інтелекту не можуть покращити свою продуктивність або адаптуватися до різних сценаріїв. У той же час дані є дефіцитним і цінним ресурсом. Компанії, які мають доступ до великої кількості нових даних, можуть отримати конкурентні переваги та конкурентну силу. Отже, різні сторони активно шукають і розробляють нові джерела даних, одночасно захищаючи власні дані від порушень.

Однак поточна екосистема даних стикається з деякими проблемами та проблемами, такими як:

  • Монополія даних: великі інтернет-компанії сформували значні монополії на дані, збираючи, зберігаючи, аналізуючи та використовуючи особисті дані користувачів, що виключає інших конкурентів і інноваторів.
  • Конфіденційність даних: особисті дані користувачів отримують, зловживають, витікають або продають великі інтернет-компанії без згоди, що порушує права користувачів на конфіденційність і автономію.
  • Якість даних: через такі причини, як непрозорі джерела даних, суперечливі стандарти даних і неправильна обробка даних, виникають проблеми з якістю даних, такі як неповнота, непослідовність, шум або упередженість.
  • Вичерпання даних: оскільки моделі штучного інтелекту стають дедалі складнішими та масивнішими, для навчання та вдосконалення потрібно більше та якісніших даних. Однак існуючі джерела даних можуть не задовольнити цей запит, що створює ризик вичерпання даних.

Щоб вирішити ці проблеми та виклики, промисловість пропонує кілька можливих рішень:

  • Синтез даних: використовуючи такі методи, як Generative Adversarial Networks (GANs), генеруйте віртуальні, але реалістичні дані для розширення існуючих наборів даних.
  • Об’єднання даних: використовуйте технології шифрування, розподілених і спільних технологій для досягнення міжінституційного, міжрегіонального та міждоменного обміну даними та співпраці, одночасно захищаючи конфіденційність і безпеку даних.
  • Ринки даних: використовуйте такі технології, як блокчейн, смарт-контракти та токени, щоб забезпечити децентралізовані, прозорі та справедливі транзакції та циркуляцію даних.

Серед них нашу увагу привернула модель побудови маховика даних через розподілену архітектуру Web3. Web3 відноситься до Інтернету наступного покоління, побудованого на технології блокчейн і децентралізованих мереж. Web3 дозволяє користувачам мати повний контроль і володіння своїми даними, одночасно стимулюючи обмін даними та обмін за допомогою токенів. Таким чином розробники моделей AI можуть отримувати авторизовані дані користувачів через платформу Web3, а користувачі можуть отримувати відповідні винагороди. Ця модель сприяє циркуляції даних та інноваціям, одночасно захищаючи конфіденційність і безпеку даних.

Як побудувати децентралізований маховик даних для великих моделей

Щоб використовувати розподілену архітектуру Web3 для створення децентралізованого маховика даних великої моделі, нам потрібно врахувати такі аспекти:

Встановіть стратегію даних і цілі

Перш ніж починати збирати та використовувати дані, потрібне чітке уявлення, що має бути досягнуто за допомогою даних і як вони узгоджуються з бізнес-цілями. Також необхідно визначити ключових зацікавлених сторін, показники та результати, якими керується проект даних. Наприклад, у платформі електронної комерції штучного інтелекту, побудованій на інфраструктурі Web3, дуже важливо створювати дані на основі потреб користувачів, використовуючи дані зі сторони споживача для створення векторної бази даних попиту. Коли виробнича сторона взаємодіє з базою даних споживачів, оплата відповідного токена повинна здійснюватися відповідно до смарт-контрактів.

Збирайте та зберігайте дані з багатьох джерел

Щоб створити повний і різноманітний набір даних, дані слід збирати та зберігати з різних джерел, таких як веб-збирання, взаємодія користувачів, датчики тощо. Надійну та масштабовану хмарну платформу, як Amazon Web Services, слід використовувати для безпечного та ефективного зберігання та керування даними. Збір даних має здійснюватися за допомогою різних вертикальних векторних баз даних через контрактне придбання.

Перетворення та збагачення даних

Щоб зробити дані придатними для цілей машинного навчання, вони повинні пройти попередню обробку, очищення, маркування, вдосконалення та організацію. Для автоматизації та оптимізації цих процесів слід використовувати інструменти маркування даних та розробки, такі як Labelbox або AtScale.

Створюйте та тренуйте великі моделі

Використовуйте дані для створення та навчання великомасштабних моделей машинного навчання, які можуть надавати точні та надійні результати. Базові моделі, такі як ChatGPT або PaLM, можна використовувати як відправні точки для побудови власних моделей, або такі фреймворки, як PyTorch або TensorFlow, можна використовувати для реалізації та навчання моделей.

Розгортання великих моделей у виробництві та керування ними

Щоб надати результати моделі користувачам і клієнтам, моделі потрібно розгортати та керувати ними у виробничих середовищах. Для забезпечення продуктивності, безпеки та масштабованості моделі слід використовувати такі платформи та інструменти, як MLCommons або TensorBoard.

Інтегруйте великі моделі в продукти та послуги

Щоб створити цінність для користувачів і клієнтів, великі моделі слід інтегрувати в продукти та послуги, які вирішують їхні проблеми або задовольняють їхні потреби. API та бібліотеки, такі як OpenAI Playground або Hugging Face Transformers, можна використовувати для доступу та використання великих моделей для різних завдань.

Збирайте та аналізуйте відгуки про результати великих моделей від користувачів і клієнтів

Щоб покращити великі моделі на основі відгуків користувачів і клієнтів, їх оцінки, коментарі, думки, кліки, покупки тощо слід збирати й аналізувати. Аналітичні інструменти та інструменти опитування, такі як Google Analytics або Google Forms, можна використовувати для відстеження та вимірювання їх поведінки та думок.

Ключові етапи маховика даних

Спираючись на згадані аспекти, давайте детальніше розглянемо, як використовувати маховик даних у великих прикладних програмах, побудованих на уніфікованій інфраструктурі Web3 для цінності особистих і публічних даних. Цей тип маховика даних повинен враховувати такі важливі етапи:

Збір даних: дані отримуються точка-точка через портали додатків ШІ, а користувачі заохочуються за допомогою токенів. Це означає, що користувачі можуть отримувати прибуток, обмінюючись своїми даними, на відміну від експлуатації та контролю з боку великих компаній, як у Web 2.0. Можливі методи збору даних включають веб-збирання, взаємодію з користувачем, датчики тощо. Ці дані можна перевіряти, авторизувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, таким чином захищаючи права та конфіденційність даних користувачів.

Трансформація даних: дані векторно позначаються та встановлюється система кількісної оцінки даних. Токени оплачуються за зв’язки «точка-точка» розподілених одиничних даних, а ціна даних визначається через смарт-контракти під час маркування. Це означає, що дані можна попередньо обробляти, очищати, маркувати, вдосконалювати та організовувати відповідно до цілей машинного навчання. Ці процеси можна стандартизувати, координувати та стимулювати за допомогою смарт-контрактів на платформі Web3, тим самим покращуючи якість та ефективність даних.

Розробка моделі: навчання великих вертикальних моделей із векторними даними бази даних у сегментованих областях. Це передбачає використання даних для створення та навчання великомасштабних моделей машинного навчання, які забезпечують точні та надійні результати. Ці моделі можна розробляти, оптимізувати та оцінювати за допомогою смарт-контрактів на платформі Web3, підвищуючи їх продуктивність і адаптивність.

Споживання моделі та даних. Обидва ціна встановлюються через смарт-контракти, і будь-який користувач API повинен платити через смарт-контракти за використання моделі та даних. Це означає, що моделі та дані можна інтегрувати в продукти та послуги, забезпечуючи користувачам і клієнтам цінність, наприклад, розуміння природної мови, комп’ютерне бачення, системи рекомендацій тощо. Цими продуктами та послугами можна торгувати, розповсюджувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, що забезпечує циркуляцію даних та інновації.

Зворотній зв’язок моделі та даних: як збирати та аналізувати відгуки користувачів і клієнтів про результати та дані моделі. Це означає вдосконалення моделей і даних на основі оцінок користувачів і клієнтів, коментарів, думок, кліків, покупок тощо. Ці відгуки можна збирати, аналізувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, завдяки чому досягається постійна оптимізація моделей і даних.

Цілі децентралізованого маховика даних

Метою децентралізованого маховика даних великої моделі є не лише навчання великих моделей, але й досягнення бізнес-аналітики. Оновлені дані в режимі реального часу використовуються не лише для навчання великих моделей для використання їх загальнодоступної цінності, але й для реалізації особистої цінності користувачів через системи передачі даних «точка-точка». Він спрямований на подолання розриву між даними про споживача та даними про виробництво, створення системи промислового ланцюга, яка з’єднує сторону пропозиції з стороною попиту, формування справді децентралізованого ділового суспільства та реалізації демократизації даних, автономії та створення вартості.

Для досягнення цієї мети ми можемо реалізувати її наступними способами:

Маховик даних може підвищити ефективність навчання та результативність великих моделей. Використовуючи розподілену архітектуру Web3, користувачі можуть мати повний контроль і право власності на свої дані, а також ділитися та обмінюватися даними за допомогою механізму стимулювання Token. Таким чином, розробники моделей AI можуть отримувати авторизовані дані від користувачів через платформу Web3, а користувачі можуть отримувати відповідні винагороди. Ця модель може сприяти циркуляції даних та інноваціям, одночасно захищаючи конфіденційність і безпеку даних. Ці дані можна використовувати для створення та навчання великомасштабних моделей машинного навчання, які забезпечують точні та надійні результати, такі як розуміння природної мови, комп’ютерне бачення, системи рекомендацій тощо.

Маховик даних може з’єднати споживчі дані з даними виробництва. Використовуючи смарт-контракти для ціноутворення, будь-який користувач API повинен платити через смарт-контракти за використання моделі та даних. Це означає, що моделі та дані можна інтегрувати в продукти та послуги, забезпечуючи цінність для користувачів і клієнтів. Цими продуктами та послугами можна торгувати, розповсюджувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, що забезпечує циркуляцію даних та інновації. Таким чином дані споживачів можуть створити векторну базу даних споживачів, і коли виробнича сторона взаємодіє з базою даних споживачів, оплата токеном вимагається відповідно до смарт-контрактів. Цей метод може створити систему промислового ланцюга, яка з’єднує сторони пропозиції та попиту, таким чином підвищуючи ефективність та результативність бізнесу.

Маховик даних може сформувати справді децентралізоване бізнес-суспільство. Використовуючи маховик даних великих модельних додатків, побудованих на уніфікованій інфраструктурі персональних і загальнодоступних даних Web3, можна досягти співпраці та взаємної перемоги між користувачами, постачальниками та платформами. Майбутні закони про захист даних важко реалізувати в середовищі Web2.0, і вони не можуть повністю захистити дані користувачів і монополію проти даних з технічної точки зору. Навпаки, в технічному середовищі розподіленої структури маховика даних великої моделі користувачі можуть отримувати прибуток, обмінюючись своїми даними, замість того, щоб їх експлуатували та контролювали великі компанії, як у Web 2.0. Розробники можуть створювати та навчати високопродуктивні великі моделі, використовуючи авторизовані дані користувачів, і інтегрувати їх у продукти та послуги. Платформи можуть сприяти інноваціям даних і моделей, забезпечуючи безпечні, прозорі та чесні механізми торгівлі та обігу. Цей метод може досягти демократизації даних, автономії та створення цінності.

Висновок

Побудова децентралізованого маховика даних великої моделі за допомогою розподіленої архітектури Web3 є багатообіцяючим рішенням, яке може вирішити деякі існуючі проблеми та виклики в поточній екосистемі даних і сприяти циркуляції даних та інноваціям. Щоб досягти цієї мети, нам потрібно розглянути кілька аспектів, від встановлення стратегій і цілей даних до збору й аналізу відгуків користувачів, уникаючи при цьому деяких поширених пасток. Нам також потрібно розглянути, як використовувати маховик даних великих модельних додатків, побудованих на уніфікованій інфраструктурі персональних і загальнодоступних даних Web3, таким чином досягаючи співпраці та взаємної вигоди між користувачами, постачальниками та платформами. Ми сподіваємося, що ця стаття може надати вам корисну інформацію та ідеї.

Відмова від відповідальності:

  1. Цю статтю передруковано з [FlerkenS]. Усі авторські права належать оригінальному автору [大噬元兽]. Якщо є заперечення щодо цього передруку, будь ласка, зв’яжіться з командою Gate Learn , і вони негайно розглянуть це.
  2. Відмова від відповідальності: погляди та думки, висловлені в цій статті, належать виключно автору та не є жодною інвестиційною порадою.
  3. Переклади статті на інші мови виконує команда Gate Learn. Якщо не зазначено вище, копіювання, розповсюдження або плагіат перекладених статей заборонено.

Поділіться

Криптокалендар

Оновлення проекту
Etherex запустить токен REX 6 серпня.
REX
22.27%
2025-08-06
Запуск продукту NFT AI
Nuls запустить продукт NFT AI в третьому кварталі.
NULS
2.77%
2025-08-06
Запуск dValueChain v.1.0
Bio Protocol планує запустити dValueChain v.1.0 у першому кварталі. Він має на меті створити децентралізовану мережу медичних даних, забезпечуючи безпечні, прозорі та незмінні медичні записи в екосистемі DeSci.
BIO
-2.47%
2025-08-06
Субтитри до відео, згенеровані штучним інтелектом
Verasity додасть функцію субтитрів для відео, створених за допомогою штучного інтелекту, у четвертому кварталі.
VRA
-1.44%
2025-08-06
Підтримка кількох мов VeraPlayer
Verasity додасть багатомовну підтримку до VeraPlayer у четвертому кварталі.
VRA
-1.44%
2025-08-06

Статті на тему

Що таке Coti? Все, що вам потрібно знати про COTI
Початківець

Що таке Coti? Все, що вам потрібно знати про COTI

Coti (COTI) — це децентралізована та масштабована платформа, яка підтримує безперебійні платежі як для традиційних фінансів, так і для цифрових валют.
11/2/2023, 9:09:18 AM
Що таке Стейблкойн?
Початківець

Що таке Стейблкойн?

Стейблкойн — це криптовалюта зі стабільною ціною, яка часто прив’язана до законного платіжного засобу в реальному світі. Візьмемо USDT, наразі найпоширеніший стейблкоїн, наприклад, USDT прив’язаний до долара США, де 1 USDT = 1 USD.
11/21/2022, 7:48:32 AM
Все, що вам потрібно знати про Blockchain
Початківець

Все, що вам потрібно знати про Blockchain

Що таке блокчейн, його корисність, значення шарів і зведень, порівняння блокчейнів і як будуються різні криптоекосистеми?
11/21/2022, 8:25:55 AM
Що таке Gate Pay?
Початківець

Що таке Gate Pay?

Gate Pay — це безконтактна безпечна технологія платежів у криптовалюті без кордонів, повністю розроблена Gate.io. Він підтримує швидкі платежі криптовалютою та є безкоштовним у використанні. Користувачі можуть отримати доступ до Gate Pay, просто зареєструвавши обліковий запис Gate.io, щоб отримувати різноманітні послуги, такі як покупки в Інтернеті, бронювання авіаквитків і готелів, а також розважальні послуги від сторонніх ділових партнерів.
1/10/2023, 7:51:00 AM
Що таке BNB?
Середній

Що таке BNB?

Binance Coin (BNB) — це біржовий токен, випущений Binance, а також корисний токен Binance Smart Chain. Оскільки Binance перетворюється на трійку найкращих криптовалютних бірж у світі за обсягом торгів, разом із нескінченними екологічними додатками на своєму розумному ланцюжку, BNB став третьою за величиною криптовалютою після Bitcoin та Ethereum. У цій статті буде детально описано історію BNB і величезну екосистему Binance, що стоїть за нею.
11/21/2022, 8:55:52 AM
Що таке Wrapped Ethereum (WETH)?
Початківець

Що таке Wrapped Ethereum (WETH)?

Wrapped Ethereum (WETH) – це версія ERC-20 рідної валюти блокчейну Ethereum, Ether (ETH). Токен WETH прив'язаний до оригінальної монети. На кожен WETH в обігу є ETH в резерві. Метою створення WETH є сумісність у мережі. ETH не відповідає стандарту ERC-20, і більшість DApps, створених у мережі, дотримуються цього стандарту. Тому WETH використовується для полегшення інтеграції ETH у програми DeFi.
11/24/2022, 8:49:09 AM
Розпочати зараз
Зареєструйтеся та отримайте ваучер на
$100
!