В подземната надпревара на Big Tech за закупуване на данни за обучение на AI
В своя пик в началото на 2000-те години Photobucket беше най-добрият сайт за хостване на изображения в света. Медийният гръбнак за някога горещи услуги като Myspace и Friendster, можеше да се похвали със 70 милиона потребители и представляваше почти половината от онлайн пазара на снимки в САЩ.

КЛЮЧОВИ ФАКТИ
- Днес само 2 милиона души все още използват Photobucket, според инструмента за проследяване на анализи Similarweb. Но генеративната AI революция може да му даде нов живот.
- Главният изпълнителен директор Тед Леонард, който управлява компанията от 40 души от Едуардс, Колорадо, каза пред Ройтерс, че преговаря с множество технологични компании за лицензиране на 13 милиарда снимки и видеоклипове на Photobucket, които да бъдат използвани за обучение на генеративни AI модели, които могат да произвеждат ново съдържание в отговор към текстови подкани.
- Той е обсъждал ставки между 5 цента и 1 долар на снимка и повече от 1 долар на видеоклип, като цените варират в широки граници както в зависимост от купувача, така и в зависимост от вида на търсените изображения.
- Photobucket отказа да идентифицира потенциалните си купувачи, позовавайки се на търговска поверителност. Продължаващите преговори, които не са докладвани по-рано, предполагат, че компанията може да седи върху съдържание на стойност милиарди долари и дават поглед върху оживения пазар на данни, който възниква в бързината да доминира генеративната AI технология.
- Технологични гиганти като Google, Meta и подкрепен от Microsoft OpenAI първоначално използва купища данни, извлечени от интернет безплатно, за обучение на генеративни AI модели като ChatGPT, които могат да имитират човешката креативност. Те казаха, че това е както законно, така и етично, въпреки че са изправени пред съдебни дела от поредица от притежатели на авторски права за тази практика.
- В същото време тези технологични компании също тихомълком плащат за съдържание, заключено зад платени стени и екрани за влизане, което води до скрита търговия с всичко – от чатове до отдавна забравени лични снимки от избледнели приложения за социални медии.
- „В момента има бързане да се търсят притежатели на авторски права, които имат частни колекции от неща, които не са достъпни за изтриване“, каза Едуард Кларис от адвокатската кантора Klaris Law, която съветва собственици на съдържание за сделки на стойност десетки милиони долари на парче за лицензиране на архиви от снимки, филми и книги за обучение на AI.
- Ройтерс разговаря с повече от 30 души, запознати със сделките за данни с изкуствен интелект, включително настоящи и бивши ръководители на участващи компании, адвокати и консултанти, за да предостави първото задълбочено проучване на този нововъзникващ пазар – подробно описание на видовете съдържание, което се купува, цените за материализиране, плюс възникващи опасения относно риска личните данни да си проправят път в моделите на AI без знанието или изричното съгласие на хората.
- OpenAI, Google, Meta, Microsoft, Apple и Amazon отказаха да коментират конкретни сделки с данни и дискусии за тази статия, въпреки че Microsoft и Google насочиха Ройтерс към кодексите за поведение на доставчиците, които включват разпоредби за поверителност на данните.
- Google добави, че ще „предприеме незабавни действия, включително прекратяване“ на споразумението си с доставчик, ако открие нарушение.
- Много големи фирми за пазарни проучвания казват, че дори не са започнали да оценяват размера на непрозрачния пазар на данни за AI, където компаниите често не разкриват споразумения. Тези изследователи, които го правят, като Business Research Insights, определят пазара на приблизително 2.5 милиарда долара сега и прогнозират, че той може да нарасне до близо 30 милиарда долара в рамките на едно десетилетие.
ГЕНЕРАТИВНИ ДАННИ СА ЗЛАТНА ТРЕСКА
Грабежът на данни идва, когато създателите на големи генеративни AI „основни“ модели са изправени пред нарастващ натиск да отчитат огромните количества съдържание, което подават в своите системи, процес, известен като „обучение“, който изисква интензивна изчислителна мощност и често отнема месеци, за да завърши .
Технологичните компании казват, че технологията би била непосилна, ако не могат да използват огромни архиви от безплатни данни за уеб страници, като тези, предоставени от хранилището с нестопанска цел Common Crawl, което те описват като „публично достъпно“.
Техният подход все пак предизвика вълна от съдебни дела за авторски права и регулаторен натиск, като същевременно подтикна издателите да добавят код към уебсайтовете си, за да блокират изтриването.
В отговор създателите на AI модели започнаха да хеджират рисковете и да осигуряват веригите за доставка на данни, както чрез сделки със собственици на съдържание, така и чрез разрастващата се индустрия от брокери на данни, които се появиха, за да задоволят търсенето.
В месеците след дебюта на ChatGPT в края на 2022 г., например, компании, включително Meta, Google, Amazon и Apple, сключиха споразумения с доставчика на стокови изображения Shutterstock за използване на стотици милиони изображения, видеоклипове и музикални файлове в неговата библиотека за обучение, според лице, запознато с договореностите.
Сделките с големи технологични фирми първоначално варираха от 25 до 50 милиона долара всяка, но повечето по-късно бяха разширени, каза главният финансов директор на Shutterstock Джарод Яхес пред Ройтерс. По-малките технологични играчи последваха примера, стимулирайки нов „взрив от активност“ през последните два месеца, добави той.
Яхес отказа да коментира индивидуалните договори. Споразумението с Apple и размерът на другите сделки не са били публикувани досега.
Конкурент на Shutterstock, Freepik, каза, че е сключил споразумения с две големи технологични компании за лицензиране на по-голямата част от архива си от 200 милиона изображения на 2 до 4 цента на изображение. Има още пет подобни сделки в процес на подготовка, каза изпълнителният директор Хоакин Куенка Абела, отказвайки да идентифицира купувачите.
OpenAI, ранен клиент на Shutterstock, също е подписал лицензионни споразумения с поне четири новинарски организации, включително Асошейтед прес и Axel Springer. Thomson Reuters, собственикът на Ройтерс, отделно каза, че е сключил сделки за лицензиране на новинарско съдържание, за да помогне за обучението на AI големи езикови модели, но не разкри подробности.
СЪДЪРЖАНИЕ С „ЕТИЧЕН ИЗТОЧНИК“
Появява се и индустрия от специализирани фирми за данни с изкуствен интелект, които осигуряват права върху съдържание от реалния свят като подкасти, кратки видеоклипове и взаимодействия с дигитални асистенти, като същевременно изграждат мрежи от краткосрочни служители по договор за създаване на персонализирани визуални и гласови проби от нулата.
Базираната в Сиатъл Defined.ai лицензира данни на редица компании, включително Google, Meta, Apple, Amazon и Microsoft, каза главният изпълнителен директор Даниела Брага.
Цените варират в зависимост от купувача и вида на съдържанието, но Брага каза, че компаниите обикновено са готови да плащат от 1 до 2 долара за изображение, 2 до 4 долара за кратко видео и 100 до 300 долара на час за по-дълги филми. Пазарната цена за текст е 0,001 долара на дума, добави тя. Изображенията на голота, които изискват най-чувствителна обработка, струват от 5 до 7 долара.
Defined.ai разделя тези приходи с доставчиците на съдържание, каза Брага. Компанията предлага на пазара своите набори от данни като „с етичен източник“, тъй като получава съгласие от хора, чиито данни използва, и премахва лична информация, добави тя.
Един от доставчиците на фирмата, базиран в Бразилия предприемач, каза, че плаща на собствениците на снимките, подкастите и медицинските данни, които получава, около 20% до 30% от общата сума на сделката.
Най-скъпите изображения в портфолиото му са тези, използвани за обучение на AI системи, които блокират съдържание като графично насилие, забранено от технологичните компании, каза доставчикът, който говори при условие, че компанията му не е идентифицирана, позовавайки се на търговска чувствителност.
За да изпълни тези заявки, той получава изображения на местопрестъпления, конфликтно насилие и операции – главно от полиция, фоторепортери на свободна практика и съответно студенти по медицина – често на места в Южна Америка и Африка, където разпространението на графични изображения е по-често срещано, каза той.
Той каза, че е получил снимки от фотографи на свободна практика в Газа от началото на войната там през октомври, плюс някои от Израел в началото на военните действия.
Неговата компания наема медицински сестри, свикнали да виждат жестоки наранявания, за да анонимизират и коментират изображенията, които са смущаващи за необучени очи, добави той.
„ЩЕ ГО НАМЕРЯ ЗА РИСКОВО“
Въпреки че лицензирането може да разреши някои правни и етични проблеми, възкресяването на архивите на стари интернет имена като Photobucket като гориво за най-новите модели на AI повдига други, особено по отношение на поверителността на потребителите.
AI системите са хванати да изхвърлят точни копия на своите данни за обучение, изплювайки например водния знак на Getty Images, дословни параграфи от статии в New York Times и изображения на реални хора. Това означава, че лични снимки или интимни мисли на човек, публикувани преди десетилетия, биха могли потенциално да се окажат в генериращи AI резултати без предизвестие или изрично съгласие.
Главният изпълнителен директор на Photobucket Леонард казва, че е на солидна правна основа, цитирайки актуализация на условията за обслужване на компанията през октомври, която й предоставя „неограниченото право“ да продава всяко качено съдържание с цел обучение на AI системи. Той вижда данните за лицензиране като алтернатива на продажбата на реклами.
„Трябва да платим сметките си и това може да ни даде възможност да продължим да поддържаме безплатни акаунти“, каза той.
Брага от Defined.ai каза, че избягва да придобива съдържание от “платформени” компании като Photobucket и предпочита да извлича снимки в социалните медии от влиятелни лица, които ги създават, за които тя каза, че имат по-ясни претенции за лицензионни права.
„Бих го намерил за много рисковано“, каза Брага за съдържанието на платформата. „Ако има някакъв AI, който генерира нещо, което прилича на снимка на някой, който никога не е одобрявал, това е проблем.“
Photobucket не е единствената сред платформите, които приемат лицензирането. Компанията-майка на Tumblr Automattic каза миналия месец, че споделя съдържание с „избрани AI компании“. През февруари Ройтерс съобщи, че Reddit е сключила сделка с Google, за да направи съдържанието си достъпно за обучение на AI модели на последния.
Преди първоначалното си публично предлагане през март Reddit разкри, че неговият бизнес с лицензиране на данни е обект на разследване от Федералната търговска комисия на САЩ и призна, че може да попадне в противоречие с развиващите се разпоредби за поверителност и интелектуална собственост.