Интернет става тесен за AI
През 2011 г. Марк Андресен, чиято компания за рисков капитал Andreessen Horowitz тогава започва да инвестира в някои от най-големите AI стартъпи, прогнозира, че софтуерът “ще изяде” света. Повече от десетилетие по-късно този сценарий не просто е повече от възможен – той на практика се сбъдва.
Новата вълна стартиращи AI компании са изправени пред екзистенциален въпрос – какво ще се случи с обучението на големите езикови модели, ако няма достатъчно данни?
Големите езикови модели, които захранват изкуствения интелект, буквално са ненаситни консуматори на данни. Инвестират се милиарди долари в центрове за данни, които изискват огромна изчислителна мощ, за да обучават моделите с изкуствен интелект.
Данните обаче са ограничено количество и вече започват да се изчерпват. Компаниите извличат всяка възможна информация в усилията си да обучават все по-мощните модели изкуствен интелект – понякога без разрешение, понякога чрез лицензионни споразумения, транскрибиране на видеоклипове или субтитри, публикации в социалните мрежи, книги, новинарски статии, защитени с авторски права.
Чатботът ChatGPT на OpenAI, който даде тласъкът на AI вълната, например вече е обучен на база целия интернет – около 300 млрд. думи, в които влизат статиите в Wikipedia и публикациите във форума Reddit.
В един момент няма да остане нищо, върху което AI да бъде обучен. Според изследователи технологичният свят е съвсем близо до тази задънена улица, която ще бъде достигната още през 2026 г. Това превръща създаването на повече данни за обучение на AI във въпрос за милиарди долари.
Едно от възможните решения – създаването на изкуствени данни.
Такъв подход предприема стартъп компанията Gretel, която започва да работи по този въпрос преди около 5 години. Компанията създава т.нар. “синтетични данни”, генерирани от изкуствен интелект, които имитират фактическа информация. В продължение на години стартъпът, който сега се оценява на 350 млн. долара, предоставя синтетични данни на компании, работещи с поверителна лична информация (например пациенти). Сега обаче главният изпълнителен директор Али Голшан вижда възможност да снабдява изпитващите недостиг на данни компании за изкуствен интелект, които да обучават своите модели върху тях.
Този подход “AI захранва AI“ вече е възприет от компании като Anthropic, Meta, Microsoft и Google, които използват синтетични данни в някаква степен за обучение на своите модели.
Синтетичните данни обаче имат своите недостатъци. Тази информация може да доведе до по-големи отклонения и да увеличи възможността на AI да халюцинира, а моделите, които са обучени върху фалшиви новини да не успеят да произведат нищо ново. Експерти наричат това “спирала на смъртта”. Това може да се избегне – с известно количество истински и висококачествени данни.
Друг начин за заобикаляне на стената са хората. Някои стартъпи наемат армии, за да направят съществуващите данни по-полезни за изкуствения интелект или да създават повече нови данни. Най-голямата компания в областта на така нареченото “етикетиране на данни“ е гигантът Scale AI, който предоставя анотирани данни на водещи AI компании като OpenAI, Cohere и Character AI. Компанията има гигантска дейност, в която са заети около 200 000 души по цял свят.
Базираната в Амстердам Toloka прави същото, но в по-голям мащаб с екип от 9 млн. души на свободна практика, които етикетират данни или създават данни от нулата – обобщават информация на нови езици, транскрибират аудио. Toloka работи с експерти по физика, учени, юристи и софтуерни инженери, за да създава оригинални данни, специфични за дадена област, за по-нишови модели.
Човешкият фактор обаче изисква много голям ресурс. Трудно е да се съберат стотици хора от различни държави, да се провери дали работата им е точна и безпристрастна и да се преведе на достъпен и разбираем за AI моделите език. Освен това много от служителите не са добре платени.
Най-лесното решение на проблема с недостига на данни е може би най-очевидното: да се използват по-малко данни.
Въпреки че в момента секторът изпитва огромен недостиг, някои изследователи смятат, че един ден усъвършенстван AI може да не се нуждае от толкова голям обем от данни. Според учените проблемът е не толкова количеството, колкото качеството и ефективността а информацията. И въпреки че това схващане не е общоприето, някои компании в индустрията вече започват да поглеждат към алтернатива и да загърбват масовите модели. Вместо да се опитват да създават големи езикови модели, които да се конкурират с OpenAI или Anthropic, много стартиращи компании за изкуствен интелект създават по-малки, по-специфични модели, които изискват по-малък набор от данни. Mistral AI например наскоро пусна Mathstral – модел, предназначен да се справя отлично с математически задачи. Дори OpenAI се включва в играта на мини модели с пускането на GPT-4o mini.
Автор: Раши Шривастава