Тъй като изкуственият интелект (ИИ) достига върха на своята популярност, изследователи предупреждават, че индустрията може да бъде ударена от липса на данни за обучение – горивото, с което се захранват тези мощни системи. Това може да забави развитието им, особено на големите езикови модели, и дори да промени траекторията на революцията в областта на ИИ.
Но защо потенциалната липса на данни е проблем, като се има предвид колко много са те в мрежата? И има ли начин да се справим с този риск?
Защо висококачествените данни са важни
Нуждаем се от много данни, за да обучим мощни, точни и висококачествени алгоритми за ИИ. Например ChatGPT е обучен с 570 гигабайта текстови данни или около 300 милиарда думи.
По подобен начин алгоритъмът на Stable diffusion (който стои зад много приложения за генериране на изображения като DALL-E, Lensa и Midjourney) е обучен върху набор от данни LIAON-5B, който се състои се от 5,8 милиарда изображения всяко с добавено текстово описание. Ако алгоритъм е обучен върху недостатъчно количество данни, той ще даде неточни резултати.
Колко качествени са данните за обучение също е много важно. Данни с ниско качество, като например публикации в социалните мрежи или размазани снимки, са лесни за набавяне, но не са достатъчни за обучение на високопроизводителни ИИ модели.
Текстът, взет от социалните медии, може да е пристрастен или предубеден, или да включва дезинформация или незаконно съдържание, което може след това да бъде възпроизведено от модела. Например, когато Microsoft се опита да обучи своя бот, използвайки съдържание от Twitter, системата се научи да произвежда расистки и сексистки резултати.
Ето защо програмистите търсят висококачествено съдържание, като например текстове от книги, онлайн статии, научни статии, Wikipedia и определено филтрирано уеб съдържание. Асистентът на Google е обучен върху 11 000 романтични романа, взети от сайта за самопубликуване Smashwords, за да стане по-разговорлив.
Имаме ли обаче достатъчно данни?
Индустрията обучава системите с все по-големи набори от данни, поради което сега разполагаме с високоефективни модели като ChatGPT или DALL-E 3. Но в същото време изследванията показват, че запасите от онлайн данни нарастват много по-бавно от наборите от данни, използвани за обучението на изкуствения интелект.
В статия, публикувана миналата година, група изследователи прогнозират, че ако настоящите тенденции в обучението се запазят, висококачествените текстови данни ще свършат преди 2026 г. Те също така смятат, че нискокачествените езикови данни ще бъдат изчерпани някъде между 2030 и 2050 г., а нискокачествените изображения – между 2030 и 2060 г.
Според счетоводната и консултантска група PwC до 2030 г. изкуственият интелект може да допринесе за световната икономика с до 15,7 трилиона щатски долара. Но изчерпването на използваемите данни може да забави развитието му.
Трябва ли това да ни притеснява?
Макар че горните точки могат да разтревожат някои почитатели на технологията, ситуацията може да не е толкова лоша, колкото изглежда. Съществуват много неизвестни за това как ще се развиват моделите в бъдеще, както и няколко начина за справяне с риска от недостиг на данни.
Една от възможностите е програмистите да подобрят алгоритмите, така че те да използват по-ефективно данните, с които вече разполагат. Вероятно през следващите години те ще открият как да обучават високоефективни системи, като използват по-малко данни, а вероятно и по-малко изчислителна мощност. Това ще помогне и за намаляване на въглеродния отпечатък на изкуствения интелект.
Друга възможност предходенте ИИ да се използва за създаване на синтетични данни за обучение на бъдещите ИИ. С други думи, програмистите могат просто да генерират данните, от които се нуждаят, подбрани така, че да отговарят на техния конкретен модел. Няколко проекта вече използват синтетично съдържание, което често се набавя от услуги за генериране на данни, като например Mostly AI. Това ще става все по-често срещано в бъдеще.
Разработчиците също така търсят съдържание извън безплатното онлайн пространство, като например, от големи издателства и офлайн хранилища. Помислете за милионите текстове, публикувани преди появата на интернет; предоставени в цифров вид, те биха могли да осигурят нов източник на данни.
News Corp, един от най-големите собственици на новинарско съдържание в света (достъпът до голяма част от което е платен), неотдавна заяви, че преговаря с компании да предостави съдържанието си за обучение. Такива сделки ще принудят компаниите в бранша да плащат за данни за обучение – докато досега те ги извличаха безплатно от интернет.
Много създатели на съдържание протестират срещу неразрешеното използване на работата им за обучение на модели, като някои от тях заведоха дела срещу компании като Microsoft, OpenAI и Stability AI. Възнаграждение за техния труд може да помогне за възстановяване на дисбаланса на силите, който съществува между творците и компаниите за изкуствен интелект.