Elonas Muskas sutinka, kad išnaudojome AI mokymo duomenis

Elonas Muskas sutinka su kitais AI ekspertais, kad liko mažai realaus pasaulio duomenų, leidžiančių mokyti dirbtinio intelekto modelius.
„Dabar iš esmės išnaudojome bendrą žmogaus žinių sumą… AI mokymuose“, – sakė Muskas per tiesioginį pokalbį su Stagwell pirmininku Marku Pennu, kuris buvo transliuojamas X vėlai trečiadienį. „Tai atsitiko iš esmės pernai“.
Muskas, kuriam priklauso dirbtinio intelekto įmonė xAI, gruodžio mėn. kalbėdamas pakartojo buvusio OpenAI vyriausiojo mokslininko Iljos Sutskeverio temas NeurIPS, mašininio mokymosi konferencijoje. Sutskeveris, kuris teigė, kad dirbtinio intelekto pramonė pasiekė tai, ką jis vadino „pikčiausiais duomenimis“, prognozavo, kad mokymo duomenų trūkumas privers atsisakyti šiandieninio modelių kūrimo būdo.
Iš tiesų, Muskas pasiūlė, kad sintetiniai duomenys – duomenys, sukurti pačių AI modelių – yra kelias į priekį. „Vienintelis būdas papildyti (realaus pasaulio duomenis) yra sintetiniai duomenys, kur AI sukuria (mokymo duomenis)“, – sakė jis. „Su sintetiniais duomenimis… (AI) savaime įvertins save ir atliks šį savarankiško mokymosi procesą.
Kitos įmonės, įskaitant technologijų milžinus, tokius kaip „Microsoft“, „Meta“, „OpenAI“ ir „Anthropic“, jau naudoja sintetinius duomenis, kad mokytų pavyzdinius AI modelius. „Gartner“ apskaičiavo, kad 2024 m. 60 % AI ir analizės projektams naudotų duomenų buvo sukurti sintetiniu būdu.
„Microsoft“ „Phi-4“, kuris trečiadienio pradžioje buvo sukurtas atviruoju šaltiniu, buvo apmokytas sintetinių duomenų, o ne realaus pasaulio duomenų. Taip pat buvo „Google“ „Gemma“ modeliai. „Anthropic“ panaudojo tam tikrus sintetinius duomenis, kad sukurtų vieną našiausių sistemų „Claude 3.5 Sonnet“. „Meta“ tiksliai sureguliavo savo naujausią „Llama“ modelių seriją, naudodama dirbtinio intelekto sugeneruotus duomenis.
Mokymas apie sintetinius duomenis turi ir kitų privalumų, pavyzdžiui, sutaupoma. AI startuolis „Writer“ teigia, kad jo „Palmyra X 004“ modelis, sukurtas naudojant beveik visiškai sintetinius šaltinius, kainavo tik 700 000 USD, palyginti su 4,6 mln. USD už panašaus dydžio OpenAI modelį.
Tačiau yra ir trūkumų. Kai kurie tyrimai rodo, kad sintetiniai duomenys gali sukelti modelio žlugimą, kai modelis tampa mažiau „kūrybingas“ ir labiau šališkas, o tai galiausiai rimtai pažeidžia jo funkcionalumą. Kadangi modeliai sukuria sintetinius duomenis, jei šiems modeliams mokyti naudojami duomenys turi paklaidų ir apribojimų, jų išvestis bus panašiai sutepta.