DApp Store | Centrum Web3 pro události a hry

Populární témata

Robert Youssef

🚨 NOVINKA: Výzkumníci Meta ukázali modelu 2 miliony hodin videa. Žádné štítky. Žádná učebnice fyziky. Žádný dohled. Pak mu ukázali klip, kde objekt zmizí za zdí a už se nikdy nevrátí. Model to označil jako špatné. 🤯 Naučil se trvalost objektu. Konzistence tvaru. Dynamika kolizí. Jen z pozorování. Co je ještě překvapivější: i model trénovaný na pouhém týdnu unikátního videa dosáhl nadnáhodného výkonu při detekci fyzikálních porušení. To není náhoda. To je princip. Klíčový poznatek z článku: toto funguje pouze tehdy, když model predikuje v naučeném prostoru reprezentací, nikoli v surových pixelech. Model musí vytvořit vnitřní světový model, komprimovaný a abstraktní, a předpovídat proti němu. Predikce pixelového prostoru selhává. Multimodální LLM, které uvažují textem, selhávají. Pouze architektura, která vytváří abstraktní reprezentace a zároveň předpovídá chybějící smyslové vstupy, což je něco blízkého tomu, jak neurovědci popisují prediktivní kódování, skutečně získává fyzikální intuici. To znamená, že základní znalosti, které výzkumníci předpokládali, že musí být pevně zakódované, mohou být jen pozorováním ve velkém měřítku. Miminka se učí trvalosti objektů tím, že pozorují věci. Ukazuje se, že stejný princip platí i zde. A teď přichází část, o které nikdo nemluví. Pokud samotné pozorování naučí model pravidlům fyzického světa, co se stane, když stejný princip aplikujete na výrobní systémy? Produkce má také fyziku. Ne gravitace. Ale pravidla jsou stejně konzistentní: které nasazení způsobí incidenty ve 3 ráno, které konfigurační kombinace nebezpečně interagují, které kódové cesty tiše degradují pod zátěží, které změny služeb způsobují selhání dva skoky daleko. Tyto vzory jsou zakódovány v tisících trajektorií. Kódové pushy, metrické přesuny, zákaznické tikety, časové osy incidentů. Většinou nepozorované. Určitě bez označení. Nikdo nepíše runbook, který by říkal "pokud se služba A nasadí s aktivním flagem X a služba B má CPU nad 70 %, latence služby C se během 6 minut zhorší o 40 %." Ale ten vzorec existuje. Je to opakovatelné. A právě teď je to ve vašich datech o pozorovatelnosti, neviditelné, protože nikdo nevytvořil model, který by ho našel. To je ta mezera, kterou se @playerzeroai snaží zmenšit. Ne další testovací běžec. Ne další varovný práh. Model produkčního světa, který se učí, co se láme z nahromaděného pozorování, stejně jako se Metin model naučil gravitaci. Nekontroluje vaše testovací pokrytí. Předpovídá trajektorie selhání. Jeden týden videa stačil k tomu, abych zjistil, že pevné objekty neprocházejí zdmi. Otázkou je, kolik pozorování produkce váš systém potřebuje, než model začne předpovídat, kde se váš systém příště pokazí. Článek Meta naznačuje, že laťka může být nižší, než se očekává.

Tvoje AI tiše zapomíná všechno, co jsi jí řekl. Ne náhodně. Ne nahlas. Systematicky. Začněme rozhodnutími, která jsou nejdůležitější. > Omezení, které jste nastavil před třemi měsíci "nikdy nepoužívat Redis, klient to vetoval po incidentu ve výrobě." Pryč. Omezení oblasti nasazení podle GDPR. Pryč. Limit opakování, který jste empiricky testoval po selhání kaskády. Pryč. > Model ti to nikdy neřekl. Začal používat výchozí nastavení. > Tomu se říká kontextová hnilba. A výzkumníci z Cambridge a nezávislých jen kvantifikovali, jak špatné to je. > Každý produkční AI systém, který běží dostatečně dlouho, nakonec stlačí svůj kontext, aby uvolnil místo pro nové informace. Tato komprese je katastrofálně ztrátová. Testovali to přímo: 2 000 faktů zkomprimovaných na 36,7× nechalo 60 % znalostní základny trvale nenapravitelných. Ne halucinace. Není to špatně. Prostě pryč. Model upřímně hlásil, že už tyto informace nemá. > Pak testovali něco horšího. Do 88kolové konverzace vložili 20 skutečných projektových omezení, takových omezení, která se přirozeně objevují v každém dlouhodobém projektu, a pak aplikovali kaskádovou kompresi přesně tak, jak to dělají produkční systémy. Po jednom kole: 91 % zachováno. Po dvou kolech: 62 %. Po třech kolech: 46 %. > Model pracoval s plnou důvěrou po celou dobu. Generování výstupů, které porušovaly zapomenutá omezení. Žádný chybový signál. Žádné varování. Jen tichý návrat k rozumným výchozím hodnotám, které se ukázaly být špatné pro vaši konkrétní situaci. > Testovali to na čtyřech modelech Frontier. Claude Sonet 4.5, Claude Sonet 4.6, Opus, GPT-5.4. Každý jeden se zhroutil pod tlakem. Tohle není problém modelu. Je to architektonické. → 60 % faktů trvale ztracených po jednom kompresním průchodu → 54 % omezení projektu zmizelo po třech kolech kaskádové komprese → GPT-5.4 klesl na 0 % přesnosti při pouhých 2× kompresi → Dokonce i Opus si ponechal pouze 5 % faktů při 20× kompresi → Paměť v kontextu stojí 14 201 dolarů ročně při 7 000 faktech oproti 56 dolarům ročně u alternativy AI laboratoře to vědí. Jejich řešením jsou větší kontextová okna. Okno s 10milionovými žetony je větší kbelík. Je to pořád kýbl. Zhutnění je nevyhnutelné u každého dlouhodobě funícího systému. Velikost okna určuje jen to, kdy zapomínání začne, ne jestli k němu dojde.

🚨 NOVINKA: vědci zasadili jednoho špatného aktéra do skupiny agentů LLM. Celá síť nedosáhla konsenzu. to je problém byzantských generálů. Čtyřicet let stará noční můra distribuovaných systémů. A teď je to i problém vašeho agenta. v plně neškodných prostředích, bez zlých aktérů, se agenti LLM stále nedokážou sjednotit ke sdíleným hodnotám. A čím víc přidáváte agenty, je to ještě horší. Způsob selhání je výmluvný. Není to jemná korupce hodnot. Není to jeden agent, který tajně vkládá špatnou odpověď. Modelky prostě... zdržovat. Vyprší čas. Chodí v kruhu. Rozhovor nikdy neskončí na souhlasu. to je důležité, protože celá multiagentní AI humbuk předpokládá, že koordinace funguje. autonomní agentní roje, spolupracující řešení problémů, decentralizované AI systémy. vše předpokládá, že pokud dáte více LLM do místnosti a dáte jim protokol, dospějí ke společnému rozhodnutí. Byzantský konsensus je jedním z nejstarších a nejvíce studovaných problémů v distribuovaných systémech. Klasické algoritmy to vyřešily před desítkami let s přísnými matematickými zárukami. otázkou bylo, zda agenti LLM dokážou dosáhnout totéž prostřednictvím komunikace v přirozeném jazyce místo formálních protokolů. Odpověď, alespoň prozatím, je ne. A důvod stojí za to si s tím sedět. Tradiční konsenzuální algoritmy fungují, protože každý uzel následuje identický deterministický protokol. LLM jsou stochastické. stejný prompt vytváří různé výstupy napříč běhy. Dohoda, která platí ve 3. kole, se může rozpadnout ve 4. kole, protože agenti po přečtení odpovědí vrstevníků přehodnotí své uvažování. To je základní nesoulad: konsenzuální protokoly předpokládají deterministické stavové automaty. LLM jsou pravý opak. Také to znamená, že "více agentů = lepší odpovědi" má strop, který nikdo neměří. Při určité velikosti skupiny převažují koordinační režie a selhání konvergence nad jakýmkoli přínosem z různých perspektiv. Praktické důsledky jsou nepříjemné pro každého, kdo buduje multiagentní systémy pro úkoly s vysokými sázkami. Spolehlivá dohoda není jen tím, že by chytří agenti začali komunikovat. musí být explicitně navržena, s formálními zárukami, ne doufat, že bude existovat. Zavádíme multiagentní systémy do financí, zdravotnictví, autonomní infrastruktury. A problém konsenzu, nejzákladnější koordinační primitiv, ještě není vyřešen.

Top

Hodnocení

Oblíbené