[#16]

Zdražuje se AI? Spíš se zpřísňují podmínky — cena per token klesá.

31. května 202656min

YouTube Apple Podcasts Spotify Amazon Music Deezer RSS Feed

Přečti si tuhle epizodu jako článek

Shrnutí a klíčové myšlenky v psané podobě na našem Substacku.

Souhrn

Zdražuje se AI, nebo jde naopak cena dolů? Filip a Jindřich rozebírají, proč se AI firmy přesouvají od all-you-can-eat předplatného k usage-based pricingu za milion tokenů — a proč přitom každý z nás platí za AI čím dál víc. Vysvětlují Jevonsův paradox v kontextu tokenů, rozebírají cyklické investice v AI průmyslu (tzv. křemíkový ouroboros), diskutují o energetické náročnosti datacenter a gigawattových apetítech AI firem. Na závěr řeší, jak v téhle situaci ušetřit — přepínáním modelů, edge AI a lokálním provozem.

Transcript

Filip: Za mě je tady trošku zavádějící mluvit o tom, že se zdražuje. Já bych spíš řekl, že se zpřísňují tyhle podmínky.

Jindřich: Když si něco zlevní, tak ta spotřeba ve skutečnosti vzroste. A to je přesně to, čeho jsme v tuhle chvíli svědky.

Filip: Drtivá většina AI firem, a možná si troufnu tvrdit, že všechny, jsou ztrátové. Žijou v tuhle chvíli z investorských peněz.

Jindřich: My jsme vlastně furt na počátku té umělé inteligence.

Filip: A možná by se tenhle díl mohl jmenovat zlevňování AI.

Jindřich: Pro jednu soukromou společnost by to bylo jako jedna jaderná elektrárna.

Filip: Právě posloucháte Deeplink Show.

Jindřich: Čau chlape, vítej u dalšího dílu podcastu Deeplink Show. Zdravím i naše posluchače. Pojďme dneska trošku rozebrat téma zdražování umělé inteligence. V poslední době totiž máme pocit, že nám společnosti trochu zařezávají kvóty a že nám zdražují jednotlivé tiery. Pojďme se ale podívat, jestli to je skutečně pravda — porovnáme si trochu historii a zkusme se dobrat toho, jestli ta naše domněnka, že se nám umělá inteligence zdražuje, je validní, nebo jestli ty faktory jsou trochu někde jinde. Pojďme se do toho ponořit.

Filip: Čau Jindro, zdravím tebe, zdravíme naše posluchače. Zdražování AI, to je podle mě teďka obrovský téma, mluví o tom prakticky všichni. Za mě — já to cítím taky, že se ty limity utahujou, ale to je přesně ono: já vždycky říkám, že se utahujou limity těch volných plánů, protože dneska je spousta těch předplatných extrémně dotovaných, to je potřeba si uvědomit. Ta cenovka se nezvyšuje per token, ale spíš se utahují limity free plánu, který je vlastně dotovaný těma firmama. Když to vezmu jmenovitě, tak poslední věc, o které jsem i točil video — Anthropic oznámil, že od 15.6. přestane podporovat některá využití Claude subscription v tom čtyřhodinovém a týdenním okně, ale že se ti to bude počítat do extra usage, což znamená, že se to bude normálně účtovat přesně podle toho, kolik stojí ten jeden milion tokenů. Stejně, jako bys to volal přes API. A je to pro všechny use case toho programmatic use, což znamená, že když voláš Claude s tím pomlčka P, což se dá přetransformovat do toho, že to máš v nějaké aplikaci, jako je třeba Pencil nebo Conductor, nad tím máš udělané nějaké vlastní UI, tak v tu chvíli už se to lidem nebude počítat do předplatného, ale bude to extra usage. Stejně tak nemůžeš — to už je teda nějakou dobu, pár měsíců — používat předplatné Claude v jiných tzv. agentic harnesses, což je OpenClaw, to byla ta největší kauza, když to Anthropic najednou zařízl s OpenClaw. A zase, je to jenom zpřísnění podmínek, takže za mě je tady trošku zavádějící mluvit o tom, že se zdražuje, já bych spíš řekl, že se zpřísňují tyhle podmínky. Jak ty to vnímáš, tedy tu situaci?

Jindřich: Když už jsi to téma nakousl — jak si vysvětluješ, že Anthropic teda musel zařizovat limity, velmi pravděpodobně kvůli tomu, aby to byl sustainable business? A najednou naběhl OpenAI a řekl: jo kluci, pojďte tady naše subscription pro OpenClaw používat.

Filip: Hele, já si to vysvětluju jako čistý marketing. Zkrátka, myslím si, že Anthropic byl extrémně oblíbený u vývojářů — teď je hodně kontroverzní, ale v tu dobu byl extrémně oblíbený. Claude Code neuvěřitelným tempem vystřelil nahoru a OpenAI vlastně žilo v extrémním stínu pod Anthropikem. No a teďka Anthropic udělal nějaký nemilý krok — řekli: ne, prostě kvůli tomu, že... Ono to bylo tím, že neměli dostatečný výpočetní výkon. Jedna věc jsou finance, ale druhá věc je, že reálně neměli ten výpočetní výkon, protože včas nenakoupili ty grafiky nebo čipy, datacentra si nepronajali dopředu, takže reálně bojovali s tím, že nemají výkon. Takže to museli udělat. No a OpenAI přišlo: super, vylepšíme si karmu, naženeme ty vývojáře k nám. A myslím, že to zafungovalo docela hezky, že se jim líp podařilo pushnout ten Codex, ty jejich modely — protože byť ty kroky Anthropicu chápu, tak spoustu vývojářů odradily, prostě se jim ty kroky nelíbily.

Jindřich: Vím, že to opakujeme téměř v každém díle, ale my jsme vlastně furt na počátku té umělé inteligence. Tudíž to, co tady je měsíc, tak my si na to zvykneme a už to považujeme za samozřejmost. A stejně tak se dá mluvit o těch all-you-can-eat tierech — že měsíčně něco platím a mám jakousi neomezenou kapacitu. Takhle to možná za nějakých okolností nějaký čas zpátky bylo, když ještě bylo kontextové okno výrazně menší a používali jsme prakticky jenom chatovací asistenty, což znamená, že jsme pálili významně menší množství tokenů. Ale teď poslední dobou, jak se ty kohoutky začínají utahovat, se vlastně začíná trochu formovat budoucnost samotného pricingu. A už teď se dá velmi pravděpodobně říct, že už to nikdy nebude all-you-can-eat, ale vždycky tam budou nějaké limity. A dost pravděpodobně třeba ty limity budou větší, ale budeš si muset zaplatit mnohem dražší tier — jako například už teď má Anthropic ten dvousetdolarový.

Filip: Jedna věc jsou vyšší tiery a druhá věc je jasný signál k tomu usage-based pricingu, což je vlastně to účtování per milion tokenů. Protože i Anthropic — teď nevím, jestli to je od 15.6., nebo už to je v platnosti — oznámil, že enterprise zákazníci už nedostanou ta subscription okna, ten all-you-can-eat buffet, jak jsi říkal, ale bude se jim používat čistě API-based billing. To znamená, že budou účtovaní fakt za každý token. A směřují tam i ostatní firmy. GitHub něco podobného oznámil, OpenAI — sice, pokud se nepletu, neoznámili tyhle věci, ale minimálně extrémně snížili limity na tom jejich Plus předplatném a myslím, že Max bude taky následovat. Ono to dává smysl — ten usage-based pricing za token je podle mě jediná metrika, která je pro ty firmy predikovatelná, protože ta firma má reálné náklady s tím, když ten model použiješ. To není jako klasický software, na jaký jsme byli zvyklí: když máš nějaký SaaS, děláš faktury, tak každá vytvořená faktura tě nestojí spoustu nákladů, to jsou strašně malé položky, takže to seš schopen lidem dát v balíku a říct: používejte to, jak chcete. Často ty firmy pak jenom třeba limitovaly počet API callů u nějakých automatizací, protože to lidi začali hodně využívat a výkon tam pak mohl trpět. Ale tady reálně s každým provoláním modelu vznikají poměrně velké náklady na energii, ty grafiky nebo čipy zastarávají a tak dál. Takže já si myslím, že ten pricing za každý token je jediný do budoucna udržitelný.

Jindřich: Pokud se nepletu, tak jak jsi říkal, že už se noví uživatelé nebudou moct přihlásit na ten all-you-can-eat, respektive subscription tier — tak Copilot to už takhle má, to známe možná měsíc zpátky. Co se týče predikovatelnosti nákladů, tak extrémně obtížné je to pro ty zprostředkovatele, respektive pro firmy jako OpenAI, které nabízí model. Ale na druhou stranu se to stává obtížně predikovatelným i pro ty konzumenty — společnosti, které mají předplacený například Claude Code, budou platit ten měsíční subscription, k tomu budou mít asi nějakou extra usage, která velmi pravděpodobně bude taky omezená ze strany té firmy. Pokud některé společnosti dávají zaměstnancům neomezený Claude Code, tak to může být dost příjemný benefit. To je asi jiná diskuze, ale myslím si, že jeden z velkých benefitů, který do budoucna budou firmy nabízet, tak je osobní plán umělé inteligence — už to nebude pizza day a fotbálek v kanceláři, ale bude to tohle. No ale zpátky k té myšlence: ty společnosti tím, že nastaví tenhle pricing, tak tu obtížnější predikci trochu přesouvají na ty konzumenty. Což znamená, že jeden měsíc může mít firma XY náklady na AI a na všechny koding asistenty, a druhý měsíc to může být diametrálně jinak.

Filip: Jo, ale ono to dává smysl. Vždyť výrobní fabriky taky neplatí elektřinu nějakou subskripcí, ale máš tam usage-based pricing za to, co jsi spotřeboval. A myslím si, že ta elektřina může být zajímavá paralela: že se třeba dočkáme různých oken, kdy bude levnější využívat tu AI — protože u elektřiny to máš podobně, máš noční proud, protože v tu chvíli se neodebírá tolik ze sítě, takže je v zájmu té energetické společnosti, aby lidi víc odebírali, takže ti to dá levnějc. A Anthropic s něčím podobným taky experimentoval — měli ty peak hours, kdy ti výrazně snížili tvoje pětihodinové okno, a mimo peak hours to naopak zvýšili. Tohle myslím, že už neplatí, oni si teď se SpaceX nasmlouvali celé to datacentrum Colossus, takže limity docela rozvolnili, ale bylo to tam předtím. Takže myslím, že ta paralela s elektřinou je tady vlastně dost dobrá.

Jindřich: No a — promiň, že skáču — ale jak jsem říkal na začátku: elektřina je tady s námi 200 let nebo jak dlouho, takže ta společnost už přesně ví, kolik bude čerpat elektřiny, kolik potřebuje, mají přesně změřeno, jaký stroj jaký příkon potřebuje. Zatímco u umělé inteligence jsme furt na začátku, ty společnosti každý měsíc experimentují, zkoušejí jiný nástroj, který má odlišný pricing. Jasně, tohle se všechno velmi pravděpodobně časem srovná, ale v tuhle chvíli tam pravděpodobně ještě nejsme.

Filip: Rozhodně. A podle mě to bude mít za následek to, že pak budeš u těch věcí víc obezřetný — protože dneska, já to dělám taky, mám subscription za 200 dolarů, a když vím, že to okno stejně nevyplácám, tak použiju Opus i na ten nejjednodušší úkol. Proč ne, no. A to podle mě dělá dneska spousta lidí — koupíš si stodolarový nebo dvousetdolarový plán, dáš si tam Opus a vůbec to neřešíš. Do budoucna se tohle bude muset víc hlídat, protože to je jeden ze způsobů — my se k tomu pak dostaneme — jak to optimalizovat. A k tomu stackingu intuitivních modelů se velmi pravděpodobně dostaneme později. Jo, a co je zajímavé říct — ty jsi tady mluvil o té těžké predikovatelnosti pro ty firmy. Jedna věc je cena per milion tokenů, ale druhá věc je, že nejsi schopný dopředu změřit, kolik tokenů se sežere, to je ten rozdíl oproti elektrické energii. A třetí věc: zajímavý fenomén byl teď u nového modelu Opus 4.7, kdy sice cenovka zůstala stejná, ale ten tokenizer, který převádí data na tokeny, tak tam plus minus vycházelo, že má mít o nějakých 35 % víc vstupních tokenů na ten prompt než ten původní. Takže vlastně jako bys měl delší prompt, který ti zvýšil spotřebu. Takže pro ty firmy to bude problém, ale myslím si, že se k tomu budou muset dostat. A delší věc je, že ti postupně ty ceny za inference trochu klesají. Není to tak, že by docházelo ke zdražování per milion tokenů. Já to vnímám tak, že dneska máš čím dál silnější modely za stejnou nebo nižší cenu, což je pozitivní trend.

Jindřich: Čímž se plynule možná dostáváme k další části, o které jsme chtěli mluvit, a to je přesně cena té inference za milion tokenů. Když vezmu rok 2023, tak to stálo nějakých 30 dolarů za milion tokenů. Dneska se dostáváme pod jeden dolar, což je vlastně tisíckrát levnější, než to bylo před třemi roky. Což je neuvěřitelně strmý pád. A myslím si, že je důležité říct, že — když se mluvilo o ceně umělé inteligence, tak se vždycky říká, že je extrémně drahé to trénování těch modelů. Ale ve skutečnosti třeba v případě Anthropicu je nějakých 30 % nákladů na model to samotné trénování, ale 17 % je ta inference, což je ten jejich prakticky každodenní provoz.

Filip: A ta inference se musí někam promítnout. Tohle zlevňování si podle mě ani neuvědomujeme — my se k tomu pak dostaneme, ale je důležité říct, že neroste cena tokenů, ale toho, co s tou AI děláme. Protože když si to vezmeš — ty jsi teďka říkal, je to skoro tisíckrát levnější. Ono je to plus minus, jsou jiné ceny za vstupní a výstupní tokeny, ale ta čísla jsou prostě extrémní. Ale když se na to podívám já jako běžný uživatel, tak moje náklady na AI každý měsíc rostou. To je fascinující. I přesto, že různé hardwarové věci se už ustálily, protože dřív byl obrovský nedostatek těch H100 grafik a čipů od Googlu a tak dál. Ten hardware byl problém, on je problém pořád, ale už to není zas tak dramatické a zároveň v tom hardwaru přicházejí různé pokroky, aby tu inferenci zlevnili. Takže ten tlak na zlevnění tam paradoxně vnímám obrovský a to zlevňování je obrovské — možná by se tenhle díl mohl jmenovat zlevňování AI. Ale my se dostáváme k tomu, proč ty účty rostou, že jo. To je prostě to, že my tu AI najednou používáme úplně šíleným způsobem. Když se podívám jenom rok zpátky, jak jsem používal AI a jak ji používám dneska, tak to je úplně diametrální rozdíl.

Jindřich: Jako celý trend bude třeba exponenciální růst, co do spotřeby tokenů. Ale proč? Protože přišli veškeří koding asistenti, a když používáš koding asistenta, tak mu musíš poslat prakticky téměř celý codebase, on ho musí pochopit, spustit testy a tak dál. A to je samozřejmě mnohem objemnější co do tokenů, než když se s ním jenom chatuješ o tom, jaké bylo včera počasí, což zhruba bylo to, co se dělalo v roce 2023. No a tomuhle všemu se říká — existuje taková terminologie, je to Jevonsův paradox, a ten vlastně říká, že když se něco zlevní, tak ta spotřeba ve skutečnosti vzroste. A to je přesně to, čeho jsme v tuhle chvíli svědky. Ten Jevonsův paradox pochází někdy z poloviny 19. století, kdy se vynalezl efektivnější způsob spalování uhlí. Tím pádem uhlí hodně zlevnilo, tím pádem spotřeba uhlí vzrostla — ale vzrostla kvůli tomu, že jsme to spalování uhlí najednou začali v průmyslu používat pro mnohem víc use casů, mnohem častěji, a hledali jsme další use case. A přesně tahle analogie je v tuhle chvíli s umělou inteligencí. I když se ty tokeny opravdu zlevnily násobně, tak my je používáme úplně na všechno — sumarizaci textu, coding asistenti, spoustu PDF a multimodalitu, která je tokenově mnohem objemnější. Takže tu jistou paralelu já v tom vidím. A ty jsi před chvílí velmi trefně zmínil, že to možná můžeme nazvat zlevňování umělé inteligence — ale každý z nás má každý měsíc mnohem vyšší účet za umělou inteligenci.

Filip: Jo, je to přesně ten paradox, co popisuješ. Je důležité si uvědomit, že i přesto, že ti ten AI agent nebo chatovací asistent jenom odpoví, tak se nepočítají jenom tvoje tokeny na promptu a to, co ti napsal — ale pokud ses zeptal na něco aktuálního, tak on šel vyhledat na internetu. Zadání „vyhledej na internetu" je nějaká položka pár tokenů, stáhne se webovka, aby si ji mohl přečíst, to je spousta dalších tokenů, který ten model musí zpracovat. A takhle těch webovek projede třeba deset i na nějaký jednoduchý dotaz. O kódovacích asistentech ani nemluvím, to je extrémní. Já jsem si zkoušel zapnout API-based billing — takhle rychle jsem tisícovku ještě neutratil. Během půl hodiny jsem byl schopen ten litr vypálit. A to jsem nedělal nic extrémního, žádné „spawni 50 agentů paralelně", ale prostě běžné úkoly na nějakém repozitáři. Ano, byly to větší funkce, dělal jsem jich víc najednou, ale strašně rychle jsem to vypálil. A to je jedna věc, že ti agenti něco žerou, ale experimentální funkce jsou různí subagenti nebo týmy agentů, kdy si povídá víc AI-ček společně, aby dosáhli lepšího výsledku — všechna ta komunikace jsou tokeny. Takže když to porovnám s GPT na začátku, kdy jsme se zeptali, dostali odpověď a to byly jediné tokeny — dneska to je násobně víc. A jasně, já se třeba na YouTube setkávám s komentáři, že mi někdo píše: „hele, mě na tom ale štve, že ty tokeny zmizí z předplatného strašně rychle." Říkám: jo, to je fakt, ale na druhou stranu — viz, co jsi s tím schopný udělat. To už není otázka–odpověď. Ty jsi schopný tomu dát CSV soubor, on ti to analyzuje, udělá grafy, udělá výstupy. Ano, propálíš mnohem víc tokenů, ale ten výstup je mnohem kvalitnější. Takže za mě je to pořád worth it, minimálně z toho vývojářského pohledu, kde to žere těch tokenů spousta. Zrovna nedávno jsme měli s kamarády debatu o tom, o kolik by to muselo zdražit, aby se to třeba ve vývoji softwaru nevyplatilo.

Jindřich: To je dost zajímavá, taková filozofická otázka, na to asi neznám odpověď. Ale přesně jak jsem mluvil o tom kódování — tam to přesně vidíš, vidíš ten uplynulý čas, jak on pracuje, kolikrát tam necháš pracovat x, y minut, někdy mnohem delší čas, a u toho vidíš ty tokeny, jak se to točí: 5k tokenů, 10k tokenů. Možná, kdyby si měl ten, kdo nás bude poslouchat, z té první části něco odnést, tak je určitě fajn mít hrubou představu o tom, kolik tokenů vezme jaká práce. Aspoň se o to zajímat, podívat se na to čísličko, když se to u toho Claude točí, podívat se, co mi vrací v té odpovědi. A potom: když já tam pošlu obrázek, pošlu PDF, tak je to neskutečně násobně víc, než když se zeptám jenom na jednoduchou odpověď. To je zkrátka ta multimodalita a obecně i veškerá MCP-čka, ty taky žerou neskutečně velké množství. Takže co tím chci říct — je určitě vhodné mít přehled o tom, kolik tokenů zhruba můžu utratit, co je levnější a co dražší na spotřebu tokenů při mé práci.

Filip: Rozumím. Prostě nad tím přemýšlet, být si toho vědom, že to něco stojí. A to je třeba i důvod, proč ty free plány na AI nástrojích už dneska nejsou to, co bývaly. To není nějaký evil plan těch firem, ale jednoduchá matematika — prostě je to spousta peněz, ten provoz. Dřív, když jsi dal freemium nějakého softwaru, tak tě to na provoz nestálo tolik, jenom ušlý zisk z toho, co by byl platící zákazník, a pak velmi malé náklady na provoz toho dalšího člověka. Ale tady jsou ty náklady obrovské, a tím, jak ten trh dospívá a lidi zjišťují, že se s tím opravdu dají dělat kvalitní věci, tak poskytovatelé už nemusí tolik tlačit na freemium. A já se přiznám — víš, jak vypadají dneska ty free plány? Já jsem to už dlouho nezkoumal.

Jindřich: Jako myslíš u těch standardních chatovacích asistentů? Co se týče ChatGPT, tak ten má prakticky reklamy a omezené kvóty, takže ho do jisté míry můžeš používat, ale vidíš tam tu reklamu, nemůžeš používat ty nejnovější modely — to je teď ta GPT-5.5 — ale jinak ho můžeš použít s nějakým zase omezeným usage. Pro leckoho to může stačit.

Filip: Jasně. No, ale když bych tuhle sekci měl shrnout, tak to, co bych řekl: ta spotřeba neroste tím, že by to bylo dražší, ale tím, že my děláme s AI-čkem víc — v kombinaci s tím, že ty firmy už taky z toho byznysového pohledu dospívají. Nebo je blbé říct dospívají, ono to je dost velký kalkul, ale zkrátka už přestávají to dotovat tím způsobem, protože už vědí, že se to lidi naučili a jsou si ochotní za to zaplatit, už to do tebe nemusí tlačit horem dolem, abys to šel vyzkoušet. No a co je zajímavé — nevím, jestli to spousta lidí ví — drtivá většina AI firem, a možná si troufnu tvrdit, že všechny, jsou ztrátové a žijou v tuhle chvíli z investorských peněz. Jsou firmy jako Anthropic nebo OpenAI, u kterých se to dá měřit, a jsou firmy, které to dotujou z jiných aktivit, třeba Google nebo Meta, ti jsou schopní dotovat provoz těch modelů z příjmů, které mají jinde, takže tam je to hůř dohledatelné. Ale jsou to řádově miliardy dolarů, co jsou ty firmy ve ztrátě.

Jindřich: Jasně, ale tady je důležité upřesnit, že ty mluvíš o poskytovatelích těch modelů. Možná se pojďme zaměřit obecně víc na to, kam ty peníze tečou — protože přesně, ty jsi několikrát zmínil, že poskytovatelé modelů mají extrémně vysoké náklady. Ale proč ty náklady mají vysoké? Oni jsou do jisté míry první v tom potravním řetězci. Ty zaplatíš něco jim, oni musí zaplatit něco tomu cloudovému providerovi, ten cloudový provider musí zaplatit něco tomu hardwarovému providerovi — což může být ten samý — a tak dále. A na konci samozřejmě musí platit i například NVIDIA, což je ten vývojář těch čipů, toho hardwaru. Krásná paralela se zlatou horečkou: NVIDIA nevydělává přímo na těch modelech, na umělé inteligenci, ale vydělává na tom, že prodává ty lopaty. No ale taková filozofická otázka — co teď bude s tou první vrstvou? A to ani nemusí být poskytovatel modelů, ale můžou to být aplikace, které poskytují nějaký wrapper nad těmi modely. Cursor například — ten, myslím, představili nějaký svůj model. Ale přesně tohle, ta první vrstva těch SaaS aplikací, které jsou jenom wrapper nad modelem, ty si myslím, že budou mít v dohledné době relativně tvrdý chleba.

Filip: Rozhodně, no, musí ti poskytnout fakt něco hodně navíc, aby to pro tebe dávalo smysl si platit — anebo mít jenom velmi malý margin a nemít tak velký profit. A spoustu apek to do nedávna řešila, nebo pořád řeší tím, že jsou jako wrapper nad nějakým tvým subscription. Typicky používali Claude Quota v tom programmatic use, který se teďka zpřísňuje. Takže ty jsi tam dal svoje předplatné, ale mohl jsi používat tu apku, tokeny se ti počítaly od někoho jiného, od toho předplatného Anthropicu, a pokud jsi chtěl premium funkce, zaplatil jsi ještě navíc za tu apku. Ale to není většina apek, spousta z nich přeprodává ty modely, no a ty budou extrémně závislé na těch firmách, které jsou poskytovatelé. Případně — k tomu se pak dostaneme ke konci — různé lokální nebo optimalizované modely by do toho mohly pak pomoct těmhle firmám. Ale obecně si myslím, že dělat dneska wrapper nad modely je fakt extrémně těžká práce, musíš mít obrovskou přidanou hodnotu, a stejně to pravděpodobně lidem budeš účtovat taky nějakým usage-based pricingem, kdy si dáš nějakou marži nad každý ten token, co vypálíš.

Jindřich: To je vlastně asi ten jeden negativní faktor, a ten druhý negativní faktor může být ten, že Anthropic nebo někdo z poskytovatelů modelů přijde a udělá tu aplikaci tu samou. Vždyť proč by ten wrapper nedokázal udělat, když to dokáže udělat někdo jiný, a ještě ke všemu ve společnosti jejich velikosti?

Filip: To je zajímavé pozorovat třeba u Figmy a Anthropicu — oni jednu dobu spolupracovali, udělali ten oficiální plugin pro Figmu, pro Claude Code, a najednou Anthropic přišel s Claude Designem, akcie Figmy padly extrémním způsobem dolů, myslím, že to byly jednotky nebo desítky procent. Musíš podle mě jako firma přinést fakt nějakou další hodnotu nad rámec toho, protože aspoň dneska se těm providerům pořád nevyplatí dělat repliky těch softwarů. Pořád je to nějaký fokus, a ty jako firma chceš mít ideálně jeden fokus na jednu věc, tam pak můžeš prorazit. Když bys dělal všechno, tak nic nebudeš dělat dokonale, takže tam pak ty zákazníky podle mě ztrácíš. Otázka je, jak s tímhle zamíchá pokrok v agentic engineeringu, kdy vytvořit software bude levnější a levnější.

Jindřich: Vezmeš si Google, ti mají asi trošku jiné možnosti.

Filip: Jasně, to určitě, no. Google v tomhle má za mě extrémně dobře našlápnuto tím, jak má celý ten ekosystém. Může tu AI — což teďka mimochodem oznámili na Google I/O, že Gemini narvou prakticky úplně všude, kde to jen jde — integrovat do svých produktů a dávat ti to jako součást předplatného. Ty si u Googlu neplatíš jednotlivé služby, koupíš si balíček, máš tam i tu AI a obrovskou paletu služeb. Tomu se podle mě bude konkurovat hodně blbě.

Jindřich: Obecně ty společnosti a celý ten akciový trh v tomhle technologickém segmentu je teď extrémně volatilní — vidíš, že některé společnosti raketově rostou a některé raketově ztrácejí na hodnotě. Takže myslím si, že taková volatilita, jaká teď v aktuálních a následujících letech na tomhle technologickém poli bude, tady dlouho nebyla.

Filip: Tak se asi pojďme posunout od těch cenovek — nebo ještě jsem si vzpomněl na jednu zajímavost, takový fun fact. Bylo zajímavé pozorovat ty cyklické investice mezi firmama. Máš OpenAI a Anthropic, které nakupují výpočetní výkon od různých cloud providerů, což může být Google, Microsoft, Amazon. A ti kupují čipy od NVIDIA, a NVIDIA investuje zpátky do těch AI startupů, jako je Anthropic, OpenAI. Hodně jsem to zjednodušil, ale s tím kolem, kdy se ty peníze točí dokola, ta valuace těch firem najednou extrémně roste — protože tím, že NVIDIA zainvestuje do těch modelů, tak oni si můžou koupit víc výkonu, ti, co poskytují výpočetní výkon, si můžou koupit víc grafik, a tím pádem má NVIDIA větší poptávku a větší valuaci. Takže — nejsem ekonom, ale četl jsem na to pár článků — je to zajímavý úkaz, že tohle by mohl být nějaký znak ekonomické bubliny. Já schválně říkám ekonomické, protože si nemyslím, že tady máme bublinu z AI po té technologické stránce, tam si myslím, že je to fakt převratné a má to reálné benefity a dopady. Ta bublina, ekonomická, to je druhá věc, tomu tolik nerozumím, ty investice, to jsou šílená čísla.

Jindřich: Kritici to tak nazývají, že je to bublina. Mimochodem na Twitteru tohle kolečko někdo nazval křemíkový ouroboros — ouroboros, to byl ten mytický had, který roste tím, že požírá svůj vlastní ocas. Ale co je na tom ještě víc fascinující — abych to hodně zjednodušil — řekněme, že to bude třeba Microsoft a bude investovat do OpenAI. Jenže oni jim nedají takhle kufřík peněz: „kluci, pojďte růst za nějaké procento, co teď bude naše." Oni jim dají X miliard, ale ne v dolarech, ale v tokenech, v kreditech. A kde ty kredity můžeš uplatnit? No jasně, na výpočetním výkonu, na infrastruktuře Microsoftu. No a voilà, Microsoft si to s radostí napíše do účetní závěrky, najednou valuace firmy stoupá, i když vlastně neprodal úplně nic, ale do výkazu to napíšou a ta valuace extrémně rychle roste. Ale jak říkáš, já tomu pořádně taky nerozumím, je to fascinující, jak na to ten graf toho celého kolečka podívat. Je to nějaká šedá zóna té ekonomiky, ale věřím tomu, že to dělají lidi, kteří tomu rozumí. Což mě tak napadá — asi by bylo fajn do budoucna pozvat nějakého ekonoma, nějakého experta do podcastu jako hosta, kdo by nám s tou problematikou pomohl.

Filip: To by mohl být zajímavý díl, na ekonomickou podstatu toho fungování. Já mám mimochodem rozposlouchaný podcast s CFO, což je Chief Financial Officer Anthropicu, ale jsem na začátku, takže nedokážu teďka sdílet zajímavosti, ale minimálně tam mluvil o té akvizici, o tom výkonu, o tom Colossu od SpaceX a tak dál. Doporučuju na YouTube, dá se to najít, je to jediný rozhovor, on ho nikde jinde nedal, tak třeba v nějakém dalším díle budu schopný poreferovat víc. Nicméně pojďme se podívat dál — za mě se můžeme podívat do budoucna, jak se to celé může vyvíjet, kam to bude směřovat. Tu situaci jsme si popsali: modely zlevňují, per token cena je menší a menší, zároveň se modely zlepšují za stejnou nebo nižší cenu, což je optimistické, ale zároveň se utahují šrouby toho, co ti ty firmy dávají — už to není all-you-can-eat buffet, ale směřuje to k usage-based pricingu, kdy platíš za každý token. No a to se promítá do nákladů. A jako první očividná věc, kterou je možné dělat, abys ty náklady snížil, je vlastně přepínat ty modely — protože každý menší model je míň výkonný, ale i levnější. Ne všechny úkoly potřebují ten nejvýkonnější agentický model. Pokud potřebuješ třeba zkontrolovat, že v nějakém zadání nebo příspěvku na sociální síť jsou všechny náležitosti, jenom si odfajfkovat seznam, tak to můžeš nechat projít nějakým malým modelem, třeba Haiku. Nebo i menší, třeba gpt-oss, který může běžet lokálně. A na tomhle jsi schopen extrémně ušetřit. Takže podle mě víc a víc — teď jsme hodně řešili paralelizaci, orchestraci, a moc se neřešilo přepínání modelů. A na tohle bude víc a víc kladen důraz: ty si uděláš implementační plán s tím obrovským modelem, s Opusem, no a pak to naimplementuješ částečně pomocí Sonnetu, nebo Haiku, nebo nějakého gpt-oss, abys přejmenoval nějaké funkce. Zkrátka, do té orchestrace bude velký argument to, jaký model vlastně použít a jak mezi nima přepínat.

Jindřich: Velmi pravděpodobně to bude taková nová disciplína, ta orchestrace agentů — už to nebude orchestrace jenom jako orchestrace, ale bude to do jisté míry i ekonomická optimalizace. A přesně tak, jak jsi zmínil — mě vždycky napadne, myslím, že jsme to dávali jako příklad v předchozím díle: ten emailing. Na emailing už používá spoustu společností AI — přijde email a já chci odlišit, jestli je to stížnost, nebo jestli je to pochvala, nebo dotaz. Klasifikace. Přesně tak, nějaká klasifikace nebo třídění těch emailů. Ale potom, když potřebuju připravit odpověď, vytáhnout něco z dat, prohledat předchozí komunikaci a podobně, tak tam už pravděpodobně budu potřebovat ten model výkonnější.

Filip: Takže to je taková jasná první cesta, kterou budeme zkoušet. A ruku v ruce s tím jdou různé menší modely, lokální modely, které jsi schopen provozovat u sebe. Nemusíš si platit jenom API-based usage, to znamená, že platíš za každý token, ale ty menší modely jsi schopen třeba pronajmout grafiku. A to stojí — nevím, H100, to bych nekecal, 3, 6 dolarů za hodinu, něco takového. Takže když víš, že ji dokážeš využít, dodat tu kontinuální zátěž, tak se ti může vyplatit pronajmout si tu grafiku a nasadit tam vlastní model. Samozřejmě se k tomu vážou nějaké delší cenovky, někdo to musí udržovat, nasetupovat, takže to není jenom jednoduchý přepočet 3 dolary za hodinu versus API tokeny, ale tohle může být cesta. Nebo můžeš mít vlastní hardware a provozovat ty modely u sebe. A spousta dnešních modelů na tohle cílí — typicky mají tu architekturu, jak se to jmenuje, mixture of experts, kdy v rámci té neuronky máš víc těch částí, které jsou expertní a zapínají se jenom ty části, které na zodpovězení toho dotazu potřebuješ. Takže i když máš x-milionový model, tak jsi schopen najednou snížit náročnost toho výpočtu. Takže tyhle optimalizace na úrovni těch modelů budou víc a víc, a samozřejmě i na úrovni hardwaru, aby ta inference byla prostě levnější.

Jindřich: Dostaneme se někdy do období, kdy už nebude tolik frčet ten cloudový model — jako třeba teď, že každý z nás má subscription do Claude — ale každý z nás bude mít doma Mac Studio třeba? Jasně, extrémně drahá záležitost v tuhle chvíli, 500 giga ramek nebo kolik, stojí 300 tisíc nebo 250 tisíc. Zkrátka, co tím chci říct: dost možná už nebudeme platit měsíční fíčko, ale budeme mít něco jako lokálně rozjetého. Velmi pravděpodobně to nebude dosahovat takové výkonnosti jako ten nejlepší model od Claude, ale třeba to bude dostatečné pro nějaké úkony, které využíváme, a samozřejmě třeba budou i optimalizovanější modely do budoucna. V tuhle chvíli, kdybys tam chtěl rozjet ten Kimi K2, tak potřebuješ 500 giga RAM, takže potřebuješ minimálně Mac Studio, abys to doma mohl rozjet lokálně.

Filip: Ale máš i minimodely, říká se tomu Edge AI, to máš třeba na tom telefonu. Tam máš dva — nechtěl jsem říct biliony, ale to jsou miliardy, billions, milions se plete v té češtino-angličtině — ale zkrátka že tam máš třeba dvě miliardy parametrů a to jsi schopen na nějakém lepším telefonu rozjet. A na nějaké jednoduché věci — přišla ti zpráva a vyhodnotit, jestli je důležitá, nebo není — to může fungovat. A podle mě se víc a víc budeme dostávat do toho bodu, kdy budeš mít takovéhle malé specializované modely. To je ještě delší věc, odbočím: my máme ty velké modely, které jsou generalisti, jsou trénovaní na všechny možné scénáře. Ale ty jsi schopen ten model i úzce specializovat. Takže ve chvíli, kdy budeš mít úkol „klasifikuj mi emaily nebo zprávy na základě obsahu", tak když budeš mít fakt malinkatý model, který ti je schopen běžet i na telefonu, a ten model dotrénuješ, fine-tunuješ, nebo přímo natrénuješ na tuhle úlohu, tak jsi schopen dosáhnout mnohem vyššího výkonu, než kdybys měl ten generalistický obecný model, který má třeba 10x víc parametrů — protože to máš úzce zaměřené. Takže to může být taky ta cesta.

Jindřich: Co mě k tomuhle napadá — myslím si, že tady bude obtížné to komerční rozšíření. Protože v tuhle chvíli si vlastně zaplatím jeden subscription, jeden model, a pro drtivou většinu uživatelů to prostě stačí, oni s tím Claude udělají všechno v tom svém pročku. Ale jestli já sám budu muset být ten orchestrator a vybírat si ty modely a ještě k tomu lokální správa a podobně, to si myslím, že zatím není cesta pro někoho bez technického vzdělání nebo backgroundu. Takže do budoucna, aby to vůbec bylo komerčně dostupné, tak nad tím budou muset vzniknout nějaké wrappery nebo nějaká UI-čka, jak já si to jednoduše nastavím, naklikám, zaplatím — a platím ideálně třeba jenom jedno fíčko.

Filip: Ale víš co, já si myslím, že určitě budou vznikat takovéhle UI, kde si nastavíš core — pro nás, kteří jsme takoví hračičky, že si to chceš customizovat. Ale fakt si myslím, že tyhle mikro AI řešení budou pronikat do těch produktů jako takových: koupíš si iPhone a budeš si tam moct iMessage zapnout, že se ti budou třídit SMS-ky do — já nevím — urgentní, info, otázka, vymýšlím si, ale že si to zapneš přímo v té appce, v tom telefonu. Nebo — používám na mail Spark — takže ta appka si stáhne ten malý model a bude to dělat on-device a já nad tím nebudu muset přemýšlet, bude to integrovaná AI experience do těch aplikací a služeb, které už dneska používáme.

Jindřich: Ale v tom případě jich budeš potřebovat obrovské množství, protože tohle, co jsi zmínil, to může být nějaký proces, jeden z mnoha, který denně děláš. Takže to jsem trochu plácl, ale zkrátka jich budeš potřebovat mnohem víc, a teď samozřejmě velmi pravděpodobně nechceš mít proprietární modely — jeden na iPhonu, jeden ve Sparku, jeden někde jinde — ale chceš to nějak orchestrovat. Úplně ideálně, aby si ty modely mezi sebou dokázaly povídat.

Filip: No to je pak otázka, jestli to potřebuješ orchestrovat pro tyhle malé dílčí úkoly. Protože ten model ti udělá klasifikaci, přilepí na tu zprávu nějaký štítek, ty pak můžeš mít nějaké pohledy na ty zprávy, a pak přes ten interface si to může vzít jiný model z úplně jiné apky a pracovat s tím, ale už to má oklasifikované. Já tam nevnímám takový problém v tom, že bys měl velké množství malých modelů, které ti dělají malé úkoly — za předpokladu, že k těm datům se ty jiné modely jsou schopné dostat a jsi schopen si výsledek té práce těch malých modelů uložit k těm datům. A to si myslím, že bude ta cesta, protože my jsme power useři, kteří si to chtějí orchestrovat, chceš to propojovat, chceš nad tím mít kontrolu, ale drtivá většina lidí — drtivá většina je možná bold claim — ale míň techničtí uživatelé, jako třeba moji rodiče, kteří nemají tu technologii v krvi, tak pro ně bude úplně dostatečné z těch funkcí to, co je integrované přímo v těch appkách, a tam si myslím, že to rozšíření bude.

Jindřich: Může být, jasně, asi se to vztahuje na mě a na moji sociální bublinu. Ale každopádně, já se furt domnívám, že ty budeš chtít, aby s těmi stejnými daty pracovalo víc modelů nebo víc use casů. Ty jsi zmínil emailing, ale já budu chtít připravit odpověď, budu tam chtít přidat nějakou přílohu, budu tam chtít předat kalendářovou událost, budu chtít, aby se vytáhlo něco z designu z Figmy a tak podobně. A tohle už si dovedu představit, jak bych nastavoval těmi menšími modely — buď budu chtít nějaký jeden, který bude znát ten kontext a bude mít přístup do mých nástrojů, a nebo budu extrémní hračička a nastavím si všechny tyhle menší. Možná to teď zesložiťuju a je to takové trošku filozofické, protože nevíme, co bude — ale shodneme se na tom, že něco bude, a nějak se to bude muset vyřešit, abychom si nemuseli brát hypotéku na subscription.

Filip: Jasně, ale jenom poslední myšlenka k tomu, co jsi říkal: já si myslím, že to bude podobné se softwarem. Ty máš prostě spoustu apek na různé věci, propojuješ je pomocí API, jsou tam různé protokoly, integrace a tak dál — a podle mě podobně budou fungovat tyhle věci, že ti iMessage vystaví nějaké API a ty se na to s tím svým agentem napojíš, a to, že tam dole běží nějaký malý klasifikační model, tě nebude zajímat. Ale pojďme od toho, to už by byla debata na jiný díl. A co nám tady ještě zbývá — z dalších metod optimalizace jsou různé inferenční čipy, optimalizované čipy, které jsou jenom pro tu inferenci, to znamená pro využití toho modelu. Protože dneska používáme grafické karty nebo TPU čipy, a ty jsou dělané jak pro trénink, tak pro inferenci. Ale ta hypotéza je, že jsi schopen nadizajnovat čipy jenom pro inferenci s větší efektivitou, což znamená větší rychlost, menší náklady na elektrickou energii a tak dál.

Jindřich: S tím možná i úzce souvisí ty specializované čipy, které jsou vypálené přímo do křemíku — jako například tenhle chat.jimmy.ai, o tom se hodně mluví, respektive ta architektura, ten čip, je vypálená přímo do křemíku, což znamená, že je to single use case, je to mnohem rychlejší co do počtu tokenů za vteřinu než standardní aktuální GPU. Ale samozřejmě ten protiargument je, že je to jen single use case, takže pokud se v téhle rychlé době změní ta architektura čipu, tak se ten čip může zahodit a může se dělat nový.

Filip: On je to single use case v tom, že se tam vypálí ty váhy toho modelu, takže je to single-model use case. Ale skvěle, vyzkoušejte si to, je to na chat.jimmy.ai, dáme to do popisku, snad nezapomeneme. A mě to fascinovalo — ty tam zadáš „vygeneruj mi xA4" a je to hnedka.

Jindřich: Minimálně, co to máme napsáno, tak na těch standardních špičkových GPU, na kterých běží ty modely, mají 1800 tokenů za vteřinu, zatímco tyhle, vypálené do křemíku, mají 17 tisíc, což je třeba 10x tak rychlé. A jo, je to fascinující, vyzkoušejte si to, dejte mu nějakou složitější otázku a dostanete odpověď úplně instantně.

Filip: Oni tam, myslím, dali ten Llama 3.1 model, ten s 8 miliardami parametrů, takže i to dokáže na něco odpovědět. Zkoušel bych to spíš anglicky, ta čeština — myslím, že u Llamy jsou trošku problémy s ní — ale uvidíte. Každopádně, těch optimalizací je ještě velká řada: nějaké softwarové cachování promptu a tak dál, různé mikrooptimalizace, které ve výsledku dokážou nějaké peníze ušetřit. Když se ale dostaneme k těm negativním stránkám — tohle byly ty pozitivní, jak to řešit — tak jeden z velkých problémů a jedno z velkých témat je současný stav energetické sítě. Ono se o tom strašně mluvilo v kontextu elektrických aut, že najednou ta spotřeba a nároky na síť extrémně vzrostly. No a teď ty datacentra, to je crazy — Anthropic poptává teď jeden gigawatt a projekce do roku 2027 jsou 3 gigawatty výkonu, což je mimochodem výkon nějaké malé jaderné elektrárny, jako wow.

Jindřich: Třeba jaderná elektrárna Temelín — tam to samozřejmě závisí na několika faktorech, ale ta dosahuje nějakých 2 gigawattů. A jenom pro porovnání kontextu: jaderná elektrárna Temelín napájí elektřinou nějakých deset milionů domácností, za nějakých podmínek. A teď si pojďme představit ten paradox, že pro jednu soukromou společnost by to bylo jako jedna jaderná elektrárna — to je naprosto crazy. Ale my už to vidíme: Meta hodně investuje do elektrické energie, snaží se stavět obrovská datacentra a vlastní elektrárny. Google investuje a chce rekonstruovat staré jaderné reaktory, což je například jaderná elektrárna Three Mile Island, do té kofinancuje obrovské množství prostředků — protože přesně, ty společnosti si uvědomují, že tohle bude ten bottleneck. Jestliže ta adopce a ten výkon a energetická náročnost poroste tak extrémně rychle jako doposud, tak přesně tenhle bottleneck je téma, které už nyní se musí začít řešit.

Filip: No jasně, energetika to bude v kontextu AI, elektroaut a dalšího, to bude obrovské téma. No a ještě tady máme jedno riziko, a to je vlastně nějaký lock-in. To znamená, že ve chvíli, kdy používáš nějaké ty modely, tak jsi třeba závislý na nějakém tom providerovi, protože si to postavíš a každý ten model se chová trošku jinak. U AI modelů se nedá úplně jednoduše říct, že teď rychle vyměním model a pokračuju dál. Jsou tam potřeba nějaké drobné úpravy, co se týče fungování těch tvých workflows, promptů a dalších nastavených skillů — ale není to jako u elektřiny, že když ti vypadne jeden poskytovatel, tak si pronajmeš druhého, nebo u internetu, že máš dva providery a jenom mezi nimi přepneš. Tady sice taky můžeš mít dva, ale to přepnutí je minimálně z mého pohledu trošku náročnější. Takže to vnímám jako další riziko, že v případě toho cloudového poskytování modelů, kdy si to pronajímáš per token, se do jisté míry trošku upisuješ. Na druhou stranu — copak dneska nemáme nějakou závislost? Všichni provozujeme nějaké apky na internetu, ergo jsme závislí na nějakých datových centrech, poskytovatelích: vypadne Cloudflare, vypadne půlka internetu na světě, vypadne Amazonovo datacentrum a půlka internetu nefunguje. Takže otázka je, jak velký deal tohle vlastně je.

Jindřich: Nemusíme chodit ani takhle daleko, ale už i ta samotná elektřina — v dnešní době, když vypadne elektřina v supermarketu, tak jasně, asi mají pravděpodobně nějaké záložní agregáty, ale vlastně ani nemusíš nakoupit, protože třeba nemusí fungovat platba kartou a tak podobně. Takže ta analogie s tou elektřinou je podle mě velmi podobná, byť elektřina je s námi 150 let nebo jak dlouho. Ale každopádně, co si z toho odnést: takže zdražuje se AI? Vlastně jako by ne, spíš nás napadá, že ta naše spotřeba a naše požadavky rostou, což ten účet, který nám chodí, je spíš to zrcadlo našich ambicí, ne toho, že by skutečně umělá inteligence zdražovala. No a my jsme si tady řekli několik těch možných scénářů budoucnosti, ale tak či onak to bude chytřejší využití — správný model na správný problém. Je to téma, které budeme muset řešit, které nebudeme řešit pravděpodobně jenom my, ale budou to řešit všechny společnosti, tak uvidíme, kam se dostaneme. Ale každopádně každému z nás přeju co možná nejnižší účet za umělou inteligenci.

Filip: Hele, souhlasím s tím, musíme se na to adaptovat. Možná malá hvězdička — co se jediné zpřísňuje, takže vlastně zdražuje, tak je ten all-you-can-eat buffet, který ty firmy teďka postupně zařezávají, ale to není tím, že by to zdražovalo, jenom už to není tak velká marketingová akce, takový výprodej „pojďte si to všichni zkusit", ale už to všichni umíte, tak nám za to začnete platit. Musíme se na to adaptovat, co nám zbývá. Myslím si, že je to jen jeden z dalších vývojů ve světě AI a že vznikne spousta frameworků, jak tohle řešit. A nebude to na nás jako koncových uživatelích, kteří si budeme někde konfigurovat pro každý skill, jaký model, ale budou tam třeba nějaké klasifikátory těch promptů, aby se vybral ten správný model a tak dál.

Jindřich: Ještě to skočím, ale myslím si, že to bude přesně jak to bylo dosud: ty problémy, které jsme měli, tak přišel někdo a nějak je vyřešil, přišly ty společnosti a nějak je vyřešily, přišel vibe coding, přišly společnosti, které nám daly nějaký interface, daly nám možnost, kde si koupit doménu a tak dále. Taková lehká paralela. No takže úplně stejně tohle bude v budoucnosti — někdo přijde, kdo nám to nějak pomůže vyřešit, aby to používání pro nás konec konců bylo pohodlné.

Filip: Co k tomu asi víc říct.

Jindřich: Díky, Filipe, za příjemné povídání, zase bylo to fajn, myslím si, že to bylo dost obohacující tentokrát, a vidíme se příště. Děkuji stejně tak našim posluchačům.

Filip: Taky díky, Jindro, bylo to fajn se nad tím zamyslet, nad všema těma úhlama. A dejte nám do komentářů, jak se na to díváte vy a co si o tom tématu myslíte, jestli jsme třeba něco opomněli nebo nezmínili něco důležitého. Každopádně, jak říkal Jindra, budeme se na vás těšit u dalšího dílu, tak se mějte krásně. Díky, čau. Čau, čau.

Poslouchat na platformách

Souhrn