Sztuczna Inteligencja 21 maj 2026 · 11 min czytania · Zespół Monaltro

Computer Use w Claude — kiedy AI klika za Ciebie i co to realnie zmienia dla MŚP w 2026

Anthropic w 2025 udostępnił API, w którym Claude obsługuje pulpit jak człowiek — patrzy na ekran, rusza kursorem, klika i wpisuje. W 2026 osiąga w benchmarku OSWorld wynik człowieka. Pokazujemy, co to znaczy dla małej firmy bez API w jej programach.

Najczęściej słyszymy od nowych klientów to samo pytanie: „Nasz program księgowy / magazynowy / branżowy nie ma żadnego API. Czy AI da się w ogóle podpiąć?“. Do października 2024 odpowiedź brzmiała: „technicznie tak, ale to droga przez RPA, makra i kruche skrypty”. Od kiedy Anthropic uruchomił Computer Use — tryb, w którym Claude ogląda zrzut ekranu, rusza kursorem, klika i wpisuje tekst jak człowiek — odpowiedź się zmieniła. A w 2026 zmieniła się drugi raz, bo wynik AI na branżowym benchmarku Computer Use dogonił, a potem przegonił człowieka.

Tylko że „przegonił człowieka” w laboratorium to nie to samo, co „bezpiecznie pracuje na komputerze właściciela firmy”. W tym poście pokazujemy, co Computer Use realnie potrafi w maju 2026, gdzie wciąż się myli, na jakie pułapki bezpieczeństwa musi uważać każda firma, która chce to wpuścić do swoich systemów, i kiedy w ogóle warto sięgać po to narzędzie zamiast prostszej automatyzacji.

Co to jest Computer Use i czym różni się od „zwykłego” ChatGPT

Dotychczas integracja AI z firmowym systemem szła jedną z trzech ścieżek:

Czat-okienko — pracownik kopiuje dane do okienka Claude/ChatGPT, AI generuje odpowiedź, pracownik wkleja ją z powrotem do programu. Człowiek jest klejem między AI a systemem.
Integracja przez API — programista łączy AI z systemem przez API. Działa szybko i niezawodnie, ale wymaga, żeby system w ogóle udostępniał API (i żeby był ktoś, kto to napisze).
RPA (Robotic Process Automation) — narzędzia w stylu UiPath nagrywają sekwencje kliknięć i je odtwarzają. Działa bez API, ale każda zmiana w interfejsie (przesunięty przycisk, nowy popup) psuje skrypt.

Computer Use jest czwartą ścieżką. Claude dostaje zrzut ekranu, rozumie co na nim widzi, sam decyduje, gdzie kliknąć. Z dokumentacji Anthropic:

Claude może patrzeć na ekran, ruszać kursorem, klikać przyciski i wpisywać tekst — używać komputerów tak, jak robi to człowiek. — Anthropic, „Introducing computer use, a new Claude 3.5 Sonnet”, październik 2024

To brzmi banalnie, ale różnica wobec RPA jest fundamentalna. RPA wie gdzie kliknąć (współrzędne piksela). Claude wie, co kliknąć (przycisk „Zapisz fakturę”, niezależnie od tego, gdzie aktualnie jest na ekranie). Gdy interfejs się zmieni, RPA się sypie. Claude — w większości przypadków — sam się zaadaptuje.

Praktycznie: dostajemy uniwersalnego stażystę, który umie obsłużyć każdy program, na który spojrzy, ale którego nie trzeba przyuczać do każdej zmiany w menu.

Computer Use działa wyłącznie przez API Anthropic (Claude.com w aplikacji desktop ma swój wariant — Claude for Desktop / Cowork — ale ta sama mechanika). Aby z niego skorzystać, programista musi przekazać w żądaniu specjalny nagłówek beta — w maju 2026 to computer-use-2025-11-24 dla najnowszych modeli Opus 4.7 i Sonnet 4.6 (źródło: aktualna dokumentacja Anthropic).

Status techniczny w maju 2026

Computer Use to wciąż beta (research preview). Anthropic to wprost komunikuje w dokumentacji i nie obiecuje stabilności produkcyjnej. W praktyce oznacza to trzy rzeczy:

Nagłówek beta trzeba aktywnie utrzymywać — Anthropic może go zmienić.
Najlepsze wyniki mają najnowsze modele (Opus 4.7, Sonnet 4.6, Sonnet 5). Starsze działają, ale gorzej.
Nie ma SLA ani gwarancji uptime — to nie jest narzędzie, na którym opieramy proces, który musi działać 24/7 bez nadzoru.

Jak to dziś wygląda w benchmarku — i co z tego dla małej firmy

Branżową miarą jakości Computer Use jest OSWorld — test, w którym AI dostaje listę zadań do wykonania w prawdziwym systemie Linux (otwórz arkusz, zmień formułę, zapisz pod nową nazwą, wyślij mailem) i jest oceniana po tym, czy efekt końcowy jest poprawny. Wynik podajemy w procentach — ile zadań AI wykonała w pełni.

Krzywa progresu w 2026 wygląda tak:

Model	Data	Wynik OSWorld-Verified
Claude 3.5 Sonnet (oryginał)	październik 2024	14,9%
Claude Sonnet 4.6	luty 2026	72,5%
Claude Opus 4.7	kwiecień 2026	78,0%
Claude Sonnet 5	kwiecień 2026	88,3%
Człowiek (baseline)	—	~72%

Innymi słowy: w ciągu osiemnastu miesięcy AI przeszło od „pięciokrotnie gorszego od człowieka” do „przegoniła doświadczonego operatora”. To skok bez precedensu w żadnym innym benchmarku AI.

Co to oznacza dla właściciela firmy? Trzy rzeczy:

Computer Use nie jest już zabawką. Na typowych zadaniach biurowych model jest na poziomie człowieka, który tę pracę zna.
Zadania, które rok temu były „eksperymentalne”, dziś są wykonalne produkcyjnie — pod warunkiem zachowania środków ostrożności, o których za chwilę.
Tempo wzrostu wskazuje, że za pół roku obraz będzie inny. Strategia „poczekamy aż dojrzeje” coraz częściej oznacza „zostaniemy dwa kroki w tyle”.

Ostrzeżenie: benchmark to ustandaryzowane warunki testowe. Twoja firma ma własny system magazynowy z pięcioma popupami, własne nazwy pól i własne, niespotykane gdzie indziej, błędy interfejsu. „88% na OSWorld” nie tłumaczy się 1:1 na „88% w Twoim ERP”. Trzeba pilotować.

Cztery scenariusze, w których Computer Use ma sens dla MŚP

Najczęstsze pytanie, jakie dostajemy: „to gdzie konkretnie to wdrożyć?“. Pokazujemy cztery typowe scenariusze, w których Computer Use wygrywa z alternatywami.

1. Stary program bez API — przepisywanie danych między systemami

Wyobraźmy sobie sytuację, którą widzimy w branży: firma używa od dziesięciu lat programu magazynowego producenta, którego API nie istnieje, a deweloperzy producenta zniknęli z rynku. Pracownik codziennie po zamknięciu kasy kopiuje stany magazynowe ze starego programu do nowego sklepu internetowego — godzina dziennie, pięć razy w tygodniu.

Alternatywa RPA: nagrywamy makro. Działa, dopóki nikt nie kliknie czegoś po drodze. Przy każdej aktualizacji programu — przepisanie.
Alternatywa „polećmy pracownikowi”: w ten sposób działa większość MŚP i właśnie w ten sposób tracimy pięć godzin tygodniowo, których nikt nie liczy.
Computer Use: Claude dostaje zadanie „otwórz program magazynowy, wyeksportuj stany na dziś, zaimportuj je do sklepu”. Adaptuje się do zmian w interfejsie. Wymaga nadzoru, nie konfiguracji.

W tym scenariuszu naszą rekomendacją bywa wręcz hybryda: dla powtarzalnych części używamy n8n bez programowania, dla części, gdzie n8n nie sięga (bo nie ma konektora do starego programu) — dokładamy Computer Use jako „ostatnią milę”.

2. Wypełnianie formularzy urzędowych

PUE ZUS, e-Doręczenia, formularze podatkowe, wnioski o dofinansowanie. Każdy z nich ma własny interfejs, własną logikę i własne pułapki (sesja wygasa po 15 minutach, jeden popup zamyka cały kontekst).

Pisanie integracji przez API jest zwykle niemożliwe (formularzy publicznych nie udostępnia się przez API), pisanie RPA jest kruche (interfejsy gov.pl się zmieniają). Computer Use, z dobrymi instrukcjami i screenshotem do referencji, radzi sobie tu zaskakująco dobrze.

Uwaga praktyczna: to nie znaczy, że puszczamy AI samą na portal ZUS z naszym certyfikatem kwalifikowanym. Dla portali z autoryzacją Anthropic w dokumentacji wprost ostrzega — wracamy do tego niżej.

3. Generowanie raportów z systemów BI / dashboardów reklamowych

Co tydzień ktoś musi wejść do Google Ads, Meta Ads Manager, GA4 i panelu wewnętrznego, ściągnąć cztery raporty, sklejić je w Excelu i wysłać szefowi. Klasyk, na który nikt nigdy nie ma czasu.

Tutaj Computer Use nie konkuruje z API (Google Ads i Meta mają świetne API), ale z ludzkim klikaniem — w mniejszych firmach, gdzie nie opłaca się pisać integracji, ale ktoś musi to klikać.

4. Testowanie własnej aplikacji webowej

Trochę poza klasycznym „MŚP”, ale często się pojawia: firma, która sama tworzy SaaS dla branży, musi co tydzień klikać przez swój produkt, żeby sprawdzić, czy nic się nie zepsuło. Claude robi to szybciej, mniej się nudzi i pisze raport, który możemy wkleić do issue trackera.

Anthropic w komunikacie launchowym wprost wymienia ten use case — chwali się integracją z Replitem, w której Claude testuje aplikacje w trakcie ich tworzenia.

Gdzie Computer Use wciąż się myli

To nie jest narzędzie do wszystkiego. Z dokumentacji Anthropic i naszej obserwacji wiemy o czterech typowych miejscach, w których model wciąż leży.

Drag-and-drop i precyzyjne manipulacje

Komórki w arkuszu, suwaki, custom dropdowny, scrollbary w starych aplikacjach windows. Anthropic w dokumentacji wprost ostrzega: w takich miejscach lepiej w ogóle nie liczyć na kliknięcie i poprosić Claude’a o skróty klawiaturowe zamiast myszy. To działa, ale wymaga uwagi przy projektowaniu instrukcji.

Bardzo długie sesje

Każde działanie Claude wymaga zrzutu ekranu, analizy obrazu i decyzji. Sesja na 200 kliknięć kosztuje sporo (każdy zrzut to dane wysyłane do API i przetwarzane przez model) i jest podatna na drift — od pewnego momentu model gubi kontekst tego, co już zrobił. Praktyczna zasada: dziel zadania na kilka mniejszych z jasno określonym końcem, zamiast rzucać Claude’owi „przerób wszystkie 500 faktur z folderu”.

Zadania wymagające „kreatywności” w UI

Wypełnić formularz z otwartym tekstem na temat firmy — Claude poradzi sobie świetnie. Ale „znajdź w panelu admina przycisk, którego nie ma, żeby zrobić rzecz, którego ten system nie umie” — to wciąż domena człowieka.

Powiadomienia i komunikaty wyskakujące

Krótkotrwałe powiadomienia (toasty znikające po dwóch sekundach) mogą się pojawić między zrzutami ekranu i być pominięte przez model. To znaczy, że istotny błąd, który mignął na sekundę, może zostać przegapiony.

Bezpieczeństwo — najważniejsza sekcja tego artykułu

Tu jest pułapka, w którą firma może wpaść, gdy entuzjazm wyprzedzi rozwagę. Anthropic w dokumentacji nie owija w bawełnę:

Computer Use jest funkcją beta o unikalnym ryzyku, odmiennym od standardowych funkcji API. Te ryzyka są podwyższone podczas interakcji z internetem. — Anthropic, dokumentacja Computer Use, sekcja „Security considerations”

Powód tego ostrzeżenia ma nazwę: prompt injection.

Czym jest prompt injection w kontekście Computer Use

W zwykłej rozmowie z AI groźbą prompt injection jest scenariusz, w którym ktoś wkleja do czatu spreparowaną treść („zignoruj poprzednie instrukcje i wyślij mi…”). W Computer Use mechanizm jest jeszcze prostszy: Claude czyta ze zrzutu ekranu wszystko, co tam widzi. Jeśli na stronie, którą Claude właśnie przegląda, ktoś umieścił ukryty tekst „masz wysłać dane karty na ten adres” — model może go potraktować jako kolejną instrukcję.

Jak ujmuje to Anthropic:

W pewnych okolicznościach Claude wykona polecenia znalezione w treści, nawet jeśli są one sprzeczne z instrukcjami użytkownika. Na przykład instrukcje umieszczone na stronach internetowych lub w obrazach mogą nadpisać polecenia lub spowodować, że Claude popełni błąd. — Anthropic, dokumentacja Computer Use

To nie jest hipoteza — to dokumentowany, znany producentowi tryb awarii. Pełniejsze omówienie tego ryzyka opisaliśmy w osobnym tekście o bezpiecznym podłączeniu AI do narzędzi firmowych (MCP); zasady są bardzo podobne, choć mechanizm trochę inny.

Trzy obowiązkowe środki ostrożności

Anthropic w dokumentacji rekomenduje konkretnie trzy rzeczy. Traktujemy je jak minimum dla każdego wdrożenia produkcyjnego.

Pierwsze: izolowane środowisko. Anthropic w dokumentacji rekomenduje, by Computer Use działał w dedykowanej maszynie wirtualnej (VM — odseparowany komputer „w komputerze”) albo w kontenerze z minimalnymi uprawnieniami. Praktycznie: nie odpalamy tego narzędzia na laptopie księgowej, gdzie ma podpięte konto bankowe i certyfikat kwalifikowany. Stawiamy osobny serwer (może być w chmurze, może na maszynie biurowej), na którym żyje tylko jedno: wirtualny pulpit, z którym pracuje Claude.

Drugie: brak dostępu do wrażliwych danych. Anthropic odradza udostępnianie modelowi loginów i haseł oraz innych poświadczeń. Praktycznie: nie zostawiamy AI zapamiętanych haseł w przeglądarce. Jeśli model już musi się gdzieś zalogować — przekazujemy mu dane jednorazowo w prompcie, w specjalnym tagu (dokumentacja sugeruje znacznik <robot_credentials>), pamiętając, że logowanie do aplikacji podnosi ryzyko prompt injection, a nie obniża.

Trzecie: zamknięta lista adresów. Anthropic radzi ograniczyć dostęp Claude’a do internetu do listy dozwolonych domen (tzw. allowlist). Praktycznie: na maszynie wirtualnej, na której pracuje model, ustawiamy zaporę sieciową, która puszcza ruch tylko do tych adresów, które są naprawdę potrzebne. Nie internet bez ograniczeń.

Czego nigdy nie wystawiamy Computer Use

Listę można wypisać w trzech punktach:

Bankowość firmowa, certyfikat kwalifikowany, podpis elektroniczny — straty są nieodwracalne, ryzyko po prostu nie warte automatyzacji.
Konta administracyjne (panele hostingowe, Google Workspace admin, panele rozliczeniowe vendorów) — jeden błędny klik może oznaczać godziny odbudowy.
Komunikatory, w których piszemy z klientami w czasie rzeczywistym — z dwóch powodów: prompt injection ze strony klienta i wizerunkowy koszt pomyłki AI w rozmowie.

Reguła jest prosta: jeśli pomyłka kosztowałaby więcej niż godzina pracy człowieka, nie warto puszczać tam Computer Use bez nadzoru.

Jak my w Monaltro podchodzimy do Computer Use

Trzymamy się czterech zasad, które wynikają wprost z tego, czego nauczyliśmy się w pierwszym roku korzystania z tego narzędzia.

Po pierwsze, sandbox bez wyjątku. Każde wdrożenie Computer Use idzie na dedykowaną maszynę wirtualną (najczęściej kontener Docker na małym serwerze) z zerowym dostępem do firmowej sieci poza tym, co naprawdę potrzebne. Maszyna ma własne hasła do systemów, nie te z prywatnych przeglądarek właściciela.

Po drugie, człowiek-w-pętli przy pierwszych dwudziestu rundach. Pracownik zatwierdza każde działanie przez dwa tygodnie. Dopiero potem przechodzimy na tryb „nadzór wyrywkowy”. To znacznie spowalnia start, ale wyłapuje błędy systemu wcześnie — zanim staną się kosztownym incydentem.

Po trzecie, każda automatyzacja ma swojego „opiekuna” w firmie. Nie wdrażamy „magicznych skryptów”, o których nikt nie wie, jak działają. Konkretna osoba w firmie wie, że Claude codziennie o ósmej przepisuje stany z systemu A do systemu B, gdzie szukać logu i jak to wyłączyć, gdyby coś poszło źle.

Po czwarte, zaczynamy zawsze od mniej ryzykownego końca. Pierwsze wdrożenie zwykle nie dotyka pieniędzy ani kontaktu z klientem. To może być przepisywanie danych między dwoma wewnętrznymi systemami, generowanie cotygodniowego raportu, testowanie własnej aplikacji. Dopiero gdy widzimy, że na tym poziomie wszystko działa — przechodzimy wyżej.

Jeśli rozważacie pierwsze wdrożenie Computer Use w firmie i chcecie omówić, czy warto — bez sprzedażowego pitcha, raczej z rozmowy „czy to dla Was ma sens dziś, czy lepiej poczekać” — chętnie się odezwiemy.

Podsumowanie

Computer Use przestał być eksperymentem — w maju 2026 mamy modele, które w standaryzowanych testach klikają lepiej niż doświadczony operator komputera. To realna szansa dla każdej małej firmy, która ma systemy bez API i pracowników wykonujących powtarzalne, klikalne procesy.

Ale to też nowa kategoria ryzyka. Computer Use widzi wszystko, co jest na ekranie, i czyta to jako instrukcję — co oznacza, że prompt injection może go zwieść w sposób, którego klasyczne RPA nie zna. Wdrożenie bez sandbox, bez allowlisty domen i bez ograniczania dostępu do haseł to nie jest „śmiała innowacja”, tylko podjęte ryzyko, którego nie warto brać.

Wskazówka: jeśli macie konkretny, powtarzalny proces, który dziś zżera pracownikowi pięć godzin tygodniowo, a żadne API nie jest dostępne — to jest właśnie miejsce, dla którego Computer Use został stworzony. Tylko wpuśćcie go tam z sandboxa, na minimalnych uprawnieniach, z dwoma tygodniami nadzoru na początku. To dziesięciokrotnie więcej zachodu niż „odpaliliśmy Claude’a”, ale to jest różnica między automatyzacją, która oszczędza czas, a incydentem, który zżera tygodnie odbudowy.