Sztuczna Inteligencja 7 maj 2026 · 11 min czytania · Zespół Monaltro

RAG dla MŚP — własny asystent AI, który zna ofertę i FAQ Twojej firmy

ChatGPT nie wie, ile kosztuje Twoja usługa, kiedy jeździsz na wakacje i co znajduje się w pliku „regulamin-2026.pdf". RAG rozwiązuje to bez fine-tuningu i bez budżetu korporacji. Pokazujemy, jak działa i gdzie MŚP najczęściej się potyka.

ChatGPT nie wie, ile kosztuje Twoja usługa, kiedy jest urlop działu serwisu i co znajduje się w pliku „regulamin-2026.pdf”. Najczęściej słyszymy od właścicieli firm, którzy próbowali samodzielnie postawić chatbota: „pięknie odpowiada na ogólne pytania, ale gdy klient pyta o nasz cennik — zmyśla”. To nie jest błąd modelu. To brak RAG.

RAG (Retrieval-Augmented Generation) — w skrócie: AI, które przed odpowiedzią najpierw zagląda do Twoich dokumentów. Brzmi prosto, ale właśnie ten jeden dodatek zmienia generic asystenta w kogoś, kto realnie odpowiada na pytania o Twoją firmę. Pokazujemy, jak to wygląda technicznie, ile kosztuje, gdzie MŚP najczęściej się potyka — i kiedy NIE warto się za to brać.

Dlaczego ChatGPT nie zna Twojej firmy — i co z tym zrobić

Modele językowe takie jak Claude, ChatGPT czy Gemini uczą się raz, na ogromnym zbiorze publicznych tekstów z internetu. Wiedzą wszystko o Wikipedia, dokumentacji frameworków programistycznych i klasykach literatury. Nie wiedzą nic o Twoim wewnętrznym cenniku, ofercie B2B dla branży hotelarskiej, którą wysyłasz w PDF, ani o procedurze reklamacji, którą zespół opisał w pliku Word w 2024 roku.

To prowadzi do dwóch typowych pułapek:

Halucynacje — model, gdy nie wie, wymyśla odpowiedź zamiast przyznać się do braku wiedzy. Klient pyta „czy w piątek dowieziecie zamówienie do Krakowa?” — generic chatbot odpowiada „tak, oczywiście” choć nie ma pojęcia o Twojej polityce dostaw.
Pamięć z 2023 roku — modele językowe mają „cut-off date”, po którym nie znają zmian. Jeśli zmieniłeś ceny w marcu 2026, a model uczył się do połowy 2025 — odpowie według starego cennika.

Są dwa sposoby, żeby AI „znał” Twoje dane:

Pierwszy: dotrenowanie modelu (fine-tuning). Bierzesz model bazowy, dokładasz mu swoje dokumenty jako materiał uczący i powstaje wersja „spersonalizowana”. To jest droga droga — wymaga dużych zbiorów danych, sporej mocy obliczeniowej i ekspertyzy technicznej. Każda zmiana w cenniku wymaga ponownego treningu. Dla MŚP to z reguły strzelanie z armaty do wróbla.

Drugi: RAG. Model zostaje taki sam, ale dostaje narzędzie do „zaglądania” w Twoje dokumenty w czasie odpowiedzi. To tak, jakby konsultantowi, który zna ogólne zasady prawa, dać dostęp do szuflady z umowami klienta — odpowiada konkretnie na podstawie tego, co tam jest, zamiast zgadywać. To podejście, które rekomendujemy w 9 na 10 wdrożeń AI w MŚP — taniej, szybciej i łatwiej w utrzymaniu.

Jak działa RAG — analogia, nie definicja

Wyobraź sobie nowego pracownika. Ma świetne wykształcenie ogólne (to jest model językowy — Claude, GPT itd.), ale przyszedł do firmy w poniedziałek i nie zna jeszcze Twoich procedur. Jak go uczysz?

Wariant A — fine-tuning: wysyłasz go na trzymiesięczne intensywne szkolenie, gdzie wbija sobie do głowy wszystkie regulacje, cenniki i procedury. Po szkoleniu odpowiada z pamięci. Ale gdy zmieniasz ceny — musisz znowu wysłać go na szkolenie.

Wariant B — RAG: dajesz mu biurko, segregator z dokumentami i indeks. Gdy klient dzwoni z pytaniem, pracownik w pierwszej kolejności zagląda do segregatora („cennik 2026, strona 14”), znajduje odpowiednią informację, a potem łączy ją z ogólną wiedzą i formułuje odpowiedź. Dokumenty zmieniasz w segregatorze — pracownik automatycznie używa nowej wersji.

To jest dokładnie to, co robi RAG:

Klient zadaje pytanie — np. „ile kosztuje pakiet B2B na 50 użytkowników?”
System wyszukuje w Twoich dokumentach fragmenty odpowiednie do tego pytania (cennik, oferta, FAQ).
Te fragmenty trafiają do modelu językowego razem z pytaniem klienta.
Model odpowiada, opierając się głównie na tym, co znalazł w Twoich dokumentach, nie na ogólnej wiedzy z internetu.

Jak ujmuje to LangChain — jedno z popularnych narzędzi do budowania takich systemów:

Podstawowy RAG to prosty łańcuch: model językowy generuje odpowiedź na podstawie pobranych dokumentów. — LangChain Blog

Cała sztuka leży w tym, jak system wyszukuje odpowiednie fragmenty. I tu dochodzimy do najważniejszej części.

Z czego składa się RAG — 4 elementy, które musisz znać

Każde wdrożenie RAG ma cztery komponenty. Możesz wybrać różnych dostawców, różne narzędzia, różne ceny — ale architektura jest zawsze ta sama.

1. Baza wiedzy (źródło prawdy)

To Twoje dokumenty. Cennik PDF, regulamin DOC, baza wiedzy w Notion, FAQ ze strony, opisy produktów z Excela, e-maile z odpowiedziami na pytania klientów. Wszystko, co system ma „przeszukiwać” przy każdym pytaniu.

Kluczowa decyzja na początek: które dokumenty tam wrzucasz, a których NIE. Najgorszy ruch — wszystko naraz. „Wrzucimy 200 plików, system sam sobie poradzi”. Nie poradzi sobie.

Dobra praktyka: zacznij od 20–50 dokumentów najmocniej związanych z pytaniami, które klienci zadają najczęściej. To zwykle: aktualny cennik, FAQ, regulamin, główne opisy produktów lub usług. Reszta — później, gdy zobaczysz, czego brakuje.

2. Embeddingi (numeryczne odciski palców)

Najtrudniejsza koncepcja, ale kluczowa. „Embedding” to numeryczny zapis znaczenia tekstu. Każdy fragment Twojego dokumentu jest zamieniany na ciąg liczb (typowo 1024 albo 2048), który koduje sens tego tekstu. Dwa fragmenty o podobnym znaczeniu mają podobne ciągi liczb — nawet jeśli używają zupełnie różnych słów.

Przykład praktyczny: gdy klient pyta „kiedy mogę odebrać paczkę?”, a Twój regulamin mówi „terminy odbioru przesyłek” — embeddingi „rozumieją”, że to to samo, mimo że nie ma żadnego wspólnego słowa.

W dokumentacji Anthropic czytamy:

Embeddingi tekstu to numeryczne reprezentacje, które pozwalają mierzyć podobieństwo semantyczne. Ten przewodnik wprowadza embeddingi i ich zastosowania w zadaniach takich jak wyszukiwanie, rekomendacje i wykrywanie anomalii. — dokumentacja Anthropic, Embeddings

Modele do embeddingów są tańsze niż modele językowe — typowo kilka centów USD za milion tokenów (jeden token = mniej więcej jedno krótkie słowo). Najpopularniejsze opcje:

Voyage AI — rekomendowana przez Anthropic. Modele voyage-4-large (najwyższa jakość), voyage-4-lite (najtańsza), oraz wyspecjalizowane: voyage-finance-2 dla finansów, voyage-law-2 dla tekstów prawnych.
OpenAI Embeddings — popularny, dobrze udokumentowany, integracja z większością narzędzi.
Google Gemini Embeddings — często wybierany, gdy reszta stack’u to Google Workspace.
Modele open source — np. voyage-4-nano (Apache 2.0) na Hugging Face. Nadają się, gdy dane nie mogą opuścić Twojej infrastruktury (RODO, ofertowe NDA).

3. Wyszukiwarka semantyczna (vector store)

To miejsce, gdzie embeddingi Twoich dokumentów są przechowywane i przeszukiwane. Działa jak Google dla Twojej bazy wiedzy — gdy zadajesz pytanie, system zamienia je też na embedding i znajduje najbliższe fragmenty z Twoich dokumentów.

Najpopularniejsze opcje, które integrują się z większością narzędzi do AI:

Pinecone — managed cloud, najbardziej znany, prosty start, płatność per-record.
Qdrant — open source, można self-hostować, RODO-friendly (dane zostają na Twoim serwerze).
Supabase Vector — wbudowany w popularny backend-as-a-service, dobry gdy reszta aplikacji już używa Postgres.
PGVector — rozszerzenie do PostgreSQL. Jeśli masz już Postgresa — dodajesz wektory bez nowej bazy.
Chroma, Weaviate, Milvus — alternatywy open source.

Jak pokazuje dokumentacja n8n — popularnego narzędzia do automatyzacji bez programowania — natywnie obsługiwane są między innymi:

Azure AI Search, Pinecone, Qdrant, Redis, Supabase, Weaviate, Chroma, MongoDB Atlas, PGVector, Milvus, Zep. — n8n Documentation, RAG in n8n

Praktyczna wskazówka: dla MŚP startujemy zwykle od PGVector (jeśli aplikacja już używa Postgresa) lub Supabase Vector (jeśli chcemy szybciej). Pinecone wybieramy, gdy bazę wiedzy będzie odpytywać tysiące klientów dziennie i potrzebna jest skalowalność z pudełka.

4. Model językowy (właściwy „mózg”)

Na końcu jest „rozmówca” — Claude, GPT-4, Gemini, lokalny Llama. Bierze pytanie klienta + fragmenty znalezione przez wyszukiwarkę i pisze odpowiedź naturalnym językiem. To, którego modelu używasz, ma mniejsze znaczenie niż jakość bazy wiedzy i embeddingów. RAG zbudowany na słabym modelu z dobrą bazą wiedzy będzie lepszy niż RAG na najlepszym modelu z bałaganem w dokumentach.

Pisaliśmy wcześniej o tym, dlaczego dla MŚP często bardziej opłaca się lokalne LLM open source niż chmurowe API — przy wrażliwych danych klientów lub regulowanej branży to często jedyna sensowna ścieżka.

Najczęstsze błędy MŚP wdrażających RAG samodzielnie

Przewijają się te same potknięcia, niezależnie od branży. Wszystkie da się uniknąć, jeśli wiesz o nich z wyprzedzeniem.

1. Wrzucenie 200 PDF-ów bez przygotowania

To najczęstszy błąd. Właściciel firmy myśli „mam dużo dokumentacji — wrzucę całość, niech AI sobie poradzi”. System rzeczywiście „połknie” wszystko, ale jakość odpowiedzi spada drastycznie.

Dlaczego: im więcej dokumentów w bazie, tym większa szansa, że wyszukiwarka semantyczna znajdzie fragmenty zbliżone, ale nie te właściwe. Stary cennik z 2023 i nowy z 2026 wyglądają semantycznie podobnie — system może wybrać nie ten.

Rozwiązanie: zacznij od minimalnej, świeżej, sprawdzonej bazy wiedzy. 20 dokumentów, które są na pewno aktualne. Stare wersje archiwizuj, nie trzymaj w bazie aktywnej. Każdy nowy dokument przed wrzuceniem czytaj — czy nie zawiera wewnętrznych notatek, błędów, sprzecznych informacji.

2. Pominięcie chunkingu

Dokumenty trzeba pociąć na fragmenty (chunks) — nikt nie wrzuca 80-stronicowego regulaminu do bazy jako jeden kawałek. Wielkość fragmentu ma kolosalne znaczenie.

Według badania Anthropic dotyczącego retrieval:

Fragmenty zazwyczaj zawierają nie więcej niż kilkaset tokenów. Kontekst dodawany do fragmentu mieści się typowo w 50–100 tokenach. — Anthropic, Contextual Retrieval

Praktyka: typowy chunk to 200–500 słów. Krótszy — system traci kontekst. Dłuższy — wyszukiwarka traci precyzję. Dla większości dokumentów MŚP optymalny rozmiar to 300–400 słów na fragment, z 10–20% nakładania się sąsiednich fragmentów (overlap).

Pułapka: nie tnij regulaminu po zdaniach. Tnij po logicznych sekcjach (paragrafy, podtytuły). Inaczej połowa zdania wyląduje w jednym fragmencie, druga w innym — i obie są bezużyteczne.

3. Brak monitorowania trafności

Zbudowałeś RAG, działa, klienci pytają. Skąd wiesz, czy odpowiedzi są trafne? Większość MŚP nie ma odpowiedzi na to pytanie, bo nikt nie patrzy w logi.

To pułapka, bo system, który halucynuje raz na 20 odpowiedzi, jest gorszy niż system, który nie odpowiada wcale. Jedna zła odpowiedź o cenie czy dostępności = stracony klient + reputacja.

Co monitorować: logi pytań i odpowiedzi (z anonimizacją), które fragmenty bazy zostały wybrane przez wyszukiwarkę, na ile model był „pewny” odpowiedzi. Co tydzień sample 20 odpowiedzi — czy są zgodne z dokumentami?

Anthropic w swoim badaniu pokazuje, że standardowy RAG w typowych warunkach gubi około 5,7% trafnych dokumentów — nawet w top-20 wynikach wyszukiwania. Po zastosowaniu zaawansowanych technik (contextual retrieval + reranking) ten wskaźnik spada do 1,9%, ale bez monitorowania nie wiesz, gdzie jesteś.

4. Bez weryfikacji odpowiedzi

Bardziej zaawansowane systemy RAG („agentic RAG”) robią dodatkowy krok — sprawdzają same siebie. Po wygenerowaniu odpowiedzi system zadaje sobie pytanie: „czy ta odpowiedź jest naprawdę wsparta tym, co znalazłem?”

Jak opisuje to dokumentacja LangChain:

Self-Reflective RAG używa maszyn stanu, które wspierają pętle i pozwalają systemowi podejmować decyzje, np. czy przeformułować pytanie i ponownie pobrać dokumenty, jeśli jakość pobranych dokumentów jest niska. — LangChain Blog, Agentic RAG

W praktyce dla MŚP nie zawsze jest to potrzebne — to dodaje koszt i opóźnienie. Ale przy obsłudze klienta z konsekwencjami finansowymi (sklep, oferty, kalkulacje) warto, bo każdy halucynowany cennik to potencjalna reklamacja.

Ostrzeżenie: zanim podpniesz RAG do publicznego chatbota na stronie, przetestuj go na 100 typowych pytaniach klientów. Sprawdź, ile odpowiedzi było dokładnych, ile niedokładnych, ile fałszywych. Jeśli „fałszywych” jest więcej niż 1–2 — nie wystawiaj systemu publicznie. Wewnętrzne narzędzie dla zespołu — OK, klient — jeszcze nie.

Jak my to robimy

W Monaltro w typowym wdrożeniu RAG dla MŚP idziemy etapowo, tak żeby właściciel widział wartość po pierwszym tygodniu, a nie po trzech miesiącach.

Etap 1 (1–2 tygodnie): wewnętrzny asystent dla zespołu. Bierzemy 20–30 najczęściej używanych dokumentów (FAQ, cennik, procedury). Wrzucamy do prostego stosu — Postgres z PGVector + Voyage AI dla embeddingów + Claude lub GPT jako model odpowiadający. Zespół ma czat dostępny przez przeglądarkę. Pyta o procedury, sprawdza informacje, zamiast szukać w 20 plikach. Tu nie ma jeszcze publicznego ryzyka — błędy łapie zespół, który zna prawdę.

Etap 2 (2–4 tygodnie): poszerzenie bazy + monitoring. Dodajemy kolejne dokumenty (e-maile do klientów z odpowiedziami, opisy produktów, wewnętrzne notatki). Wprowadzamy logi i co-tygodniowy review trafności. Zwiększamy bazę z 30 do 100–200 dokumentów. Wciąż wewnętrznie.

Etap 3 (po Etapie 2): kontrolowana ekspozycja zewnętrzna. Dopiero teraz — i tylko jeśli logi pokazują wysoką trafność — myślimy o publicznym chatbocie. Najpierw na stronie z formularza „zadaj pytanie”, z weryfikacją zespołu zanim odpowiedź wyjdzie. Później pełna automatyzacja, jeśli dane na to pozwalają.

Przy stack’u open source (PGVector + lokalne LLM + n8n do orkiestracji) całość mieści się w kosztach do 500 zł miesięcznie dla typowej małej firmy. Z modelami chmurowymi (Claude API + Pinecone + OpenAI Embeddings) — typowo 200–800 zł miesięcznie przy ruchu kilkudziesięciu pytań dziennie. Dla porównania: dotrenowanie własnego modelu (fine-tuning) zaczyna się od kilkudziesięciu tysięcy złotych jednorazowo i wymaga ponownego treningu po każdej zmianie.

Pisaliśmy też wcześniej o praktycznym wdrożeniu chatbota AI w małej firmie — RAG to jego naturalne rozszerzenie, gdy chcesz, by chatbot odpowiadał konkretnie na pytania o Twoją firmę, nie generic.

Podsumowanie

RAG nie jest magiczną formułą — to praktyczny wzorzec architektoniczny, który łączy ogólny model językowy z Twoją bazą wiedzy. W większości wdrożeń AI dla MŚP to wybór bardziej sensowny niż drogie dotrenowywanie modelu.

Kluczowe wnioski:

Fine-tuning to armata na wróbla w typowym MŚP. RAG daje 80% korzyści przy 5% kosztu.
Jakość bazy wiedzy ważniejsza od modelu. Najlepszy model na chaosie dokumentów = halucynacje. Średni model na dobrze przygotowanych 30 dokumentach = trafne odpowiedzi.
Cztery komponenty: baza wiedzy, embeddingi, vector store, model językowy. Każdy z nich ma alternatywy z ekosystemu open source — nie musisz brać wszystkiego z jednego dostawcy.
Zaczynaj wewnętrznie. Asystent dla zespołu zanim cokolwiek pójdzie do klienta — żeby błędy znalazł zespół, nie kupujący.
Monitoruj trafność. Bez logów i sample’owania odpowiedzi RAG zachowuje się jak czarna skrzynka — i tak go traktuj.

Wskazówka: zanim zlecisz komuś wdrożenie RAG, zrób ćwiczenie — wypisz 20 najczęstszych pytań Twoich klientów. Jeśli odpowiedzi na nie są w 5 dokumentach (cennik, FAQ, regulamin, opisy produktów, kontakt) — RAG zwróci się szybko. Jeśli odpowiedzi są w głowie konkretnej osoby z zespołu, której nikt nigdy nie spisał — najpierw spisz, potem wdrażaj. Jeśli zastanawiasz się, czy w Twojej firmie taki system ma sens i którą architekturę wybrać — chętnie podpowiemy.