RAG מול Fine-tuning — מתי מה משתלם בארגון שלך?
"רוצים סוכן שיודע הכל על המוצר שלנו" — זה מה ששומעים בכל פגישה ראשונה. ויש שתי דרכים ראשיות לעשות את זה: RAG (Retrieval-Augmented Generation) או Fine-tuning. הבחירה הלא נכונה תעלה לך פי 10 מיותר. הנה איך אני בוחר אצל לקוחות.
📑 תוכן עניינים
כל לקוח חדש שמגיע אליי שואל וריאציה של אותה שאלה: "רוצים סוכן שיודע הכל על המוצר/הלקוחות/החוזים שלנו". יש שתי דרכים ראשיות לעשות את זה — וההבדל ביניהן הוא ההבדל בין $500 בחודש ל-$50,000 בחודש. שתיהן עובדות. אבל לכל אחת יש המקום שלה.
מה זה RAG — בעברית פשוטה
RAG = Retrieval-Augmented Generation. הרעיון: אתה לא מאמן את המודל מחדש. אתה משאיר אותו "טיפש" — אבל לפני כל שאלה אתה מחפש בבסיס הנתונים שלך את הקטעים הרלוונטיים, ושולח אותם למודל יחד עם השאלה.
תהליך:
- קח את כל המסמכים שלך (חוזים, מאמרים, תיעוד, פגישות).
- חתוך אותם לקטעים (chunks) של 200–800 מילים.
- הפוך כל chunk ל-embedding (וקטור מספרי) ושמור ב-vector DB (Pinecone, pgvector, Weaviate, Qdrant).
- בכל שאלה — חפש את 5–10 הקטעים הכי דומים לשאלה, ושלח אותם למודל יחד עם השאלה.
זהו. אין אימון. אין GPU. עלות ראשונית: $0 כמעט. עלות שוטפת: רק קריאות API + עלות ה-vector DB.
מה זה Fine-tuning — בעברית פשוטה
Fine-tuning = אימון מותאם. אתה לוקח מודל בסיס (Llama, Qwen, Gemma, Mistral, או GPT-3.5/4-mini), ומאמן אותו על אלפי דוגמאות שלך כך שהוא לומד פנימית את הסגנון, הטרמינולוגיה, או המשימה. בסוף יש לך מודל משלך שמחזיר תשובות בלי שתצטרך לתת לו context בכל קריאה.
תהליך:
- אסוף 1,000–50,000 דוגמאות (input + output) של הסגנון/המשימה שאתה רוצה.
- בחר מודל בסיס (Llama 3.3 70B עובד מצוין).
- הרץ אימון על GPU (H100 או A100, 24–72 שעות).
- הוסף את המודל המאומן ל-serving (vLLM/Together/RunPod).
עלות: $5K–$50K לאימון אחד. אבל בסוף יש לך מודל קטן ומדויק שעולה פי 20–50 פחות לכל קריאה.
מתי RAG הוא הבחירה הנכונה
זה ה-default שלי בכל פרויקט. 80% מהמקרים = RAG.
- ✅ הדאטה משתנה (מסמכים, חוזים, FAQ עדכנית).
- ✅ אין לך עוד אלפי דוגמאות איכותיות לאימון.
- ✅ אתה רוצה התחלה מהירה (שבוע-שבועיים ל-MVP).
- ✅ העלות חייבת להישאר נמוכה.
- ✅ אתה צריך explainability (למה המודל אמר את זה? כי זה הקטע מהמסמך הזה).
דוגמה מלקוח: חברת ייעוץ פיננסי עם 12,000 דוחות. RAG עם pgvector + Claude Sonnet. עלות $400 בחודש. ROI מיידי.
מתי Fine-tuning הוא הבחירה הנכונה
יותר נדיר, אבל קריטי כשמתאים. 20% מהמקרים = Fine-tuning (לפעמים בנוסף ל-RAG, לא במקום).
- ✅ יש לך משימה חוזרת מאוד (סיווג, סיכום, תרגום מסוים) ב-volume גבוה.
- ✅ הדאטה יציבה — לא משתנה כל שבוע.
- ✅ יש לך אלפי דוגמאות איכותיות (input → output) שאתה יכול לתת.
- ✅ אתה רוצה לחסוך לטווח רחוק ב-cost לכל קריאה (פי 20–50).
- ✅ יש לך GPU או תקציב להריץ (ראה המאמר על cost optimization).
דוגמה מלקוח: חברת SaaS עם 5M classify-requests בחודש. fine-tune של Llama 3.3 8B על 8,000 דוגמאות = חיסכון של $14K בחודש לעומת GPT-4o-mini.
להריץ את שניהם ביחד? כן.
הכי חזק זה לשלב. RAG מספק את ה-context הדינמי, ו-fine-tuning מספק את הטרמינולוגיה והסגנון של הארגון. אצל לקוחות גדולים אני בונה ארכיטקטורה היברידית:
- fine-tuned base model — לסגנון הארגוני, הטרמינולוגיה, ההיררכיה.
- RAG על דאטה דינמי — מסמכים, חוזים, FAQ.
- Tool calling — לפעולות חיצוניות (שליחת מייל, יצירת ticket).
זה מה שאני קורא לו "הסוכן ארגוני המלא" (ראה מאמר הארכיטקטורה).
טעויות נפוצות שאני רואה
- לאמן מודל לפני שניסו RAG. טעות יקרה. תמיד תתחיל ב-RAG. רק אם הוא לא מספיק — תעבור ל-fine-tuning.
- לעשות fine-tune בלי evals. אתה מקבל מודל שאתה לא יודע אם הוא טוב יותר. תקים evaluation set מ-200 דוגמאות לפני האימון.
- לחשוב ש-RAG פותר Hallucinations. הוא מוריד אותן, לא מבטל. תמיד הוסף guardrails (prompt injection defense ו-output validators).
ההמלצה הסופית
אם זה סטארטאפ או עסק קטן: RAG + Claude/GPT, סוף סיפור. תוך שבוע באוויר.
אם זה ארגון בינוני-גדול עם volume גבוה: התחל ב-RAG, הוכח ROI, ואז שקול fine-tuning של מודל מקומי כדי לחסוך 80% בעלויות לאחר scale.
בוא נדבר על איך הארכיטקטורה הנכונה נראית אצלך. תוך שיחת 60 דקות אדע להגיד לך איזו אופציה משתלמת לארגון שלך, ואיזה תקציב צריך לתכנן.