← חזור לדף הבית
AI Architecture · 2026-04-18 · 9 דק׳ קריאה

RAG מול Fine-tuning — מתי מה משתלם בארגון שלך?

"רוצים סוכן שיודע הכל על המוצר שלנו" — זה מה ששומעים בכל פגישה ראשונה. ויש שתי דרכים ראשיות לעשות את זה: RAG (Retrieval-Augmented Generation) או Fine-tuning. הבחירה הלא נכונה תעלה לך פי 10 מיותר. הנה איך אני בוחר אצל לקוחות.

RAG מול Fine-tuning — מתי מה משתלם בארגון שלך?

📑 תוכן עניינים

כל לקוח חדש שמגיע אליי שואל וריאציה של אותה שאלה: "רוצים סוכן שיודע הכל על המוצר/הלקוחות/החוזים שלנו". יש שתי דרכים ראשיות לעשות את זה — וההבדל ביניהן הוא ההבדל בין $500 בחודש ל-$50,000 בחודש. שתיהן עובדות. אבל לכל אחת יש המקום שלה.

RAG vs fine-tuning architecture

מה זה RAG — בעברית פשוטה

RAG = Retrieval-Augmented Generation. הרעיון: אתה לא מאמן את המודל מחדש. אתה משאיר אותו "טיפש" — אבל לפני כל שאלה אתה מחפש בבסיס הנתונים שלך את הקטעים הרלוונטיים, ושולח אותם למודל יחד עם השאלה.

תהליך:

  1. קח את כל המסמכים שלך (חוזים, מאמרים, תיעוד, פגישות).
  2. חתוך אותם לקטעים (chunks) של 200–800 מילים.
  3. הפוך כל chunk ל-embedding (וקטור מספרי) ושמור ב-vector DB (Pinecone, pgvector, Weaviate, Qdrant).
  4. בכל שאלה — חפש את 5–10 הקטעים הכי דומים לשאלה, ושלח אותם למודל יחד עם השאלה.

זהו. אין אימון. אין GPU. עלות ראשונית: $0 כמעט. עלות שוטפת: רק קריאות API + עלות ה-vector DB.

מה זה Fine-tuning — בעברית פשוטה

Fine-tuning = אימון מותאם. אתה לוקח מודל בסיס (Llama, Qwen, Gemma, Mistral, או GPT-3.5/4-mini), ומאמן אותו על אלפי דוגמאות שלך כך שהוא לומד פנימית את הסגנון, הטרמינולוגיה, או המשימה. בסוף יש לך מודל משלך שמחזיר תשובות בלי שתצטרך לתת לו context בכל קריאה.

תהליך:

  1. אסוף 1,000–50,000 דוגמאות (input + output) של הסגנון/המשימה שאתה רוצה.
  2. בחר מודל בסיס (Llama 3.3 70B עובד מצוין).
  3. הרץ אימון על GPU (H100 או A100, 24–72 שעות).
  4. הוסף את המודל המאומן ל-serving (vLLM/Together/RunPod).

עלות: $5K–$50K לאימון אחד. אבל בסוף יש לך מודל קטן ומדויק שעולה פי 20–50 פחות לכל קריאה.

מתי RAG הוא הבחירה הנכונה

זה ה-default שלי בכל פרויקט. 80% מהמקרים = RAG.

דוגמה מלקוח: חברת ייעוץ פיננסי עם 12,000 דוחות. RAG עם pgvector + Claude Sonnet. עלות $400 בחודש. ROI מיידי.

מתי Fine-tuning הוא הבחירה הנכונה

יותר נדיר, אבל קריטי כשמתאים. 20% מהמקרים = Fine-tuning (לפעמים בנוסף ל-RAG, לא במקום).

דוגמה מלקוח: חברת SaaS עם 5M classify-requests בחודש. fine-tune של Llama 3.3 8B על 8,000 דוגמאות = חיסכון של $14K בחודש לעומת GPT-4o-mini.

להריץ את שניהם ביחד? כן.

הכי חזק זה לשלב. RAG מספק את ה-context הדינמי, ו-fine-tuning מספק את הטרמינולוגיה והסגנון של הארגון. אצל לקוחות גדולים אני בונה ארכיטקטורה היברידית:

  1. fine-tuned base model — לסגנון הארגוני, הטרמינולוגיה, ההיררכיה.
  2. RAG על דאטה דינמי — מסמכים, חוזים, FAQ.
  3. Tool calling — לפעולות חיצוניות (שליחת מייל, יצירת ticket).

זה מה שאני קורא לו "הסוכן ארגוני המלא" (ראה מאמר הארכיטקטורה).

טעויות נפוצות שאני רואה

  1. לאמן מודל לפני שניסו RAG. טעות יקרה. תמיד תתחיל ב-RAG. רק אם הוא לא מספיק — תעבור ל-fine-tuning.
  2. לעשות fine-tune בלי evals. אתה מקבל מודל שאתה לא יודע אם הוא טוב יותר. תקים evaluation set מ-200 דוגמאות לפני האימון.
  3. לחשוב ש-RAG פותר Hallucinations. הוא מוריד אותן, לא מבטל. תמיד הוסף guardrails (prompt injection defense ו-output validators).

ההמלצה הסופית

אם זה סטארטאפ או עסק קטן: RAG + Claude/GPT, סוף סיפור. תוך שבוע באוויר.

אם זה ארגון בינוני-גדול עם volume גבוה: התחל ב-RAG, הוכח ROI, ואז שקול fine-tuning של מודל מקומי כדי לחסוך 80% בעלויות לאחר scale.

בוא נדבר על איך הארכיטקטורה הנכונה נראית אצלך. תוך שיחת 60 דקות אדע להגיד לך איזו אופציה משתלמת לארגון שלך, ואיזה תקציב צריך לתכנן.