
RAG מעבר לחיפוש וקטורי: ארכיטקטורת שליפה היברידית ל-AI ארגוני
אחרי הטמעות RAG בסביבות בריאות, משפט ופיננסים, דפוס אחד עקבי: חיפוש וקטורי טהור עושה דמו נהדר ומוצר שביר. משתמשים ארגוניים פוגעים בזנב ארוך של ראשי תיבות, מזהים, תאריכים ושאילתות מחרוזת-מדויקת שאמבדינגים צפופים מטפלים בהם גרוע. התשובה היא שליפה היברידית — והפרדה ברורה בין שליפה, דירוג והקשרה.
אחרי הטמעות RAG בסביבות בריאות, משפט ופיננסים, דפוס אחד עקבי: חיפוש וקטורי טהור עושה דמו נהדר ומוצר שביר. משתמשים ארגוניים פוגעים בזנב ארוך של ראשי תיבות, מזהים, תאריכים ושאילתות מחרוזת-מדויקת שאמבדינגים צפופים מטפלים בהם גרוע. התשובה היא שליפה היברידית — והפרדה ברורה בין שליפה, דירוג והקשרה.
למה חיפוש וקטורי טהור נשבר בקנה מידה ארגוני
אמבדינגים צפופים מצטיינים בדמיון סמנטי אבל מטשטשים טוקנים מדויקים. 'ICD-10 R10.31', 'חשבונית INV-44219', 'סעיף 12(ב)(4)' — המחרוזת המילולית היא המשמעות, וחיפוש שכנים יחזיר שכן נושאי במקום הרשומה הנכונה.
אינדקסי וקטורים גם מתקשים בשלילה, רעננות וסינונים מובנים. משתמש ששואל 'טיקטים פתוחים מ-Q3 שלא משויכים אלי' עושה עבודת שאילתה מובנית, לא התאמת דמיון.
4 השכבות של סטאק RAG בייצור
אנו מתכננים כל מערכת RAG ארגונית כארבע שכבות נפרדות הניתנות לבדיקה. לכל שכבה סט הערכה ומצב כשל משלה.
- קליטה — chunking, חילוץ מטא-דאטה, תיוג ישויות וטיפול ב-PII
- שליפה — היברידית BM25 + צפופה, עם סינונים מובנים מפרשנות כוונה
- דירוג — מדרג cross-encoder על 50–100 מועמדים מובילים
- הקשרה — הרכבת פרומפט עם ציטוטים, סכמות וגארדריילים
שליפה היברידית: BM25 + צפופה, ממוזגות עם RRF
הריצו BM25 (או SPLADE) ושליפה וקטורית במקביל, קחו את 50 המובילים מכל אחד ומזגו עם Reciprocal Rank Fusion. RRF דל-פרמטרים, חסון, ועקבית עוקף כל שולף לבדו על קורפוסים ארגוניים.
הוסיפו pre-filter מובנה למעלה — דייר, טווח תאריכים, סוג מסמך — מבוסס LLM לפרשנות כוונה. השולף לעולם לא רואה מסמכים שאין למשתמש הרשאה אליהם.
Cross-encoder re-ranking מצדיק את המחשוב
מדרג cross-encoder קטן (למשל bge-reranker-v2-m3) על 50–100 מועמדים הוא הרכיב בעל המינוף הגבוה ביותר. בדרך כלל מעלה דיוק top-3 ב-15–30% מעל שליפה ממוזגת, בעלות של 50–200ms.
השתמשו בקאש אגרסיבי ברמת (שאילתה, מועמד) — חלק מפתיע משאילתות חוזרות מילולית תוך שעות.
הקשרה: ציטוט, או לא לענות
המודל צריך לייצר תשובות אך ורק מההקשר שנשלף, וכל משפט נושא ציטוט inline לזיהוי chunk. אם השולף לא מחזיר כלום מעל סף ביטחון, המודל אומר זאת. 'אין לי מקור' הוא פיצ'ר, לא באג — זה מה שהופך את המערכת לניתנת לביקורת.
אנו גם מגבילים פלט לסכמות JSON היכן שהצרכן הוא מערכת. יצירה מוגבלת-סכמה מבטלת מחלקות שלמות של תקלות פורמט.
- 01RAG וקטורי-בלבד נכשל על מזהים, מחרוזות מדויקות וסינונים מובנים
- 02ארכיטקטו קליטה, שליפה, דירוג והקשרה כשכבות נפרדות הניתנות לבדיקה
- 03BM25 + צפופה עם RRF הם ברירת המחדל החזקה לקורפוסים ארגוניים
- 04מדרג cross-encoder קטן הוא ה-ROI הגבוה ביותר לרוב הצינורות
שאלות נפוצות
באיזה מסד וקטורים להשתמש?
+
לרוב העומסים הארגוניים, Postgres עם pgvector או OpenSearch היברידי קלים יותר לתפעול ממסד וקטורי ייעודי. השתמשו במסד מתמחה רק כשעוברים 50M+ וקטורים עם תקציבי השהיה קשיחים.
איך מטפלים ברעננות מסמכים?
+
מקור האמת חי במערכת הרשומה. אינדקס ה-RAG הוא נכס נגזר, מתעדכן ב-CDC או סנכרון מתוזמן. כל chunk נושא updated_at; הפרומפט מורה למודל להעדיף את המקור העדכני ביותר.
כמה גדול chunk צריך להיות?
+
300–600 טוקנים עם 10–15% חפיפה היא ברירת מחדל טובה לפרוזה. לקוד או טבלאות, חלקו לפי גבולות מבניים. שמרו גם הפניה למסמך האב להרחבת הקשר.
בנו מערכת RAG ברמת ארגון
אנו מתכננים סטאקי שליפה היברידיים עם הערכות, ציטוטים והקשרה מבנית — מוכן לייצור תוך 4–6 שבועות.
התחילו פרויקט RAG