סוכנים2024-06-1810 דק'

תכנון סוכני AI מותאמים שבאמת מגיעים לייצור

סוכני דמו נראים קסומים וסוכני ייצור נראים משעממים — וזו בדיוק הנקודה. הסוכנים שאנו משגרים ללקוחות לא מאלתרים; הם מריצים תוכנית מוגבלת על כלים מטופסים עם מצב עמיד, ומעבירים לבני אדם כשהתוכנית נכשלת. כך אנו מתכננים אותם.

[ תקציר ]

[ 01 ]

לולאת תכנון-ביצוע

אנו מפצלים כל סוכן לתכנן ומבצע. התכנן קורא את המטרה והמצב, ופולט תוכנית מובנית — רשימת שלבים מטופסים עם ארגומנטים. המבצע מריץ כל שלב, אוסף תוצאה ומחזיר לתכנן להחלטה הבאה.

ההפרדה הזו הופכת את הסוכן לניתן לדיבוג. אפשר לבחון תוכניות, להריץ אותן מחדש, להחליף מבצעים ולהריץ A/B על פרומפטים בלי לגעת בכלים.

[ 02 ]

מצב עמיד עם Temporal או LangGraph

סוכנים ארוכי-טווח על API בסגנון צ'אט שבירים: timeout בודד מאבד את כל השיחה. אנו מריצים סוכנים כ-durable workflows על Temporal או LangGraph כך שמצב שורד restart, ניסיונות חוזרים הם exactly-once וההיסטוריה ניתנת לתחקור.

עמידות היא ההבדל הגדול ביותר בין דמו מרשים למערכת שאפשר לשים בנתיב מול לקוח.

[ 03 ]

כלים מטופסים, נבדקים-חוזה

כל כלי שהסוכן יכול לקרוא מוגדר ב-JSON Schema ונבדק עצמאית. הסוכן לעולם לא מרכיב פקודות shell או בונה מחרוזות SQL — אלה כלים מפורשים עם ארגומנטים מאומתים. זה מצמצם את שטח התקיפה ומאפשר אבחון רגרסיות.

אנו שומרים על שטחי כלים קטנים. סוכן 6-כלים שמצליח 95% מנצח סוכן 40-כלים שמצליח 60% כל יום בשבוע.

[ 04 ]

זיכרון: שלוש שכבות, בלי קסם

זיכרון עבודה הוא השיחה הפעילה והתוכנית הנוכחית. זיכרון אפיזודי הוא הלוג העמיד של משימות עבר, נשלף בדמיון לפי הצורך. זיכרון סמנטי הוא הידע ארוך-הטווח של הסוכן — בדרך כלל אינדקס RAG על מסמכי הצוות.

הימנעו מהפיתוי לזרוק הכל למסד וקטורי אחד. שלוש השכבות משרתות צרכים שונים ומתפרקות אחרת תחת עומס.

[ 05 ]

העברה לאדם היא פיצ'ר ממדרגה ראשונה

כל סוכן ייצור משוגר עם ספי ביטחון מפורשים ונתיבי הסלמה. כשהתכנן לא בטוח, הסוכן עוצר את הזרימה, מפרסם את המצב לסוקר אנושי וממשיך מהחלטתו.

סוכנים שאף פעם לא מעבירים לאדם הם סוכנים שבסוף עושים משהו מביך מול לקוח.

[ תובנות מפתח ]

01פצלו תכנן ומבצע — היסוד של סוכן ניתן לדיבוג
02הריצו סוכנים כ-durable workflows כדי שמצב ישרוד restarts
03הגדירו כל כלי ב-JSON Schema; שמרו על סט קטן וחד
04שלוש שכבות זיכרון עוקפות אינדקס ענק אחד

[ FAQ ]

שאלות נפוצות

באיזה framework לסוכן להשתמש?

LangGraph לצוותי Python שרוצים workflows עמידים. Temporal לארגונים שכבר על Temporal. ה-framework פחות חשוב מהמשמעת של כלים מטופסים ומצב עמיד.

איך מעריכים סוכן?

קורפוס משימות קפוא עם פלטים מוזהבים, LLM-as-judge למקרים מורכבים ושיעור הסקלציה לאדם כמדד הגנה. כל שינוי פרומפט או מודל מריץ את הקורפוס ומציג diff לפני מיזוג.

מתי לא לבנות סוכן?

כשהמשימה היא קריאת LLM יחידה. עטיפת קריאה בסוכן מוסיפה השהיה, עלות וכשלים. סוכנים מצדיקים את המורכבות במשימות רב-שלביות עם מצב.

[ התחילו פרויקט ]

שגרו סוכן AI מותאם ששורד ייצור

אנו מתכננים סוכנים עמידים עם כלים מטופסים, מערכת הערכה והעברה לאדם — סביב הסטאק שלכם.

תכננו את הסוכן שלכם