New-Tech Magazine | Feb 2024 | Digital Edition
LLM ההבדל בין מנוע חיפוש, לחיפוש סמנטי, ולחיפוש מבוסס (עקרונות עיבוד שפה טבעית למנהלים) ChatGPT כדוגמת
, אוניברסיטת בן גוריון בנגב AI יורם סגל, חוקר »
עיבוד שפה טבעית הוא תחום בתחום הבינה מלאכותית שמתמקד ביצירת מערכות ותוכניות שיכולות לעבד ולהבין שפה בצורה דומה לאדם. נושא זה חשוב מאוד ביישומים רבים, כמו תרגום אוטומטי, סיכום טקסט, גילוי רגש, ועוד. השלבים בעיבוד שפה טבעית כוללים טוקניזציה (פיצול הטקסט ליחידות קטנות יותר כמו מילים וסימני פיסוק), פילוח (זיהוי חלקי משפט כגון פסקאות, תת-משפטים, ומשפטים), תיוג (זיהוי סוג המילים והיחסים ביניהן), ניתוח דקדוקי (בדיקת המבנה הדקדוקי של המשפט), ניתוח סמנטי (הבנת המשמעות של המשפט בהתבסס על הקשר והמילים השימושיות בו), פילוח משפטים (פירוק המשפט ליחידות סמנטיות כגון פועלים, עצמים, ומילים קשורות), זיהוי והבנה של רצפי אותיות ומילים בתחום מסוים כדי לזהות תבניות והקשרים.
לסדרה של מספרים (טוקנים) כווקטור רב ממדי. כלומר פעולת ההטמעה הופכת משפט לווקטור. מרחק בין בווקטורים מלמד על הקירבה הסמנטית בין משפטים שונים. , הוא Language Large Model , או LLM מודל בינה מלאכותית המבוסס על רשתות נוירונים עמוקות, מיועד לעיבוד שפה טבעית. הוא מסוגל להבין, לייצר ולתרגם טקסטים בשפות שונות. המודל מאומן על גבי כמויות עצומות של טקסטים מגוונים, מה שמאפשר לו להתמודד עם משימות רבות כמו תרגום אוטומטי, סיכום טקסטים, ניתוח רגשות, הוא כלי חשוב LLM גילוי כוונה ועוד. בתחום הבינה המלאכותית ומשמש במגוון רחב של יישומים, ממיר קול לטקסט ועד יישומים מתקדמים כמו צ'אטבוטים ועוזרים וירטואליים. מנוע חיפוש קלאסי מתמקד בחיפוש מילות מפתח בטקסטים ומחזיר תוצאות שמכילות את המילים הללו. דוגמאות למנועי חיפוש . היתרון העיקרי Bing ו- Google קלאסיים הם של מנוע חיפוש קלאסי הוא מהירותו ויעילותו במציאת תוצאות רלוונטיות לשאילתות פשוטות. עם זאת, הוא עלול להחמיץ תוצאות רלוונטיות אם המילים בשאילתה
ממירים את האסימונים לערכים מספריים, המייצגים את המשמעות והיחסים בין האסימונים . נזכור כי המחשב (ובפרט למידת מכונה ובתוכה למידה עמוקה) עובדים אך ורק עם מספרים. לכן, אלגוריתמי עיבוד שפה טבעית, אינם מסוגלים לקרא טקסט ישירות, במובן הגראפי של הטקסט, ולחלץ מתוכו תובנות מבוססות אינטליגנציה, כפי שבני אדם עושים זאת. בבינה מלאכותית, עלינו להמיר את הייצוג של הטקסט למספרים. בעזרת הטמעה, המודל יכול לעבד את ייצוג הטקסט בצורה יעילה יותר, כיוון שהמידע מיוצג בצורה ווקטורית, במרחב רב-ממדי שמתאים יותר לעיבוד מתמטי ממוחשב. משפט בנוי מטוקנים, כל טוקן הוא מספר, ניתן להתייחס
עולת הטוקניזציה מפרקת את פ המשפט לחלקיו הקטנים יותר, כגון מילים וסימני פיסוק. הנקראית "טוקנים" או "אסימונים". כל טוקן מייצג יחידת משמעותית בטקסט, כגון מילה או סימן פיסוק. לדוגמה: טקסט מקור: "היא אהבה ללכת לים." נמיר לטקסט בצורת רשימת טוקנים: ["היא", "אהבה", "ללכת", "לים", "."]. בדוגמה זו, כל מילה וסימן פיסוק נפרדים הם טוקנים בעצמם, והם מקבלים את המשמעות שלהם בהתאם לקשרם לטקסט המקורי. למשל המילה "היא" אינה מוגדרת בפני עצמה ודרוש למצוא למילה הקשר בטקסט השלם. ): זהו תהליך שבו Embedding הטמעה (
New-Tech Magazine l 36
Made with FlippingBook flipbook maker