New-Tech Magazine | Feb 2024 | Digital Edition
Word 2 Vec על בסיס מרחק וקטורי. למשל ומיועד להמיר Google הוא מודל שנוצר על ידי מילים לווקטורים נומריים במרחב וקטורי. כל מילה מיוצגת על ידי וקטור במרחב זה, והמרחק בין הווקטורים משקף את הדמיון הסמנטי בין המילים. דוגמה, אם נחשב את הווקטורים של המילים "מלך", "מלכה", , Word 2 Vec "איש" ו"אישה" באמצעות נוכל לראות כי המרחק הווקטורי בין "מלך" ל"מלכה" יהיה דומה למרחק בין "איש" ל"אישה". זה מראה כי המודל מסוגל ללמוד מערכות יחסים סמנטיות בין מילים, כמו יחסי מיגדר או היררכיה חברתית. מערכות כללים והיגיון: פיתוח כללים הגיוניים או תבניות שמתארים קשרים סמנטיים, כדי להפעיל חיפושים מורכבים על סמך משמעות. נניח שאנו רוצים למצוא מאמרים מדעיים שעוסקים בקשר בין תזונה למחלות לב. ניתן לפתח כללים הגיוניים שמגדירים את הקשרים הסמנטיים הרלוונטיים, לדוגמה: . אם מאמר מכיל את המילים "תזונה", 1 "דיאטה" או "מזון" וכן את המילים "מחלות לב", "טרשת עורקים" או "התקף לב", אזי המאמר עשוי להיות רלוונטי. . אם מאמר מדבר על חומרים מסוימים 2 בתזונה, כמו "כולסטרול" או "שומנים רוויים", וכן מזכיר מחלות לב, אזי הוא גם עשוי להיות רלוונטי. . אם מאמר עוסק במחקרים או ניסויים 3 שבדקו את ההשפעה של תזונה על מחלות לב, הוא נחשב לרלוונטי. על ידי הפעלת חיפושים מבוססי כללים אלה, מערכת החיפוש יכולה לסנן ולהחזיר מאמרים שעונים על הקריטריונים ההגיוניים שהוגדרו, מה שמאפשר חיפוש מורכב ורלוונטי יותר על סמך משמעות ולא רק על סמך מילות מפתח. חיפוש קלאסי יהיה עדיף כאשר יש צורך בתוצאות מהירות ומדויקות לשאילתות פשוטות, בעוד שחיפוש סמנטי יהיה עדיף כאשר השאילתה מורכבת יותר ודורשת הבנה עמוקה של ההקשר והמשמעות. להמחשת ההבדל, ניקח דוגמה מעולם הטכנולוגיה: שאילתת חיפוש קלאסית: "איך להתקין " Ubuntu ב- Docker תוצאה צפויה: תוצאות שיכילו את כל המילים בשאילתה, כמו מדריכים והוראות התקנה מאתרים טכניים. שאילתת חיפוש סמנטית: "כתוב הדרכה במערכת הפעלה של Docker לאופן הגדרת " Ubuntu
תוצאה צפויה: תוצאות שיכללו מדריכים Docker והוראות להתקנה והגדרה של , גם אם המילים בשאילתה לא Ubuntu ב מתאימות בדיוק למילים בתוכן. לצורך הבנת ההבדל בין חיפוש סמנטי נציג דוגמה לשאילתה LLM לחיפוש מבוסס יכול לבצע אך LLM מעולם הטכנולוגיה ש חיפוש סמנטי עלול לא להצליח: "הסבר איך לניבוי סדרות זמן בנתוני RNN להשתמש ב- יכול לנתח את LLM תנודתיות שוק ההון". השאילתה, להבין את המושגים המורכבים RNN " ) Recurrent Neural Networks ( כמו " ו"נתוני תנודתיות שוק ההון", ולספק תשובה מפורטת עם הסברים ודוגמאות. מנגד, חיפוש סמנטי עשוי להתקשות להבין את הקשר המדויק והמושגים המתקדמים בשאילתה, ולכן יכול להחזיר תוצאות פחות רלוונטיות או מפורטות. דוגמה לשאילתה מעולם הטכנולוגיה שחיפוש LLM סמנטי יכול לבצע בצורה טובה יותר מ היא: "מצא את כל המאמרים העוסקים באלגוריתמים של למידת מכונה בתחום ". חיפוש סמנטי 2024 הרפואה המונעת בשנת יכול להתמקד במציאת מסמכים ומאמרים שמתאימים במדויק לקריטריונים שצוינו בשאילתה, כולל התמקדות בשנה מסוימת , לעומת זאת, עשוי לתת LLM ובתחום מדויק. תשובה כללית יותר על אלגוריתמים בלמידת מכונה ברפואה המונעת, אך יתקשה לסנן תוצאות ספציפיות לפי שנה ולספק רשימה מקיפה של מאמרים. לסיכום חיפוש סמנטי וחיפוש קלאסי מייצרים מייצר LLM רשימת תוצאות חיפוש, בעוד ש טקסט הסבר העונה לשאלה. חיפוש קלאסי וחיפוש סמנטי מתמקדים במציאת מסמכים או דפי אינטרנט שמכילים מילות מפתח או מושגים רלוונטיים לשאילתת החיפוש, ומספקים רשימה של קישורים או תקצירים של המסמכים הללו. מצד שני, חיפוש מבוסס מבצע פענוח עמוק יותר של השאלה LLM ומייצר פיסקת תשובה כתובה שמסבירה או מתארת מידע רלוונטי, במקום רק להציג רשימת קישורים.
לא מתאימות בדיוק למילים במסמך. מנוע חיפוש סמנטי מנסה להבין את המשמעות הכללית של השאילתה ולהחזיר תוצאות שקשורות למושגים ולהקשרים דומים. דוגמאות למנועי חיפוש סמנטיים הם . יתרונותיהם כוללים Yippy ו- Wolfram Alpha את היכולת למצוא תוצאות רלוונטיות גם כאשר אין התאמה מדויקת למילות החיפוש ולהבין שאילתות מורכבות יותר. נדגיש כי חיפוש סמנטי ניתן לממש גם ללא על ידי שימוש בטכנולוגיות LLM שימוש ב ושיטות שונות מתחום עיבוד שפה טבעית ) וסמנטיקה. להלן כמה דרכים למימוש NLP ( חיפוש סמנטי: אונטולוגיות ומודלים סמנטיים: הגדרת מבנה וקשרים בין מושגים בתחום מסוים, כדי לאפשר חיפוש מבוסס משמעות ולא רק מילים. אונטולוגיה פופולרית מתחום הרפואה מספקת מערכת מקיפה של מונחים רפואיים עם הגדרות מדויקות וקשרים סמנטיים בין המושגים. לדוגמה, היא מכילה מושגים כמו "דלקת" ו"ריאה", וקובעת את הקשרים ביניהם, כגון "דלקת ריאות" היא סוג של "דלקת" המתרחשת ב"ריאה". : שימוש בכלים כמו תגיות NLP כלי וטכניקות חלקי דיבר, ניתוח תלותיות, וניתוח שם עצם, כדי להבין את מבנה המשפט והקשרים היא SpaCy . SpaCy בין המילים כמו למשל פופולרית לעיבוד שפה טבעית Python ספריית שמספקת כלים לביצוע מגוון רחב של משימות . לדוגמה, נניח שיש לנו את המשפט הבא: NLP , SpaCy "החתול ישן על הספה." באמצעות אנו יכולים לבצע את הפעולות הבאות: Part - of - Speech . תגיות חלקי דיבר ( 1 ): הקצאת תגים לכל מילה במשפט Tagging לפי תפקידה התחבירי, למשל, "החתול" כשם עצם, "ישן" כפועל, ו"על" כמילת חיבור. :) Dependency Parsing . ניתוח תלותיות ( 2 זיהוי הקשרים התחביריים בין המילים, כגון ש"ישן" הוא הפעל המרכזי במשפט וש"החתול" משמש כנושא של הפועל. Named Entity . ניתוח שם-עצם ( 3 ): זיהוי וסיווג של ישויות Recognition במשפט, כמו שמות פרטיים, ארגונים, מקומות וכו'. במשפט זה אין ישויות מסוימות, אך אם יכול SpaCy היינו מוסיפים "בבית של ג'ון", היה לזהות את "ג'ון" כשם פרטי. מודלים וקטורים של מילים: שימוש במודלים , FastText , או Word 2 Vec , GloVe כמו שמייצגים מילים כווקטורים במרחב וקטורי, כדי לחשב דמיון סמנטי בין מילים וביטויים
37 l New-Tech Magazine
Made with FlippingBook flipbook maker