April 2016 issue
, וסוגי הנתונים כמו MATLAB ישירות מתוך מאפשרים לנו יכולות table או categorical של תכנות מונחה עצמים עם גישה ישירה למידע והפניות מהירות. על שילוב המידע ועיבוד ראשוני. מנת לוודא שהמידע שאנחנו פועלים עליו הוא באמת מידע נכון - מה הטעם בחיזוי ערך מניה אם אין אנו יודעים מהו מועד הערך? - יש לבצע ניתוח ראשוני של המידע והכנה שלו לצורך בדיקה כי לא חסרים ערכים כלשהם, אין ערכים שגויים, או תבנית זמן שאיננה מתאימה. בהתאם לסוג המידע והמקור שממנו מגיע, נשתמש באלגוריתמים ושיטות מתאימים - לסינון רעש המגיע מחיישן נפעיל אלגוריתם לעיבוד אות ולהורדת גודל תמונה נשתמש באלגוריתם מעולם עיבוד התמונה. בשלב זה ננסה להקטין את כמות המידע שאנחנו מנסים לעבוד איתה, ע"י מציאת מאפיינים ) ייחודיים. בשלב זה עושים features (או שימוש נרחב בפונקציונליות ויכולותמובנות והכלים הנלווים אליה. למשל MATLAB של בכדי לסנן מידע filter נעשה שימוש בפקודה . NaN רועש או נחליף ערכים לא קיימים ב- כעת, כשיש ניתוח ומידול המידע. בידינו גישה למידע מסודר, נקי ובעל מספר , מגיע השלב המרכזי features נמוך של - כיצד לוקחים את כל הנתונים ומוצאים מתוכם מודל או התנהגות שמסבירה אותם, וגם מספקת חיזוי להתנהגות עתידית? משתמשים במתימטיקה, והמתימטיקה עובדת! בשנים האחרונות נושא לימוד ) והלמידה Machine Learning המכונה ( ) הולך יד ביד עם Deep Learning העמוקה ( . הרעיון Big Data מערכות אגירת מידע ו- המרכזי הוא להשתמש בשיטות סדורות שמאפשרות לבנות מודלים מתימטיים שמתארים את התנהגות המערכת, ורמת הדיוק של המודל לרוב תהיה טובה יותר ככל שיהיה יותר מידע. קיימות מספר גישות לביצוע לימוד מכונה - החל מסיווג
« Data Analytics השלבים המרכזיים בביצוע או לפעול לפי סט כללים שהוגדר מראש - לתת התרעה על חולה שצפוי לקבל התקף, לצפות כשל טכני במטוס, לבצע פעולת Tag קניה/מכירה של מניה או להוסיף לאדם שזיהינו בתמונה. ההטמעה יכולה להיות במערכת מאגר הנתונים, ביצירה של web קבצים חדשים, התממשקות ליישומי MATLAB או כל פעולה אחרת. שימוש ב- C יאפשר לנו למשל לייצר קוד Coder MATLAB בצורה אוטומטית, בעוד שה- יאפשר לנו לייצר ספריות Compiler ואף NET , JAVA להטמעה בסביבת . MATLAB Production פיית'ון. בעזרת ה- , web , אשר מוטמע ישירות בסביבת Server כל התהליך הופך פשוט להפליא, ואף ניהול הגרסאות מבוצע ישירות עבורכם! ארגז הכלים למדען ולמהנדס מי שעושה את צעדיו הראשונים בעולם , צריך להיות בעל DA החדשני והמסקרן של ידע רחב ומגוון. ראשית, כדאי להכיר אופן פעולה וגישה למאגרי נתונים מסוגים שונים. אפשר תמיד להתחיל עם קובץ אקסל לצורך לימוד בסיסי, ולאט לאט לעבור למאגרי או Hadoop ולבסוף ל- SQL נתונים מבוססי : spark
כללי של למידה מונחית או בלתי-מונחית, וכלה בשיטות, כגון רגרסיה (ליניארית Support Vector ולא ליניארית) עצי סיווג, , אלגוריתמים גנטיים, רשתות Machine וכמובן רשתות Bayesian Networks מסוג ). המשותף לכל Neural Networks נוירונים ( השיטות הוא התהליך: ראשית מגדירים מודל ראשוני - סוג השיטה, מספר מקדמים חופשיים, גודל וכו', לאחר מכן "מאמנים" את המודל בעזרת המידע, כלומר מנסים למצוא את המקדמים כך שתהיה התאמה מקסימלית בין המודל שאנו מאמנים לבין הנתונים בפועל. לבסוף - בודקים את אמינות המודל ע"י הכנסה של נתונים חדשים ובדיקת אופן החיזוי. סוג השיטה ומידת ההתאמה שלה תלוי מאד באופי הבעיה, ולכן בחלק גדול מהמקרים ייבדקו מספר מודלים עם אותו המידע, עד שיימצא המודל המתאים ביותר. בעזרת ניתן MATLAB ב- classificationLearner ה- לעבור בקלות ממודל למודל ולבחון את תוצאות החיזוי, מבלי לקודד אף לא שורת קוד אחת. המטרה הטמעה במערכת החלטה. המרכזית בעיבוד המידע הייתה לבצע פעולה כלשהי, כלומר לספק תובנה כלשהי
77 l New-Tech Magazine
Made with FlippingBook