Η βασική έρευνα πάνω σε µοντέλα Τεχνητής Νοηµοσύνης, αποτελεί το κύριο σηµείο της εργασίας ερευνητών του Πολυτεχνείου Κρήτης στο πλαίσιο του προγράµµατος “DEEP-REBAYES”.
Ο καθηγητής του Πολυτεχνείου Κρήτης και κύριος ερευνητής κ. Γιώργος Χαλκιαδάκης εξηγεί στα “Χ.ν.” πως µέσα από τις ερευνητικές δράσεις του προγράµµατος ο αντικειµενικός στόχος ήταν «να µελετήσουµε πως θα συµπεριφερθούν οι παίκτες, τα άτοµα, οι έλλογες ευφυείς οντότητες, οι “πράκτορες” όπως λέµε εµείς, σε ένα περιβάλλον όπου συναναστρέφονται µε άλλους. Το οποιοδήποτε περιβάλλον στο οποίο δραστηριοποιούνται και άλλοι το θεωρούµε ως ένα “παιχνίδι”. Η θεωρία των παιγνίων προσπαθεί να εξετάσει τι θα κάνουν οι παίκτες αυτοί όταν είναι ως επί το πλείστον ορθολογικοί. Στη Τεχνητή Νοηµοσύνη και σε ένα τοµέα της ειδικά που ασχολείται µε τις αλληλεπιδράσεις πολλών ευφυών οντοτήτων – τα λεγόµενα Πολυπρακτορικά Συστήµατα – προσπαθούµε να κάνουµε πιο ρεαλιστικές υποθέσεις».
Πιο συγκεκριµένα οι πυλώνες πάνω στους οποίους εργάστηκαν οι µετέχοντες στο πρόγραµµα που υλοποιείται µε χρηµατοδότηση από το Ελληνικό Ίδρυµα Έρευνας και Καινοτοµίας, είναι οι εξής:
• ΑΥΤΟΝΟΜΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ ΣΕ ΣΤΡΑΤΗΓΙΚΑ ΨΗΦΙΑΚΑ ΠΑΙΓΝΙ∆ΙΑ: Όπως σηµειώνει ο µεταδιδακτορικός ερευνητής κ. Χάρης Ακασιάδης, « στοχός του συγκεκριµένου project είναι να αναλύσει ένα παίγνιο- ένα περιβάλλον στο οποίο αλληλεπιδρά ο αυτόνοµος πράκτορας και να δούµε πως θα κινηθεί σε αυτό». Πεδίο εφαρµογής είναι τα ψηφιακά παιγνίδια τονίζει ο κ. Στέργιος Πλατανιώτης, µεταπτυχιακός φοιτητής χρηµατοδοτούµενος από το έργο, και προσθέτει ότι «ασχολούµαστε µε προβλήµατα που αφορούν την βαθιά εξερεύνηση στρατηγικών. Προβλήµατα που παρέχουν ελάχιστη ανατροφοδότηση και στα οποία η αλληλεπίδραση µε το περιβάλλον µπορεί να έχει µακροπρόσθεσµες συνέπειες. Χρησιµοποιούµε τους κατάλληλους αλγορίθµους που τελούν βαθιά εξερεύνηση και µια καλή µέθοδος για να συγκρίνουµε τέτοιους αλγορίθµους είναι η πλατφόρµα Atari 2600 µε τα κλασσικά παιγνίδια του Atari αλλά και επιτραπέζια. Οπότε ο εκάστοτε αλγόριθµος, µαθαίνει να χρησιµοποιεί το χειριστήριο ώστε να κινηθεί στο παιγνίδι και να έχει το µεγαλύτερο σκορ, όπως θα έκανε ένας άνθρωπος. Χρησιµοποιούµε αλγορίθµους που χειρίζονται πολλαπλά µοντέλα και νευρωνικά δίκτυα, που το καθένα από αυτά παράγει τη δική του στρατηγική».
•ΑΥΤΟΝΟΜΗ Ο∆ΗΓΗΣΗ: Για το project µιλάει ο µεταδιδακτορικός ερευνητής ∆ηµήτρης Τρουλινός. «Πρόκειται για ένα κλειστό σύστηµα όπου κάποιοι πράκτορες αποτελούν µια διαφορετική οντότητα. Συνδυάζουµε την αυτονοµία και παράλληλα έχουµε και συντονισµό µεταξύ των πρακτόρων για αυτό και η δουλειά µας επικεντρώνεται σε ένα πιο ρεαλιστικό πλαίσιο επικοινωνίας. […] Έχοντας δηµιουργήσει ένα πλαίσιο επικοινωνίας, µε ένα υφιστάµενο αλγόριθµο που τον επεκτείνουµε κατάλληλα ώστε να ταιριάζει σε αυτό το πλαίσιο!»
Στο ίδιο µήκος κύµατος και ο υποψήφιος διδάκτορας Ιάσονας Χρυσοµάλλης παρατηρεί πως «έχουµε τον µέντορα-δάσκαλο, τον παρατηρητή- µαθητή, και ο µέντορας προσπαθεί να περάσει πληροφορίες στο µαθητή ώστε να λύσει ένα πρόβληµα, να κάνει µια πρόβλεψη κα. Στον τοµέα της έµµεσης µίµησης ο δάσκαλος δίνει µια έµµεση κατεύθυνση, µια διαίσθηση προς τα που είναι η λύση χωρίς να παρέχει βήµα- βήµα τις κατευθύνσεις. Έτσι ο µαθητής φτάνει στο να µιµείται τον µέντορα του». Αξίζει να σηµειωθεί ότι ένα σχετικό άρθρο µε πρώτο συγγραφέα τον κ. Χρυσοµάλλη έγινε αυτές τις µέρες δεκτό για παρουσίαση και συµπερίληψη στα πρακτικά του κορυφαίου συνεδρίου Τεχνητής Νοηµοσύνης AAAI-25. Η εργασία αυτή έγινε σε συνεργασία µε τους Καθηγητές Μάρκο Παπαγεωργίου και Ιωάννη Παπαµιχαήλ.
• ΡΟΜΠΟΤ ΣΕ ΜΕΓΑΛΕΣ ΑΠΟΘΗΚΕΣ: Σε αυτό το project o αλγόριθµος δοκιµάστηκε στον τοµέα διαχείρισης κυκλοφορίας ροµπότ σε αποθήκες. «Σε αυτήν την εργασία προχωρήσαµε την λεγόµενη “παραγοντοποίηση πρακτόρων” εξετάζοντας πως µπορούν να συνεργαστούν πιο αποδοτικά όταν χωριστούν µε διαφορετικούς τρόπους µεταξύ τους σε οµάδες, και µε χρήση διαφορετικών αλγορίθµων µηχανικής µάθησης. Η συγκεκριµένη εργασία δηµοσιεύτηκε σε εξειδικευµένο κορυφαίο περιοδικό Τεχνητής Νοηµοσύνης-Πολυπρακτορικών Συστηµάτων».
• ΣΥΝΑΣΠΙΣΜΟΙ ΜΕ Ι∆ΙΩΤΙΚΑ ∆Ε∆ΟΜΕΝΑ ΚΑΙ ΥΠΟ ΑΒΕΒΑΙΟΤΗΤΑ: « Σε µεγάλα και “ανώνυµα” πολυπρακτορικά περιβάλλοντα συχνά είναι δύσκολο για τους πράκτορες να µάθουν και να διαµοιραστούν πληροφορίες για τις ικανότητες τους ή την αξία των οµάδων (ή αλλιώς “συνασπισµών”) που σχηµατίζουν» λέει ο χρηµατοδοτούµενος από το έργο υποψήφιος διδάκτορας Γεράσιµος Κορέσης.
Ως λύση του προβλήµατος προτείνει η χρήση πολλαπλών µοντέλων νευρωνικών δικτύων για µάθηση/απόφαση κάθε πράκτορα για το αν θα ενταχθεί ή όχι σε συνασπισµό Ένας συνασπισµός σχηµατίζεται µόνο µε συµφωνία όλων των εµπλεκοµένων.
• ΑΛΤΡΟΥΙΣΜΟΣ ΣΕ ΠΟΛΥΠΡΑΚΤΟΡΙΚΑ ΜΙΚΡΟΙΚΟΝΟΜΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ: Οι επιστηµονικοί συνεργάτες του έργου Μιχάλης Φασουλάκης (λέκτορας σε αγγλικό Πανεπιστήµιο, Λεωνίδας Μπακόπουλος (υποψήφιος διδάκτορας στο Πολυτεχνείο Κρήτης), και Χάρης Ακασιάδης (µεταδιδακτορικός ερευνητής), δουλεύουν πάνω σε αυτό το project. Οι ερευνητές διαπιστώνουν πως συνήθως ο κάθε “παίκτης” «θέλει να µεγιστοποιήσει το δικό του προσωπικό κέρδος λειτουργώντας εγωιστικά. Όµως, µελέτες και παρατηρήσεις δεκαετιών στη µικροοικονοµική θεωρία και στην πραγµατική ζωή δείχνουν ότι η θεώρηση αυτή δεν είναι απόλυτα ακριβής – o άνθρωπος δεν είναι εγωϊστής homo economicus που προσπαθεί απλά να µεγιστοποιήσει το δικό του όφελος. Προσπαθούµε λοιπόν να µελετήσουµε τι συµβαίνει όταν από τον “Εγωιστή” πράκτορα περνάµε στον πιο “Αλτρουιστή”, τον παίκτη δηλαδή που είναι διατεθειµένος να παραδώσει κάτι από το δικό του κέρδος.
•ΑΣΦΑΛΗΣ ΕΠΙΛΟΓΗ & ΕΚΜΑΘΗΣΗΣ ΣΤΡΑΤΗΓΙΚΩΝ: «Ας φανταστούµε έναν δρόµο στο οποίο όλοι οι οδηγοί έχουν κάποια συγκεκριµένη πολιτική. Βασισµένοι σε στατιστικές µεθόδους, µπορούµε εκ των προτέρων να διαλέξουµε (ανάµεσα από κάποιες διαθέσιµες πολιτικές) µια κατάλληλη για τον πράκτορα µας, δεδοµένου συναναστροφών µεταξύ του πράκτορά µας και των άλλων πρακτόρων» εξηγεί ο Λεωνίδας Μπακόπουλος προσθέτοντας πως η λύση δίνεται µε την εκπαίδευση πρακτόρων µε τη χρήση Βαθιάς Ενισχυτικής Μάθησης, τη χρήση µιας ανολοκλήρωτης πολιτικής («µέντορα») που παρεµβαίνει σε τακτά χρονικά διαστήµατα κατά τη διάρκεια της εκπαίδευσης και επιβάλλει µια κίνηση, ώστε ο πράκτορας να αποκτήσει ένα διαφορετικό “χαρακτήρα” σε αντιστοιχία µε αυτόν του µέντορά του».
Σηµειώνεται ότι η παρουσίαση του έργου έγινε ακριβώς µια µέρα πριν την εκδηµία του πατέρα του Χάρη Ακασιάδη, αγαπητού στην κοινωνία των Χανίων Ιορδάνη, στην οικογένεια του οποίου τα “Χ.ν.” απευθύνουν ακόµα µια φορά τα ειλικρινή τους συλλυπητήρια.