Όταν µια επιχείρηση θέλει να εισέλθει σε µια αγορά που κυριαρχείται από πολύ µεγάλες εταιρείες, ο συνήθης τρόπος είναι να εισέλθει µε ένα αντίστοιχο φθηνό προϊόν, χαµηλότερης ποιότητας, µε εύκολη πρόσβαση, µε απλότητα στη χρήση, µε σκοπό να κερδίσει τους πρώτους πελάτες που δέχονται να αγοράσουν κάτι φθηνότερο, χαµηλότερης ποιότητας αλλά καλύπτει στοιχειωδώς τη συγκεκριµένη τους ανάγκη. Στην συνέχεια αυξάνοντας την ποιότητα και την τιµή προσπαθεί να καταλάβει το κύριο τµήµα της αγοράς εκτοπίζοντας τους κυρίαρχους ανταγωνιστές.
Η διαδικασία αυτή είναι χαρακτηριστικό των ανατρεπτικών καινοτοµιών (disputative innovations) όπου µια νέα εταιρεία αποκτά σταδιακά µερίδιο της αγοράς και εφόσον το προϊόν της έχει ελκυστικά χαρακτηριστικά για τους καταναλωτές, κυριαρχεί και εκτοπίζει από την αγορά τους ήδη κυρίαρχους.
Οι αµερικανικές εταιρείες τεχνητής νοηµοσύνης (ΤΝ), όπως η OpenAI, η Google DeepMind και η Anthropic κυριαρχούν στην ΤΝ και κατέχουν το µεγαλύτερο µερίδιο της αγοράς. Σήµερα απειλούνται από το DeepSeek R1. Στην περίοδο της αρχή της εµφάνισης της πληροφορικής οι τεράστιοι υπολογιστές “mainframe” απειλήθηκαν από την ανατρεπτική καινοτοµία των επιτραπέζιων υπολογιστών και µετά των φορητών υπολογιστών. Θα γίνει κάτι παρόµοιο και στα µεγάλα γλωσσικά µοντέλα (LLMs);. Λογικά θα γίνει κάτι παρόµοιο όπως συµβαίνει και σε όλα τα προϊόντα νέας τεχνολογίας. Το ερώτηµα είναι αυτήν την ανατροπή θα την κάνουν οι ήδη κυρίαρχοι της αγοράς ή κάποια startup όπως η DeepSeek, ή οι κυρίαρχοι της αγοράς θα κυκλοφορήσουν παρόµοια πιο ελαφρά µοντέλα;
Το DeepSeek R1 είναι ένα γλωσσικό µοντέλο που σχεδιάστηκε µε στόχο να υπερβαίνει την απόδοση που θα αναµενόταν από το µέγεθός του. Σε αντίθεση µε τα παραδοσιακά µεγάλα µοντέλα ΤΝ, το DeepSeek R1 υιοθετεί µια πιο ελαφριά, αποδοτική και οικονοµικά προσιτή προσέγγιση, επιτρέποντας τη λειτουργία του σε µικρότερη κλίµακα, χωρίς την ανάγκη τεράστιων υποδοµών επεξεργασίας.
Η Τεχνολογία της απόσταξης στην AI: Μία από τις πιο καινοτόµες µεθόδους που χρησιµοποιεί το DeepSeek R1 είναι η απόσταξη γνώσης (distillation). Αντί να δηµιουργήσει από την αρχή ένα γιγαντιαίο µοντέλο µε τρισεκατοµµύρια παραµέτρους, το DeepSeek αξιοποιεί µεγαλύτερα υπάρχοντα µοντέλα όπως το GPT-4 και το Meta Llama για να εκπαιδεύσει ένα µικρότερο µοντέλο. Με αυτόν τον τρόπο, διατηρεί την αποτελεσµατικότητα των µεγάλων γλωσσικών µοντέλων ενώ µειώνει σηµαντικά το υπολογιστικό κόστος. Αυτή η τεχνική λειτουργεί µε τον ίδιο τρόπο που ένας µαθητευόµενος διδάσκεται από έναν έµπειρο τεχνίτη – χωρίς να χρειάζεται να κατέχει όλη τη γνώση, µαθαίνει µόνο ό,τι είναι ουσιώδες για την πρακτική εφαρµογή.
Πλεονεκτήµατα του DeepSeek R1: Το DeepSeek R1 προσφέρει πολλαπλά οφέλη, ιδίως για οργανισµούς που επιθυµούν να αξιοποιήσουν την τεχνητή νοηµοσύνη χωρίς να επενδύσουν σε πανάκριβα data centers. Το πιο αξιοσηµείωτο χαρακτηριστικό του είναι η δυνατότητα εκτέλεσης σε µικρότερες συσκευές, όπως προσωπικοί υπολογιστές ή ακόµα και laptop, γεγονός που διευρύνει σηµαντικά τη χρήση της ΤΝ σε ποικίλες εφαρµογές. Επιπλέον, το DeepSeek R1 χρησιµοποιεί πολλαπλά µοντέλα ΤΝ κατά την εκπαίδευσή του, συµπεριλαµβανοµένων µοντέλων ανοιχτού κώδικα. Αυτή η προσέγγιση επιτρέπει στο σύστηµα να αντλεί γνώση από διαφορετικές πηγές και να διαµορφώνει πιο ευέλικτες και αξιόπιστες απαντήσεις.
Ένα άλλο σηµαντικό πλεονέκτηµα είναι η δηµοκρατικοποίηση της ΤΝ. Με το DeepSeek R1, η τεχνητή νοηµοσύνη γίνεται προσβάσιµη σε µικρούς χρήστες κάτι που µέχρι πρότινος ήταν προνόµιο µόνο µεγάλων τεχνολογικών κολοσσών.
Περιορισµοί και προκλήσεις: Παρότι το DeepSeek R1 είναι ένα σηµαντικό βήµα προς µια πιο αποδοτική ΤΝ, παρουσιάζει ορισµένους περιορισµούς.
1. Περιορισµένη γνώση – Επειδή πρόκειται για µικρότερο µοντέλο, δεν διαθέτει το ίδιο εύρος πληροφορίας που έχουν τα µεγαλύτερα µοντέλα όπως το GPT-4.
2. Πιθανότητα σφαλµάτων – Είναι πιο επιρρεπές σε παραισθήσεις ΤΝ, δηλαδή σε απαντήσεις που είναι λογικοφανείς αλλά λανθασµένες. Επίσης έχει κρατική λογοκρισία.
3. Προβλήµατα µε σύνθετα ερωτήµατα – Ενδέχεται να µην µπορεί να ανταποκριθεί µε ακρίβεια σε πολύπλοκες ή εξειδικευµένες ερωτήσεις.
4. Εξάρτηση από µεγαλύτερα µοντέλα – Η ποιότητά του εξαρτάται από το πόσο καλά έχει εκπαιδευτεί από προϋπάρχοντα, µεγαλύτερα συστήµατα.
Η σηµασία του DeepSeek R1 για το µέλλον της ΤΝ: Το DeepSeek R1 αλλάζει τα δεδοµένα στον χώρο της ΤΝ, προσφέροντας µια βιώσιµη εναλλακτική για οργανισµούς που δεν µπορούν να υποστηρίξουν τα υπερµεγέθη ΤΝ µοντέλα. Με το χαµηλό κόστος, την υψηλή προσαρµοστικότητα και τη δυνατότητα λειτουργίας σε λιγότερο ισχυρούς υπολογιστές, ανοίγει τον δρόµο για νέες εφαρµογές ΤΝ που δεν ήταν εφικτές στο παρελθόν.
Μακροπρόθεσµα, αυτό θα µπορούσε να οδηγήσει σε περισσότερο αποκεντρωµένη και προσαρµοσµένη ΤΝ, επιτρέποντας σε διάφορους τοµείς να αναπτύξουν ειδικά µοντέλα ΤΝ προσαρµοσµένα στις ανάγκες τους. Από την εκπαίδευση µέχρι την ιατρική και την οικονοµία, η προοπτική συστηµάτων ΤΝ που µπορούν να λειτουργούν τοπικά, χωρίς την ανάγκη διαρκούς σύνδεσης µε τεράστιες cloud πλατφόρµες, µοιάζει όλο και πιο εφικτή.
Είδη η κινεζική Alibaba κυκλοφόρησε το Qwen2.5-Max ένα προηγµένο µοντέλο ΤΝ που ξεπερνά κατά πολύ το DeepSeek! Μπορεί να δηµιουργεί κείµενα, εικόνες, βίντεο, να εκτελεί κώδικα και ακόµη και να πραγµατοποιεί αναζητήσεις στο διαδίκτυο σε πραγµατικό χρόνο µε τα εξής χαρακτηριστικά:
Εκτέλεση & εντοπισµός σφαλµάτων κώδικα – ∆εν δηµιουργεί απλά κώδικα, αλλά τον εκτελεί και τον δοκιµάζει σε πραγµατικό χρόνο.
Εξαιρετικά ακριβής δηµιουργία εικόνων –Το Qwen δηµιουργεί λεπτοµερείς, ακριβείς εικόνες που ακολουθούν οδηγίες του χρήστη.
Ταχύτερη δηµιουργία βίντεο µε ΤΝ – Παράγει βίντεο ταχύτερα από το 90% των υφιστάµενων εργαλείων ΤΝ.
Αναζητήσεις & σύνθεση γνώσης σε πραγµατικό χρόνο – ∆ιεξάγει διαδικτυακές αναζητήσεις, συλλέγει δεδοµένα και συνοψίζει ερευνητικό υλικό άµεσα.
Οπτικές δυνατότητες – Αναρτηµένα PDFs, εικόνες και έγγραφα-το Qwen τα διαβάζει, τα αναλύει και εξάγει χρήσιµα συµπεράσµατα στη στιγµή.
Το DeepSeek R1 δεν επιχειρεί να ανταγωνιστεί απευθείας τα µεγαλύτερα µοντέλα ΤΝ, αλλά επιδιώκει να προσφέρει µια πιο προσβάσιµη και οικονοµική λύση. Μπορεί να µην είναι το πιο εξελιγµένο σύστηµα ΤΝ στην αγορά, αλλά η ύπαρξή του αποδεικνύει ότι το µέλλον της τεχνητής νοηµοσύνης δεν εξαρτάται αποκλειστικά από τα µεγέθη των µοντέλων, αλλά και από την έξυπνη αξιοποίηση των υπαρχόντων πόρων.
Σε έναν κόσµο όπου η ΤΝ γίνεται ολοένα και πιο κυρίαρχη, η Κίνα δείχνει ότι µπορεί να καινοτοµήσει σε επίπεδο αποδοτικότητας και προσαρµογής, προσφέροντας λύσεις που φέρνουν την τεχνητή νοηµοσύνη πιο κοντά στο ευρύ κοινό. Το DeepSeek R1 και το Qwen2.5-Max είναι παραδείγµατα αυτής της τάσης, ανοίγοντας νέους ορίζοντες για την επόµενη γενιά γλωσσικών µοντέλων.
*Ο Γιώργος Ατσαλάκης είναι oικονοµολόγος, αναπληρωτής καθηγητής
Πολυτεχνείου Κρήτης Εργαστήριο Ανάλυσης ∆εδοµένων και Πρόβλεψης