Το AI μαθαίνει να εξαπατά στο Q * bert με τρόπο που κανένας άνθρωπος δεν έχει κάνει ποτέ πριν

Μια τεχνητή νοημοσύνη κατάφερε να εξαπατήσει με το καλύτερο που έχει να προσφέρει η ανθρωπότητα μετά την ανακάλυψη ενός κακού στο κλασικό παιχνίδι arcade Q * bert και τρέχει μαζί του.

Ενώ οι προηγούμενες επαναλήψεις του AI θα έπαιζαν σωστά το Q *, σε κάποιο σημείο κατά την εκμάθηση του πώς λειτουργεί το παιχνίδι, ανακαλύπτει μια εκμετάλλευση που του επιτρέπει να συγκεντρώνει τρελούς πόντους. Φυσικά, όπως θα έκανε οποιοσδήποτε παίκτης κυνηγιού σκορ, επαναλαμβάνει τη διαδικασία ώστε να μπορεί να ενισχύσει τη βαθμολογία του με τον πιο αποτελεσματικό τρόπο.

Μπορείτε να δείτε το AI να λειτουργεί γύρω από τις πλατφόρμες στο παρακάτω βίντεο. Στην αρχή, φαίνεται σαν να πηδά άσκοπα μεταξύ πλατφορμών. Αντί να δει την πρόοδο του παιχνιδιού στον επόμενο γύρο, το Q * bert 'κολλάει' σε έναν βρόχο όπου όλες οι πλατφόρμες του αρχίζουν να αναβοσβήνουν - εδώ είναι που το AI μπορεί στη συνέχεια να προχωρήσει σε μια φρενίτιδα κερδίζοντας τεράστια σημεία.

ΔΙΑΒΑΣΤΕ ΕΠΟΜΕΝΟ: Ένα από τα πιο αμφιλεγόμενα αρχεία παιχνιδιών έχει τελικά δυσφημιστεί

πώς να προσθέσετε ετικέτες σε κάποιον στο Facebook μετά την ανάρτηση

Πώς το AI κέρδισε τον πόλεμο Q * bert

Σπάζοντας το ρεκόρ όλων των εποχών για τον τίτλο, η τεχνητή νοημοσύνη κέρδισε ένα απίστευτα υψηλό σκορ χάρη στον προγραμματισμό αλγορίθμων στρατηγικής εξέλιξης. Οι στρατηγικές εξέλιξης (ES) διαφέρουν από τη συνήθη εκμάθηση ενίσχυσης (RL) που χρησιμοποιεί η παραδοσιακή τεχνητή νοημοσύνη καθώς θεωρείται πιο επεκτάσιμη λόγω της γενετικής της μάθησης.

Κάθε μαθησιακός βρόχος αναφέρεται ως γενιά και συνεχίζει το έργο του έως ότου ικανοποιηθεί μια καθορισμένη συνθήκη (σε αυτήν την περίπτωση, υψηλή βαθμολογία). Με κάθε διαδοχική γενιά, το AI απορροφά τις γνώσεις της προηγούμενης γενιάς και ως εκ τούτου είναι καλύτερα να επιτύχει τον ίδιο στόχο και να το ξεπεράσει. Συνεχίστε και θα καταλήξετε σε μια τεχνητή νοημοσύνη που είναι απολύτως απαράμιλλη στο έργο της. Αυτό ακριβώς συνέβη εδώ με το σκορ Q * bert.

Περιγράφεται στο το χαρτί , που δημοσιεύθηκε την περασμένη εβδομάδα από ερευνητές στο Πανεπιστήμιο του Φράιμπουργκ της Γερμανίας, φαίνεται ότι το σφάλμα δεν ήταν γνωστή ποσότητα. Στην πραγματικότητα, ενώ δεν εκπλήσσονται πολύ για την εύρεση του σφάλματος, είναι ενδιαφέρον να δούμε πώς το AI έπειτα προχώρησε και έμαθε να το εκμεταλλεύεται κάθε φορά που έπαιξε για να μεγιστοποιήσει τις δυνατότητές του.

ΔΙΑΒΑΣΤΕ ΕΠΟΜΕΝΟ: Αυτή η τεχνητή νοημοσύνη μαθαίνει να κυριαρχεί το Super Mario Bros

Για να βρει το σφάλμα, ο πράκτορας έπρεπε πρώτα να μάθει να ολοκληρώνει σχεδόν το πρώτο επίπεδο - αυτό δεν έγινε ταυτόχρονα, αλλά χρησιμοποιώντας πολλές μικρές βελτιώσεις, εξήγησαν οι ερευνητές Το Μητρώο . Υποψιαζόμαστε ότι σε κάποιο σημείο της εκπαίδευσης μια από τις λύσεις των απογόνων αντιμετώπισε το σφάλμα και πήρε πολύ καλύτερη βαθμολογία σε σύγκριση με τα αδέλφια της, η οποία με τη σειρά της αύξησε τη συμβολή της στην ενημέρωση - το βάρος της ήταν το υψηλότερο στο σταθμισμένο μέσο όρο. Αυτό μετέφερε αργά τη λύση στο χώρο όπου όλο και περισσότεροι απόγονοι άρχισαν να αντιμετωπίζουν το ίδιο σφάλμα.

Δεν γνωρίζουμε τις ακριβείς συνθήκες υπό τις οποίες εμφανίζεται το σφάλμα. Είναι πιθανό ότι εμφανίζεται μόνο εάν ο παράγοντας ακολουθεί ένα μοτίβο που φαίνεται μη βέλτιστο, [για παράδειγμα όταν ο πράκτορας σπαταλά χρόνο, ή ακόμη και χάνει μια ζωή]. Εάν συνέβαινε αυτό, τότε θα ήταν εξαιρετικά δύσκολο για το τυπικό RL να εντοπίσει το σφάλμα: εάν χρησιμοποιείτε στοιχειώδεις ανταμοιβές, θα μάθετε στρατηγικές που αποδίδουν γρήγορα κάποια ανταμοιβή, αντί να μάθετε στρατηγικές που δεν αποδίδουν πολλές ανταμοιβές για λίγο και τότε ξαφνικά κερδίζετε μεγάλα.

Δείτε σχετικές Ο πρωταθλητής του Ντράγκστερ Τοντ Ρότζερς μόλις έχασε το στέμμα του μετά από 35 χρόνια Αυτή η τεχνητή νοημοσύνη μαθαίνει να κυριαρχεί στο Super Mario Bros 1-2 για 17 ημέρες Παρακολουθήστε αυτό το AI μάθετε να οδηγείτε στο GTA V στο Twitch

Ωστόσο, παρά τα υπέροχα αποτελέσματα του bot, οι ερευνητές δεν λένε ότι αυτό ισχύει για την υπεράσπιση της εκμάθησης ES μέσω του RL. Στην πραγματικότητα, και τα δύο συστήματα έχουν τα δικά τους προβλήματα και ένας συνδυασμός των δύο θεωρείται ως η καλύτερη επιλογή για να προχωρήσουμε.

Η ίδια μέθοδος ES σε άλλα παιχνίδια Atari δεν έφερε σχεδόν τα ίδια θετικά αποτελέσματα. Από την άλλη πλευρά, η RL είναι υπεύθυνη για τη συντριβή ρεκόρ αριστερά, δεξιά και στο κέντρο, συμπεριλαμβανομένης της νίκης του καλύτερου παίκτη GO στον κόσμο. Ωστόσο, η ES εξακολουθεί να έχει τη δική της θέση στα πράγματα, και είναι στην πραγματικότητα ο τρόπος με τον οποίο η Nvidia εκτελεί μεγάλο μέρος της προπόνησης AI, επειδή απαιτεί περισσότερη υπολογιστική ισχύ, αλλά επιτυγχάνει καλύτερα αποτελέσματα για μεγαλύτερο χρονικό διάστημα.

Ανεξάρτητα από το ποιος τρόπος θα γίνει το μέλλον για την ανάπτυξη της τεχνητής νοημοσύνης, τουλάχιστον αυτό το bot που εξαπατά το σύστημα δεν είναι τόσο κακό όσο αυτό τώρα ντροπιασμένος παγκόσμιος πρωταθλητής βιντεοπαιχνιδιών .