Κύριος Υπηρεσίες Ροής Το AI μαθαίνει να εξαπατά στο Q * bert με τρόπο που κανένας άνθρωπος δεν έχει κάνει ποτέ πριν

Το AI μαθαίνει να εξαπατά στο Q * bert με τρόπο που κανένας άνθρωπος δεν έχει κάνει ποτέ πριν



Μια τεχνητή νοημοσύνη κατάφερε να εξαπατήσει με το καλύτερο που έχει να προσφέρει η ανθρωπότητα μετά την ανακάλυψη ενός κακού στο κλασικό παιχνίδι arcade Q * bert και τρέχει μαζί του.

Ενώ οι προηγούμενες επαναλήψεις του AI θα έπαιζαν σωστά το Q *, σε κάποιο σημείο κατά την εκμάθηση του πώς λειτουργεί το παιχνίδι, ανακαλύπτει μια εκμετάλλευση που του επιτρέπει να συγκεντρώνει τρελούς πόντους. Φυσικά, όπως θα έκανε οποιοσδήποτε παίκτης κυνηγιού σκορ, επαναλαμβάνει τη διαδικασία ώστε να μπορεί να ενισχύσει τη βαθμολογία του με τον πιο αποτελεσματικό τρόπο.

Μπορείτε να δείτε το AI να λειτουργεί γύρω από τις πλατφόρμες στο παρακάτω βίντεο. Στην αρχή, φαίνεται σαν να πηδά άσκοπα μεταξύ πλατφορμών. Αντί να δει την πρόοδο του παιχνιδιού στον επόμενο γύρο, το Q * bert 'κολλάει' σε έναν βρόχο όπου όλες οι πλατφόρμες του αρχίζουν να αναβοσβήνουν - εδώ είναι που το AI μπορεί στη συνέχεια να προχωρήσει σε μια φρενίτιδα κερδίζοντας τεράστια σημεία.

ΔΙΑΒΑΣΤΕ ΕΠΟΜΕΝΟ: Ένα από τα πιο αμφιλεγόμενα αρχεία παιχνιδιών έχει τελικά δυσφημιστεί

πώς να προσθέσετε ετικέτες σε κάποιον στο Facebook μετά την ανάρτηση

Πώς το AI κέρδισε τον πόλεμο Q * bert

Σπάζοντας το ρεκόρ όλων των εποχών για τον τίτλο, η τεχνητή νοημοσύνη κέρδισε ένα απίστευτα υψηλό σκορ χάρη στον προγραμματισμό αλγορίθμων στρατηγικής εξέλιξης. Οι στρατηγικές εξέλιξης (ES) διαφέρουν από τη συνήθη εκμάθηση ενίσχυσης (RL) που χρησιμοποιεί η παραδοσιακή τεχνητή νοημοσύνη καθώς θεωρείται πιο επεκτάσιμη λόγω της γενετικής της μάθησης.

Κάθε μαθησιακός βρόχος αναφέρεται ως γενιά και συνεχίζει το έργο του έως ότου ικανοποιηθεί μια καθορισμένη συνθήκη (σε αυτήν την περίπτωση, υψηλή βαθμολογία). Με κάθε διαδοχική γενιά, το AI απορροφά τις γνώσεις της προηγούμενης γενιάς και ως εκ τούτου είναι καλύτερα να επιτύχει τον ίδιο στόχο και να το ξεπεράσει. Συνεχίστε και θα καταλήξετε σε μια τεχνητή νοημοσύνη που είναι απολύτως απαράμιλλη στο έργο της. Αυτό ακριβώς συνέβη εδώ με το σκορ Q * bert.

Περιγράφεται στο το χαρτί , που δημοσιεύθηκε την περασμένη εβδομάδα από ερευνητές στο Πανεπιστήμιο του Φράιμπουργκ της Γερμανίας, φαίνεται ότι το σφάλμα δεν ήταν γνωστή ποσότητα. Στην πραγματικότητα, ενώ δεν εκπλήσσονται πολύ για την εύρεση του σφάλματος, είναι ενδιαφέρον να δούμε πώς το AI έπειτα προχώρησε και έμαθε να το εκμεταλλεύεται κάθε φορά που έπαιξε για να μεγιστοποιήσει τις δυνατότητές του.

ΔΙΑΒΑΣΤΕ ΕΠΟΜΕΝΟ: Αυτή η τεχνητή νοημοσύνη μαθαίνει να κυριαρχεί το Super Mario Bros

Για να βρει το σφάλμα, ο πράκτορας έπρεπε πρώτα να μάθει να ολοκληρώνει σχεδόν το πρώτο επίπεδο - αυτό δεν έγινε ταυτόχρονα, αλλά χρησιμοποιώντας πολλές μικρές βελτιώσεις, εξήγησαν οι ερευνητές Το Μητρώο . Υποψιαζόμαστε ότι σε κάποιο σημείο της εκπαίδευσης μια από τις λύσεις των απογόνων αντιμετώπισε το σφάλμα και πήρε πολύ καλύτερη βαθμολογία σε σύγκριση με τα αδέλφια της, η οποία με τη σειρά της αύξησε τη συμβολή της στην ενημέρωση - το βάρος της ήταν το υψηλότερο στο σταθμισμένο μέσο όρο. Αυτό μετέφερε αργά τη λύση στο χώρο όπου όλο και περισσότεροι απόγονοι άρχισαν να αντιμετωπίζουν το ίδιο σφάλμα.

Δεν γνωρίζουμε τις ακριβείς συνθήκες υπό τις οποίες εμφανίζεται το σφάλμα. Είναι πιθανό ότι εμφανίζεται μόνο εάν ο παράγοντας ακολουθεί ένα μοτίβο που φαίνεται μη βέλτιστο, [για παράδειγμα όταν ο πράκτορας σπαταλά χρόνο, ή ακόμη και χάνει μια ζωή]. Εάν συνέβαινε αυτό, τότε θα ήταν εξαιρετικά δύσκολο για το τυπικό RL να εντοπίσει το σφάλμα: εάν χρησιμοποιείτε στοιχειώδεις ανταμοιβές, θα μάθετε στρατηγικές που αποδίδουν γρήγορα κάποια ανταμοιβή, αντί να μάθετε στρατηγικές που δεν αποδίδουν πολλές ανταμοιβές για λίγο και τότε ξαφνικά κερδίζετε μεγάλα.

Δείτε σχετικές Ο πρωταθλητής του Ντράγκστερ Τοντ Ρότζερς μόλις έχασε το στέμμα του μετά από 35 χρόνια Αυτή η τεχνητή νοημοσύνη μαθαίνει να κυριαρχεί στο Super Mario Bros 1-2 για 17 ημέρες Παρακολουθήστε αυτό το AI μάθετε να οδηγείτε στο GTA V στο Twitch

Ωστόσο, παρά τα υπέροχα αποτελέσματα του bot, οι ερευνητές δεν λένε ότι αυτό ισχύει για την υπεράσπιση της εκμάθησης ES μέσω του RL. Στην πραγματικότητα, και τα δύο συστήματα έχουν τα δικά τους προβλήματα και ένας συνδυασμός των δύο θεωρείται ως η καλύτερη επιλογή για να προχωρήσουμε.

Η ίδια μέθοδος ES σε άλλα παιχνίδια Atari δεν έφερε σχεδόν τα ίδια θετικά αποτελέσματα. Από την άλλη πλευρά, η RL είναι υπεύθυνη για τη συντριβή ρεκόρ αριστερά, δεξιά και στο κέντρο, συμπεριλαμβανομένης της νίκης του καλύτερου παίκτη GO στον κόσμο. Ωστόσο, η ES εξακολουθεί να έχει τη δική της θέση στα πράγματα, και είναι στην πραγματικότητα ο τρόπος με τον οποίο η Nvidia εκτελεί μεγάλο μέρος της προπόνησης AI, επειδή απαιτεί περισσότερη υπολογιστική ισχύ, αλλά επιτυγχάνει καλύτερα αποτελέσματα για μεγαλύτερο χρονικό διάστημα.

Ανεξάρτητα από το ποιος τρόπος θα γίνει το μέλλον για την ανάπτυξη της τεχνητής νοημοσύνης, τουλάχιστον αυτό το bot που εξαπατά το σύστημα δεν είναι τόσο κακό όσο αυτό τώρα ντροπιασμένος παγκόσμιος πρωταθλητής βιντεοπαιχνιδιών .

Ενδιαφέροντα Άρθρα

Επιλογή Συντάκτη

Αναθεώρηση Gigabyte GA-EX58-UD5
Αναθεώρηση Gigabyte GA-EX58-UD5
Το UD σε αυτό το όνομα του διοικητικού συμβουλίου Gigabyte σημαίνει
Πώς να επιστρέψετε ένα προικισμένο παιχνίδι στο Steam
Πώς να επιστρέψετε ένα προικισμένο παιχνίδι στο Steam
Το Steam είναι μια πολύ γυαλισμένη πλατφόρμα τυχερών παιχνιδιών, αν και ορισμένες επιλογές είναι ελαφρώς εκτός θέασης. Οι επιστροφές παιχνιδιών είναι μεταξύ αυτών. Μπορείτε να επιστρέψετε τα παιχνίδια Steam που έχετε αγοράσει για εσάς, καθώς και αυτά που αγοράσατε ως
Πώς να ελέγξετε τις ρυθμίσεις του δρομολογητή
Πώς να ελέγξετε τις ρυθμίσεις του δρομολογητή
Μπορείτε να ελέγξετε τις ρυθμίσεις του δρομολογητή σας πραγματοποιώντας σύνδεση στη διεύθυνση IP σας ή χρησιμοποιώντας μια εφαρμογή για κινητά για να αποκτήσετε πρόσβαση στη σελίδα διαχειριστή του δρομολογητή.
Τρόπος δημιουργίας μόνο μιας σελίδας τοπίου στο Microsoft Word
Τρόπος δημιουργίας μόνο μιας σελίδας τοπίου στο Microsoft Word
Κάθε φορά που χρησιμοποιείτε το Microsoft Word για να γράψετε κάτι, ο προεπιλεγμένος προσανατολισμός σελίδας είναι Πορτραίτο και αυτό θα δείτε στα περισσότερα έγγραφα. Ωστόσο, κάποιο περιεχόμενο φαίνεται καλύτερο αν είναι γραμμένο χρησιμοποιώντας τον προσανατολισμό του τοπίου και δεν είναι δύσκολο
Αυτόματη σύνδεση με Λογαριασμό Microsoft στα Windows 10
Αυτόματη σύνδεση με Λογαριασμό Microsoft στα Windows 10
Δείτε πώς μπορείτε να ρυθμίσετε τα Windows 10 για αυτόματη σύνδεση με Λογαριασμό Microsoft χρησιμοποιώντας το ενσωματωμένο applet του Πίνακα Ελέγχου netplwiz.
Πώς να αποκτήσετε ένα σπάνιο πρίσμα στο Fate Grand Order
Πώς να αποκτήσετε ένα σπάνιο πρίσμα στο Fate Grand Order
Το FGO έχει διάφορους τύπους νομισμάτων που χρησιμοποιούν οι παίκτες για να βελτιώσουν τους Υπηρέτες τους (χαρακτήρες με δυνατότητα αναπαραγωγής). Ένας σπάνιος πόρος που μπορούν να αποκτήσουν είναι τα Rare Prisms, τα οποία απονέμονται μάλλον με φειδώ ή χρησιμοποιούν χαρακτήρες που δεν χρειάζονται οι παίκτες στο τρέχον ρόστερ τους. αυτό το άρθρο
Πώς να χρησιμοποιήσετε το MacOS σε μια εικονική μηχανή
Πώς να χρησιμοποιήσετε το MacOS σε μια εικονική μηχανή
Οι περισσότεροι από εμάς θα συμφωνήσουμε ότι το MacOS είναι ένα απίστευτα βολικό λειτουργικό σύστημα (OS). Εκτός από τη σταθερότητα και την αξιοπιστία του, υποστηρίζει μια μεγάλη ποικιλία λογισμικού υψηλής ποιότητας. Αλλά τι κάνετε αν θέλετε να εκτελέσετε ένα MacOS-