σελίδα_banner

νέα

Το Μεγάλο Γλωσσικό Μοντέλο (LLM) μπορεί να γράφει πειστικά άρθρα βασισμένα σε γρήγορες λέξεις, να περνάει εξετάσεις επαγγελματικής επάρκειας και να γράφει φιλικές προς τον ασθενή και ενσυναισθητικές πληροφορίες. Ωστόσο, εκτός από τους γνωστούς κινδύνους μυθοπλασίας, ευθραυστότητας και ανακριβών γεγονότων στο LLM, άλλα ανεπίλυτα ζητήματα γίνονται σταδιακά στο επίκεντρο, όπως τα μοντέλα Τεχνητής Νοημοσύνης που περιέχουν δυνητικά μεροληπτικές «ανθρώπινες αξίες» στη δημιουργία και τη χρήση τους, και ακόμη και αν το LLM δεν κατασκευάζει πλέον περιεχόμενο και δεν εξαλείφει σαφώς επιβλαβή αποτελέσματα εξόδου, οι «αξίες LLM» ενδέχεται να εξακολουθούν να αποκλίνουν από τις ανθρώπινες αξίες.

 

Αμέτρητα παραδείγματα δείχνουν πώς τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση μοντέλων Τεχνητής Νοημοσύνης κωδικοποιούν ατομικές και κοινωνικές αξίες, οι οποίες μπορεί να εδραιωθούν εντός του μοντέλου. Αυτά τα παραδείγματα περιλαμβάνουν μια σειρά εφαρμογών, όπως η αυτόματη ερμηνεία ακτινογραφιών θώρακος, η ταξινόμηση δερματικών παθήσεων και η αλγοριθμική λήψη αποφάσεων σχετικά με την κατανομή ιατρικών πόρων. Όπως αναφέρεται σε πρόσφατο άρθρο στο περιοδικό μας, τα μεροληπτικά δεδομένα εκπαίδευσης μπορούν να ενισχύσουν και να αποκαλύψουν τις αξίες και τις μεροληψίες που υπάρχουν στην κοινωνία. Αντίθετα, η έρευνα έχει επίσης δείξει ότι η Τεχνητή Νοημοσύνη μπορεί να χρησιμοποιηθεί για τη μείωση της μεροληψίας. Για παράδειγμα, οι ερευνητές εφάρμοσαν μοντέλα βαθιάς μάθησης σε ακτινογραφίες γονάτου και ανακάλυψαν παράγοντες που δεν εντοπίστηκαν από τους τυπικούς δείκτες σοβαρότητας (που βαθμολογούνται από ακτινολόγους) εντός της άρθρωσης του γονάτου, μειώνοντας έτσι τις ανεξήγητες διαφορές πόνου μεταξύ μαύρων και λευκών ασθενών.

Παρόλο που όλο και περισσότεροι άνθρωποι συνειδητοποιούν την προκατάληψη στα μοντέλα Τεχνητής Νοημοσύνης, ειδικά όσον αφορά τα δεδομένα εκπαίδευσης, πολλά άλλα σημεία εισόδου των ανθρώπινων αξιών δεν τυγχάνουν επαρκούς προσοχής στη διαδικασία ανάπτυξης και ανάπτυξης μοντέλων Τεχνητής Νοημοσύνης. Η ιατρική Τεχνητή Νοημοσύνη έχει πρόσφατα επιτύχει εντυπωσιακά αποτελέσματα, αλλά σε μεγάλο βαθμό, δεν έχει λάβει ρητά υπόψη τις ανθρώπινες αξίες και την αλληλεπίδρασή τους με την αξιολόγηση κινδύνου και την πιθανολογική συλλογιστική, ούτε έχει μοντελοποιηθεί.

 

Για να συγκεκριμενοποιήσετε αυτές τις αφηρημένες έννοιες, φανταστείτε ότι είστε ενδοκρινολόγος που καλείται να συνταγογραφήσει ανασυνδυασμένη ανθρώπινη αυξητική ορμόνη σε ένα 8χρονο αγόρι που βρίσκεται κάτω από το 3ο εκατοστημόριο της ηλικίας του. Το επίπεδο της διεγερμένης ανθρώπινης αυξητικής ορμόνης του αγοριού είναι κάτω από 2 ng/mL (τιμή αναφοράς, >10 ng/mL, τιμή αναφοράς για πολλές χώρες εκτός των Ηνωμένων Πολιτειών είναι >7 ng/mL) και το γονίδιο που κωδικοποιεί την ανθρώπινη αυξητική ορμόνη έχει ανιχνεύσει σπάνιες μεταλλάξεις απενεργοποίησης. Πιστεύουμε ότι η εφαρμογή της θεραπείας με ανθρώπινη αυξητική ορμόνη είναι προφανής και αδιαμφισβήτητη σε αυτό το κλινικό περιβάλλον.

Η εφαρμογή της θεραπείας με ανθρώπινη αυξητική ορμόνη στα ακόλουθα σενάρια μπορεί να προκαλέσει διαμάχη: το ύψος ενός 14χρονου αγοριού ήταν πάντα στο 10ο εκατοστημόριο των συνομηλίκων του και η κορύφωση της ανθρώπινης αυξητικής ορμόνης μετά τη διέγερση είναι 8 ng/mL. Δεν υπάρχουν γνωστές λειτουργικές μεταλλάξεις που μπορούν να επηρεάσουν το ύψος, ούτε άλλες γνωστές αιτίες κοντού αναστήματος, και η οστική του ηλικία είναι 15 ετών (δηλαδή, καμία αναπτυξιακή καθυστέρηση). Μόνο ένα μέρος της διαμάχης οφείλεται στις διαφορές στις τιμές κατωφλίου που καθορίζονται από ειδικούς με βάση δεκάδες μελέτες σχετικά με τα επίπεδα ανθρώπινης αυξητικής ορμόνης που χρησιμοποιούνται για τη διάγνωση μεμονωμένης ανεπάρκειας αυξητικής ορμόνης. Τουλάχιστον ισόποση διαμάχη προέρχεται από την ισορροπία κινδύνου-οφέλους της χρήσης θεραπείας ανθρώπινης αυξητικής ορμόνης από την οπτική γωνία των ασθενών, των γονέων των ασθενών, των επαγγελματιών υγείας, των φαρμακευτικών εταιρειών και των πληρωτών. Οι παιδοενδοκρινολόγοι μπορούν να σταθμίσουν τις σπάνιες ανεπιθύμητες ενέργειες των καθημερινών ενέσεων αυξητικής ορμόνης για 2 χρόνια με την πιθανότητα μηδενικής ή ελάχιστης μόνο ανάπτυξης στο μέγεθος του ενήλικου σώματος σε σύγκριση με το παρόν. Τα αγόρια μπορεί να πιστεύουν ότι ακόμη και αν το ύψος τους μπορεί να αυξηθεί μόνο κατά 2 cm, αξίζει να κάνουν ενέσεις αυξητικής ορμόνης, αλλά ο πληρωτής και η φαρμακευτική εταιρεία μπορεί να έχουν διαφορετικές απόψεις.

 

Ως παράδειγμα, λαμβάνουμε τον eGFR με βάση την κρεατινίνη, ο οποίος είναι ένας ευρέως χρησιμοποιούμενος δείκτης νεφρικής λειτουργίας για τη διάγνωση και τη σταδιοποίηση της χρόνιας νεφρικής νόσου, τον καθορισμό όρων μεταμόσχευσης ή δωρεάς νεφρού και τον προσδιορισμό κριτηρίων μείωσης και αντενδείξεων για πολλά συνταγογραφούμενα φάρμακα. Ο EGFR είναι μια απλή εξίσωση παλινδρόμησης που χρησιμοποιείται για την εκτίμηση του μετρούμενου ρυθμού σπειραματικής διήθησης (mGFR), ο οποίος αποτελεί πρότυπο αναφοράς, αλλά η μέθοδος αξιολόγησης είναι σχετικά δυσκίνητη. Αυτή η εξίσωση παλινδρόμησης δεν μπορεί να θεωρηθεί μοντέλο τεχνητής νοημοσύνης, αλλά απεικονίζει πολλές αρχές σχετικά με τις ανθρώπινες αξίες και την πιθανοτική συλλογιστική.

Το πρώτο σημείο εισόδου για την εισαγωγή ανθρώπινων τιμών στο eGFR είναι κατά την επιλογή δεδομένων για εξισώσεις προσαρμογής. Η αρχική ουρά που χρησιμοποιήθηκε για τον σχεδιασμό του τύπου eGFR αποτελείται κυρίως από μαύρους και λευκούς συμμετέχοντες και η εφαρμογή του σε πολλές άλλες εθνοτικές ομάδες δεν είναι σαφής. Τα επόμενα σημεία εισόδου για ανθρώπινες τιμές σε αυτόν τον τύπο περιλαμβάνουν: την επιλογή της ακρίβειας του mGFR ως πρωταρχικού στόχου για την αξιολόγηση της νεφρικής λειτουργίας, ποιο είναι ένα αποδεκτό επίπεδο ακρίβειας, τον τρόπο μέτρησης της ακρίβειας και τη χρήση του eGFR ως κατωφλίου για την ενεργοποίηση της κλινικής λήψης αποφάσεων (όπως ο προσδιορισμός των συνθηκών για μεταμόσχευση νεφρού ή η συνταγογράφηση φαρμάκων). Τέλος, κατά την επιλογή του περιεχομένου του μοντέλου εισόδου, οι ανθρώπινες τιμές θα εισέλθουν επίσης σε αυτόν τον τύπο.

Για παράδειγμα, πριν από το 2021, οι οδηγίες προτείνουν την προσαρμογή των επιπέδων κρεατινίνης στον τύπο eGFR με βάση την ηλικία, το φύλο και τη φυλή του ασθενούς (ταξινομούνται μόνο ως μαύρα ή μη μαύρα άτομα). Η προσαρμογή με βάση τη φυλή στοχεύει στη βελτίωση της ακρίβειας του τύπου mGFR, αλλά το 2020, μεγάλα νοσοκομεία άρχισαν να αμφισβητούν τη χρήση του eGFR με βάση τη φυλή, επικαλούμενα λόγους όπως η καθυστέρηση της επιλεξιμότητας του ασθενούς για μεταμόσχευση και η συγκεκριμενοποίηση της φυλής ως βιολογικής έννοιας. Η έρευνα έχει δείξει ότι ο σχεδιασμός μοντέλων eGFR με βάση τη φυλή μπορεί να έχει βαθιές και ποικίλες επιπτώσεις στην ακρίβεια και τα κλινικά αποτελέσματα. Επομένως, η επιλεκτική εστίαση στην ακρίβεια ή η εστίαση σε ένα μέρος των αποτελεσμάτων αντανακλά αξιολογικές κρίσεις και μπορεί να συγκαλύψει τη διαφανή λήψη αποφάσεων. Τέλος, η εθνική ομάδα εργασίας πρότεινε έναν νέο τύπο που επαναπροσαρμόστηκε χωρίς να ληφθεί υπόψη η φυλή για την εξισορρόπηση ζητημάτων απόδοσης και δικαιοσύνης. Αυτό το παράδειγμα καταδεικνύει ότι ακόμη και ένας απλός κλινικός τύπος έχει πολλά σημεία εισόδου στις ανθρώπινες αξίες.

Γιατρός με εικονική πραγματικότητα στο χειρουργείο του νοσοκομείου. Χειρουργός αναλύει το αποτέλεσμα των καρδιακών εξετάσεων του ασθενούς και την ανθρώπινη ανατομία σε τεχνολογική ψηφιακή φουτουριστική εικονική διεπαφή, ψηφιακή ολογραφική, καινοτόμο στην επιστήμη και την ιατρική έννοια.

Σε σύγκριση με τους κλινικούς τύπους με μόνο έναν μικρό αριθμό προγνωστικών δεικτών, το LLM μπορεί να αποτελείται από δισεκατομμύρια έως εκατοντάδες δισεκατομμύρια παραμέτρους (βάρη μοντέλων) ή και περισσότερες, γεγονός που καθιστά δύσκολη την κατανόησή του. Ο λόγος που λέμε «δύσκολο στην κατανόηση» είναι ότι στα περισσότερα LLM, ο ακριβής τρόπος εκμαίευσης απαντήσεων μέσω ερωτήσεων δεν μπορεί να χαρτογραφηθεί. Ο αριθμός των παραμέτρων για το GPT-4 δεν έχει ακόμη ανακοινωθεί. Ο προκάτοχός του, GPT-3, είχε 175 δισεκατομμύρια παραμέτρους. Περισσότερες παράμετροι δεν σημαίνουν απαραίτητα ισχυρότερες δυνατότητες, καθώς τα μικρότερα μοντέλα που περιλαμβάνουν περισσότερους υπολογιστικούς κύκλους (όπως η σειρά μοντέλων LLaMA [Large Language Model Meta AI]) ή τα μοντέλα που έχουν ρυθμιστεί με ακρίβεια με βάση την ανθρώπινη ανατροφοδότηση θα έχουν καλύτερη απόδοση από τα μεγαλύτερα μοντέλα. Για παράδειγμα, σύμφωνα με ανθρώπινους αξιολογητές, το μοντέλο InstrumentGPT (ένα μοντέλο με 1,3 δισεκατομμύρια παραμέτρους) ξεπερνά το GPT-3 στη βελτιστοποίηση των αποτελεσμάτων εξόδου του μοντέλου.

Οι συγκεκριμένες λεπτομέρειες εκπαίδευσης του GPT-4 δεν έχουν ακόμη αποκαλυφθεί, αλλά έχουν αποκαλυφθεί οι λεπτομέρειες των μοντέλων προηγούμενης γενιάς, συμπεριλαμβανομένων των GPT-3, InstrumentGPT και πολλών άλλων LLM ανοιχτού κώδικα. Σήμερα, πολλά μοντέλα AI συνοδεύονται από κάρτες μοντέλων. Τα δεδομένα αξιολόγησης και ασφάλειας του GPT-4 έχουν δημοσιευτεί σε μια παρόμοια κάρτα συστήματος που παρέχεται από την εταιρεία δημιουργίας μοντέλων OpenAI. Η δημιουργία του LLM μπορεί να χωριστεί σε δύο στάδια: το αρχικό στάδιο προ-εκπαίδευσης και το στάδιο της βελτιστοποίησης που στοχεύει στη βελτιστοποίηση των αποτελεσμάτων εξόδου του μοντέλου. Στο στάδιο προ-εκπαίδευσης, το μοντέλο διαθέτει ένα μεγάλο σώμα δεδομένων που περιλαμβάνει το αρχικό κείμενο του Διαδικτύου για να το εκπαιδεύσει να προβλέπει την επόμενη λέξη. Αυτή η φαινομενικά απλή διαδικασία «αυτόματης ολοκλήρωσης» παράγει ένα ισχυρό θεμελιώδες μοντέλο, αλλά μπορεί επίσης να οδηγήσει σε επιβλαβή συμπεριφορά. Οι ανθρώπινες αξίες θα εισέλθουν στο στάδιο προ-εκπαίδευσης, συμπεριλαμβανομένης της επιλογής δεδομένων προ-εκπαίδευσης για το GPT-4 και της απόφασης αφαίρεσης ακατάλληλου περιεχομένου, όπως πορνογραφικού περιεχομένου, από τα δεδομένα προ-εκπαίδευσης. Παρά τις προσπάθειες αυτές, το βασικό μοντέλο μπορεί να μην είναι ούτε χρήσιμο ούτε ικανό να περιέχει επιβλαβή αποτελέσματα εξόδου. Στο επόμενο στάδιο της βελτιστοποίησης, θα αναδυθούν πολλές χρήσιμες και ακίνδυνες συμπεριφορές.

Στο στάδιο της βελτιστοποίησης, η συμπεριφορά των γλωσσικών μοντέλων συχνά μεταβάλλεται ριζικά μέσω της εποπτευόμενης βελτιστοποίησης και της ενισχυτικής μάθησης που βασίζεται στην ανθρώπινη ανατροφοδότηση. Στο στάδιο της εποπτευόμενης βελτιστοποίησης, το προσληφθέν προσωπικό των εργολάβων θα γράψει παραδείγματα απόκρισης για λέξεις-κλειδιά και θα εκπαιδεύσει απευθείας το μοντέλο. Στο στάδιο της ενισχυτικής μάθησης που βασίζεται στην ανθρώπινη ανατροφοδότηση, οι ανθρώπινοι αξιολογητές θα ταξινομήσουν τα αποτελέσματα εξόδου του μοντέλου ως παραδείγματα περιεχομένου εισόδου. Στη συνέχεια, εφαρμόστε τα παραπάνω αποτελέσματα σύγκρισης για να μάθετε το «μοντέλο ανταμοιβής» και να βελτιώσετε περαιτέρω το μοντέλο μέσω της ενισχυτικής μάθησης. Η εκπληκτική ανθρώπινη εμπλοκή χαμηλού επιπέδου μπορεί να βελτιστοποιήσει αυτά τα μεγάλα μοντέλα. Για παράδειγμα, το μοντέλο InstrumentGPT χρησιμοποίησε μια ομάδα περίπου 40 ατόμων από το προσωπικό των εργολάβων που προσλήφθηκαν από ιστότοπους crowdsourcing και πέρασαν μια δοκιμή ελέγχου με στόχο την επιλογή μιας ομάδας σχολιαστών που είναι ευαίσθητοι στις προτιμήσεις διαφορετικών πληθυσμιακών ομάδων.

Όπως καταδεικνύουν αυτά τα δύο ακραία παραδείγματα, δηλαδή ο απλός κλινικός τύπος [eGFR] και το ισχυρό LLM [GPT-4], η ανθρώπινη λήψη αποφάσεων και οι ανθρώπινες αξίες παίζουν απαραίτητο ρόλο στη διαμόρφωση των αποτελεσμάτων του μοντέλου. Μπορούν αυτά τα μοντέλα Τεχνητής Νοημοσύνης να αποτυπώσουν τις ποικίλες αξίες τους για τους ασθενείς και τους γιατρούς; Πώς να καθοδηγήσουμε δημόσια την εφαρμογή της Τεχνητής Νοημοσύνης στην ιατρική; Όπως αναφέρεται παρακάτω, μια επανεξέταση της ανάλυσης ιατρικών αποφάσεων μπορεί να προσφέρει μια βασική λύση σε αυτά τα ζητήματα.

 

Η ανάλυση ιατρικών αποφάσεων δεν είναι οικεία σε πολλούς κλινικούς γιατρούς, αλλά μπορεί να διακρίνει μεταξύ πιθανοτικής συλλογιστικής (για αβέβαια αποτελέσματα που σχετίζονται με τη λήψη αποφάσεων, όπως το εάν θα χορηγηθεί ανθρώπινη αυξητική ορμόνη στο αμφιλεγόμενο κλινικό σενάριο που φαίνεται στο Σχήμα 1) και παραγόντων εξέτασης (για υποκειμενικές τιμές που συνδέονται με αυτά τα αποτελέσματα, των οποίων η αξία ποσοτικοποιείται ως «χρησιμότητα», όπως η τιμή μιας αύξησης 2 cm στο ύψος του άνδρα), παρέχοντας συστηματικές λύσεις για σύνθετες ιατρικές αποφάσεις. Στην ανάλυση αποφάσεων, οι κλινικοί γιατροί πρέπει πρώτα να προσδιορίσουν όλες τις πιθανές αποφάσεις και πιθανότητες που σχετίζονται με κάθε αποτέλεσμα και στη συνέχεια να ενσωματώσουν τη χρησιμότητα του ασθενούς (ή του άλλου μέρους) που σχετίζεται με κάθε αποτέλεσμα για να επιλέξουν την καταλληλότερη επιλογή. Επομένως, η εγκυρότητα της ανάλυσης αποφάσεων εξαρτάται από το εάν το πλαίσιο του αποτελέσματος είναι ολοκληρωμένο, καθώς και από το εάν η μέτρηση της χρησιμότητας και η εκτίμηση της πιθανότητας είναι ακριβείς. Ιδανικά, αυτή η προσέγγιση βοηθά να διασφαλιστεί ότι οι αποφάσεις βασίζονται σε τεκμήρια και ευθυγραμμίζονται με τις προτιμήσεις των ασθενών, μειώνοντας έτσι το χάσμα μεταξύ αντικειμενικών δεδομένων και προσωπικών αξιών. Αυτή η μέθοδος εισήχθη στον ιατρικό τομέα πριν από αρκετές δεκαετίες και εφαρμόστηκε στη λήψη αποφάσεων μεμονωμένων ασθενών και στην αξιολόγηση της υγείας του πληθυσμού, όπως η παροχή συστάσεων για τον έλεγχο του καρκίνου του παχέος εντέρου στον γενικό πληθυσμό.

 

Στην ανάλυση ιατρικών αποφάσεων, έχουν αναπτυχθεί διάφορες μέθοδοι για την απόκτηση χρησιμότητας. Οι περισσότερες παραδοσιακές μέθοδοι αντλούν άμεσα αξία από μεμονωμένους ασθενείς. Η απλούστερη μέθοδος είναι η χρήση μιας κλίμακας αξιολόγησης, όπου οι ασθενείς αξιολογούν το επίπεδο προτίμησής τους για ένα συγκεκριμένο αποτέλεσμα σε μια ψηφιακή κλίμακα (όπως μια γραμμική κλίμακα που κυμαίνεται από το 1 έως το 10), με τα πιο ακραία αποτελέσματα υγείας (όπως η πλήρης υγεία και ο θάνατος) να βρίσκονται και στα δύο άκρα. Η μέθοδος ανταλλαγής χρόνου είναι μια άλλη ευρέως χρησιμοποιούμενη μέθοδος. Σε αυτήν τη μέθοδο, οι ασθενείς πρέπει να λάβουν μια απόφαση για το πόσο υγιή χρόνο είναι διατεθειμένοι να αφιερώσουν σε αντάλλαγμα για μια περίοδο κακής υγείας. Η τυπική μέθοδος τυχερών παιχνιδιών είναι μια άλλη ευρέως χρησιμοποιούμενη μέθοδος για τον προσδιορισμό της χρησιμότητας. Σε αυτήν τη μέθοδο, οι ασθενείς ερωτώνται ποια από τις δύο επιλογές προτιμούν: είτε να ζήσουν για έναν ορισμένο αριθμό ετών με φυσιολογική υγεία με μια συγκεκριμένη πιθανότητα (p) (t) και να αναλάβουν τον κίνδυνο θανάτου με πιθανότητα 1-p. Είτε να φροντίσουν να ζήσουν για t χρόνια υπό διασταυρούμενες συνθήκες υγείας. Ρωτήστε τους ασθενείς πολλές φορές σε διαφορετικές τιμές p μέχρι να μην δείξουν προτίμηση για καμία επιλογή, έτσι ώστε η χρησιμότητα να μπορεί να υπολογιστεί με βάση τις απαντήσεις των ασθενών.
Εκτός από τις μεθόδους που χρησιμοποιούνται για την αποκάλυψη των προτιμήσεων των μεμονωμένων ασθενών, έχουν επίσης αναπτυχθεί μέθοδοι για την επίτευξη χρησιμότητας για τον πληθυσμό των ασθενών. Ειδικά οι συζητήσεις σε ομάδες εστίασης (που φέρνουν τους ασθενείς μαζί για να συζητήσουν συγκεκριμένες εμπειρίες) μπορούν να βοηθήσουν στην κατανόηση των απόψεών τους. Προκειμένου να συγκεντρωθεί αποτελεσματικά η χρησιμότητα της ομάδας, έχουν προταθεί διάφορες τεχνικές δομημένης ομαδικής συζήτησης.
Στην πράξη, η άμεση εισαγωγή της χρησιμότητας στη διαδικασία κλινικής διάγνωσης και θεραπείας είναι πολύ χρονοβόρα. Ως λύση, τα ερωτηματολόγια έρευνας συνήθως διανέμονται σε τυχαία επιλεγμένους πληθυσμούς για την απόκτηση βαθμολογιών χρησιμότητας σε επίπεδο πληθυσμού. Μερικά παραδείγματα περιλαμβάνουν το πενταδιάστατο ερωτηματολόγιο EuroQol, τη σύντομη φόρμα στάθμισης χρησιμότητας 6 διαστάσεων, τον Δείκτη Χρησιμότητας Υγείας και το εργαλείο Ερωτηματολόγιο Ποιότητας Ζωής Core 30 του Ευρωπαϊκού Οργανισμού Έρευνας και Θεραπείας του Καρκίνου (Care Specific Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30).


Ώρα δημοσίευσης: 01 Ιουνίου 2024