22 Δεκεμβρίου 2024
Δημοσίευση: 22:08'

Google: Το νέο AI εργαλείο Whisk που χρησιμοποιεί εικόνα αντί για κείμενο

Το Whisk είναι ένα «εργαλείο» για γρήγορη έμπνευση, ανέφερε η Google σε ένα blog post, σε αντίθεση με έναν «παραδοσιακό επεξεργαστή εικόνων».

Επιμέλεια: Βασιλική Διαμάντη
Δημοσίευση: 22:08’
ΠΗΓΗ: PIXABAY
Επιμέλεια: Βασιλική Διαμάντη

Το Whisk είναι ένα «εργαλείο» για γρήγορη έμπνευση, ανέφερε η Google σε ένα blog post, σε αντίθεση με έναν «παραδοσιακό επεξεργαστή εικόνων».

Το νεότερο εργαλείο τεχνητής νοημοσύνης της Google, το «Whisk», επιτρέπει στους ανθρώπους να ανεβάζουν φωτογραφίες για να πάρουν πίσω μια συνδυασμένη εικόνα που δημιουργείται από τεχνητή νοημοσύνη -ακόμη και χωρίς οι χρήστες να εισάγουν κείμενο για να εξηγήσουν τι θέλουν. Οι χρήστες μπορούν να εισάγουν εικόνες που απεικονίζουν θέματα, σκηνικό και στυλ πριν το Whisk τα συνδυάσει όλα σε μία εικόνα.

Το Whisk είναι ένα «δημιουργικό εργαλείο» για γρήγορη έμπνευση, ανέφερε η Google σε ένα blog post, σε αντίθεση με έναν «παραδοσιακό επεξεργαστή εικόνων». Στην ουσία, το Whisk προορίζεται ως ένα διασκεδαστικό χαρακτηριστικό AI, παρά ως κάτι που υποτίθεται ότι πρέπει να τελειοποιήσει την επαγγελματική εργασία. Εταιρείες μεγάλης τεχνολογίας όπως η Google και η OpenAI τρέχουν για να κυκλοφορήσουν καταναλωτικά προϊόντα που μπορούν να παρουσιάσουν χρήσεις της νέας τεχνολογίας, ακόμη και όταν οι αρνητές προειδοποιούν ότι η έλλειψη προστατευτικών κιγκλιδωμάτων γύρω από την ανάπτυξη της τεχνητής νοημοσύνης εγκυμονεί κινδύνους για την ανθρωπότητα.

Από τότε που η OpenAI παρουσίασε αρχικά το εργαλείο δημιουργίας κειμένου σε εικόνα, το Dall-E, το 2021, η έννοια των έργων τέχνης που δημιουργούνται από τεχνητή νοημοσύνη έχει κατακλύσει τα μέσα κοινωνικής δικτύωσης και έχει γίνει αντικείμενο εστίασης των καταναλωτικών προϊόντων. Το Whisk της Google είναι μια γεννήτρια δημιουργίας εικόνας σε εικόνα, που βασίζεται στη δημοφιλή έννοια των γεννητριών δημιουργίας κειμένου σε εικόνα. Οι άνθρωποι που χρησιμοποιούν το Whisk μπορούν να «αναμειγνύουν» την τελική εικόνα, επεξεργαζόμενοι τις εισόδους τους και αναμειγνύοντας τις κατηγορίες για να παράγουν διαφορετικές εικόνες, όπως ένα λούτρινο παιχνίδι, μια καρφίτσα από σμάλτο ή ένα αυτοκόλλητο. Οι χρήστες μπορούν να προσθέσουν κείμενο αν θέλουν να κατευθύνουν ορισμένες λεπτομέρειες, αλλά δεν είναι απαραίτητο για τη δημιουργία μιας εικόνας.

«Το Whisk έχει σχεδιαστεί για να επιτρέπει στους χρήστες να αναμειγνύουν ένα θέμα, μια σκηνή και ένα στυλ με νέους και δημιουργικούς τρόπους, προσφέροντας γρήγορη οπτική εξερεύνηση αντί για επεξεργασίες με pixel-perfect», δήλωσε ο Thomas Iljic, διευθυντής διαχείρισης προϊόντων στα Google Labs.

Το Whisk της Google βασίζεται στη γεννητική τεχνητή νοημοσύνη που αναπτύχθηκε από την DeepMind, το εργαστήριο τεχνητής νοημοσύνης που εξαγόρασε η Google το 2014. Το Whisk λειτουργεί με τη χρήση της βασικής προσφοράς τεχνητής νοημοσύνης της Google, Gemini, η οποία έκανε το ντεμπούτο της τον Δεκέμβριο του 2023, και τη σύνδεσή της με το Imagen 3, την τελευταία γεννήτρια μετατροπής κειμένου σε εικόνα που κυκλοφόρησε από την DeepMind τον Δεκέμβριο.

Όταν οι χρήστες ανεβάζουν τις εικόνες τους, το Gemini παράγει μια λεζάντα η οποία τροφοδοτείται στο Imagen 3. Η διαδικασία αποτυπώνει την «ουσία» του θέματος σε αντίθεση με ένα ακριβές αντίγραφο, γεγονός που επιτρέπει την επανασύνθεση της τελικής εικόνας, αλλά σημαίνει επίσης ότι το τελικό προϊόν μπορεί να απομακρυνθεί από την προτροπή. Για παράδειγμα, η παραγόμενη εικόνα μπορεί να έχει διαφορετικό ύψος, χτένισμα ή τόνο δέρματος από τις εικόνες της προτροπής, αναφέρει η Google σε ανάρτηση στο blog.

Όταν η Google παρουσίασε για πρώτη φορά τον Φεβρουάριο τον δημιουργό μετατροπής κειμένου σε εικόνα Gemini, η εταιρεία αντιμετώπισε αρχικά αντιδράσεις επειδή το εργαλείο παρήγαγε ιστορικά ανακριβείς εικόνες. Το Whisk είναι για πρώτη φορά διαθέσιμο ως ιστότοπος στο Google Labs για χρήστες στις ΗΠΑ και βρίσκεται σε πρώιμο στάδιο ανάπτυξης, ανέφερε η εταιρεία.

Η OpenAI κυκλοφόρησε επίσης πρόσφατα μια γεννήτρια μετατροπής κειμένου σε βίντεο με την ονομασία Sora, αναδεικνύοντας τον ανταγωνισμό για καταναλωτικά προϊόντα. Ο Dan Ives, διευθύνων σύμβουλος και ανώτερος αναλυτής μετοχών της Wedbush Securities, δήλωσε στο CNN ότι το Whisk είναι άλλη μια «στιγμή που λυγίζει τους μύες» για την Google στον αγώνα της τεχνητής νοημοσύνης και της τεχνολογίας.

«Η DeepMind είναι ένα βασικό περιουσιακό στοιχείο για την Google», δήλωσε ο Ives, σημειώνοντας ότι τα προϊόντα AI αποτελούν μέρος του “σεντουκιού θησαυρού” των νέων προϊόντων της Google για το 2025, τα οποία περιλαμβάνουν επίσης ένα νέο λειτουργικό σύστημα Android που κατασκευάζεται σε συνεργασία με τη Samsung και την Qualcomm.


TOP NEWS

uncached