OpenAI vient de franchir une nouvelle étape dans la génération d’images basées sur l’intelligence artificielle. Mercredi dernier, cette entreprise emblématique de la tech a dévoilé DALL-E 3, sa dernière évolution en matière de génération d’images. Ce modèle novateur ne se contente pas de créer des visuels époustouflants, il entend être une avancée majeure dans l’IA qui transforme la manière dont l’art visuel est généré à partir du texte.
Les “prompts” où comment transformer simplement les textes en images
DALL-E, introduit en janvier 2021, avait déjà impressionné le monde avec sa capacité à transformer des textes en images. Mais avec DALL-E 3, OpenAI pousse les limites encore plus loin en intégrant ChatGPT, son chatbot IA viral. Grâce à cette fusion, les utilisateurs peuvent désormais demander à ChatGPT de générer des “invites” pour DALL-E, rendant ainsi la création d’art plus accessible à ceux qui trouvent difficile de formuler les prompts idéaux.
Avec DALL-E 3, OpenAI confirme son intention de se démarquer de ses concurrents. Cette mise à jour intègre des fonctionnalités cruciales qui visent à révolutionner le domaine de l’art assisté par intelligence artificielle. Si l’on en croit les échantillons publiés sur le blog de l’entreprise, DALL-E 3 est à des années-lumière de ses prédécesseurs et concurrents en matière de fidélité et de précision des images générées. Là où d’autres modèles comme Midjourney ont du mal à interpréter les demandes complexes sans ajustements, DALL-E 3 brille par sa capacité à créer des images proches de la perfection à partir d’instructions textuelles.
Mais ce n’est pas tout. Les avancées de DALL-E 3 ne se limitent pas à une meilleure interprétation des demandes. L’une des nouveautés majeures réside dans sa capacité à gérer le texte au sein même des images, dépassant ainsi d’autres modèles notables comme Stable Diffusion XL et DeepFloyd. Pour illustrer ce propos, prenons un exemple concret : à partir de la description « Un avocat assis dans un fauteuil de thérapeute disant ‘Je me sens si vide à l’intérieur' », DALL-E 3 a généré un dessin d’avocat avec une bulle de dialogue parfaitement adaptée.
Une interaction plus poussée avec ChatGPT
Mais le progrès ne s’arrête pas là. DALL-E 3, intégré nativement à ChatGPT, ouvre la voie à des échanges conversationnels plus poussés et à des raffinements visuels. Imaginez interagir avec votre assistant virtuel pour peaufiner une image ou générer des illustrations basées sur le fil de votre discussion. Cette intégration pourrait mener à des applications inédites, à l’instar de Bing Chat AI de Microsoft qui propose déjà une fonction similaire depuis mars.
Aditya Ramesh, à la tête de l’équipe DALL-E, a démontré cette capacité en demandant à ChatGPT de l’aider à imaginer un logo pour un restaurant de ramen situé en montagne. La réponse ? Une image époustouflante montrant une montagne avec des sommets enneigés en forme de ramen, du bouillon se déversant tel une cascade, et des œufs marinés éparpillés au sol comme des pierres ornementales. Une création qui dépasse l’ordinaire et montre les vastes possibilités de cette technologie.
Un risque de plagiat et de reproduction inédit
L’ascension fulgurante de la série DALL-E n’a cependant pas été sans susciter de vives polémiques.
De nombreux artistes et créateurs voient d’un mauvais œil cette technologie qui pourrait non seulement reproduire leur style sans autorisation, mais également remettre en question la notion de droits d’auteur. Face à cette montée des inquiétudes, OpenAI a pris des mesures préventives, notamment en refusant les demandes imitant le style d’un artiste vivant et en proposant aux créateurs une option de désinscription. L’entreprise a également travaillé avec des « red teamers » externes pour tester et renforcer la sécurité de DALL-E 3. En théorie, DALL-E 3 ne peut pas recréer d’images de personnalités publiques si leur nom est spécifiquement mentionné et qui refuse de générer des images dans le style d’artistes vivants.
Sur le plan juridique, la politique actuelle aux États-Unis est claire : les œuvres générées par AI ne peuvent bénéficier de la protection par le droit d’auteur. OpenAI a cependant précisé que les images créées avec DALL-E 3 appartiennent à leurs créateurs, une approche différente de celle adoptée l’année dernière.
L’IA et les biais idéologiques, une arme de choix pour la propagande
Enfin, la question de la sécurité est au cœur des préoccupations d’OpenAI. Pour éviter les dérapages, des filtres de détection de mots-clés et d’images ont été intégrés à DALL-E 3, limitant sa capacité à produire des contenus controversés. De plus, des experts ont été consultés pour anticiper et atténuer les risques potentiels liés à la désinformation ou à la manipulation de l’opinion publique. Vaste sujet qui n’a pas fini d’animer les débats car la lutte contre la désinformation s’apparente bien souvent à de la censure. Quant à la manipulation de l’opinion publique, cela a toujours été et reste une pratique courante.
DALL-E 3 est actuellement en phase de test fermé, mais OpenAI prévoit de le rendre accessible aux clients ChatGPT Plus et Entreprise dès octobre. Une chose est certaine, cette innovation promet de redéfinir les frontières de la création visuelle assistée par l’intelligence artificielle. Avec DALL-E 3, OpenAI ne se contente pas de repousser les limites de l’art généré par l’IA, mais assure un avenir prometteur pour le domaine de l’art assisté par l’intelligence artificielle.
En relation : Enfin une application iOS pour ChatGPT.