Les applications de la vision par ordinateur connaissent une énorme augmentation grâce aux progrès des smartphones combinés à l’IA, qui aident à combler les lacunes de ce que les appareils de tous les jours ne peuvent pas voir. Utilisant ces outils, une start-up basée à Munich, Beyond Presence, estime détenir les clefs de ce qui va arriver ensuite : des avatars hyper-réalistes qui ressemblent et sonnent exactement comme leurs homologues humains et qui peuvent être utilisés dans des situations de conversation en temps réel. La start-up a annoncé aujourd’hui avoir levé son premier financement extérieur, un tour de table de pré-amorçage de 3,1 millions de dollars. La société allemande HV Capital mène le tour, avec 10x Founders, Alba VC, et des individus de Meta, DeepMind et Zalando qui participent également.
Beyond Presence n’a pas encore réellement diffusé sa technologie dans le monde, mais elle est proche, selon Awais Shafique, le PDG et co-fondateur de la start-up. Une partie du nouveau capital sera utilisée pour continuer à développer les modèles de base de l’entreprise, a-t-il dit, et une partie financera la sortie de sa bêta publique d’ici la fin du mois. Jusqu’à présent, quelque 300 entreprises sont sur la liste d’attente pour le produit, qui aura probablement des applications initiales dans des domaines tels que le service à la clientèle et le support, le recrutement, les ventes et l’e-learning. Tous sont des domaines dans lesquels les entreprises cherchent à échelonner leurs interactions avec les utilisateurs sans avoir à embaucher et à former plus de personnes. Comment une start-up a-t-elle réussi à lever un tour de plusieurs millions de dollars avant même de lancer un produit, et à aller aussi loin en tant qu’entreprise d’IA nécessitant des ressources sans aucun financement externe ? La réponse se trouve dans les antécédents des fondateurs.
Shafique a précédemment cofondé Presize, une start-up de vision par ordinateur qui pouvait prendre avec précision les mesures d’un utilisateur en enregistrant un clip de l’utilisateur qui tourne une fois devant la caméra d’un smartphone. Ces mesures pourraient ensuite être utilisées pour aider à l’achat de vêtements en ligne.
La start-up basée à Munich avait un profil démesuré dans son pays d’origine car les fondateurs ont participé à la version allemande de “Dragons Den” / “Shark Tank” en 2020, où ils ont levé un montant record de 650 000 €. Puis, en avril 2022, il a été révélé que Meta avait acquis Presize. Le prix et la date exacte de la transaction n’ont jamais été divulgués, mais certains signes forts indiquent une excellente sortie. Les dépôts auprès de la SEC montrent que Meta a dépensé entre 774 millions de dollars de janvier à mars 2022, et 1,15 milliard de dollars au cours des six premiers mois de 2022, en acquisitions. Presize était la seule opération publiquement divulguée à ce moment-là. La liste des acquisitions de Meta sur Wikipedia a été modifiée avec une estimation beaucoup plus modeste : 100 millions de dollars. Des sources familières avec le sujet ont déclaré à TechCrunch qu’une valeur de transaction à neuf chiffres était plus précise que dix chiffres dans ce cas. En fin de compte, quelle que soit la place de Presize dans cette fourchette, étant donné que la start-up n’avait levé “que quelques millions”, selon l’estimation de Shafique, lui et ses co-fondateurs sont très bien sortis. “C’est assez lucratif pour qu’on n’ait pas à travailler”, a-t-il déclaré dans une interview.
Au cœur, Presize visait à résoudre un problème épineux de vision par ordinateur, et c’est ce que Beyond Presence vise également à faire. J’avoue que mes premières impressions sur le pitch de Beyond Presence étaient sceptiques. Les avatars numériques ne sont pas exactement un territoire inexploré. Non seulement ils existent depuis des décennies, mais ils ont bénéficié d’un regain d’attention, et peut-être d’un peu de battage médiatique, avec les dernières innovations en matière d’IA et de traitement, sans parler de la folie pour tout ce qui touche aux chatbots. Il n’existe pas non plus d’idées claires sur ce qui fonctionnera dans le domaine des avatars en tant qu’entreprise à long terme. Certains, comme Hyper et Ready Player Me (soutenus respectivement par Amazon et A16Z), s’inspirent de la culture du jeu vidéo et de la théorie selon laquelle les avatars ne devraient pas être des versions réalistes des personnes qui les utilisent. Ceux qui souhaitent cacher leur identité pour préserver leur vie privée pourraient opter pour ces approches plutôt que pour celles qui reproduisent leur ressemblance exacte. D’autres, comme Synthesia, peuvent créer des ressemblances de personnes. Mais ils nécessitent des visites en studio, et ne sont pas à la base du produit principal, qui utilise des appareils modestes comme les caméras de téléphone pour capter vos expressions et alimenter des avatars qui ne vous ressemblent pas. Et certains autres essaient de construire des outils avec lesquels vous pouvez interagir en utilisant des appareils de tous les jours – cela inclut Veed et Deepbrain.
Beyond Presence vise non seulement un avatar qui peut être créé à la volée en utilisant votre téléphone, mais aussi un avatar qui vous ressemble et peut être utilisé en temps réel, dans des situations de conversation non scénarisées. Quelque chose comme une version vidéo des chatbots basés sur le texte proposés par OpenAI, Anthropic, Meta et bien d’autres. La start-up n’est bien sûr pas la seule sur ce marché. Zoom semble travailler sur des avatars personnalisés hyper-réalistes, et CommonGround développe également quelque chose le long de ces lignes. Pour le moment, Beyond Presence se concentre sur la construction de quelque chose d’unique dans le composant vidéo de son produit. Eleven Labs alimente la partie vocale de l’expérience, et le GPT d’OpenAI est le modèle d’IA générative qui alimente le contenu. Les clients professionnels peuvent changer de modèle de manière flexible. “Vous pouvez aussi tout nous laisser, [ou utiliser] n’importe quel LLM que vous voudriez, ou n’importe quel agent vocal que vous voudriez. Et puis nous faisons le visage par-dessus”, a-t-il déclaré. Cette fonctionnalité tient compte du fait que les clients entreprise peuvent déjà travailler avec des fournisseurs de LLM spécifiques, par exemple, ou ne souhaitent pas partager de données propriétaires à l’extérieur, a-t-il noté.