Sommet pour l’action sur l’IA : Station F accueillera le Business Day, un évènement dédié aux acteurs économiques

Le 11 février prochain, Station F accueillera le Business Day, une journée dédiée aux opportunités offertes par l'IA pour le développement et la transformation des entreprises. Organisée dans le cadre du Sommet pour l'action sur l'IA, cette journée réunira les grands acteurs internationaux de l’intelligence artificielle et l’écosystème tech français. Organisé avec le soutien de la Direction générale des entreprises, en particulier de la Mission French Tech qui lui est rattachée, le Business Day fera partie intégrante du programme officiel du Sommet. L'événement rassemblera en un même lieu des initiatives menées par quatre acteurs majeurs de l'écosystème technologique français : Bpifrance, France Digitale, Numeum et Station F. Il impliquera également une douzaine d'associations sectorielles françaises et européennes ainsi qu'une dizaine de partenaires internationaux.

Quatre axes stratégiques pour l'avenir des entreprises

Le programme de la journée s’articulera autour de 4 grands axes :
  • Valorisation des cas d’usage prometteurs de l’IA : les entreprises mettront en avant leurs solutions concrètes, notamment les lauréats de l’Appel à Manifestation d’Intérêt « AI for Efficiency » de la Direction générale des entreprises ;
  • Débats sectoriels et stratégiques : des tables rondes discuteront des opportunités offertes par l’IA dans différents secteurs et des enjeux qui y sont associés, notamment l’éthique et la transformation des métiers ;
  • Mobilisation des acteurs du financement public et privé (venture capitalists, limited partners) sur les technologies d'IA ;
  • Rencontres d’affaires : cet espace d’échange favorisera la mise en relation entre start-ups, investisseurs et grandes entreprises pour encourager la contractualisation et les investissements stratégiques.
Des interventions de conférenciers de renom de l’écosystème français et international compléteront ce programme. Clara Chappaz, ministre déléguée chargée de l’Intelligence artificielle et du Numérique : "Je me réjouis de la dynamique collective qui a mené à l’organisation du Business Day, qui témoigne de l’envie qu’ont les acteurs économiques de se saisir du Sommet pour l’action sur l’intelligence artificielle. Dans le cadre de cette journée, la part belle sera faite aux exemples d’applications concrètes et à la valorisation des solutions que proposent nos entreprises – je pense en particulier aux start-ups de la French Tech – mais aussi les entreprises européennes et internationales". . Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


L’UTT lance un Bachelor en IA : une formation professionnalisante au cœur des enjeux numériques

L'Université de Technologie de Troyes (UTT) a récemment annoncé le lancement à la rentrée 2025 d'un Bachelor en IA, une formation professionnalisante de trois ans conçue pour répondre aux besoins croissants des entreprises en compétences IA. Ce programme innovant, intégré au Cluster IA Hi! Paris, bénéficie des ressources mutualisées et de l'expertise des partenaires de ce centre dédié à la recherche, à l’innovation et à la formation en IA Lancé en septembre 2020 par HEC Paris et l’Institut Polytechnique de Paris (IP Paris), Hi! Paris est un centre interdisciplinaire de recherche et d’enseignement consacré à l’IA et aux Sciences des données. Rejoint par des institutions de premier plan comme le CNRS, l’INRIA, l'ENSTA, l'École Nationale des Ponts et Chaussées, l'ENSAE, Télécom Paris, Télécom SudParis et l’UTT, il est l'un des lauréats de l'AMI “IA Cluster : pôles de recherche et de formation de rang mondial en intelligence artificielle”. Dans ce cadre, l’UTT a reçu 2M€ afin de créer un Bachelor IA, une formation répondant aux enjeux actuels du marché de l’IA et contribuant au plan de souveraineté européenne en IA.

Un cursus professionnalisant et pluridisciplinaire

Destiné aux titulaires d’un baccalauréat général ayant suivi la spécialité mathématiques ou d'un diplôme équivalent reconnu, ce Bachelor se distingue par son approche combinant théorie et pratique. La formation comprend une forte composante scientifique (mathématiques, informatique, codage, IA) et plus de 600 heures consacrées au machine learning et au deep learning. La dernière année en alternance permettra aux étudiants d’acquérir une véritable expérience de terrain. Le programme abordera également la gestion de projets, l’aide à la conduite du changement, l’optimisation d’algorithmes ainsi que le déploiement et la mise en production dans les environnements cloud. En troisième année, les étudiants auront la possibilité, en fonction de l'entreprise choisie pour leur alternance et des projets qu'ils auront à y mener, de s'orienter vers une spécialisation comme l’IA pour la santé, l’industrie 4.0, la finance, ou encore les énergies renouvelables.

Une formation ancrée dans les enjeux éthiques et environnementaux

Consciente des défis soulevés par l’IA, l’UTT intègre dans son programme une réflexion approfondie sur les enjeux sociétaux, éthiques et environnementaux. Transparence des algorithmes, protection des données, équité des systèmes automatisés et conformité aux réglementations telles que le RGPD et l’AI Act sont autant de thématiques qui seront abordées au cours de ces six semestres.

Une réponse aux besoins du marché

Ce Bachelor, dont l'accréditation au grade de licence est en cours, entend former des professionnels immédiatement opérationnels. Les diplômés pourront accéder à des postes tels qu’assistant data scientist, développeur IA, analyste de données ou encore spécialiste en vision par ordinateur.

Processus d'admission

Le recrutement en première année s’effectue via la plateforme Parcoursup. Les candidats seront sélectionnés sur la base de leurs résultats académiques et d’une lettre de motivation, mettant en avant leur intérêt pour les sciences des données et l'IA. Les frais de scolarité s'élèveront à 8 000 € par an pour les deux premières années. Ils seront pris en charge la 3ème année par l'organisme d'accueil tout comme la rémunération mensuelle des étudiants dans le cadre du contrat d'apprentissage. Afin de favoriser l'égalité des chances, 20 % des étudiants admis pourront bénéficier d'une bourse et recevront un ordinateur personnel à leur entrée dans le programme.. Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


AI2 lance Tülu 3 405B : une avancée vers un nouveau standard de l'IA open source

Après avoir publié en décembre dernier sa famille de modèles OLMO 2, l’Allen Institute for Artificial Intelligence (AI2) poursuit son engagement envers l'open source avec le lancement de Tülu 3 405B. Basé sur Llama 3.1, exploitant le cadre d’apprentissage par renforcement à partir de récompenses vérifiables (RLVR) d'AI2, ce nouveau modèle atteint des performances compétitives ou supérieures à celles de DeepSeek V3 (sur lequel est basé DeepSeek R1) et GPT-4o, surpassant également les modèles post-entraînés précédents de même taille, comme Llama 3.1 405B Instruct et Hermes 3 405B de Nous Research.

Un post entraînement optimisé

La recette de post-entraînement de Tülu 3 405B est similaire à celle de ses prédécesseurs, Tülu 3 8B et 70B, publés par AI2 en novembre dernier. Elle inclut la curation minutieuse des données, la mise au point supervisée (SFT), l'optimisation directe des préférences (DPO) ainsi que le Reinforcement Learning with Verifiable Rewards (RLVR). Crédit image AI. Schéma décrivant le processus d’apprentissage par renforcement avec récompenses vérifiables (RLVR). Cette nouvelle méthode permet d’améliorer significativement les performances des modèles Tülu sur des tâches complexes comme la résolution de problèmes mathématiques et le suivi d'instructions. Fait intéressant, les résultats montrent que l’échelle du modèle influence positivement l’efficacité du RLVR : alors que les modèles plus petits bénéficient d’un entraînement sur des ensembles de données diversifiés, Tülu 3 405B obtient de meilleures performances en se concentrant sur des données plus spécialisées.

Performances du modèle

Selon les évaluations internes d'AI2, Tülu 3 405B surpasse DeepSeek V3, GPT-4o, et Llama 3.1 405B sur le benchmark PopQA, un ensemble de 14 000 paires de questions-réponses qui permet de vérifier l'efficacité des modèles dans la récupération et la génération d'informations précises. Le modèle a également obtenu les performances les plus élevées de tous les modèles de sa catégorie sur GSM8K, un ensemble de données composé d'environ 8 500 problèmes mathématiques de niveau scolaire créé par OpenAI, utilisé pour tester les capacités des modèles de langage à effectuer un raisonnement mathématique multi-étapes.

Enjeux techniques et défis d’implémentation

La mise à l'échelle du modèle n’a pas été sans défis. L'entraînement de Tülu 3 405B a nécessité une infrastructure considérable, avec 256 GPU déployés en parallèle. La gestion du parallélisme tensoriel et l’optimisation des hyperparamètres ont été des points clés, nécessitant un suivi rigoureux. L'’intégration de corrections pour la diffusion NCCL (NVIDIA Collective Communications Library, une bibliothèque open source qui permet de réduire les goulots d'étranglement liés aux échanges de données et améliore les performances globales du système) a cependant permis une synchronisation efficace des poids du modèle, réduisant ainsi les délais d’inférence et de mise à jour. Tülu 3 405B est un modèle véritablement ouvert, répondant aux critères stricts de l’OSAID, la définition de l’IA open source de l’OSI. Il peut être testé sur le site d’Ai2, est accessible sur Hugging Face et son code d'entraînement sur GitHub. Hébergé sur Google Cloud, le modèle sera prochainement disponible sur Vertex AI.. Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


OSE Immunotherapeutics et Scienta Lab : un partenariat pour une immunothérapie de précision boostée par l’IA

OSE Immunotherapeutics et Scienta Lab ont annoncé hier un partenariat stratégique visant à utiliser l’IA pour améliorer la précision des traitements en immunothérapie. Grâce à la plateforme avancée de modélisation des maladies inflammatoires de Scienta Lab, les deux partenaires ambitionnent d’identifier des biomarqueurs prédictifs permettant de mieux cibler les traitements et d’améliorer les résultats cliniques des patients. Les maladies auto-immunes et inflammatoires, telles que la polyarthrite rhumatoïde, le lupus et la maladie de Crohn, touchent une portion significative de la population mondiale (entre 5 et 7%) mais demeurent largement incomprises. Les traitements actuels, développés avec une approche généraliste, ne sont efficaces que pour environ deux tiers des patients. Fondée en 2021 par Camille Bouget, Vincent Bouget et Julien Duquesne, Scienta Lab cherche à changer cette dynamique en développant une compréhension plus fine de ces maladies, se détachant de la médecine “grand public et uniformisée” pour adopter une approche de médecine de précision. Pour relever le défi de la variabilité importante des réponses à l'immunothérapie chez les patients, la deeptech s'est associée à OSE Immunotherapeutics, une société de biotechnologie spécialisée dans le développement de solutions thérapeutiques innovantes en immuno-oncologie et immuno-inflammation.

L'IA au service de la médecine de précision

Scienta Lab met à disposition EVA, son modèle d'IA multimodal dédié à la recherche translationnelle en immunologie afin d’analyser de vastes ensembles de données et d’identifier des signatures biologiques complexes. L’objectif est de développer une approche de stratification des patients en sous-groupes distincts, facilitant ainsi une prise en charge plus ciblée et efficace. En intégrant des facteurs systémiques et individuels, EVA vise à améliorer la compréhension des mécanismes sous-jacents des maladies inflammatoires et auto-immunes.

Une collaboration au service de l’innovation médicale

Pour OSE Immunotherapeutics, cette collaboration s’inscrit dans une stratégie plus large d’intégration de technologies de pointe dans son processus de développement. Nicolas Poirier, Directeur général d’OSE Immunotherapeutics, explique : "Nous sommes ravis de cette nouvelle collaboration qui s’inscrit dans notre volonté constante d’intégrer des solutions et des technologies innovantes d'IA pour développer des produits first-in-class en immuno-oncologie et en immuno-inflammation. Face au rythme effréné du monde d’aujourd’hui, il est primordial d’avancer très vite et une solution d'IA capable d'identifier des biomarqueurs prédictifs dans l'immuno-inflammation sera clé pour accompagner notre recherche et notre développement clinique dans diverses maladies inflammatoires chroniques et auto-immunes". Selon lui, l’identification de biomarqueurs prédictifs via l’IA pourrait permettre d’accélérer la recherche clinique et d’optimiser les parcours thérapeutiques. Camille Bouget, CEO et co-fondatrice de Scienta Lab, partage cette vision : "En raison de la nature complexe et hétérogène des pathologies immuno-inflammatoires, il est essentiel de disposer d’options thérapeutiques précisément ciblées pour pouvoir proposer un résultat optimal aux patients. Nous sommes très heureux de nous associer à OSE Immunotherapeutics, une biotech européenne leader, pour mettre EVA au service de cet objectif." Elle ajoute : "Cette collaboration vise à générer une valeur scientifique et économique significative pour nos deux sociétés tout en menant notre mission commune de faire avancer l’innovation vers une immunologie de précision.". Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


« Bâtir la confiance : anticiper et maîtriser les risques de l’IA » par HEC Hub Digital & Axys

Dans le cadre du Sommet mondial pour l’IA qui se tiendra les 10 et 11 février 2025 à Paris, HEC Alumni (Hub Digital) et Axys organisent un événement officiel réunissant des experts en gouvernance, cybersécurité et éthique pour explorer des approches concrètes en matière d’identification, de hiérarchisation et de gestion des risques liés à l’intelligence artificielle.   Organisé au sein de l’HEC Alumni House – Hôtel Le Marois, lieu d’exception situé près des Champs-Élysées, ce rendez-vous rassemblera des acteurs majeurs du secteur industriel, bancaire et académique tels que Thales, le Crédit Agricole et le CNRS :

  • Juliette Mattioli: Experte senior IA chez ThalesPrésidente Hub Data & IA du pôle Systematic Membre de la mission France IA
  • Aldrick Zappellini : Directeur Data & IA et Chief Data Officer Groupe Crédit Agricole
  • Jean-Gabriel Ganascia : Professeur IA à la Sorbonne, Président du comité éthique du CNRS
  • Fazil Boucherit : Directeur, référent expert IA éthique chez Axys
À travers des cas pratiques (détection des biais algorithmiques, sécurité des données, explicabilité des modèles…), cet événement offrira aux participants une boîte à outils opérationnelle pour construire des cartographies de risques dynamiques. Il visera également à encourager l’intégration des bonnes pratiques dans les stratégies de gouvernance et à promouvoir l’adoption de standards permettant d’objectiver et de mesurer les risques liés à l’IA.   Une occasion unique d’échanger avec des experts et de renforcer la résilience des organisations face aux défis de l’intelligence artificielle. Vous pouvez soumettre votre invitation via le lien d’inscription (limite à 90 participants).. Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


Menaces IA et fragmentation technologique : les grands défis de la cybersécurité en 2025

En 2025, les organisations font face à des défis de cybersécurité sans précédent. Une étude récente commanditée par Palo Alto Networks et réalisée par Vitreous World met en lumière les principales préoccupations des entreprises françaises et européennes. Les menaces basées sur l'IA et la fragmentation technologique sont identifiées comme les plus grands risques pour la sécurité des entreprises. Vitreous World a interrogé plus de 450 cadres dirigeants (C-Level) et professionnels de la sécurité en France, en Allemagne, au Royaume-Uni et en Espagne. La fragmentation technologique est identifiée comme un défi clé : plus d’un tiers (35 %) des répondants ont signalé que la gestion d’un nombre excessif de fournisseurs et d’outils de sécurité constitue le prochain obstacle majeur au développement d’un cadre de sécurité robuste, surpassant la complexité technologique et le manque d’interopérabilité.

Les menaces basées sur l'IA

Selon l'étude, 74 % des entreprises françaises considèrent les menaces basées sur l’IA comme le principal défi cyber en 2025, un chiffre supérieur à la moyenne européenne (66 %). Malgré cette prise de conscience, 93% des répondants français font confiance à la sécurité des applications d'IA utilisées dans leur entreprise. Cette perception pourrait cependant être mise à l'épreuve par la sophistication des menaces alimentées par l'IA. Pour contrer ces dernières, les entreprises françaises intègrent de plus en plus l’IA dans leurs stratégies de sécurité, près de 8 répondants français sur 10 (79 %) sont d'ailleurs convaincus qu’ils utilisent cette technologie à son plein potentiel.

Complexité et fragmentation technologique

La fragmentation technologique demeure un obstacle majeur à l’instauration de stratégies de cybersécurité efficaces. Plus de la moitié des entreprises françaises (54 %) estiment que la multiplicité des outils compromet leur capacité à répondre aux cybermenaces, tandis que 44 % considèrent qu’elle est un frein à la transformation de leur sécurité.

Impact humain et opérationnel

La fragmentation technologique entraîne des inefficacités accrues pour les organisations françaises, 44 % des répondants constatent une hausse des coûts de formation et 46 % une augmentation des dépenses en solutions de cybersécurité. Elle ne pèse pas uniquement sur les finances des entreprises. La fragmentation technologique affecte également les ressources humaines, avec une charge de travail accrue pour les analystes de sécurité (45 %) et un taux de rotation du personnel en hausse (44 %), supérieur à la moyenne européenne (39 %).

Vers une consolidation des solutions de cybersécurité ?

Face à ces enjeux, la simplification et l'intégration des piles technologiques émergent comme des priorités pour 90 % des organisations françaises en 2025. Une tendance claire se dessine vers une approche de sécurité basée sur des plateformes intégrées. Toutefois, si 90 % des entreprises sont favorables à cette approche, seulement 40 % ont déjà consolidé leur écosystème cyber. Étienne Bonhomme, vice-président et directeur général pour la France chez Palo Alto Networks, commente :  "L’essor des risques liés à l’intelligence artificielle a manifestement accru les préoccupations des organisations françaises, mais beaucoup peinent à établir des stratégies de sécurité robustes et efficaces. En conséquence, nous assistons à une forte tendance vers la plateformisation, qui permet aux entreprises non seulement de réduire la complexité inutile, mais aussi de renforcer leurs défenses face à des menaces en constante évolution." L’étude met en lumière une évidence : la cybersécurité ne peut plus se contenter d’une approche fragmentée et réactive. La sophistication croissante des attaques alimentées par l’IA et les défis liés à l’interopérabilité des systèmes exigent une refonte des stratégies de défense.. Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


SoftBank et OpenAI s'associent pour lancer "SB OpenAI Japan" et déployer "Cristal intelligence" au sein des entreprises japonaises

Hier, SoftBank Group et OpenAI ont annoncé le lancement de "SB OpenAI Japan", une coentreprise qui développera des solutions d'IA adaptées aux entreprises japonaises, leur permettant d'entraîner leurs propres modèles sur des données internes tout en garantissant leur sécurité. La nouvelle société leur proposera dans un premier temps "Cristal intelligence", un service d'IA d'entreprise dont elle aura l'exclusivité commerciale, que SoftBank a l'intention de déployer dans les sociétés de son groupe, notamment Arm. En juin 2023, après que SoftBank Group ait affiché des pertes de 27,4 milliards de dollars en 2022, son PDG, Masayoshi Son, se disait prêt à rebondir et "à lancer une contre-offensive pour devenir le chef de file de la révolution de l’IA". Il choisit aujourd'hui de renforcer sa collaboration avec OpenAi qui a ouvert un bureau à Tokyo en avril 2024. En octobre dernier, SoftBank faisait partie des investisseurs qui ont permis à OpenAI de lever 6,6 milliards de dollars et est l'un de ses partenaires du projet "Stargate", dévoilé récemment par Donald Trump. Selon son communiqué, "la coentreprise servira de tremplin pour l’introduction d’agents d’IA adaptés aux besoins uniques des entreprises japonaises tout en établissant un modèle d’adoption mondiale". Ce projet s'accompagne d'un investissement annuel de 3 milliards de dollars de SoftBank Group qui permettra à ce dernier de déployer les solutions d’OpenAI comme ChatGPT Enterprise pour les employés de l’ensemble du groupe.

Démocratiser l'adoption de la GenAI et des agents d'IA au Japon

Début janvier, Sam Altman déclarait "en 2025, nous pourrions voir les premiers agents d’IA « rejoindre le monde du travail » et changer matériellement la production des entreprises”. un service d'IA d'entreprise". Cristal intelligence permettra aux entreprises nippones de tirer parti d'agents IA avancés capables d'automatiser des tâches intellectuelles et opérationnelles. Sam Altman a d'ailleurs introduit lors de l'événement annonçant la création de SB OpenAI Japan auquel ont participé les représentants de plus de 500 entreprises japonaises, Deep Research, une fonctionnalité agentique alimentée par une version du prochain modèle OpenAI o3 optimisé pour la navigation Web et l’analyse de données. En fournissant simplement une requête, l'utilisateur permet à ChatGPT d'effectuer une recherche, d'analyser et de synthétiser des informations provenant de diverses sources en ligne, afin de générer des rapports détaillés en 5 à 30 minutes. Selon les deux partenaires, ces agents d’IA jetteront les bases de systèmes encore plus avancés, capables d’apprendre et de s’adapter aux besoins de toute entreprise. SoftBank et ses filiales, dont Arm et SoftBank Corp., seront les premiers à intégrer Cristal Intelligence de manière extensive. Arm, par exemple, exploitera l'IA pour améliorer l'innovation et la productivité, tandis que SoftBank Corp. prévoit d'automatiser plus de 100 millions de flux de travail.. Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


L'UM6P et STATION F s’allient pour favoriser l’innovation entre l’Europe et l’Afrique

L’Université Mohammed VI Polytechnique (UM6P) et STATION F annoncent un partenariat stratégique visant à stimuler l’innovation et à renforcer les liens entre l’Europe et l’Afrique. Baptisé NextAfrica, ce programme de six mois ambitionne d’accompagner et d’accélérer les start-ups internationales souhaitant se développer sur le marché africain, notamment dans les domaines de la Greentech, l’Agritech et la Healthtech, alignés sur la vision et l’expertise de l’UM6P.

Une synergie unique entre l’Europe et l’Afrique

Ce partenariat offre aux start-ups un cadre privilégié combinant mentorat, financement, accompagnement technique et accès aux marchés africains. Il s’appuie sur l’excellence scientifique et les infrastructures de l’UM6P, permettant aux entrepreneurs de bénéficier d’un savoir-faire local essentiel pour leur expansion en Afrique. Les start-ups pourront ainsi échanger avec les chercheurs et experts de l’université, qui leur offriront une compréhension approfondie des enjeux économiques et technologiques spécifiques au continent. Par ailleurs, leur intégration à STATION F, le plus grand campus de startups au monde, leur garantira une exposition à un écosystème dynamique et interconnecté, favorisant les synergies avec des investisseurs, partenaires et experts européens. Ce double ancrage permettra aux entrepreneurs de solidifier leur présence à la fois sur les marchés africains et européens.

Un programme d’accélération de référence

Chaque année, NextAfrica accompagnera une vingtaine de startups spécialisées en Greentech et Healthtech à travers un programme intensif de six mois. Celui-ci combinera une immersion au sein de STATION F à Paris, où elles bénéficieront d’un accès privilégié aux ressources du campus et à un réseau international d’entrepreneurs et d’investisseurs, ainsi que des résidences périodiques sur le campus de l’UM6P au Maroc. Cette approche leur permettra non seulement de développer leurs projets dans un environnement entrepreneurial de premier plan, mais aussi de tester et d’adapter leurs innovations aux réalités et besoins spécifiques du marché africain. Les candidatures pour rejoindre la première promotion sont d’ores et déjà ouvertes. Hicham El Habti, Président de l’UM6P, souligne : "Cette alliance avec STATION F reflète notre ambition de connecter les talents africains et européens dans un écosystème entrepreneurial de premier plan. En mettant en commun nos ressources, nous donnons aux startups les moyens d’adresser les défis technologiques, économiques et environnementaux de l’Afrique, tout en consolidant un pont d’innovation entre les deux continents." 

Une vision stratégique pour l’innovation africaine

Ce partenariat s’inscrit dans une dynamique plus large de renforcement des capacités d’innovation en Afrique, un continent qui présente des opportunités majeures, mais également des défis spécifiques nécessitant des solutions adaptées. En combinant l’expertise de STATION F en matière d’accélération et l’ancrage africain de l’UM6P, NextAfrica se positionne comme un levier stratégique pour les entrepreneurs souhaitant s’implanter durablement sur ces marchés. Roxanne Varza, Directrice de STATION F, conclut : "Nous sommes ravis d’accueillir l’UM6P à STATION F. Ce partenariat renforce notre engagement dans des secteurs clés comme la Greentech et la Healthtech, tout en approfondissant notre lien avec le Maroc, qui est déjà le troisième pays le mieux représenté à STATION F.". Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


Mistral Small 3 : la réponse open source française optimisée pour la latence aux modèles GenAI propriétaires

En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a lancé plus discrètement Mistral Small 3. Publié sous la licence Apache 2.0, ce modèle de 24 milliards de paramètres optimisé pour la latence est "une excellente alternative open source aux modèles propriétaires opaques comme GPT4o-mini" selon elle. Avec Small 3, la licorne, démontre une fois de plus que pour être performant, un LLM ne requiert pas un nombre astronomique de paramètres. Le modèle se positionne comme une réponse aux besoins croissants d'efficacité en offrant un taux de traitement de 150 tokens par seconde, tout en affichant une précision de plus de 81 % sur le benchmark MMLU. Cette prouesse technique est rendue possible grâce à une architecture optimisée qui réduit le nombre de couches traditionnelles, diminuant ainsi le temps de passage avant (forward pass time, ou temps nécessaire à un modèle de réseau de neurones pour traiter une entrée et produise une sortie) sans compromettre la qualité des réponses. Ce choix architectural, qui en fait "actuellement le modèle le plus efficace de sa catégorie", permet à la version optimisée, Mistral Small 3 Instruct, de rivaliser avec des modèles bien plus imposants comme Llama 3.3 70B ou Qwen 32B, tout en garantissant une exécution rapide et efficace sur du matériel standard.

Des applications pour divers secteurs

Le Mistral Small 3 ne se contente pas d’afficher des performances techniques remarquables : il s’inscrit également dans une logique d’adaptabilité aux besoins concrets des entreprises. Parmi les cas d’usage envisagés, plusieurs domaines se démarquent :
  • Assistance conversationnelle et appels de fonction : la faible latence garantit des interactions en temps réel, essentielles pour les chatbots ou assistants virtuels ;
  • Fine-tuning pour des expertises spécifiques : sa taille modeste facilite l’ajustement fin pour des domaines précis, comme le diagnostic médical ou le conseil juridique ;
  • Inférence locale : la possibilité de déployer le modèle sur du matériel accessible favorise l’usage dans des secteurs où les données sensibles nécessitent un traitement en local.
Comme les "Ministraux", Small 3 répond également aux besoins croissants de calcul local et de protection de la vie privée : la possibilité de le déployer sur des configurations matérielles accessibles, comme une RTX 4090 ou un MacBook avec 32 Go de RAM, offre aux organisations le contrôle sur leurs données sensibles sans dépendance à une infrastructure cloud centralisée.

Une stratégie de diffusion ouverte et collaborative

Selon Mistral AI, faisant référence aux derniers modèles de DeepSeek, et au projet Open-R1,"Ce furent des jours passionnants pour la communauté open source ! Mistral Small 3 complète les grands modèles de raisonnement open source comme les récentes versions de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement". L'entreprise a fait le choix de le publier sous la licence Apache 2.0, faisant le choix d'abandonner peu à peu sa licence plus restrictive MRL pour les modèles à usage général. Elle annonce d'ores et déjà "des modèles Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir". Actuellement disponible sur les plateformes Hugging Face, Ollama, Kaggle, Together AI et Fireworks AI, Mistral Small 3 le sera également bientôt sur NVIDIA NIM, Amazon SageMaker, Groq, Databricks et Snowflake.. Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


DeepSeek-R1, le modèle open source chinois venu déstabiliser NVIDIA et le marché de l'IA

Après avoir suscité l’attention en décembre dernier avec l'annonce de DeepSeek-V3, son modèle open source éponyme, la start-up chinoise DeepSeek est venue perturber le marché de Wall Street avec le lancement le 20 janvier dernier de DeepSeek-R1.  Ce modèle doté de capacités de raisonnement avancées, lui aussi open source et dont le coût d’entraînement a également été drastiquement réduit, alimente désormais son agent conversationnel. Nvidia a été sans conteste l'entreprise la plus impactée par l'arrivée de DeepSeek-R1. Alors que boostée par une demande accrue pour ses GPUs dédiés aux data centers, elle avait détrôné une nouvelle fois Apple en novembre dernier, redevenant l’entreprise la plus cotée en bourse, son action enregistrait hier soir une chute de 16, 86 %, la plus forte baisse depuis 2020. La société, qui a perdu plus de 580 milliards de capitalisation boursière en une seule journée, se retrouve ainsi rétrogradée à la 3ème place du marché, derrière Apple et Microsoft.

DeepSeek, la start-up chinoise qui défie les géants Américains

Alors que la guerre technologique autour de l’IA entre les Etats-Unis et la Chine continue de s’intensifier et que les acteurs de l'IA américains sont prêts à investir des sommes colossales, DeepSeek démontre une fois de plus qu’il est possible de développer à moindre coût des LLMs capables de rivaliser avec les meilleurs modèles américains aux nombres de paramètres impressionnants. Créée en mai 2023 à Hangzhou, la start-up, dirigée par Liang Wenfeng, est une filiale du fonds spéculatif High-Flyer. Son ambition est la même que celle affichée par OpenAI : développer une IA au service de l’humanité et atteindre l’IAG, des systèmes d’IA qui dépassent les capacités cognitives des êtres humains dans de nombreux domaines. Tout juste un an plus tard, l’entreprise lançait DeepSeek-V2, un modèle de langage performant proposé à un coût compétitif, déclenchant une guerre des prix sur le marché chinois de l’IA et amenant ses principaux concurrents notamment Zhipu AI, ByteDance, Alibaba, Baidu, Tencent à revoir leurs prix à la baisse. DeepSeek, son IA conversationnelle, se présente comme une alternative sérieuse aux chatbots occidentaux, surpassant ChatGPT en nombre de téléchargements tant en Chine qu'aux États-Unis. Le chatbot est également disponible sur le site de la start-up.

DeepSeek-R1

DeepSeek-R1-Zero et DeepSeek-R1 sont deux modèles de raisonnement de première génération. DeepSeek-R1-Zero, entraîné par apprentissage par renforcement (RL) sans réglage fin supervisé (SFT), a montré de solides performances. Cependant, il présente des défis tels que la répétition sans fin et la mauvaise lisibilité. Pour résoudre ces problèmes, DeepSeek-R1 intègre des données de démarrage à froid avant l'application du RL, atteignant des performances comparables à celles d'OpenAI-o1 dans les tâches mathématiques, de code et de raisonnement. Pour soutenir la communauté des chercheurs, la start-up a mis DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1 basés sur Llama et Qwen en open source. DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-LLama 70B surpassent OpenAI-o1-mini dans divers benchmarks. Selon la start-up, DeepSeek-R1 aurait été entraîné comme son prédécesseur avec des GPU H 800 que les USA autorisaient NVIDIA à lui vendre jusqu’à l’an passé, une affirmation qui laisse perplexes certains acteurs de l'IA américains qui pensent qu'elle aurait eu accès aux GPU Hopper H100 malgré les restrictions. Quoiqu'il en soit, ses performances ont surpris les experts. Alexandr Wang, PDG de l’entreprise américaine Scale AI, a déclaré à la CNBC : "Ce que nous avons constaté, c’est que DeepSeek (...) est soit le meilleur, soit au niveau des meilleurs modèles américains". Marc Andreessen, qui a investi dans de nombreuses entreprises technologiques à succès, notamment Facebook, Twitter, LinkedIn et GitHub, a, quant à lui, qualifié DeepSeek-R1 de "l'une des percées les plus impressionnantes qu'il ait jamais vues et, en tant que source ouverte, un cadeau profond pour le monde". La course à l'IA entre les deux géants que sont les Etats-Unis et la Chine est plus que jamais ouverte.... Lire plus >

Mot clé : IA -- publié le 14/02/2025 14:58:00


Je souhaite en savoir plus