La data science, c’est quoi ?
La data science, c’est quoi ?
22/09/2020 – Digital
On entend de plus en plus parler de data science (science des données). C’est une discipline très récente mais qui est en plein développement ces dernières années. Jérôme Feroldi, Data Scientist chez Smartengo, décrypte pour nous ce qu’elle recouvre.


Bonjour Jérôme, quel est l’objectif de la data science ?
L’objectif de la data science est de manipuler et d’analyser un grand volume de données (numériques), provenant de sources diverses, afin d’optimiser les processus métiers, d’aider à la prise de décision ou d’apporter de la valeur (informative, économique…) et, ceci, grâce à l’utilisation d’algorithmes mathématiques et de statistiques (tels que le « machine learning »).
La data science est très sollicitée en raison de la transversalité des compétences qu’elle requiert. Elle se trouve en effet au carrefour de :
- L’informatique et particulièrement la programmation : il est nécessaire de pouvoir écrire (« coder ») les algorithmes utilisés.
- Les mathématiques et les statistiques (algèbre linéaire, calcul différentiel, probabilités…). Elles sont à la base des algorithmes et des manipulations de données.
- La connaissance des produits, des métiers et de l’activité
Quelles sont les applications concrètes de la data science ?
Les principales applications de la data science peuvent être classées en quatre familles : l’optimisation, l’automatisation, la création et la prédiction.
Concrètement, de nombreuses sont présentes dans notre quotidien. Il y a de la data science dans votre moteur de recherche, dans vos recommandations YouTube ou Deezer, sur vos sites d’e-commerce, dans les véhicules autonomes ou dans votre assistant vocal. La data science est aussi utilisée pour gérer les spams ou modérer les contenus sensibles.
En entreprise, cette discipline intervient dans tous les métiers : finance, marketing, produit, logistique et supply chain, etc. C’est bien entendu également le cas chez Vallourec où plus de cent initiatives basées sur la science des données sont déjà répertoriées : chez VAM®, dans la finance, en production (usine), et bien sûr chez Smartengo.

Quelques dates clés
- 1959 : apparition de l’expression « machine learning » pour un programme apprenant d’IBM (un joueur de dames virtuel).
- 1991 : première apparition de l’expression « data science » (Peter Naur)
- 1997 : première version publique de Python
- 2000 : apparition du terme « Big Data » dans un article de l’Association For Computing Machinery
- 2001 : première version publique de R
- 2006 : Doug Laney (Gartner) définit le Big Data selon « 3 V » : Volume, Variété et Vélocité
- 2016 : Un algorithme de deep learning bat le champion du monde de jeu de Go

Quels sont les liens avec l'Intelligence Artificielle et le Big Data ?
On désigne par Intelligence Artificielle les techniques utilisées pour imiter les mécanismes du cerveau humain : reconnaissance d’images, modèles de prédictions sur divers phénomènes (météo, comportements d’achat…), filtrage de commentaires abusifs…
Le Big Data, quant à lui, fait référence plus généralement aux énormes volumes de données traités avec les puissances de calcul associées (les outils informatiques conventionnels sont incapables de traiter convenablement ces quantités et volumes). Il peut être décrit selon trois vecteurs, les 3 V, le « Volume », lié à l’augmentation des échanges et à l’explosion des données (donc plus de serveurs et de personnel), la « Variété » des types de données, et la « Vélocité » ou temps de traitement de la collecte en temps réel. Les données sont le « fuel » de la data science.
Quel futur imaginez-vous pour cette discipline ?
On peut penser que dans un futur proche, de plus en plus d’environnements (services via applications, objets connectés…) généreront des volumes de données toujours plus importants. Cela signifiera des algorithmes mais aussi des environnements cloud plus puissants et plus complexes.
Parallèlement, il est probable que deux enjeux prendront de plus en plus d’importance : la protection de la vie privée et la limitation/réduction de l’empreinte énergétique de ces technologies très gourmandes en ressources.