En français, la science des données est un vaste champ combinant de nombreuses disciplines, dont l’objectif commun est de donner du sens aux données brutes. Au sein même de ces disciplines nous retrouvons grand nombre d’outils et de techniques, telles que la programmation informatique, l’analyse prédictive, les mathématiques, les statistiques, ou encore l’intelligence artificielle.

Compliqué de s’y retrouver et donc de donner une définition unique de ce qu’est la Data Science, d’autant plus qu’il s’agit un monde en perpétuelle évolution, ou même les technologies sont en transformation constante.

Et vous, qu’est-ce que la Data Science représente pour vous et votre activité ? Est-ce un simple phénomène de mode, ou l’avenir de nos métiers ? Entre ceux qui parlent de la data comme le pétrole du XXIème siècle, et ceux qui la négligent, essayons d’y voir un peu plus claire.

 

Data Science

Pour commencer, il est important de resituer le sujet et son expansion. La quantité de données créées a été multipliée par 11 entre 2013 et 2020, passant de 4 à 44ZB de données existant dans le monde (soit 44 000 milliards de Gigabytes en 2020)
Cette croissance massive s’explique par l’expansion des réseaux sociaux, l’arrivée des objets connectés, ou encore l’évolution des moteurs de recherche.

COMMENT FONCTIONNE LA DATA SCIENCE ?

On peut distinguer plusieurs étapes du cycle de vie de la donnée au sein d’une entreprise notamment :

La collecte : Toute entreprise, tout comme n’importe quel particulier, génère de la donnée chaque jour. La collecte correspond à la récupération des données, d’une ou de plusieurs sources externes ou internes.

 

 

 

Le stockage : Une fois les données collectées, c’est le moment de les pousser dans une solution de stockage. Plusieurs solutions existent, et il convient de choisir la solution la plus adaptée à notre besoin. Quelle volumétrie de données ? Bases SQL ou NoSQL ? Open source ou propriétaires ? Base orientée document, graphe, colonne, ou encore clé-valeur. Vous l’aurez compris, ce ne sont pas les possibilités qui manquent, mais il est essentiel de faire un choix adapté.

Le Data Mining : Notre donnée est stockée et c’est le moment de l’exploiter. En récupérant ces données on doit souvent les traiter et les mettre en forme, soit pour harmoniser le tout, soit en vue de futurs traitements. On parle souvent d’ETL, pour Extract, Transform, Load (exporter, transférer, entreposer). [Lire notre article « Les solutions d’interopérabilité »]

La Data Analyse (Data Analytics) : C’est le processus d’étude de la donnée, afin d’en extraire des informations et des tendances qui facilitent la prise de décision. On parle de BI (Business Intelligence).

La visualisation (Data Visualisation) : L’exploitation visuelle et interactive des données grâce à des dashboards, des analyses, des rapports visuels (pas uniquement des graphiques et cartes).

LA DATA SCIENCE, UN SUJET D’EXPERT ?

Aujourd’hui, des milliards de données inexploitées sommeillent dans les tiroirs des DSI, l’analyse de ces données passe par le travail d’une chaine d’experts mais l’exploitation de celles-ci par le reste de l’entreprise peut permettre à n’importe quels collaborateurs de prendre une décision « data driven » éclairée.

Pendant longtemps considéré et traité exclusivement comme un sujet d’expert, nous sommes convaincus chez Arsia Mons qu’il est temps de recentrer la Data autour des besoins et cas d’usages métiers.

L’exploitation adéquate de la donnée en se basant sur un besoin concret, permet la construction d’un POC qui a du sens, et dont l’industrialisation apporte un avantage concurrentiel certain pour l’entreprise.
Et c’est aussi simplement qu’en collaborant, experts Data et métiers peuvent changer un tas de cailloux en véritable pépites d’or. C’est à ce moment que l’on se rend compte que toutes les entreprises contiennent des mines d’or inexploitées, par manque d’expertise ou par absence de prise en compte des besoins métiers.