Caractéristiques et innovations
Dans cet article, nous expliquons comment Timofej, notre expert en science des données, a développé un modèle d'IA pour la planification du personnel. Pour savoir pourquoi il travaille sur la planification du personnel basée sur l'IA pour l'entrepôt, lisez l'interview "Planification du personnel basée sur l'IA : l'assistant invisible de l'entrepôt. (partie 1/3)".
Nous avons demandé à Timofej comment il traitait les données des logs.
Cela comprend plusieurs étapes. Je commence par extraire les données pertinentes du système de gestion d'entrepôt SuPCIS-L8. Ensuite, je les nettoie et les corrige si nécessaire. J'utilise ensuite les données traitées pour l'apprentissage automatique, en développant et en entraînant des modèles d'IA. Enfin, j'évalue les modèles et effectue des itérations supplémentaires si nécessaire.
Çaa l'air facile, mais il y a beaucoup plus derrière. Nous allons vous expliquer les différentes étapes en détail.
La première étape consiste à extraire les données pertinentes de différents fichiers. Ces fichiers stockent des informations sous forme de texte et documentent les actions dans le système de gestion d'entrepôt SuPCIS-L8. Des scripts automatisés se chargent de l'extraction.
Après l'extraction, les données sont nettoyées si nécessaire. Les données erronées, incomplètes ou non pertinentes sont supprimées ou corrigées. Cette étape est cruciale, car la qualité des données influence la précision des prévisions et des modèles qui en découlent. En outre, le formatage est normalisé afin de garantir l'uniformité des formats de données et des unités.
D'autres sources de données sont également utilisées, qui sont ensuite associées aux données extraites. Pour ce faire, les ensembles de données sont rapprochés à l'aide de clés communes. Ces liens fournissent une image complète des flux de travail et de l'utilisation des ressources.
L'étape suivante consiste à créer des caractéristiques (features) pour les modèles prédictifs à partir des données nettoyées et intégrées. L'objectif est de préparer les données de manière à ce qu'elles puissent être utilisées pour l'apprentissage automatique.
Les données ainsi traitées peuvent ensuite être utilisées pour effectuer des analyses exploratoires afin de comprendre la dynamique sous-jacente. Cela permet d'identifier des modèles et des tendances qui indiquent des possibilités d'amélioration. Cette étape est essentielle pour comprendre les facteurs qui influencent la charge de travail et la planification du personnel.
Les données analysées et les fonctionnalités développées sont utilisées pour alimenter les modèles d'IA. Cela se fait à l'aide de techniques d'apprentissage automatique telles que les arbres de décision, les forêts aléatoires ou les réseaux neuronaux. Ces modèles sont entraînés à reconnaître des modèles et à faire des prédictions, par exemple sur le nombre d'employés nécessaires pour les équipes à venir.
Une fois développés, les modèles sont évalués afin de vérifier leur précision et leur efficacité. Pour ce faire, ils sont testés avec des données réelles. Sur la base de ces résultats, les modèles sont ajustés et affinés afin d'améliorer leurs performances.
Nous allons maintenant aborder l'analyse des séries temporelles pour voir comment les modèles sont détectés.
Tout commence par la collecte de données. Pour ce faire, des points de données tels que les chiffres de vente, les stocks, les données météorologiques et d'autres valeurs pertinentes sont collectés à intervalles réguliers.
Après la collecte, les données sont nettoyées, les valeurs aberrantes sont supprimées, les valeurs manquantes sont ajoutées et la cohérence des données est assurée. Ensuite, une analyse exploratoire des données (EDA) est effectuée. Les données sont ensuite examinées visuellement afin d'obtenir un premier aperçu. Des graphiques de séries temporelles sont créés pour identifier les modèles, les tendances et les saisonnalités.
Une étape importante est la décomposition des séries temporelles. Pour ce faire, elles sont décomposées en tendances, en saisonnalité et en une composante aléatoire. Ces étapes permettent de comprendre la direction à long terme des données, d'identifier les modèles récurrents et d'isoler les fluctuations irrégulières.
Pour la modélisation, il existe des approches établies telles que ARIMA (AutoRegressive Integrated Moving Average), ARIMA saisonnière (SARIMA) ainsi que des méthodes plus récentes telles que fbprophet et les réseaux LSTM (Long Short-Term Memory) issues du domaine du deep learning. Ces modèles servent à analyser les modèles et les dépendances dans les données et à prédire les valeurs futures. Cependant, nous utilisons une combinaison d'approches éprouvées et de nos propres modèles, spécialement conçus pour répondre aux besoins individuels de nos applications.
Après avoir développé les modèles, nous les vérifions. Nous utilisons pour cela des méthodes telles que la validation croisée et nous examinons les résidus. Les résidus sont les différences entre les données réelles et les prédictions du modèle. Ces différences ne doivent pas avoir de modèle particulier et doivent être réparties uniformément.
Nous utilisons les modèles pour faire des prévisions. Régulièrement, nous contrôlons les modèles et les mettons à jour avec de nouvelles données afin que les prévisions soient plus précises. Cette méthode est particulièrement utile dans des domaines tels que la finance, les prévisions météorologiques et maintenant la gestion des stocks.
Exemples d'échantillons
Une tendance dans une série chronologique indique un changement à long terme des valeurs des données. Cela peut se traduire par une augmentation continue des ventes au fil des ans ou par une diminution progressive de l'utilisation d'un ancien service. Les tendances peuvent être linéaires ou non linéaires.
La saisonnalité décrit des variations régulières dans une série temporelle qui se répètent à intervalles fixes, comme chaque jour, chaque semaine ou chaque année. Les détaillants observent souvent un comportement d'achat plus élevé pendant la période de Noël, les hôtels enregistrent plus de réservations en été.
Contrairement à la saisonnalité, les fluctuations cycliques ne suivent pas un modèle calendaire fixe et peuvent se produire de manière plus irrégulière. Ces fluctuations sont souvent liées aux cycles économiques.
Les irrégularités, également connues sous le nom de "fugues", sont des pics ou des chutes inattendus dans les données qui ne s'expliquent pas par la tendance habituelle ou les modèles saisonniers. Elles sont souvent dues à des événements imprévus tels qu'une campagne de marketing viral ou des ruptures d'approvisionnement.
Un décalage de niveau se produit lorsqu'une série temporelle passe soudainement à une nouvelle plage de valeurs et y reste. Cela peut être dû à des changements structurels tels que le lancement d'une nouvelle ligne de produits ou un changement de stratégie commerciale.
La variance d'une série temporelle peut varier au fil du temps. C'est le cas, par exemple, lorsque les périodes de stabilité sont remplacées par la volatilité, comme c'est souvent le cas sur les marchés financiers.
Dans la 2e partie, nous expliquons les avantages et les possibilités de manière encore plus détaillée : Planification du personnel basée sur l'IA : quelques clics suffisent pour obtenir une répartition optimale (partie 2/3).
Pour le développement de cet outil, nous utilisons les données de notre client Hermann Müller Elektrogrosshandel GmbH. Pour en savoir plus, consultez cet article.