Une comparaison temps-fréquence de différentes méthodes de « tracking »

18/04/2015
Publication e-STA e-STA 2015-1
OAI : oai:www.see.asso.fr:545:2015-1:13320
DOI : You do not have permission to access embedded form.

Résumé

Une comparaison temps-fréquence de différentes méthodes de « tracking »

Média

0:00
available

Métriques

509
12
506.62 Ko
 application/pdf
bitcache://432f3e7b20f4043335a3e5134ea31cd261664a7a

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2015-1/13320</identifier><creators><creator><creatorName>Khaoula Ben Ali</creatorName></creator><creator><creatorName>Mohamed Jemai</creatorName></creator></creators><titles>
            <title>Une comparaison temps-fréquence de différentes méthodes de « tracking »</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2015</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Sat 18 Apr 2015</date>
	    <date dateType="Updated">Mon 25 Jul 2016</date>
            <date dateType="Submitted">Sun 12 Nov 2017</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">432f3e7b20f4043335a3e5134ea31cd261664a7a</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>22120</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

Une Comparaison Temps-performance de Différentes Méthodes de « Tracking » Khaoula Ben Ali Université de Carthage LISI, INSAT, BP 676 1080 Tunis Benalikhawla@yahoo.fr Mohamed Jemai Université de Carthage LISI, INSAT, BP 676 1080 Tunis Mohamed-jemai@live.fr Abstract—Motion detection is an active and growing topic in a video surveillance system and its applications. Many authors have investigated in developing algorithms for this purpose. They submit related promising results providing a number of advantages regarding the discussed methods. Few authors have studied the limitations of these methods when they do not work efficiently and their causes. This lack of interest explains the knowledge gap on which assessments should certainly concentrate. In this paper, a comparative time performance analysis for different motion detecting and tracking methods is performed. The intend of this work, is to give accurate occultation in spite of the noise presence with a fastest convergence algorithm. The Constraint’s results of the related methods are proofed, and some solutions are proposed for exceeding their limits. Our features are to incorporate obtained results in further work, in more complex systems as for intelligent video surveillance, for analyzing activities or attending for real time aid to decision… Keywords— Video-surveillance, motion detection, background, tracking, Sobel's kernel, Kalman filtering , executing time, false occultation, … I. INTRODUCTION La détection d'objets trouve son application dans divers domaines de la vidéo surveillance. Les limites de performances des capteurs d'acquisition ainsi que les conditions environnementales constituent une contrainte à la qualité des scènes observées. L'objet détecté peut être repéré à la suite de son occultation dans une image succédant une image de référence. La méthode d’estimation du "background" s'appuie sur une estimation adaptative d’objets statiques appartenant à une scène. Elle représente elle-même un processus plus ou moins complexe qu’il convient de bien traiter. En effet, les brusques illuminations de la scène, les occlusions indésirables et la présence de nombreux objets en mouvement, peuvent former un ensemble d'obstacles. Dans ce processus complexe, nous testons différentes techniques fondées préliminairement sur l'estimation de l'image de référence afin de valider leurs limites ou leurs avantages. Comme la détection est l'ultime étape de la segmentation précédant le suivi où les frontières des objets à suivre doivent se distinguer des objets immobiles, elle doit être accomplie avec le plus de rigueur et le plus rapidement possible. En effet, le processus de suivi s'appuie sur une segmentation spatio-temporelle qui passe en amont par un processus de séparation des objets. La poursuite est, ensuite, assurée par une étape dans l'environnement de reconnaissance engendré par les descripteurs. L’efficacité de ces procédés décrite est démontrée dans un contexte de mesure du temps d'exécution de l'algorithme et de la mesure de leurs performances en termes de pourcentage de réussite de détection. Les premières techniques de détection testées: différence temporelle et double différence temporelle, s’appuient sur la technique d’extraction du fond. Le fond de référence, initialisé au début de chaque algorithme avec les premières trames de la vidéo, est estimé en adoptant des approches statistiques (moyenne arithmétique, médiane, méthode des gaussiennes combinées, ou mode). De la même manière, la méthode Sobel-background effectue une soustraction adaptative du fond, en associant un filtrage de contours fournissant une meilleure localisation de l’objet. D'autres auteurs se sont penchés sur les techniques de détection de contours en fournissant d’autres structures de filtres dont le kernel est fondé sur la méthode du gradient. Nous ne détaillerons pas toutes ces structures, mais, en comparaison à son homologue de la même famille, l’opérateur de Robert, la méthode Sobel fournit de meilleurs résultats pour la détection, en plus d’une meilleure résistance au bruit [1]. En effet, l’algorithme de ce dernier utilisé inclut une opération morphologique de type « erode » pour faire face aux bruits faibles, les résultats dépendant du seuillage introduit. Dans cet article, nous présentons un dernier algorithme basé sur le filtrage de Kalman, permettant de résoudre les problèmes soulevés précédemment, grâce à l’ajout d’informations de plus haut niveau, à savoir les coordonnées de l’objet à suivre. II. TECHNIQUES DE DÉTECTION ET SUIVI D’OBJETS Fig. 1. Schéma général de la vidéo surveillance Le principe général d'un système de traitement d’images pour les algorithmes intelligents est décrit par la Figure 1, dans ce modèle, quelques étapes peuvent exiger l'échange d'informations avec d'autres niveaux. La détection des régions est l’étape de base de chaque système de vision par ordinateur puisqu'elle fournit un centre d'attention (région d’intérêt) et simplifie le traitement et l'analyse de la scène. L'étape de classification consiste à catégoriser les objets dans les classes prédéfinies. Deux importantes approches coexistent: celles qui sont basées sur la forme et celles basées sur le mouvement [2]. Les méthodes basées sur la forme utilisent l’information spatiale 2D des objets, tandis que les méthodes basées sur le mouvement emploient les dispositifs de suivi temporel des objets. Le suivi, peut être simplement défini comme étant la création de correspondance temporelle entre les objets détectés d’une trame à l'autre. Cette étape permet non seulement l'identification temporelle des objets détectés mais pourraient produire également des in-formations telles que la trajectoire, la vitesse et la direction sur les objets dans le secteur surveillé. A son tour, le résultat dé-duit pendant l’étape de suivi est généralement employé pour supporter et améliorer la détection du mouvement, la clas-sification d'objets et l'analyse d'activités. Méthode Simple Différence Double Différence Principe les occultations identifiées par les déplacements des objets en découvrant et recouvrant d’autres régions de la scène Différence pixel par pixel d’images consécutives Avantages Simple à mettre en œuvre De bons résultats pour les déplacements lents et texturés Pratique pour les mouvements rapides et l’extraction des régions mobiles suffisamment texturée Inconvénients Phénomène de délocalisation Apparition de fantômes [9] Peu performante pour des mouvements lents Tab. 1.a Présentation des méthodes Simple différece et Double différence Méthode Extraction Statistique du fond Flot Optique [7] Principe Estimation statistique du fond à partir de plusieurs images Détection des vecteurs d’écoulement des régions mobiles Avantages Bons résultats pour des mouvements lents ou rapides Bonne détection avec des caméras mobiles Inconvénients Sensible aux changements dynamiques de la scène : Illuminations temps réel Algorithmes complexes pour les applications temps réel Tab. 1 .b .Présentation de la méthode Extraction du fond et du Flot optique Méthode Détection de contours Extraction par blocs Block matching [8] Principe Détection de maxima locaux par les filtres à gradient ou à laplacien Redondance entre les blocs exploitée pour identifier les déplace- ments Avantages Canny: meilleur compromis bruit image, Deriche, Shen et Caston : implantation récursive. Contours actifs : localisation de l’objet et l’identification de sa surface et de sa position (Les snaakes) Kass et Al Méthode naïve donnant le minimum absolu recherché Inconvénients Sensible au bruit rehaussé par la détection passe haut. Pas de bons résultats pour des gradients pas suffisamment élevés dans le cas des snackes Très couteuse en temps Réduction du nombre de blocs pouvant don- ner lieu à un minimum local Tab. 1. c . Présentation des méthodes Contours et Block Maching Méthode Segmentation par régions Kalman Principe « Split and merge » : notion de quadree ensuite refusions des zones homogènes détectées récursivement. Estimteur récursif optimal Avantages La version CSC algorithme de merge and split particulièrement robuste. Détecteur de Harris et celui de KLT appréciés à des fins de suivi Grande application dans les trajectoires des satellites. Bons résultats pour des bruits gaussiens et pour les systèmes non linéaires Inconvénients La segmentation de la version élémentaire obtenue est peu stable Difficulté de restituer des régions aux contours naturels Problème d’accroissement de régions La prédiction du futur dépend des mesures qui peuvent être bruités La convergence du filtre dépend de l’état initial à définir Tab. 1.d. Présentation des méthodes Régions et Kalman La finalité de cet enchaînement réversible pourrait s'inscrire dans une perspecti-ve d'aide à la décision. Nous énumérons dans le tableau suivant le principe des méthodes rapportées, en mettant en relief leurs avantages et leurs limites. Tableau 1-a,1-b,1-c,1-d. A. La méthode de différence temporelle Le principe de cette méthode s’appuie sur les occultations: lorsqu’un objet se déplace, il couvre et découvre d’autres parties de la scène (statiques ou elles-mêmes en mouvement). Ces occultations sont détectées par la présence de fortes valeurs dans la différence absolue de deux images successives. L’équation relatie au mouvement s’écrit : max(| I(x, y)* c – I (x, y) * c |, c=(R,G,B)) >= seuil t t-1 (1) Le résultat, correspond simultanément aux parties couvertes et découvertes par l’objet mobile, et se caractérise d’absence d’information de mouvement, il serait difficile de distinguer les pixels occultés des pixels occultants. Les occultations ne sont jamais situées complètement à l’intérieur, ni à l’extérieur des objets en mouvement. En effet, les pixels désoccultés entre t et t + 1 se situent à l’intérieur de l’objet dans la première image tandis que les pixels occultés se situent à l’extérieur et vice versa dans la seconde image. Fig. 2. Etapes de la méthode de différence temporelle De la même façon, les occultations ne correspondent jamais aux contours des objets mobiles ni dans la première image, ni dans la seconde. Elles sont souvent désignées comme les frontières du mouvement [3] , puisqu’elles indiquent le début et la fin de celui-ci. La figurre 2 illustre les différentes étapes d’un système de vidéo surveillance basé sur cette approche. B. La méthode double différence temporelle La méthode, est également basée sur la différence de pixel par pixel des images consécutives dans un flux vidéo. Une variante est proposée en [4]. L’opérateur proposé, effectue la différence de deux paires d’images successives au temps (It-2, It-1) et (It-1, It). Les deux images résultantes sont alors binarisées et un ensemble de points appartenant à l’objet mobile est obtenu en effectuant l’intersection des masques binaires correspondants. La Figure 3 illustre les différentes étapes d’un système de vidéo surveillance basé sur cette technique. Sa formulation est définie comme suit. Soit tI l'image à l’instant t, 1tI l'image à l’instant t-1 et 2tI l'image à l’instant t-2. L’objet en mouvement se compose des pixels qui satisfont les équations suivantes: I1(x, y) = max(| I(x, y)* c – I (x, y) * c |, c=(R,G,B)) >= seuil (2) I2 (x, y)= max(| I (x, y)* c – I (x, y) * c |, c=(R,G,B)) >= seuil (3)  ),(),( 21 yxIyxIR  (4) Fig. 3. Schéma fonctionnel de la méthode double différence temporelle Fig. 4. Schéma fonctionnel de la méthode Sobel- Background Adaptatif C. La méthode Sobel-Background adaptatif Cette approche consiste à extraire les objets mobiles, en s’appuyant sur un arrangement entre la différence successive du background adaptatif [5][6] et la détection du contour basée sur le filtre de Sobel en vue de remédier au problème de découpage des objets. La Figure 4 illustre les différentes étapes d’un système de vidéo surveillance basé sur la technique Sobel-Background adaptatif. D. La méthode Kalman-Background Adaptatif Cette approche consiste à extraire les objets mobiles, en s’appuyant sur la différence successive du background adaptatif précédé d’un filtre de Kalman pour minimiser la zone de recherche des objets. Le filtre de Kalman sera employé pour soutenir l'étape de détection et pour augmenter les performances et éliminer la segmentation imprécise. La Figure 5 qui suit, illustre les différentes étapes d’un système de vidéo surveillance utilisant cette approche. Notons que les principes du filtre récursif de Kalman avec estimation quadratique linéaire s’appuie sur un processus cyclique à plusieurs phases: 1- initialisation de l’état. 2- Correction incluant le calcul du gain avec mise à jour du système d’état et finalement une mise à jour de sa covariance. Fig. 5. Schéma fonctionnel de la méthode du Kalman-Background Adaptatif 3- Prediction qui à partir de l’état actuel doit estimer l’état suivant. 4- Correction par les paramètres du filtre déjà calculés en 2 Les équations d’états, prennent la forme suivante: x(k)=Ak x(k−1)+Bk u(k−1)+w(k−1) (5) z(k)=Hk x(k)+v(k) (6) w(k), successivement v(k) correspondent au bruit de l’équation d’état, successivement au bruit mesuré. La première équation fournit un modèle qui permet la transition vers x(k) à partir de son état précédent, utilisée dans la prédiction. La deuxième fournit l’état réel généralement mesuré transformé en observation. L’estimation de cette valeur mesurée doit être corrigée grâce au gain du filtre de Kalman. III. RESULTATS Afin d'évaluer les performances ainsi que les temps d'exécution de ces algorithmes, nous testons des séquences vidéo de différentes tailles, de différentes résolutions et de différents débits. Le Tableau 2, illustre les caractéristiques des huit séquences utilisées. (FrPS: 30 Trames par seconde) Les calculs ont été effectués sur une machine Packard Bell, processeur Intel Core (TM) 2 duo CPU T5750 , 2.00 GHZ avec 4 GO de RAM. Tab. 2. Séquences vidéo d’expérimentation Les résultats montrent que la simple différence est très avantageuse du point de vue temps de calcul, tableau 3, toutefois elle conduit à un découpage des objets en deux ou plusieurs parties, car la plupart des objets de la scène, sont homogènes (caractéristique couleur). En effet, dans le cas d’un objet homogène, très lent, l’intensité lumineuse change peu à l’intérieur de celui-ci entre deux images successives. Cette absence d’information est à l’origine de la délocalisation, figure 6. Ce phénomène s’aggrave lorsque, les objets sont rapides et/ou la fréquence d’acquisition des images est faible, avec l’apparition de fantômes dans la scène. De surcroît, un mauvais réglage du seuil peut conduire à un taux élevé de bruit et par conséquent, à une fausse détection ou à une absence de détection bien que le mouvement existe. L’application de cette méthode révèle donc plusieurs limites. Fig. 6. Résultats de la méthode Différence Temporelle Vidéo Total Temps (s) Temps alloué Par image (s) Total d’objets Objets mal détectés Objets Détectés avec sucées Séquence 1 1.99 0.04 3 3 0 Séquence 2 4.44 0.037 10 8 2 Séquence 3 5933.17 3.4 29 25 4 Séquence 4 330.55 0.9 36 30 6 Séquence 5 13.6 0.272 14 13 1 Séquence 6 14.07 0.27 10 9 1 Séquence 7 267.6 0.89 11 9 2 Séquence 8 353.73 1.01 15 12 3 Total 128 109 19 Tab. 3. Résultats d’expérimentation de la méthode différence temporelle survient, il s’agit de l’augmentation de la taille des objets voisins qui se regroupent autour de l’objet d’intérêt, figure 7. Fig. 7. Résultats de la méthode Double Différence Temporelle Vidéo Total Temps (s) Temps alloué Par image (s) Total d’objets Objets mal détectés Objets Détectés avec sucées Séquence 1 2.3 0.05 3 3 0 Séquence 2 3.5 0.029 10 5 5 Séquence 3 6070.51 3.5 29 22 7 Séquence 4 366.15 1.04 36 28 8 Séquence 5 18.7 0.372 14 11 3 Séquence 6 20.16 0.4 10 8 2 Séquence 7 298.7 0.99 11 9 2 Séquence 8 388.16 1.1 15 11 4 Total 128 97 31 Tab 4. Résultats d’expérimentation de la méthode double différence temporelle Les résultats de la méthode double différence mentionnés au tableau 4, révèlent que cette méthode, est également avan- tageuse en temps de calcul, et donne de bons résultats pour des mouvements d’objets rapides suffisamment texturés. Toutefois, en présence de mouvements lents ou en absence de mouvements pendant une certaine période, cette méthode pourrait souffrir d'imprécision et conduire dans certains cas au même problème de découpage de l’objet, apparu avec la méthode simple différence. Ce problème est d’autant plus critique en présence de bruit. En effet, l’association d’un masque comme le filtre médian et un bon réglage du seuil, pourrait rassembler les objets mais ne permet pas d’éliminer dans tous les cas le bruit. De surcroit, un autre phénomène Les résultats de la méthode Sobel-Background adaptatif sont illustrés dans le tableau 5. Les résultats révèlent que l’avantage majeur de cette méthode, est l’absence du découpage de l’objet de façon définitive. Sauf que, le problème de bruit s’aggrave à cause de la forte sensibilité du filtre de Sobel, figure 8. L’ajout de l’information contour à la méthode du background adaptatif améliore donc considérablement les résultats, cependant, une perte en temps de traitement est nettement constatée. Le filtre de Kalman fait une estimation de la position de l’objet dans une image en se basant sur l’historique du mouvement. En comparant les résultats de cette technique par rapport à celle de Sobel- Background Adaptatif, on peut constater que l’ajout du filtre de Kalman augmente incontestablement la précision de la détection, figure 9, tout en réduisant les temps d'exécution. Toutefois, cette performance n’est pas sans failles car le processus dépend de la phase d'initialisation qui constitue une phase de lissage à corriger. Vidéo Total Temps (s) Temps alloué Par image (s) Total d’objets Objets mal détectés Objets Détectés avec sucées Séquence 1 20.5 0.5 3 1 2 Séquence 2 26.2 0.21 10 0 10 Séquence 3 20549 11.8 29 7 22 Séquence 4 4065 11.5 36 9 27 Séquence 5 392 7.84 14 3 11 Séquence 6 397 7.94 10 2 8 Séquence 7 4117 13.7 11 2 9 Séquence 8 1762 5.05 15 3 12 Total 128 27 101 Tab 5. Résultats d’expérimentation de la méthode du Sobel – Background Adaptatif Vidéo Total Temps (s) Temps alloué Par image (s) Total d’objets Objets mal détectés Objets Détectés avec sucées Séquence 1 15.6 0.38 3 2 1 Séquence 2 20.7 0.17 10 0 10 Séquence 3 11328.4 6.5 29 5 24 Séquence 4 1446.9 4.1 36 4 32 Séquence 5 114.4 2.2 14 2 12 Séquence 6 386.3 7.7 10 2 8 Séquence 7 1276.5 4.2 11 2 9 Séquence 8 1552.1 4.4 15 2 13 Total 128 19 109 Tab 6. Résultats d’expérimentation de la méthode Kalman-Arrière plan Pourtant, en comparaison avec les autres méthodes simulées, ce filtre, reste le moyen le plus robuste face à l’augmentation du bruit, et aux occlusions. Fig.8 Résultats de la méthode Sobel--Arrière plan Nous rappelons que ces simulations ont été développées avec le code de matlab. IV. CONCLUSION Dans cet article, un ensemble de méthodes et d’outils de développement adaptés ont été présentés, différents algorithmes de détection d'objets sont mis en application et une évaluation de leur robustesse, notamment en termes de performance de détection et de rapidité d’exécution a été fournie. Les essais expérimentaux montrent que la soustraction du fond adaptatif donne des résultats prometteurs en termes de qualité de détection pour un système de vidéo surveillance en temps réel. Grâce à l'emploi d'informations de plus haut niveau, les résultats de prédiction de l'image de référence peuvent être considérablement améliorés. Toutefois les performances des algorithmes de détection et de suivi d'objets présentés varient en fonction des contraintes. La présence de scènes serrées et de nombreux objets constituent une contrainte supplémentaire. Toute amélioration exige un temps additionnel qui pourrait conduire à une violation de la contrainte temps réel. Les accélérateurs matériels pourraient minimiser cette contrainte. Fig.9 Résultats de la méthode méthode Kalman-Arrière plan V. REFERENCES [1] Rashmi,, M. Kumar and R. Saxena. “Algorithm and technique on various edge detection: a survey”: An International Journal Signal & Image Processing (SIPIJ), Vol.4, No.3, June 2013. [2] L. Wang, W. Hu, and T. Tan. “Recent developments in human motion analysis: a survey”. Pattern Recognition, 36(3):585–601, March 2003. [3] V. Agnus, “Segmentation spatio-temporelle de séquences d’images par des opérateurs de morphologie mathématique”, Thèse de Doctorat, LSIIT, Strasbourg, Octobre 2001. [4] K. Yoshinari et M. Michihito, “A human motion estimation method us using 3-suc-cessive video frames”, Int. Conf. on Virtual Systems and Multimedia, p. 135- 140, 1996. [5] S-C.S. Cheung and C. Kamath. “Robust techniques for background substraction in urban traffic video”. In IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, Nice, 2003. [6] B. Lee and M. Hedley “Background estimation for video surveillance”. IVCNZ’02, pages 315–320, 2002. [7] J. Weber and J. Malik. “Robust computation of optical flow in a multi scale differential framework”. Computer Vision, 14:67/81, 1995. [8] R. Tebourbi Z. Belhaj M. Zribi and R. Bous-sema 3-D “Soil Reconstruction from Binocular Stereo Disparity” IGARSS Volume 2, p 847- 849, 24-28 july 2000. [9] R. . Cucchiara, C. Grana, M. Piccardi et A. Prati, “Detecting Moving Objects, Ghosts and Shadows in Video Streams”, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 25(10), p. 1337- 1342, 2003.