Vision 3D : du point à l’ensemble

30/09/2017
Auteurs : Benoit Telle
Publication e-STA e-STA 2005-1
OAI : oai:www.see.asso.fr:545:2005-1:20024
DOI :

Résumé

Vision 3D : du point à l’ensemble

Métriques

11
5
332.48 Ko
 application/pdf
bitcache://d83d60046df73df12e2408e910df8753c3a38862

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2005-1/20024</identifier><creators><creator><creatorName>Benoit Telle</creatorName></creator></creators><titles>
            <title>Vision 3D : du point à l’ensemble</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2017</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Sat 30 Sep 2017</date>
	    <date dateType="Updated">Sat 30 Sep 2017</date>
            <date dateType="Submitted">Mon 10 Dec 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">d83d60046df73df12e2408e910df8753c3a38862</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>34040</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

Vision 3D : du point à l’ensemble Benoît Telle LIRMM - UMR CNRS-UMII n-C55060 161 rue ADA 34000 Montpellier - France telle@lirmm.fr Résumé— La vision 3D s’appuie sur de nombreux modèles et propriétés géométriques. Les résultats qui sont obtenus se basent essentiellement sur les résultats de la géométrie ponc- tuelle. Je montre que les outils ensemblistes peuvent être utilisés pour les différentes étapes qui mènent à la recons- truction 3D d’une scène. Ils permettent de plus d’obtenir une information que les approches ponctuelles ne peuvent pas identifier précisément : l’incertitude des résultats. La mise en oeuvre de ces outils est présentée pour l’apparie- ment de points dans une paire d’images, la modélisation d’une caméra et la reconstruction 3D. I. Introduction La reconstruction 3D se trouve successivement confron- tée aux problèmes suivants : l’appariement de points dans une séquence d’images, l’identification du modèle de ca- méra ou de celui du capteur stéréoscopique et la triangula- tion. Je montre dans une première partie les aspects géo- métriques de ces problèmes. Les résultats que l’on va ob- server sont donc nécessairement dépendants de la manière dont sont décrites les données géométriques initiales. De manière naturelle, la primitive de base est le point. Or en pratique, la donnée initiale est un pixel. Ce papier propose donc de revisiter chacune de ces trois étapes : appariement - identification - reconstruction, non pas en modélisant un pixel par un point mais par un ensemble de points décris par un intervalle. II. vision 3D et géométrie Depuis Desargue (17eme siècle) et la formulation de la géométrie projective, l’espace visuel dans lequel nous évo- luons est interprété comme l’hyperplan Euclidien d’un es- pace projectif 3D. Grâce à cette représentation, la caméra, comme l’oeil, constitue un projecteur de cet hyperplan. Cette projection est une transformation linéaire de l’espace, elle est de rang non plein et la perte de rang se traduit par l’effet de perspective. Notons Q le vecteur de coordonnées homogènes d’un point de la scène 3D, Pi la matrice (3 × 4) qui représente l’application linéaire de la projection, et qi le vecteur de co- ordonnées du point image de Q par Pi. La formation d’une image avec une caméra s’écrit alors : qi = PiQ (1) En ce qui concerne la reconstruction 3D, l’intérêt est le suivant : un couple de caméra ou, si on fait abstraction du temps, une caméra qui se déplace, permet de compenser la perte de rang liée à la projection. On appelle système stéréoscopique un tel couple de caméra, il constitue alors une base pour l’espace projectif 3D[1]. En effet les projec- tions stéréoscopiques d’un point de la scène fournissent le système surdéterminé suivant :  q1 q2  =  P1 P2  Q (2) Ce système à 6 équations et 4 inconnues correspond à l’intersection de deux droites 3D. Sa résolution, la trian- gulation, permet d’obtenir la reconstruction 3D du point. Géométriquement et en évitant des cas dégénérés, ce sys- tème s’inverse. Les différentes composantes indépendantes du système seront données. La triangulation se ramène alors à la résolution d’un système carré et de rang plein, de la forme AQe = B (3) A et B sont respectivement une matrice (3 × 3) et un vec- teur de dimension 3 construits à partir des éléments de P1, P2, q1 et q2. Qe est le vecteur en coordonnées non ho- mogènes, mais à un facteur d’échelle prés, de la position du point dans la scène [2]. Cette égalité signifie qu’il existe une relation linéaire entre un point 3D (Qe) et un couple de point image (q1, q2) obtenu par le système stéréoscopique (P1, P2). Cette rela- tion linéaire prend initialement place dans l’hyperplan eu- clidien de l’espace projectif lié à la scène. Cependant elle est vraie dans n’importe quel autre hyperplan. Aussi, la résolution en Qe de cette équation (3) fournie une recons- truction qui est valide à une transformation projective prés de la scène (une homographie). L’art de la reconstruction 3D consiste à identifier les termes {P1, P2, q1, q2} qui per- mettent de retrouver ou de rester dans l’hyperplan Eucli- dien [3][4]. Les problèmes à résoudre sont alors l’identifica- tion des modèles de caméra Pi et l’appariement des points (q1; q2) dans une vue stéréoscopique. III. Les modèles mis en jeux A. Modèle de camera Le modèle de fonctionnement d’une caméra le plus ré- pandu en vision est le modèle pinhole. Dans ce cadre, la projection réalisée par une caméra est une application li- néaire de l’espace projectif. Elle se formalise par le produit matriciel de l’équation (1). La matrice Pi est de dimension (3 × 4), elle possède donc 12 degrés de liberté. On distingue deux types de paramètres dans le modèle de la caméra. Il y a 6 paramètres qui déterminent la position et l’orien- tation du centre de projection. Ce sont les paramètres ex- trinsèques. Ils forment une matrice (3 × 4) que l’on note (R|t), où R est une matrice de rotation, et t le vecteur qui caractérise la position du centre de projection dans le repère de la scène (voir figure 1). Il y a de plus 5 paramètres dits intrinsèques qui corres- pondent aux facteurs d’échelle dans le plan de projection (2 Intrinsèques Paramètres z x y Q q Repere Scène Paramètres Extrinsèques v u Rscene f Repère Caméra Rcamera R t  Rimage K Repère Image Fig. 1. Modèle de projection : les paramètres extrinsèques lient le centre de projection au repère de la scène. Les paramètres intrin- sèques lient le plan de projection au plan image. directions : mx et my), une transformation du plan qui cor- respond au changement de repère liant le repère du plan de projection au repère du plan image (2 translations : px et py) et un biais d’orientation qui caractérise la non- orthogonalité possible du repère image (skew : s). Ces pa- ramètres sont introduits dans le modèle par la matrice des paramètres intrinsèques que l’on note K : K =   mx s px my py 1   (4) Le dernier degré de liberté est le facteur d’échelle, carac- téristique des transformations projectives. La projection d’un point de la scène à travers le modèle complet de la caméra s’écrit alors : q