La théorie des possibilités

29/08/2017
Publication REE REE 2006-7
OAI : oai:www.see.asso.fr:1301:2006-7:19690
DOI :

Résumé

La théorie des possibilités

Métriques

16
4
2.9 Mo
 application/pdf
bitcache://3a93338692fe7605f5ad1307b71ab6923b747cfb

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/1301:2006-7/19690</identifier><creators><creator><creatorName>Didier Dubois</creatorName></creator><creator><creatorName>Henri Prade</creatorName></creator></creators><titles>
            <title>La théorie des possibilités</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2017</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Tue 29 Aug 2017</date>
	    <date dateType="Updated">Tue 29 Aug 2017</date>
            <date dateType="Submitted">Mon 15 Oct 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">3a93338692fe7605f5ad1307b71ab6923b747cfb</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>33461</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

Dossîer DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES : DE NOUVELLES VOIES D'INVESTIGATION ? (le'e partie) 'Or m ubulut lo La théorie des possibilités Didier DUBOIS, Henri PRADE Université Paul Sabatier Mots clés Connaissanceincomplète, Distributiondepossibilité, Raisonnementplausible, Probabilitésimprécises Le propre de la théorie des possibilités est de modéliser l'incertitude due au caractère incomplet de la connaissance. Les mesures d'incertitude qu'elle utilise sont des extensions nuancées des notions de cohérence et de conséquence logiques. 1. Introduction La théorie des possibilités est une approche formelle pour la représentation de l'information incomplète. Dans une certaine mesure, elle ressemble à la théorie des pro- babilités car elle s'appuie sur la notion d'événements et cherche à évaluer leur vraisemblance. Elle s'en éloigne par l'utilisation de deux évaluations duales, dites de pos- sibilité et de nécessité, et appartient donc à la famille des théories modernes de l'incertain, telles celle des fonctions de croyance et celle des probabilités imprécises, qui elles aussi attachent deux évaluations à chaque événement. Comme ces approches, la théorie des possibilités est non additive. Son originalité est de posséder plusieurs varian- tes dont l'une est purement ordinale. Le nom « Théorie des Possibilités » (en anglais Possibility Theory) a été suggéré par le père de la logique floue, Lotfi Zadeh [23] en 1978. Néanmoins, d'autres chercheurs avant Zadeh avaient proposé une telle approche pour la représentation de l'incertitude. Pour Zadeh, la théorie des possibilités permet de représenter l'information linguistique sous la forme de contraintes flexibles sur l'état du monde sug- géré. La fonction d'appartenance d'un ensemble flou est alors interprétée comme une distribution de possibilité. Mais on peut aussi voir la théorie des possibilités soit comme une variante symbolique de la théorie des proba- bilités (subjectives), soit comme un calcul de probabilités extrêmes, soit enfin comme une version simplifiée de la théorie des probabilités imprécises ou des fonctions de croyance [22]. Le philosophe américain David Lewis [18] a ainsi proposé, dans le cadre de sa théorie des infor- mations contrefactuelles, la relation de possibilité compa- rative, qui exprime qu'un événement est plus conforme qu'un autre à ce qu'ont sait du monde réel. De son coté l'économiste G.L.S. Shackle [21] a, dans les années 1950, tenté de formaliser la notion de degré de surprise poten- tielle causée par un événement, posant ainsi les bases de la théorie des possibilités, car l'occurrence d'un événe- ment est d'autant plus surprenante que cet événement est moins possible. Dans ce bref article (voir Dubois et Prade [10, 13, 15] pour des introductions détaillées) on tentera de justifier l'approche possibiliste, en montrant qu'elle est un prolon- gement naturel du calcul d'intervalles et de la logique clas- sique quant à sa vision de l'incertain, par opposition à la théorie des probabilités, qui reflète essentiellement l'idée de variabilité. Puis on esquissera les bases axiomatiques de la théorie des possibilités. Enfin on abordera brièvement les deux facettes essentielles de cette théorie : sa variante qualitative en liaison avec le raisonnement par défaut en Intelligence Artificielle, et sa variante quantitative en liai- son avec les notions de fonction de vraisemblance et d'in- tervalle de confiance. 2. Variabilité et ignorance On peut se demander pourquoi, face à l'incertitude, la théorie des probabilités ne suffit pas à résoudre tous les ESSENTIEL Lathéoriedespossibilitésest destinéeà modéliserl'incertitudedue au caractèreincompletde l'information,au contraire de la théorie des probabilitésqui modéliseson caractèrealéatoire.De par son axiomatique,lathéorie des possibilitéspossèdeune variantequali- tative, proche du raisonnementnon monotone, et une variante quantitativetrès liéeà la notionde probabilitéimprécise. SYNOPSIS Possibilitytheory is tailoredto the modelllngof uncertaintydueto incomplete information, contrary to probability theory, which is dedicatedto random phenomena. Fromits axiomatics,possibility theory possesses a qualitative variant, closely related to non monotonic reasoning,and a quantitativevariant,more in line with impréciseprobabilities. REE NO 8 Septembre2006 problèmes. Si l'on regarde la façon dont on utilise cette théorie, on remarque qu'un modèle probabiliste s'appuie sur l'emploi d'une distribution unique. Idéalement, cette distribution est obtenue à partir de données statistiques. On capture alors l'idée de variabilité d'un phénomène au travers d'un ensemble de mesures de la même grandeur. La version la plus élémentaire (enseignée dans les lycées) procèdepar dénombrement de cas favorables, avec uneproce hypothèse de symétrie supposant un phénomène réelle- ment aléatoire (dé non pipé, etc.). Quand on manque d'in- formations, on suppose un type de distribution issu de considérations théoriques (une gaussienne par exemple) que l'on cale par rapport à l'information disponible. Dans le cas d'événements non répétables, on identifie une dis- tribution auprès d'un expert en le questionnant sur des valeurs de quantiles, en interprétant parfois les probabili- tés comme des sommes d'argent dans un pari (probabili- tés subjectives). Pourtant le manque d'information a peu à voir avec le concept d'aléa : la quantité de pluie journa- lière sur un lieu donné est aléatoire, mais la date de nais- sance de tel personnage connu est parfaitement détermi- niste. Pourtant, la connaissance de cette date peut, pour une autre personne, être entachée d'incertitude due seule- ment à son ignorance partielle, à un manque de précision. L'emploi systématique d'une probabilité unique comme outil universel de représentation de l'incertitude quelque soit son origine peut poser de sérieux problèmes [15] : w Onne fait plus la différence entre l'information incomplète sur une situation et le cas où cette situa- tion est réellement aléatoire. Dans le cas du jet d'un dé, il est difficile d'interpréter de façon non ambiguë la distribution uniforme de probabilité. En effet il se peut que l'agent sache que le dé n'est pas pipé (aléa- toire pur) et que la distribution de fréquence limite doit être uniforme. Mais si l'agent ignore tout du dé, qu'il n'a pas pu tester, alors la distribution uniforme obtenue n'est que le résultat du principe de symétrie (l'agent n'a aucune raison de penser qu'il gagnera plus d'argent en pariant sur une face plutôt que sur une autre). Il n'y a donc pas de bijection entre les états de connaissance de l'agent et les distributions de probabilité. Cette limitation d'expressivité est gênante dans un cadre dynamique d'information évolutive : en cas d'information nouvelle, l'agent doit-il modifier la distribution avec la règle de Bayes ou utiliser le principe de symétrie sur la base de ses nouvelles connaissances ? . Si plusieurs points de vue ou plusieurs langages coexistent dans un problème, on aura plusieurs réfé- rentiels (des cadres de discernement, au sens de Shafer [22]) pour décrire la même variable, et des relations de compatibilité entre ces référentiels. Il sera souvent difficile de représenter des états de connaissances compatibles entre eux sur les divers référentiels à l'aide de distributions de probabilité uniques sur chaque référentiel. Une distribution uni- forme sur l'un ne correspondra pas à une distribu- tion uniforme sur l'autre. Exemple 1 Prenons l'exemple de l'existence de la vie extra-ter- restre, dû à Shafer [22] : l'agent ne sait pas s'il y en a ou pas. Si V représente l'affirmation de la vie, et V son contraire, PI (V) - Pl ( " V) - 112. Mais on peut aussi dis- tinguer entre vie animale (Va), et vie végétale seulement (Vv) et l'agent ignorant va alors proposer P2 (Va) = P2 (VV) - P- (- V) - 113. Comme Vest la disjonction de Va et Vv, P ? (V) =213, donc les distributions Pl et P2 sont incompa- tibles alors qu'elles sont censées représenter le même état de connaissance. . Le débat habituel entre représentations normative et descriptive de l'information se pose pour l'informa- tion incertaine. Si l'approche bayésienne est norma- tivement séduisante, elle peut s'avérer un piètre modèle pour rendre compte de la façon dont les agents traitent les degrés de confiance (Kahnemann et col. [19]). . Enfin il y a un problème de mesurage dans le cas des probabilités subjectives. Il est difficile d'affirmer que l'agent puisse fournir, même au travers d'esti- mations de prix, des valeurs de probabilité très pré- cises. Ces probabilités seraient plus fidèlement représentées par des intervalles. Elles ne sont parfois que linguistiques (très probable, peu probable, etc.). Ces remarques ont motivé le développement d'autres approches de l'incertitude. Pour certaines, on abandonne le cadre numérique au profit de structures ordinales, qu'on peut alors considérer comme sous-jacentes aux représentations numériques subjectivistes. Pour d'autres, on injecte de l'incomplétude dans le modèle probabiliste, obtenant diverses approches, de degrés de généralité mathématique divers. Dans les deux cas on retrouve la théorie des possibilités (qualitative ou quantitative, res- pectivement [13]) comme fournissant le modèle non tri- vial le plus simple de l'incertain non probabiliste, celui qui est dû non pas au phénomène de variabilité, mais à l'ignorance partielle. 3. Représentation ensembliste de l'informa- tion incomplète Une information est dite imprécise si elle est insuffi- sante pour permettre à un agent de répondre à une ques- tion qu'il se pose sur la valeur d'une grandeur v. L'imprécision correspond à l'idée d'information incom- REE No 8 Septembre2006 Dossier DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (Ille partie) plète. La question à laquelle l'agent cherche à répondre est de la forme : quelle est la valeur de v ? ou plus géné- ralement, est-ce que v satisfait une certaine propriété ? La forme type d'une information imprécise est vEE où E est un sous-ensemble d'un référentiel S contenant plus d'un élément. Une remarque importante est le fait que les éléments de E, vus comme valeurs possibles de v sont mutuellement exclusifs (car la grandeur n'a qu'une seule valeur). Donc une information imprécise prend la forme d'une disjonction de valeurs mutuellement exclusi- ves. Par exemple dire que Pierre a entre 20 et 25 ans, soit v = age (Pierre) E 20, 21, 22, 23, 24, 25), c'est supposer V 20 oit v - 21 ou v - 22 ou v 23 ou v - 24 oit v = 25. On trouve ce type de représentation ensembliste de l'imprécision dans deux domaines : la théorie des modè- les en logique classique et le calcul d'intervalles en phy- sique. Dans ces deux cadres, logique ou calcul d'interval- les, le type d'incertitude représenté est le même. Ce qui diffère c'est le type d'outil formel utilisé pour décrire l'ensemble des états S : des booléens dans le premier cas, des nombres réels dans le second. En logique classique, l'imprécision apparaît explicitement comme une disjonc- tion. Affirmer p v c'est dire que l'une des propositions pA q, p A " q, -P Aq est vraie. Un ensemble utilisé pour représenter une information imprécise est dit ensemble disjonctif. Il s'oppose à la vision conjonctive de l'ensemble, vu comme une collec- tion d'éléments. Une information imprécise définit une distribution de possibilité sur S. Si l'information dont on dispose est de la forme vE E, cela signifie que toute valeur de v hors de E est supposée impossible (et donc que toute valeur de v dans l'ensemble E est possible). La distribution de possibilité associée à l'information vE E, notée yry,est la fonction caractéristique de E. C'est une fonction de S dans {O, l} telle que Jr,/s)1 si se E, et 0 sinon. Les conventions adoptées pour j7v (s) sont donc 1 pour possible et 0 pour impossible. Il y a deux états extrêmes pour l'information : . l'ignorance totale : en l'absence d'information, on ne connait que la tautologie, qui prend ici la forme vE S, soit la distribution de possibilité zv (s) 1, Vscs. . l'information précise : elle prend la forme v = pour un état sa , soit la distribution de possibilité j (s) 1 si s = et 0 sinon. On peut comparer deux informations imprécises en termes de contenu informationnel : une information v E El est dite plus spécifique qu'une information v E El si et seulement si El est un sous-ensemble propre de E ?. En termes des distributions de possibilité respectives, soit rr, pour vE El et 7,y pour vEE2, cela correspond à l'iné- galité irl < z2. On remarquera qu'une distribution de pos- sibilité représente les informations détenues par un agent à un instant donné, et qu'elle est susceptible d'évoluer avec l'arrivée de nouvelles informations, en particulier de devenir plus spécifique. Acquérir une information nou- velle revient en général à éliminer des valeurs possibles de v. Si E/est plus spécifique que vE E2, la première information est accessible à partir de la seconde par acquisition d'informations de même type. Si on dispose d'un ensemble cohérent d'informations imprécises de la forii-ie vEEi.- i - 1,..., n la distribution de possibilité la moins arbitraire qui représente cet ensemble d'informations est la moins spécifique parmi celles qui sont compatibles avec chacune des informa- tions vEEi, c'est-à-dire, vE Ei, qui correspond à la distribution de possibilité zv - min i-l,...n zi. Ces notions forment les bases de la théorie des possibili- tés [10], dans sa version tout ou rien. 4. Incertitude, possibilité, nécessité Une information est dite incertaine pour un agent lors- que l'agent ne sait pas si cette information est vraie ou fausse. Une infonliation élémentaire est modélisée par un événement (un sous-ensemble de valeurs possibles, de la forme v) et on affecte à cette infonnation un marqueur d'incertitude. Ce marqueur se situe au méta niveau par rap- port aux informations elles-mêmes. Il peut être numérique ou linguistique. Par exemple, considérons les phrases : . La probabilité pour que l'opération prenne plus d'une heure est 0,7. . Il est très possible qu'il neige demain. . Il n'est pas absolument certain que Jean vienne à la réunion. Les marqueurs d'incertitude sont respectivement un nom- bre (une probabilité), et des modalités symboliques boo- léennes (possible, certain). Ces dernières sont celles qu'on utilisera naturellement si on dispose d'une infor- mation élémentaire imprécise de la forme ve E tenue pour certaine. On peut définir deux fonctions booléennes (à valeurs dans la paire 0, 11) qui décriront pour chaque événement s'il est vraisemblable ou non, certain ou non, respectivement : . une mesure de possibilité : Il telle que JI (A) - 1 si A n 0, et 0 sinon . une mesure de nécessité N telle que N (A) 1 si E C A, et 0 sinon. Il est facile de voir que JI (A) - 1 si et seulement si la proposition vEA n'est pas incohérente avec l'information vE E et que N (A) 1 si et seulement si la proposition vE A est impliquée par l'information vEE. I-I (A) - 0 signifie que A est impossible si vEE est vrai. N (A) - 1 exprime REE No 8 Septembre2006 La théorie des possibilités que A est certain si vE E est vrai. De plus dire que A est impossible (AnE - 0) c'est dire que son contraire ACest certain. Donc les fonctions N et 77 sont totalement liées entre elles par la propriété de dualité N (A) - 1 - H (Ac). Cette relation de dualité différencie nettement les mesu- res de nécessité, et de possibilité, des probabilités qui sont auto duales au sens où P(A) - 1 - P (Ac). L'évaluation de l'incertitude de type possibiliste est à F oeuvre en logi- que classique au méta niveau, puisqu'elle capture les idées de non-contradiction et de déduction. Il est facile de vérifier que les mesures de possibilité et de nécessité satisfont respectivement les égalités : II (A U B) inax (II (A), H (B » - N (ANB) - iiiin (N (A), N (B ». Les mesures de possibilité sont dites maxitives et les mesures de nécessité sont dites ininitives contrairement aux mesures de probabilité qui sont additives. Elles cor- respondent à un système de logique modale particulier (KD45). En général, les mesures de possibilité et de nécessité sont distinctes. On ne peut avoir en même temps les propriétés de maxitivité et de minitivité pour tous les événements, sauf si une information précise (E = (sol) est disponible, N coïncide alors avec H et avec une mesure de probabilité dite de Dirac. En général, N (AUB) > max (N (A), N (B » e t H (ANB) < min (H (A), I-I (B ».77n < 77. 77. Dans ces inégalités, l'écart peut être maximal. Il est facile de vérifier que si on ignore si A est vrai ou faux (car AnE ; e 0 etac nE ; e 0), alors II (A) - I-I (Ac) 1 et N (A) = N (Ac) 0 mais par construction H n = (O) - 0 et N (A U Ac) - N (S) - 1. L'approche possibi- liste distingue donc trois états cohérents de connaissance extrêmes : . la certitude que vE A est vrai N (A) - 1, donc H (A) - 1 . la certitude que vEA est faux : (A) 0, donc N(A) - 0 . l'ignorance quant à vE A.- H (A) 1 et N (A) = 0 Le calcul d'intervalles est en totale conformité avec la théorie des possibilités. Par exemple, l'égalité [a, bJ + [c, dJ = [a+c, b+dJ peut être vue comme le résultat du calcul de jr+ (z) - H (I (x, y), x+y - zj) pour toute valeur de z, où E est le produit cartésien [a, bJ X[c, dJ : 7r' (z) - 1 si et seulement si zE [a+c, b+dj. 5. La représentation d'informations impréci- ses nuancées La représentation la plus courante de l'incertitude consiste à attribuer à chaque proposition ou événement A, sous-ensemble de S, un nombre g (A) dans l'intervalle unité. g (A) mesure la confiance de l'agent dans la vérité de la proposition v E A. Cette proposition n'est par convention que vraie ou fausse, même si l'agent peut ignorer cette valeur de vérité. Les conditions suivantes sont naturellement requises : g (O) = 0 ; g (S) - l-, ainsi que la monotonie dans l'inclusion : Si A CB alors g (B) > g (A). En effet, la proposition contradictoire 0 est impossi- ble, et la tautologie S est certaine. De plus si A est plus spécifique que B (et donc l'implique), l'agent ne peut pas avoir plus confiance en A qu'en B : à niveau de connais- sance donné, plus une proposition est imprécise, plus elle est certaine. Avec ces propriétés, la fonction g est appelée tantôt capacité (de Choquet) tantôt mesure floue (de Sugeno). Pour coller à notre propos nous l'appelons mesure de confiance. Des conséquences importantes de ces postulats sont : g (AnB) < min (g (A), g (B » - g (A UB) > max (g(A), g (B)) Un cas particulier important de mesure de confianceUn cas particulier important de mesure de confiance est la mesure de probabilité g = P. Quand l'une de ces inégalités est une égalité, on reconnaît la mesure de nécessité ou la mesure de possibilité, mais cette fois à valeurs dans l'intervalle unité. Ces fonctions sont les extensions nuancées des notions booléennes de néces- saire et de possible. Elles peuvent toujours, dans le cas fini, être complétement définies à partir d'une distribu- tion de possibilité multi-valuée ; r, à valeurs sur une échelle ordonnée T., ici [0, 1]. Les valeurs s telles que z, (s) 1 sont les plus plausibles pour v. Les évaluations de vraisemblance et de certitude induites par la distribu- tion de possibilité sur la proposition vE A peuvent être calculées en termes de degré de possibilité et de nécessité de l'événement A : II (A) - maxsCA V, (S) - N (A) = 1 - I-I (Ac) min,ea 1 - rv (s) Quand la seule information dont on dispose est de la forme ve F, où F est un ensemble flou (par exemple Pierre est très jeune, voir l'article « la logique floue » dans ce numéro) alors, comme dans le cas booléen, Zadeh [23] a proposé d'interpréter la fonction d'appartenance pfde F comme une distribution de possibilité associée à v = age (Pierre) (on écrit " _,uF). La plausibilité d'une valeur pour v est alors d'autant plus grande que s est pro- che d'une valeur totalement typique de F (ici typique- ment très jeune). Il est clair que, même qualifiée de floue, l'information graduelle de ce type est souvent plus informative que l'in- formation booléenne : vE F, où F est graduel, est plus spécifique que vE A où A est le support dePF (S, PF (S) >01), parce que pfsuggère un ordre de plausibilité entre les valeurs possibles de v dans A. Cette modélisation de REE No 8 Septembre2006 Dossier DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (l el " partie) l'incertain au travers de termes linguistiques graduels évalue donc la plausibilité en termes de distance à des situations typiques, et non en termes de fréquence d'oc- currence par exemple. Le calcul d'intervalles s'étend au cas d'intervalles flous grâce à la théorie des possibilités. Un intervalle flou IF a une fonction d'appartenance unimodale, c'est une distri- bution de possibilité,LlIF dont les coupes de niveau ( {s, ,ulF (s) > a) sont des intervalles fermés. Soient x et y deux variables que l'on connaît au travers de deux intervalles flous IF et IG. La distribution de possibilité j = ulF,-IG associée à x + est encore définie par jT+ (z) II ( (x, y), x + y z) pour toute valeur de z, en utilisant la distribu- tion de possibilité jointe (x, y) = min (,uIF (x) " uIG (y)). Ce qui donne la contrepartie possibiliste de la convolu- tion [14] ,LlIF+lc(Z) t /c - Contrairement au calcul probabiliste, la somme d'in- tervalles flous préserve la forme des distributions. De par leurs propriétés caractéristiques, les mesures de possibilité et de nécessité sont soit numériques soit simplement ordinales. La théorie des possibilités, liée aux ensembles flous et à la représentation d'informations lin- guistiques imprécises par Zadeh, va donc bien au-delà des ensembles flous (comme l'indique l'existence de cadres formels très voisins, antérieurs à Zadeh). La théorie ordi- nale des possibilités est très étroitement liée à des problé- matiques d'Intelligence Artificielle telles que le raisonne- ment non monotone et la révision des bases de connais- sances. La théorie numérique des possibilités s'interprète en termes de probabilités imprécises, et possède des liens potentiellement prometteurs avec certains concepts de la statistique non-bayésienne [15]. 6. La théorie ordinale des possibilités La théorie ordinale des possibilités [2] n'a de sens que sur un ensemble fini d'états S, qu'on peut voir comme l'ensemble des interprétations d'un langage logique, par exemple. On ne garde de la distribution de possibilité que l'ordre de plausibilité induit sur les états par la distribu- tion jr,,. L'état s est au moins aussi plausible que s'si et seulement si n (s) > z (s . Il est plus facile pour un agent de fournir un tel ordre pour exprimer ses connaissances que de fournir des valeurs numériques de plausibilité. Par convention, un état s tel que ; r (s) - 1 est complète- ment normal, et il est anormal (donc swprenant) sinon. On voit que l'évaluation 77 repose sur la plausibilité d'un état du monde le plus normal parmi les ceux où A se produit. C'est totalement différent du raisonnement pro- babiliste (qui cumule les probabilités de toutes les occur- rences de A). Le raisonnement possibiliste reflète le com- portement de l'individu qui envisage toujours que la situation dans laquelle il évolue est la plus normale pos- sible compte tenu des faits connus. Les autres situations constitueraient des surprises et sont donc négligées dans un premier temps. Par exemple, si on allume la lumière on suppose que la pièce va s'éclairer ; si elle reste obscure, on suppose qu'il faut changer l'ampoule, etc. En d'autres termes, même si tous les états de S peuvent être théori- quement possibles, on ne travaillera qu'avec l'hypothèse par défaut sE E - " s, z (s) en l'absence d'autres informations sur le monde. En remarquant que N (A) > 0 dès que E =- .s', li C A,on peut interpréter une proposition A de nécessité positive comme « normalement vraie » (car vraie dans tous les états normaux du monde). L'ensemble de toutes ces propositions est déductivement clos, et forme l'en- semble des croyances acceptées par l'agent dont la connaissance est modélisée par la distribution de possibi- lité rr en l'absence d'autres informations. La notion de conditionnement qualitatif d'une distri- bution de possibilité permet de décrire ce que deviennent les croyances d'un agent qui apprend qu'un certain fait B est vrai. Conditionner 7r sur B consiste simplement à res- treindre son support aux occurrences de B, en éliminant les autres. Les états normaux du monde forment alors l'ensemble EB - ls, r (s) - I-I (B) fl (les plus plausibles si B est vrai). Les nouvelles croyances acceptées par l'agent sont alors les propositions A telles que EH CA. On dit que B iiîil ? lique noiiiioleiiient A. Cette implication est non monotone au sens où l'agent peut considérer A comme vrai a priori (ECA) mais le considérer désormais comme faux s'il apprend B (et que EH IAI). Ce type d'inférence est peu conforme au raisonnement mathématique (la somme des angles d'un triangle est 180', et le reste même s'il on apprend que le triangle est rectangle), mais il est propre à simuler le raisonnement plausible d'un individu en présence d'informations incomplètes (on pensera qu'un oiseau vole sauf si l'on apprend que c'est un man- chot). Ce raisonnement peut aussi être décrit en termes de mesures de possibilité conditionnelles. Une mesure de possibilité conditionnelle H (. IB) est la moins spécifique telle que 77n = SII (BnA) -/siiiiin (I-I (AIB), II (B » Soit II (AIB) 1 si II (BnA) = n (B), et I-I (AIB) H (BNA) sinon. Cette égalité rappelle la définition de la probabilité conditionnelle, et on montre que B implique normalement A si et seulement si nS > II (AcB), ce qui signifie que dans le contexte où B est connu comme REE Nc 8 Septembre2006 vrai, A est plus normal que son contraire. En fait, le rai- sonnement possibiliste est une version qualitative du rai- sonnement probabiliste, qui est lui-même non monotone (on peut avoir P (A) très grand et P (A IB) très petit). La mécanisation de ce type de raisonnement plausible peut être réalisée informatiquement grâce à la logique pos- sibiliste (avec des variables booléennes). Cette logique [9], qui étend la logique classique sans en augmenter la com- plexité, et tolère l'incohérence partielle, permet de coder des distributions de possibilité sous la forme d'une base de connaissances ordonnée, chaque fait ou règle étant pondé- rée par un degré de nécessité évaluant sa certitude. Enfin la théorie des possibilités qualitatives a été étu- diée du point de vue de la théorie de la décision dans l'in- certain. Des contreparties symboliques du critère de l'uti- lité espérée ont été proposées et axiomatisées [5]. Ils généralisent le critère pessimiste de Wald dans l'igno- rance (qui évalue une décision en se basant sur sa pire conséquence) et sa contrepartie optimiste, en les rendant plus réalistes : le critère de décision possibiliste pessi- miste (resp. optimiste) considère la pire (resp. meilleure) conséquence styisaiiiineiiiplaitsible d'une décision. 0 - a sera rejetée si P (A a) - 0 (ou inférieure à un seuil 7. Théorie des possibilités quantitative La théorie des possibilités quantitative suppose que les degrés de possibilité et de nécessité sont des réels entre 0 et 1. Dans ce cas il est important de pouvoir inter- préter ces degrés, et en particulier, les relier à des notions plus familières comme les probabilités. En fait de par leurs propriétés mathématiques, plusieurs interprétations probabilistes de la théorie des possibilités sont envisagea- bles.Pour plus de détails et de références voir [15]. Un degré de possibilité peut être vu comme une borne supérieure d'un degré de probabilité mal connu, Soit n une distribution de possibilité à valeurs dans [0, 1]. Soit P l'ensemble de mesures de probabilité P dominées par la mesure de possibilité associée (P : 5 1-1).On montre que la mesure de possibilité de l'événement B, H (B), coïncide avec la borne supérieure de probabilité supP (B), PEP (jT) et la mesure de nécessité N (B) avec la borne inférieure inf {P (B), PE P (n)}. Une autre interprétation de la distribution de possibi- lité numérique est la fonction de vraisemblance en statis- tique non-bayésienne. Dans le cadre d'un problème d'es- timation, on s'intéresse à la détermination de la valeur d'un paramètre OEO qui définit une distribution de pro- babilité P (1 0). Supposons qu'on ait fait une observation A. La fonction P (A 0), quand OEO est inconnu, n'est pas une distribution de probabilité, mais une fonction de vrai- semblance Vr (O). Une valeur a de B est considérée d'au- tant plus plausible que P (A 1 a) est élevé, et l'hypothèse de pertinence). Souvent, on normalise cette fonction pour que son maximum vaille 1. On vérifie que pour tout sous- ensemble B de valeurs de e la borne supérieure de la valeur de P (A B) est : supoEBP (A 0) I-I (B). Si Vr (B), identifiée avec P (A B) est considérée comme la vraisem- blance de e EB, il est logique de supposer que Vr (B) > Vr (O), et donc P (A que la fonction P (A 0) < P (A B). Donc si on ne connaît 0), on doit admettre, par défaut, que P (A -ppP (A 1 B) supoEB P (A 10). On peut poser z (a) - P (A la) (moyennant une normalisation) et interpréter cette fonc- tion de vraisemblance comme un degré de possibilité, car, dans ce cas, P (A B) - I-I (B). Le principe de maximum de vraisemblance de Fisher consiste à choisir pour valeur du paramètre, induite par l'observation A, 0 0* qui maximise P (A 0). Il est clair que ce principe de choix pour l'estimation d'un paramè- tre est en total accord avec la théorie des possibilités. Une distribution de possibilité peut aussi être vue comme un ensemble aléatoire à réalisations emboîtées. Supposons un ensemble fini S et.7r (sl) > z (s2)... >.7r (s,). Considérons (AI, A ?,... A,,,) avec Ai = (s 1,... si CAi+l, i = 1... m - 1. On peut définir l'ensemble aléatoire l (Ai, up), i = l,ml, où Pi = n (s) - n (Si+IJ est la probabilité que A ; représente fidèlement l'information codée par n (ce n'est pas P (Ad). Cette représentation tolère l'imprécision (la taille des Aa et traduit l'incertitude (les valeurs /). Inversement z (s) - 1 (pi, s EAJ. C'est un cas particulier de fonction de croyance de Shafer [22]. 8. Transformations entre possibilité et probabilité On peut légitimement s'intéresser au passage entre représentations probabilistes et possibilistes de l'informa- tion. Il y a plusieurs raisons à cela. D'une part, dans un souci de fusion d'informations hétérogènes (informations linguistiques, mesures issues de capteurs), on peut sou- haiter disposer d'un cadre unique de représentation. Par ailleurs, on constate que l'exploitation de distribu- tions de probabilité se fait souvent en extrayant une infor- mation plus pauvre (intervalle de confiance, valeur moyenne). La théorie des possibilités permet de systéma- tiser des notions qui existent déjà dans la pratique du sta- tisticien sous une forme incomplètement formalisée, tels les intervalles de confiance. Inversement l'interprétation subjectiviste des probabilités par la théorie du pari peut se voir comme une formalisation optimiste des informations souvent incomplètes détenues par un agent. Le passage entre une mesure de probabilité P et une mesure de possibilité II doit obéir à des critères naturels : REE N08 Septembre2006 Doss DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (ln " partie 1- Compatibilité : un événement est possible avant d'être probable, soit P < II ; 2- Préservation de l'ordre : les distributions p et ir repré- sentent le même ordre sur S. On peut cependant parfois admettre que p (si) - p (s,) n'implique pas Jr= jr, 3- Principe informationnel. Ne perdre ou n'ajouter que le moins d'information en passant d'une représentation à une autre. La représentation probabiliste est plus précise donc plus riche que la représentation possibiliste. On perd de l'in- formation en passant de la première à la seconde, on en gagne dans l'autre sens. Pour passer d'une distribution de possibilité à une distri- bution de probabilité, l'idée est de s'appuyer sur la vision « ensemble aléatoire » de la distribution de possibilité Jr : empiriquement on tire au hasard une coupe Ai ,s 1,... si de ; r, avec la probabilité pi - 7r (sd - T (si- i), Puis un élé- ment au hasard dans . La probabilité obtenue est une généralisation du principe de raison insuffisante de Laplace, puisqu'on remplace chaque ensemble AI par une distribution uniforme, et qu'on calcule leur mélange selon les poids ?,. C'est aussi la transformée « pignistique » de Smets (et la valeur de Shapley en théorie des jeux) : un agent disposant d'une connaissance incomplète de la situation, décrite par Jr, choisira cette fonction de proba- bilité subjective pour exprimer un pari sur l'état du monde. Inversement, on montre que la fonction de croyance la moins informative dont la transformée pignistique est P (probabilité subjective) est consonante, c'est-à-dire correspond à une distribution de possibilité. Par ailleurs, pour passer d'une distribution de proba- bilité objectivep à une distribution de possibilité, on sou- haite, en changeant de représentation, perdre le moins d'information possible. On cherchera donc une distribu- tion de possibilité 7 parmi les plus spécifiques, compati- ble avec P, et qui soit ordinalement équivalente à sa den- sité p. Considérons d'abord le cas discret. Si p, > p2 >... > p, et Ai - si,... si, il suffit d'imposer P (A) - I-I (A) Vi = 1,.... n. On obtient une distribution de possibilité unique, maximalement spécifique et ordinalement équiva- lente à ?. telle que ir (s) - P (sd +... +/ (,,) V i 1,..., l'. Dans le cas d'une densité de probabilité continue uni- modale P sur les réels, la transformation possibilité-pro- babilité est très liée à la notion d'intervalle de prédiction ou de confiance, comme substitut imprécis d'une densité de probabilité, avec un niveau de confiance donné (sou- vent 0,95). La plupart du temps on définit ce type d'inter- valles sur des densités symétriques et on considère des intervalles centrés autour de la moyenne. L'intervalle à 0,95 de confiance est souvent défini par les percentiles à 0,025 et 0,975. Caractériser l'intervalle à 0,95 de confiance par ces percentiles pour des distributions non symétriques est peu convaincant car cela peut éliminer des valeurs de plus grande densité que celle de certaines valeurs figurant dans cet intervalle. Il est beaucoup plus naturel de chercher le plus petit intervalle [x, y}, de niveau confiance 1 - a fixé, déductible de p, soit F ([x, y}) - 1 - c (= 0, 95, typiquement). On montre que cet inter- valle, est de la forme ,/ p (s) > Je}. C'est aussi le plus pro- bable parmi tous les autres intervalles de même longueur (donc le plus légitime intervalle substituable à la densité p ayant cette longueur). Si on fait varier le niveau de confiance, on obtient une famille d'intervalles emboîtés, autour du mode de p, représentable par la distribution de possibilité Jt définie par : ir (x) - 7r (y) - 1 - P (lx, Y]). correspondant à la transformée probabibilité-possibilité optimale, au sens des critères définis ci-dessus [6]. Ce résultat permet de représenter une famille de distributions de probabilité par une distribution de possibilité qui les domine toutes. On a pu montrer que la distribution de possibilité symétrique triangulaire de support borné [a, b} est compatible avec toute fonction de probabilité unimo- dale symétrique de même support, et elle contient les intervalles de confiance de toutes ces mesures de proba- bilité [6]. L'inégalité de Bienaymé -Tchebytchev nous fournit une autre famille d'ensembles emboîtés, cette fois autour de la moyenne d'une distribution quelconque de variance donnée. Elle peut donc également être vue comme définissant une mesure de possibilité. Ces résul- tats s'avèrent pei-tinents pour la représentation d'informa- tions probabilistes incomplètes [1]. 9. Perspectives et applications La théorie des possibilités n'a pas été appliquée autant que la logique floue dans les sciences de l'ingénieur. Ceci est dû au fait qu'elle est moins facile à appréhender que la théorie des ensembles flous et qu'elle semble faire concurrence à la théorie des probabilités « sans en avoir encore les moyens », même si elle lui est en fait complé- mentaire de par sa spécificité : la représentation de l'in- formation incomplète. Elle peut prendre aussi des formes plus diverses que la théorie des probabilités. Sa variante symbolique est très liée à l'approche logique de l'Intelligence Artificielle, et sa variante numérique a des liens, encore incomplètement explorés, avec la statistique non-bayésienne. Les applications de la théorie des possi- bilités sont donc à l'image de cet état de fait : elles sont potentiellement variées, mais encore insuffisamment répandues : 1) Elle permet de représenter les informations en langage naturel comme des distributions de possibi- lités reliant des variables sur l'univers du discours REE No 8 Septembre2006 La théorie des possibilités (Zadeh [23]). En particulier on peut modéliser des règles floues de divers type, à savoir plus X est A plus Y est B (règles graduelles), plus X est A plus il est certain (resp. possible) que Y est B (règles à cer- titude, resp. à possibilité) [12]. Ces règles floues ont été appliquées au raisonnement par cas [8], et ont fait l'objet de procédures d'apprentissage spécifi- ques dans l'optique de la fouille de données [20]. 2) Les problèmes de satisfaction de contraintes ont été étendus aux contraintes flexibles dans le cadre de la théorie des possibilités [16]. Dans ce cadre, une contrainte est vue comme un ensem- ble de solutions plus ou moins possibles et un degré de nécessité attaché à une contrainte tra- duit sa priorité. 3) Les mesures de possibilité quantitatives permet- tant de représenter des modèles probabilistes incomplets. On a pu les utiliser en analyse de ris- que où on trouve souvent un mélange d'informa- tions statistiques et d'informations incomplètes. On peut obtenir des résultats plus conformes au principe de précaution, qui mettent en évidence la différence entre ignorance partielle et variabi- lité [17, 1]. 4) Les problèmes de fusion d'informations impré- cises peuvent être traités dans le cadre de la théorie des possibilités, comme alternative aux fonctions de croyance, puisque les mesures de nécessité en sont un cas particulier. Si le cadre théorique des possibilités est plus restreint, les modes de combinaisons sont beaucoup plus variés car on dispose de tout l'arsenal des opéra- tions de combinaison d'ensembles flous [11]. 5) Les bases de données constituent un champ d'application très prometteur de la théorie des possibilités, dès qu'on a affaire à des informa- tions imparfaites (incomplètes, mal connues, contradictoires). Néanmoins la mise en oeuvre pratique de cette approche peut poser de gros problèmes de calcul [4]. 6) La théorie des possibilités permet de mettre dans un même cadre plusieurs approches du diagnos- tic automatique : l'approche logique à base de modèle, l'approche causale abductive [7]. En particulier on dispose de contreparties ordinales et numériques possibilistes des réseaux bayé- siens probabilistes (Borgelt et Kruse [3]). Ce sont des graphes orientés qui tolèrent les infor- mations incomplètes. Références [1] C. BAUDRIT, 2005. "Représentation et propagation de connaissances imprécises et incertaines : Application à l'évaluation des risques liés aux sites et aux sols pollués " Thèse de doctorat, Université Paul Sabatier, Toulouse. [2] S. BENFERHAT, D. DUBOIS, H. PRADE, 1997 "Non Monotonic Reasoning, Conditional Objects and Possibility Theory " Artificial inteliigence Journal, 92, 259-276. [3] C. BORGELT, et R. KRUSE, 2002. Learning from Imprecise Data. Possibliistlc Graphical Models. Computational Statis- tics & Data Analysis, 38, 449-463. 41 P BOSe, L. LIETARD, 0. PIVERT, D. ROCACHER, 2004. "Gradualité et imprécision dans les bases de données.' ensembles flous, requêtes flexibles et interrogation de don- nées mal connues :' Paris Ellipses. - Collection : Technosup. [51 D. DUBOIS, H. FARGIER, H. PRADE, R. SABBADIN, 2006. Critères qualitatifs de décision dans l'incertain. ! n : "Concepts et méthodes pour l'aide à la décision ;' D. BOUYSSOU, D. DUBOIS, M. PIRLOT, H. PRADE, Reds,Voi.2 "Risque et Incertain ". Traité C2, série Informatique et SI) Hermes. pp. 99-137 [6] D. DUBOIS, L. FOULLOY, G. MAURIS, H. PRADE, 2004. "PossibilitylProbability Transformations, Triangular Fuzz/Sefs, and Probabilistic Inequalities ", Reliable Computing. 10, 273-297 [7] D. DUBOIS, M. GRASBISCH, 0. DE MONZON, H. PRADE, 2003. Classification et diagnostic. tn : " Logique floue, prin- cipes, aide à la décision ". Réds : B. BOUCHON-MEUNiEF ! et C. MARSALA : Hermès Lavoisier, Paris, 149-204. [81 D. DUBOIS, E. HULLERMEIER, H. PRADE, 2002. "Fzz/Sef- Based Methods in Instance-Based Reasoning " IEEE Transactions on Fuzzy Systems V 10 N. 3, p. 322-332. [9] D. DUBOIS, J. LANG, H. PRADE, 1994. Possibilistic Logic. In : "Hand-Book of Logic in Artificial Intelligence and Logic Programming ", Vol 3 (D.M. GABBAY, C.J. HOGGER, J.A. ROBINSON, D. NUTE, eds.), Oxford University Press, 439-513. [10] D. DUBOIS, H. PRADE, 1987 " Théorie des possibilités - applications à la représentation des connaissances en/nfor- matique ". Masson, Paris. [111 D. DUBOIS, H. PRADE, 1995. "La fusion d'informations imprécises ". Traitement du Signal, 11(6), p. 447-458. [121. D. DUBOIS, H. PRADE, 1996. " What are Fuzzy Rules and How to use Them. Fuzz/Sefs and Systems ", 84, 169-185. [131 D. DUBOIS, H. PRADE, 1998. PosslbilltyTheory Qualitative and Quantitative Aspects ! n :P SMETS, Ed., "Handbook on Defeasible Reasoning and Uncertainty Management Systems " Volume 1 : " Quantified Representation of Uncertainty and Imprecision''Kluvver Academic Publ., Dordrecht, The Netherlands, 169-226. [14] D. DUBOIS, H PRADE, 2003. Le calcul des intervalles flous. In : "Logique floue, principes, aide a/a déc/s/on " Ed : B. BOUCHON- MEUNIER et C. MARSALA : Hermès-Lavoisier, Pars, 4179. [15) D. DUBOIS, H. PRADE, 2006. Représentations formelles de l'incertain et de l'imprécis. n : " Concepts et méthodes pour l'aide à la décision ", D. BOUYSSOU, D. DUBOIS, M. PIRLOT, H. PRADE, Reds, Vol 1 "Outils de Modélisation " (Traité IC2, série Informatique et SI), Hermes, 111-171. [16] H. FARGIER, D. DUBOIS, H. PRADE,1995. "Problèmes de satisfaction de contraintes flexibles'Une approche égalita- riste ;'Revue d'Intelligence Artificielle, 9(3), 311-354. 171 D. GUYONNET, D. DUBOIS, B. BOURGINE, H. FARGIER, B. CÔME, J-P CHILÈS, 2003. "Prise en compte de/'/nce- REE No 8 Septeiiibie 2006 DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (1,e partie tude dans l'évaluation du risque d'exposition aux polluants du sol ". Etudes et Gestion des sols, V. 10, N. 4, p. 357-368. [181 D.K. LEVVIS, 1973. " Counterfactuals :' Basil Blackwell, Oxford. 2nd edition, Billing and Sons Ltd, Worcester, UK, 1986. 1191 D. KAHNEMANN. P SLOVIC, A.TVERSKY, REDS. udge- ment Under Uncertainty. Heuristics and Biases " Cambridge University Press, Cambridge, UK, 1982. [201 M. SERRURIER, décembre 2005. " Programmation logique inductive floue etpossibiliste. " Thèse de doctorat, Université Paul Sabatier, Toulouse. [21] G. L.S. SHACKLE, 1967 "Décision, Détermnisme et Temps ", Dunod, Paris. [22] G. SHAFER, 1976.'A Mathematical Theory of Evidence, " Princeton University Press, Princeton. [23] LA. ZADEH, 1978. " Fuzzy Sets as a Basis Fora Theory of Possi- bi/ity :' Fuzzy Sets and Systems, 1, 3-28. Les auteurs 1 Didier Dubois et Henri Prade sont Directeurs de Recherche au CNRS et travaillent à institut de Recherche en Informatique de Toulouse. Leurs thèmes de recherche concernent la modélisation de l'ImprécIs et de hncerta dans divers domaines tels que le rai- sonnement automatisé, la fusion d'informations, l'argumentation, la décision et l'analyse de risque. Ils sont conjointement auteurs, ou rédacteurs de plusieurs ouvrages spécialisés autour de la logi- que floue et de la formalisation de l'incertitude, et la décision, ainsi que de nombreux articles scientifiques. REE No 8 Septembre2006