Normes de numérisation

De WikiA3C7
Aller à : navigation, rechercher

Lors des débuts de l'application de la numérisation aux images de télévision dans le début de la décennie 1970, la seule représentation existante, analogique, était la video composite, généralement NTSC ou PAL suivant les pays, et accessoirement SECAM notamment en France. Le mélange (somme pondérée) de deux signaux est possible en NTSC et en PAL mais non en SECAM, et il en va de même pour le résultat de la numérisation directe de ces signaux. Tout naturellement, les laboratoires britanniques (les centres de recherche de l'IBA et de la BBC), très actifs sur le sujet, travaillaient sur le signal composite PAL, alors que le CCETT ne voulait connaître que les composantes d'image séparées (luminance et deux signaux de différence de couleurs). Dès le début, un conflit de point de vue est apparu, notamment dans les instances internationales de normalisation et principalement (à cette époque) à l'UIT (Union Internationale des Télécommunications), ainsi qu'à l'UER (Union Européenne de Radiodiffusion) où le Royaume-Uni mais aussi divers membres associés nord-américains étaient très influents.

L'avantage de la numérisation du signal composite était la possibilité d'une transition progressive depuis le monde analogique. Il est rapidement apparu qu'un échantillonnage à une fréquence multiple entier de la fréquence de la sous-porteuse couleur (Fsc en anglais, subcarrier frequency) avait des avantages, notamment pour obtenir une structure d'échantillonnage stable sur l'image. Toutefois, les vitesses de fonctionnement et le fort débit numérique résultant étaient à cette époque des contraintes majeures, notamment pour l'enregistrement magnétique qui était justement une des applications les plus ardemment souhaitées. Les particularités du signal PAL, plus complexe que le NTSC mais dont les Britanniques étaient de grands experts, ont fait apparaître deux approches intéressantes : échantillonnage à 4Fsc (17,7 MHz), donnant une structure d'échantillonnage presque orthogonale mais jugée élevée à l'époque, et échantillonnage à 2Fsc (8,87 MHz), apparemment insuffisant pour transmettre un signal video de 5,5 MHz de bande (PAL système I utilisé au Royaume-Uni) mais en fait approprié au PAL, les repliements de spectre induits par ce sous-échantillonnage pouvant (au moins théoriquement) être parfaitement contrôlés et réversibles. Corrélativement, les mêmes techniques permettaient aussi le sous-échantillonnage de composantes séparées avec les mêmes méthodes de pré et post-filtrages réversibles.

Le PAL 2Fsc n'a pas son équivalent en NTSC. Les progrès de la technologie, et l'apparition de besoins en traitements numériques pour la production (effets spéciaux, notamment) apportaient peu à peu de l'eau au moulin des composantes d'image. Il était assez logique que les fréquences d'échantillonnage des signaux de différence de couleurs soient des sous-multiples de celles de la luminance (en d'autres termes, qu'un point échantillonnage de la couleur soit aussi un point d'échantillonnage de la luminance). Lorsque le bien fondé de l'utilisation de composantes séparées a commencé à être reconnu internationalement, l'idée s'est fait jour qu'une représentation unique n'était pas nécessairement justifiée pour toutes les applications, et que plusieurs niveaux de qualité (facilement compatibles entre eux) pouvaient être utilisés. La force de l'attache culturelle avec le composite (notamment en Amérique du Nord) a fait désigner le choix des fréquences d'échantillonnage par rapport à la fréquence de la sous-porteuse composite : par exemple, le niveau à utiliser en studio était désigné par "4:2:2" (en français : 4-2-2) pour signifier que la luminance était échantillonnée à 4 fois la fréquence de sous-porteuse couleur NTSC (soit 14,3 MHz) et les différences de couleurs à deux fois cette fréquence (7,2 MHz).

Le principe en étant admis, il restait à trouver un accord sur la valeur de ces fréquences. Des tests à grande échelle effectués tant en Europe qu'en Amérique du Nord avaient permis d'affiner les besoins, et notamment de comprendre qu'une fréquence d'échantillonnage des différences de couleurs relativement élevée était souhaitable (en d'autres termes, qu'une largeur de bande allouée à la couleur plus généreuse que celle qui est offerte par les systèmes composites NTSC et PAL était nécessaire) pour garder une capacité de traitement en production. Un compromis a été trouvé sur une fréquence d'échantillonnage de 13,500 MHz exactement pour la luminance, multiple entier exact des deux fréquences lignes (celle du 625/50 et celle du 525/59,94), donnant le même nombre de points (720) par ligne active pour tous les systèmes. Pour le niveau 4-2-2, de loin le plus important, les fréquences d'échantillonnage des différences de couleurs sont la moité. Il était prévu aussi un niveau 4-1-1, qui a été peu utilisé. Le niveau 4-4-4 (donc sans réduction de bande des informations de couleur) était destiné à une utilisation locale et son heure est venue plus tard, quand les progrès de la technologie ont assoupli les contraintes de débit d'information.

La norme 4-2-2 a été adoptée en 1982 par l'UIT-R (secteur Radiocommunications de l'UIT, alors appelé CCIR pour Comité Consultatif International des Radiocommunications), à la suite des tractations conclues au sein de l'UER (où le CCETT était bien représenté) et de la SMPTE (Society of Motion Picture and Television Engineers). La norme est une Recommandation mais s'appelait à l'époque un Avis. Un Avis (une Recommandation) marque l'obtention d'un consensus, et tant qu'il n'est pas obtenu, l'UIT reflète la situation par un Rapport. Bien entendu, le Rapport correspondant avait donné aux participants CCETT aux travaux de l'UIT l'occasion d'exprimer leurs vues et de rompre des lances avec les collègues britanniques et nord-américains. Ils rédigeaient en temps réel les versions françaises des documents, ce qui ne manquait pas de mettre en évidence des ambiguïtés dans le résultat des discussions (conduites évidemment en anglais).

À cette époque, on était heureux de pouvoir numériser et traiter les signaux video en temps réel sur 8 bits. Plus tard (et notamment quand les caméras ont commencé à se numériser), les limites de la numérisation sur 8 bits ont commencé de se faire sentir. Comme toutes les Recommandations, celle qui décrit la norme 4-2-2 a évolué notamment en ce sens et prévoit l'utilisation d'un nombre de niveaux plus élevé (10 bits en interchange, mais davantage en traitements de sources).

La mise au point des normes 4-2-2 a constitué le véritable point de départ de la télévision numérique. À cet époque, le prix de la technologie nécessaire en limitait strictement l'usage au monde professionnel. Mais c'est cette même représentation qui a été (et est toujours) utilisée pour les applications grand public lorsque leur heure est venue : DVD, télévision numérique sur satellite ou terrestre... Le choix des paramètres effectué il y a près de trente ans était apparemment adéquat. L'évolution des écrans, facteur très important, n'a pas nécessité leur remise en cause. Seule la télévision à haute définition constitue une raison de reconsidérer cette représentation.

Pour permettre la mise en œuvre effective de la numérisation, il était nécessaire de définir aussi une interface. Ce concept est relativement simple en télévision analogique, mais plus complexe en numérique. Là aussi, les contraintes de débit et de vitesse ont d'abord pesé lourd, puis de moins en moins lourd à mesure que la technologie évoluait (et que Sony se saisissait du sujet). Le CCETT a démontré et fait reconnaître une interface basée sur des technologies éprouvées et bon marché (paires symétriques, connecteurs de type informatique), mais matériellement lourde (8 bits en parallèle). Les utilisateurs souhaitaient conserver la souplesse du câble coaxial unique du monde analogique (notamment pour les grilles de commutation). La sérialisation du train numérique était souhaitable mais délicate et demandait un développement technologique spécifique. Une première solution Thomson, soutenue par le CCETT dans les instances internationales, a même été normalisée par l'UIT... jusqu'à ce que Sony sorte une solution plus performante, clefs en main (comprendre : les circuits intégrés sont disponibles), devant laquelle il n'y avait plus qu'à s'incliner. La première Recommandation de l'UIT date de 1986 ; elle a bien entendu évolué, et permet la transmission de signaux sur 10 bits ainsi que divers signaux auxiliaires.