Le format de données, connu sous le nom de standard Red Book, a été dressé par Dutch Electronics du groupe Philips qui possède les droits du CDDA et du logo qui apparaît sur les disques. En termes techniques, il s’agit d’une piste stéréo encodée en PCM à une résolution de 16 bits (linéaire en amplitude, sans compression logarithmique des amplitudes hautes) avec une fréquence d’échantillonnage de 44,1 kHz.
Les échantillons sont ensuite regroupés en frame, chaque frame comporte six échantillons stéréo (6 × 2v × 16 bits = 192 bits soit 24 octets), plus 8 octets de correction d’erreur et un 1 octet de subcode, soit un total de 33 octets par frame. Le code correcteur est ajouté pour permettre la lecture d’un disque rayé dans les limites du raisonnable, il s’agit de deux code de Reed-Solomon à la suite et d’un entrelacement des données effectué entre les deux codages.
L’octet subcode est utilisé pour former 8 canaux de contrôle (chaque canal ayant un débit binaire de 7,35 kbps), dans le CD standard seul les deux premiers canaux sont utilisés et servent pour indiquer les débuts de pistes, le temps, la pré-accentuation, l’autorisation de copie, le nombre de canaux (stéréo ou quadriphonie, mais bien que le bit d’indication de quadriphonie existe dans la norme, la façon dont ces canaux supplémentaires doivent être codés n’est pas définie et il n’est donc pas utilisé), les six autres canaux sont utilisés dans les extensions comme le CD+G (permet l’insertion des paroles pour les karaokés) ou le CD-Text (nom des pistes, auteurs, interprètes).
La fréquence d’échantillonnage de 44,1 kHz est héritée d’une méthode de conversion numérique d’un signal audio en signal vidéo pour un enregistrement sur cassette vidéo qui était le seul support offrant une bande passante suffisante pour enregistrer la quantité de données nécessaire à un enregistrement audionumérique (voir PCM et PCM adaptor (en)). Cette technologie peut stocker six échantillons (trois par canal en stéréo) par ligne horizontale. Un signal vidéo NTSC possède 245 lignes utilisables par trame et 59,94 champs par seconde qui fonctionnent à 44 056 échantillons par seconde. De même, un signal vidéo PAL ou SECAM possède 294 lignes et 50 champs qui permet aussi de délivrer 44 100 échantillons par seconde. Ce système pouvait aussi stocker des échantillons de 14 bits avec des corrections d’erreur ou des échantillons de 16 bits sans correction d’erreur. Il y eut donc un long débat entre Philips et Sony concernant la fréquence et la résolution de l’échantillonnage. Philips voulant utiliser le 44 100 Hz utilisé en Europe et une résolution de 14 bits ayant déjà développé des CNA 14 bits et Sony voulant imposer le 44 056 Hz utilisé au Japon et États-Unis et une résolution de 16 bits.
Anecdote : c’est donc pour ceci que les premières platines CD étaient équipées de CNA 14 bits (les TDA1540), Philips ayant trouvé le moyen de les utiliser en 16 bits par un suréchantillonnage 4×, le CNA fonctionnait donc à 176,4 kHz au lieu de 44,1 kHz et était précédé d’un filtre numérique. Cette fréquence quatre fois plus élevée permettait d’avoir un filtre passe-bas avec une pente beaucoup plus progressive qu’avec les CNA concurrents. Le comportement dans les fréquences proches de 20 000 Hz était plus linéaire avec moins de rotation de phase et le son en était d’autant plus pur.
Un CD audio comme un CD-R est constitué, d'après le Orange Book, de trois zones constituant la zone d'information (information area) :
La Lead-in Area contient des informations décrivant le contenu du support (ces informations sont stockées dans la TOC, Table of Contents). La zone Lead-in s'étend du rayon 23 mm au rayon 25 mm.
La zone Programme (ou Program Area) contient les données et commence à partir d'un rayon de 25 mm, elle s'étend jusqu'à un rayon de 58 mm et peut contenir l'équivalent de 76 minutes de données. La zone programme peut contenir un maximum de 99 pistes (ou sessions) d'une longueur minimale de 4 secondes.
La zone Lead-Out (parfois notée LOA) contient des données nulles (du silence pour un CD audio) et marque la fin du CD. Elle commence au rayon 58 mm et doit mesurer au moins 0,5 mm d'épaisseur (radialement). La zone lead-out doit ainsi contenir au minimum 6750 secteurs, soit 90 secondes de silence à la vitesse minimale (1X).