Cada cuadro de la imagen es muestreado en unidades de pixeles, con lo que los datos a almacenar serán los correspondientes al color de cada pixel.
Tres componentes son necesarias y suficientes para representar el color y para ser interpretado por el ojo humano. El sistema de codificación de color usado es el RGB (Red, Green, Blue).
Para digitalizar una señal de vídeo analógico es necesario muestrear todas la líneas de vídeo activo. La información de brillo y color son tratadas de forma diferente por el sistema visual humano, ya que es más sensible al brillo que al color. Con lo que se usa un componente especial para representar la información del brillo, la luminancia, una para el color y la saturación, la crominancia. Cada muestra de color se codifica en señal Y-U-V (Y- luminancia, U y V crominancia) partiendo de los valores del sistema RGB. Con este sistema las diferencias de color pueden ser muestreadas sin resultados visibles, lo que permite que la misma información sea codificada con menos ancho de banda.
Un ejemplo de conversión de señal analógica de televisión en color a una señal en vídeo digital sería:
Sistema PAL : 576 líneas activas, 25 fotogramas por segundo, para obtener 720 pixels y 8 bit por muestra a 13,5Mhz:
- Luminancia(Y): 720x576x25x8 = 82.944.000 bits por segundo
- Crominancia(U): 360x576x25x8 = 41.472.000 bits por segundo
- Crominancia(V): 360x576x25x8 = 41.472.000 bits por segundo
Número total de bits: 165.888.000 bits por segundo (aprox. 166Mbits/sg). Ninguno de los sistemas comunes de transmisión de vídeo proporcionan transferencias suficientes para este caudal de información .
Las imágenes de vídeo están compuestas de información en el dominio del espacio y el tiempo. La información en el dominio del espacio es provista por los pixels, y la información en el dominio del tiempo es provista por imágenes que cambian en el tiempo. Puesto que los cambios entre cuadros colindantes son diminutos, los objetos aparentan moverse suavemente.
El valor de luminancia de cada pixel es cuantificado con ocho bits para el caso de imágenes blanco y negro. En el caso de imágenes de color, cada pixel mantiene la información de color asociada; una imagen completa es una composición de tres fotogramas, uno para cada componente de color, así los tres elementos de la información de luminancia designados como rojo, verde y azul, son cuantificados a ocho bits.

Pero la transmisión digital de vídeo tiene también alguna desventaja respecto a la analógica, por ejemplo, en una videoconferencia, cuando distintos usuarios envían sonido al mismo tiempo, si el proceso fuera analógico las distintas ondas se sumarían y podríamos escuchar el conjuntos de todas ellas. Al ser digital, los datos llegan en paquetes entremezclados, lo que dificulta la compresión.
También puede darse un retardo de audio.
En la red de Internet por ejemplo la mayoría de los usuarios están conectados a velocidades de 56.6 kilobits por segundo (Kbps), 33.6 kbps o 28.8 kbps, y el vídeo descomprimido para ser enviado en calidad broadcast requiere un ancho de banda de red de 160 megabits por segundo (Mbps), en calidad CD requiere aproximadamente 2.8 Mbps, y con los modems actuales sería imposible conseguir las velocidades requeridas para su transmisión. Aquí es donde juegan un papel importante los codecs.
Los codecs se optimizan para conseguir la mayor calidad posible en bajos índices de transferencia. Son usados para codificar el vídeo en tiempo real o pregrabado y ser mandado por la red para que el usuario final solamente con una aplicación que lo descomprima podrá al instante visionar en su terminal.