Das JPEG- Komitee legte zwar alle Einzelheiten der Algorithmen fest, definierte jedoch kein allgemein verwendbares Dateiformat für komprimierte Bilder fest. Es normierte nur das sogenannte JPEG Interchange Format, das zur Darstellung des eigentlichen JPEG Datenstroms dient. Um den Unterschied deutlich zu machen ein kleines Beispiel: JPEG erlaubt Farbräume mit 1,2,3 oder 4 Komponenten. Die Kernalgorithmen kümmern sich nicht um die Bedeutung einzelner Farben, sondern komprimieren bzw. dekomprimieren einen Datenstrom nach gewissen Regeln; man sagt daher JPEG sei farbenblind. Die Anzahl der Komponenten legt den Farbraum aber noch nicht eindeutig fest, zum Beispiel verwenden RGB und jeweils drei Komponenten. Das in der Norm festgelegte Format enthält aber keinerlei Informationen über den benutzten Farbraum, so daß diese zusätzlich zum eigentlichen Datenstrom codiert werden müssen.
Komprimierte Daten gemäß JPEG Interchange Format werden durch sogenannte Marken strukturiert. Jede Marke kennzeichnet den Beginn eines Markersegments. Jedes Markersegment beginnt mit einem Byte FF, nachdem ein zweites Byte die Funktion der jeweiligen Marke angibt. Vor dem ersten FF dürfen optional noch weitere Füll-Bytes mit dem Wert FF stehen. FF-Bytes die bei der Huffman-Codierung entstehen werden durch ein folgendes Null-Byte ,,entschärft``, um eine Verwechslung mit Marken auszuschließen.
Die meisten Markersegmente haben variable Länge und enthalten daher am Anfang zwei Bytes, die die Länge des gesamten Segments angeben (einschließlich der beiden Längenbytes aber ausschließlich der Marker-Bytes). Diese Struktur erlaubt es anderen Programmen einen JPEG-Datenstrom auszuwerten, ohne sich mit der Huffman- oder arithmetischen Codierung herumschlagen zu müssen. Die Tabelle in Anhang enthält alle in ISO 10918 definierten Marken.
Außer Markersegmenten enthält das JPEG-Format noch Code-Segmente, die den Output der beschriebenen Entropie-Codierer enthalten.
Der JPEG-Datenstrom beginnt mit einer SOI-Marke (start of image) und endet mit einer EOI-Marke (end of image). Dazwischen befinden sich ein oder im hierarchical mode mehrere Frame-Segmente beginnend mit einer SOFn-Marke (start of frame). Diese Frame-Segmente setzen die für alle in diesem Frame vorkommenden Bilddurchläufe notwendigen Parameter, wie Bildgröße, Genauigkeit der Prozeduren, Anzahl der Komponenten und deren horizontale und vertikale Auflösungen. Der Parameter n gibt hierbei an, welcher Mode und welches Codierungsverfahren bei der Bearbeitung verwendet wird.
Frame-Segmente bestehen wiederum aus einem oder im progressive mode mehreren Scan-Segmenten. Die ein Scan-Segment einleitenden SOS-Marken (start of scan) kennzeichnen den Beginn eines Bilddurchlaufs und stehen direkt vor den Codesegmenten.
Enthält ein Scan-Segment mehrere Codesegmente, werden diese durch zwei Bytes große RST-Marken (restart) getrennt. Dies hat den Vorteil, daß die einzelnen Codesegmente lokalisiert werden können, ohne daß die Daten decodiert werden müssen. Daher können bei modernen Betriebssystemen die Segmente verschiedenen Prozessen übergeben und so parallel verarbeitet werden.
Zusätzlich zu den genannten Segmenten definiert JPEG noch weitere Segmente, die z.B. Quantisierungs- oder Codierungstabellen oder Parameter für die einzelnen Modi beinhalten. Für genauere Betrachtungen des JPEG Interchange Formats sei auf die Literatur verwiesen.