Die JavaScript Object Notation (JSON [ˈdʒeɪsən]) ist ein kompaktes Datenformat in einer einfach lesbaren Textform für den Datenaustausch zwischen Anwendungen. JSON ist von Programmiersprachen unabhängig. Parser und Generatoren existieren in allen verbreiteten Sprachen.
JSON wurde ursprünglich 1997 von Douglas Crockford spezifiziert.[3] Derzeit (Stand Ende 2017) wird es durch zwei inhaltlich gleiche Standards spezifiziert – RFC 8259[1] sowie ECMA-404.[2]
JSON wird zur Übertragung und zum Speichern strukturierter Daten eingesetzt. Es dient als Datenformat bei der Datenübertragung (Serialisierung). Insbesondere bei Webanwendungen und mobilen Apps wird es in Verbindung mit JavaScript, Ajax oder WebSockets zum Übertragen von Daten zwischen dem Client und dem Server häufig genutzt.
Datenstruktur und Formatdefinition
Zeichencodierung und Datentypen
Die Daten können beliebig verschachtelt werden, beispielsweise ist eine indizierte Liste (englisch „array“) von Objekten möglich, welche wiederum arrays oder Objekte enthalten. Als Zeichenkodierung benutzt JSON standardmäßig UTF-8. Auch UTF-16 und UTF-32 sind möglich.
wird durch die Schlüsselwörter true und false dargestellt. Dies sind keine Zeichenketten. Sie werden daher, wie null, nicht in Anführungszeichen gesetzt.
ist eine Folge der Ziffern 0–9. Diese Folge kann durch ein negatives Vorzeichen- eingeleitet und durch einen Dezimalpunkt. unterbrochen sein. Die Zahl kann durch die Angabe eines Exponenten e oder E ergänzt werden, dem ein optionales Vorzeichen+ oder - und eine Folge der Ziffern 0–9 folgt.
beginnt mit [ und endet mit ]. Es enthält eine durch Kommata geteilte, indizierte Liste von Elementen gleichen oder verschiedenen Typs. Leere Arrays sind zulässig.
beginnt mit { und endet mit }. Es enthält eine durch Kommata geteilte, ungeordnete Liste von Eigenschaften. Objekte ohne Eigenschaften („leere Objekte“) sind zulässig.
Eigenschaft
besteht aus einem Schlüssel und einem Wert, getrennt durch einen Doppelpunkt (Schlüssel : Wert). Die Schlüssel sollten eindeutig sein, da unterschiedliche Parser mit mehrfach vorkommenden Schlüsseln unterschiedlich umgehen. Während ECMA-404 keine Eindeutigkeit voraussetzt, fordert RFC 7159,[3] dass Schlüssel innerhalb eines Objekts eindeutig sind.
der Schlüssel ist eine Zeichenkette.
der Wert ist ein beliebiges Element.
Nicht signifikante Leerraum-Zeichen sind erlaubt, also Leerzeichen (Unicode U+0020), horizontale Tabs (U+0009), Zeilenumbrüche mittels LF und / oder CR (U+000D und U+000A).[4] Diese Zeichen werden außerhalb von Zeichenketten bei der Interpretation ignoriert.
Einschränkungen
Im Gegensatz zu JavaScript und vielen anderen Programmiersprachen erlaubt JSON für Zahlen nicht die in IEEE 754 definierten Sonderwerte für Unendlich und NaN.[3] Außerdem fehlen Wertetypen für zum Beispiel Datums- und Zeitwerte, reguläre Ausdrücke, Funktionsliterale und Fehlertypen.[3] Beim Serialisieren nach JSON können solche nicht abbildbaren Werte entweder durch null ersetzt werden, oder sie müssen auf andere Weise umgesetzt werden. Bei Datums- und Zeit-Werten ist beispielsweise die Konvertierung in eine Zeichenkette gemäß ISO 8601 üblich.[5]
JSON unterstützt ebenfalls keine Kommentare, die beim Einlesen der Daten ignoriert werden würden.
Um diese Einschränkungen zu umgehen, erlauben viele JSON-Programmbibliotheken (optional) die Verletzung des JSON-Standards, womit beispielsweise Werte für Unendlich und NaN[6] unterstützt werden können oder wodurch Kommentare ignoriert werden, statt zu Fehlern zu führen[7].
Beispiel
{"Herausgeber":"Xema","Nummer":"1234-5678-9012-3456","Deckung":2e+6,"Waehrung":"EURO","Inhaber":{"Name":"Mustermann","Vorname":"Max","Teilnahme am Bonusprogramm":true,"Hobbys":["Reiten","Golfen","Lesen"],"Alter":42,"Kinder":[],"Partner":null}}
JSON Schema
JSON Schema gibt ein JSON-basiertes Format an, um die Struktur von JSON-Daten für die Validierung, Dokumentation und Interaktionssteuerung zu definieren. Es enthält einen Vertrag für die JSON-Daten, die für eine bestimmte Anwendung erforderlich sind, und wie diese Daten geändert werden können.
JSON Schema basiert auf den Konzepten von XML Schema (XSD), ist jedoch JSON-basiert. Wie in XSD können dieselben Serialisierungs- und Deserialisierungsprogramme sowohl für das Schema als auch für die Daten verwendet werden. Es ist selbstbeschreibend und in einem Internet-Entwurf der Internet Engineering Task Force festgelegt. Für verschiedene Programmiersprachen stehen mehrere Validatoren mit jeweils unterschiedlichen Konformitätsstufen zur Verfügung.[8]
Sowohl JSON als auch XML beschreiben die Struktur eines Datensatzes. Der Datensatz kann weitere Datensätze enthalten, dadurch sind beliebig tief verschachtelte Strukturen möglich.
In XML sind die einzelnen Knoten der Datenstruktur benannt, während die Knoten in JSON unbenannt sind.
In XML können einfache Zeichenketten sowohl als Attribut eines Elements als auch als eigenständiges Element beschrieben sein, in JSON gibt es diese Unterscheidung nicht. Diese in den meisten Fällen irrelevante Flexibilität führt dazu, dass sich die Struktur von XML-Dokumenten häufig unnötigerweise unterscheidet.
Sowohl für JSON als auch für XML gibt es Beschreibungssprachen, um weiter einzugrenzen, wie „gültige“ Dokumente aussehen, im Gegensatz zu „wohlgeformten“ Dokumenten.
Die Syntax von JSON ist sehr viel einfacher gestaltet und erscheint daher oft lesbarer und insbesondere leichter schreibbar. In der Regel produziert JSON auch geringeren Overhead im Vergleich zu XML.
Sowohl JSON als auch XML[9] müssen von einem speziellen Parser eingelesen werden. Traditionell ist jedes wohlgeformte JSON-Dokument ein gültiger JavaScript-Ausdruck, das sorglose Interpretieren von JSON-Dokumenten mit eval() stellt jedoch potentiell eine Sicherheitslücke dar und kann beispielsweise Cross-Site-Scripting (XSS) ermöglichen.[10]
Sowohl JSON als auch XML sind nicht gut zum Repräsentieren von Binärdaten geeignet, da beide Datenformate als Grundelement zeichenbasiert sind und nicht bytebasiert.
Zum Vergleich das oben genannte Beispiel in einer XML-Form:
Nach Entfernung der optionalen Leerzeichen ist das JSON-Objekt 226 Byte, das XML-Objekt 279 Byte groß – ein Zuwachs um 23 %. Oftmals können Attribute auch als Kindknoten formuliert werden, das Beispiel könnte dann wie folgt aussehen:
Dieses Objekt wäre mit Entfernung der Leerzeichen 361 Byte groß – ein Zuwachs um 60 % zum JSON-Objekt.
JSONP (JSON mit Padding)
Bei JSONP (JSON mit Padding) werden die JSON-Daten über ein <script>-Element eingebunden und inklusive eines Funktionsaufrufs ausgegeben. Dies ermöglicht die Übertragung von JSON-Daten über Domaingrenzen, ist jedoch mit Sicherheitsrisiken behaftet.
JSONP wurde 2005 von Bob Ippolito vorgestellt[11] und wird jetzt von vielen Web-2.0-Anwendungen wie Dojo Toolkit, jQuery,[12]Google Web Toolkit Applications[13] und Web Services unterstützt. Für dieses Protokoll wurden Erweiterungen vorgeschlagen, die zusätzliche Eingabeparameter ermöglichen, wie z. B. JSONPP.[14]
Funktionsweise
Üblicherweise erfolgen Ajax-Datenabfragen an Server über das XMLHttpRequest-Objekt eines Webbrowsers. Aufgrund der Same-Origin-Policy funktioniert das nicht, wenn die in einem Webbrowser angezeigte Webseite über dieses Objekt auf einen Server zuzugreifen versucht, der in einer anderen Domain als die angezeigte Webseite liegt. Das Problem kann durch JSONP umgangen werden. Im src-Attribut eines <script>-Elements ist es möglich, beliebige URLs anzugeben. Für dieses Attribut greift die Same-Origin-Policy nicht. Es ist also möglich, eine URL in einer anderen Domain anzugeben, die beispielsweise JSON-Daten zurückgibt. Dieses Script hätte aber keinen Effekt.
Um die JSON-Daten auf dem Client verarbeiten zu können, verpackt der Server diese als Parameter in eine JavaScript-Funktion, die im Webbrowser bereits definiert ist. Der Name dieser Funktion wird dem Server üblicherweise im Query-String der URL mitgeteilt, wobei das genaue Format oder der Name des Parameters nicht genormt ist.
Beispiel:
Im HTML-Code einer Webseite werden die JSONP-Daten wie folgt eingebunden:
Der Browser führt diesen Funktionsaufruf daraufhin aus, als ob er direkt in der HTML-Seite niedergeschrieben worden wäre, und kann so die JSON-Daten aus dem Aufruf verarbeiten.
Üblicherweise ist für jeden JSONP-Aufruf ein eigenes <script>-Element erforderlich.
Sicherheitsrisiken
<script>-Elemente ermöglichen es einem Server, beliebige Inhalte (nicht nur JSON-Objekte) an den Webbrowser zu übermitteln. Dies kann dazu führen, dass ein bösartiger Web-Service über die zurückgesendeten Daten private Informationen im Webbrowser ausspäht oder in seinem Sinne verändert (Cross-Site-Scripting).
Da das <script>-Element die Same-Origin-Policy nicht beachtet, kann eine bösartige Webseite JSONP-Daten anfordern und auswerten, die nicht für sie bestimmt sind (Cross-Site-Request-Forgery).[15] Das Problem tritt dann auf, wenn sensible Daten vor Dritten geschützt werden sollen.
Alternative
Mit Cross-Origin Resource Sharing (CORS) existiert ein vergleichbares Verfahren, das den Zugriff über Domaingrenzen hinweg ermöglicht, ohne jedoch der abgefragten Ressource die Möglichkeit einzuräumen, beliebigen JavaScript-Code auszuführen. Beide Verfahren erfordern die Unterstützung durch die entsprechende Ressource, wobei CORS einfacher zu implementieren ist. Gleichzeitig erlaubt CORS eine einfache Einschränkung seitens der Ressource, von welchen Datenquellen (englisch „origins“, das sind URLs, Domänen o. ä.) sie genutzt werden kann.
CORS ist gegenüber JSONP meist zu bevorzugen, da CORS insgesamt einfacher und sicherer ist.
JSON Hyper-Schema[17] dient zur Annotation von Datentypen in JSON.
GBSON[18] dient zur Annotation von Nucleinsäuresequenzen (DNA und RNA).
Alternative Formate
YAML, CSON[19] (CoffeeScript-Object-Notation), HOCON[20] (Human-Optimized Config Object Notation), JSON5[21] und Hjson[22] sind Datenserialisierungsformate, deren Syntax eine Obermenge von JSON ist. Sie erweitern JSON u. a. um Kommentare und erlauben eine für Menschen einfacher lesbare Syntax. Beispielsweise sind Anführungszeichen für Schlüssel und Zeichenketten, Kommas am Zeilenende und geschweifte Klammern teilweise optional.
Jsonnet,[23]Dhall[24] und CUE[25] sind ebenfalls Obermengen von JSON und bieten Funktionen wie z. B. Validierung.
JSON streaming mit den drei Varianten Line-delimited JSON (LDJSON), Newline-delimited JSON (NDJSON) und JSON lines (JSONL).
Binäre JSON-Varianten gibt es mit BSON (Binary JSON),[26] verwendet u. a. von MongoDB, und mit JSONB, verwendet von PostgreSQL.[27] Einen ähnlichen Ansatz verfolgen Googles Protocol Buffers (protobuf), denen im Unterschied zu JSON bzw. BSON ein Schema zugrunde liegt.[28][29] Ebenfalls an JSON orientiert ist das schemalose und auf platzsparende Serialisierung und Prozessierungsgeschwindigkeit hin optimierte CBOR.[30]
Vorgänger-Formate
Vor der Verbreitung von JSON war XML das bekannteste Datenserialisierungsformat.
NeXTstep verwendete bereits einige Jahre früher, spätestens seit 1994, eine ähnliche Technik, um einfache Objektbäume zu laden oder zu speichern. Sie heißen dort Property Lists und sind bis heute in macOS in Verwendung. Diese erlauben ebenfalls die Speicherung von Werten der Typen Array, Dictionary, boolescher Wert, Binärdaten, Datum, Zahl und Zeichenketten.[31][32]
Die Tool Command Language kennt Dictionaries (dict), die ebenfalls beliebig geschachtelte, benannte Strukturen enthalten können. Diese sind gleichfalls strukturierte Zeichenketten. Der Zusatzaufwand (englisch „overhead“) ist gegenüber JSON deutlich vermindert, weil keine Doppelpunkte oder Anführungsstriche benötigt werden. Eine klare Trennung zwischen Objektstrukturen (Eigenschaft/Wert) und Tabellen („arrays“, hier als Listen bezeichnet) gibt es allerdings nicht. Daher ist eine Überführung von JSON-Daten in ein dict immer eindeutig und leicht möglich, umgekehrt jedoch nicht.
↑ abcd
Tim Bray: RFC: 7159 – The JavaScript Object Notation (JSON) Data Interchange Format. März 2014 (englisch).
↑Douglas Crockford: RFC: 4627 – The application/json Media Type for JavaScript Object Notation (JSON). Juli 2006, Abschnitt 2: JSON Grammar. (englisch).