擼一個 JSON 解析器

2019-04-29 08:10:10 Java芋道源碼

JSON
解析JSON
JSON解析器的基本原理
步驟
獲取token流
解析出JSON對象
參考文章

JSON

JSON(JavaScript Object Notation, JS 對象簡譜) 是一種輕量級的數據交換格式。易於人閱讀和編寫。同時也易於機器解析和生成。採用完全獨立於語言的文本格式，但是也使用了類似於C語言家族的習慣（包括C, C++, C#, Java, JavaScript, Perl, Python等）。這些特性使JSON成為理想的數據交換語言。

JSON與JS的區別以及和XML的區別具體請參考百度百科

JSON有兩種結構：

第一種：對象

“名稱/值”對的集合不同的語言中，它被理解為對象（object），紀錄（record），結構（struct），字典（dictionary），哈希表（hash table），有鍵列表（keyed list），或者關聯數組（associative array）。

對象是一個無序的“‘名稱/值’對”集合。一個對象以“{”（左括號）開始，“}”（右括號）結束。每個“名稱”後跟一個“:”（冒號）；“‘名稱/值’ 對”之間使用“,”（逗號）分隔。

 {"姓名": "張三", "年齡": "18"}

第二種：數組

值的有序列表（An ordered list of values）。在大部分語言中，它被理解為數組（array）。

數組是值（value）的有序集合。一個數組以“[”（左中括號）開始，“]”（右中括號）結束。值之間使用“,”（逗號）分隔。

值（value）可以是雙引號括起來的字符串（string）、數值(number)、true、false、 null、對象（object）或者數組（array）。這些結構可以嵌套。

 [
 {
 "姓名": "張三",
 "年齡":"18"
 },
 {
 "姓名": "里斯",
 "年齡":"19"
 }
]

通過上面的瞭解可以看出，JSON存在以下幾種數據類型（以Java做類比）：

jsonjavastringJava中的StringnumberJava中的Long或Doubletrue/falseJava中的BooleannullJava中的null[array]Java中的List或Object[]{“key”:”value”}Java中的Map

解析JSON

JSON解析器的基本原理

輸入一串JSON字符串，輸出一個JSON對象。

步驟

JSON解析的過程主要分以下兩步：

第一步：對於輸入的一串JSON字符串我們需要將其解析成一組token流。

例如 JSON字符串{“姓名”: “張三”, “年齡”: “18”} 我們需要將它解析成

 {、 姓名、 :、 張三、 ,、 年齡、 :、 18、 }

這樣一組token流

第二步：根據得到的token流將其解析成對應的JSON對象（JSONObject）或者JSON數組（JSONArray）

下面我們來詳細分析下這兩個步驟：

獲取token流

根據JSON格式的定義，token可以分為以下幾種類型

token含義NULLnullNUMBER數字STRING字符串BOOLEANtrue/falseSEP_COLON:SEP_COMMA,BEGIN_OBJECT{END_OBJECT}BEGIN_ARRAY[END_ARRAY]END_DOCUMENT表示JSON數據結束

根據以上的JSON類型，我們可以將其封裝成enum類型的TokenType

 package com.json.demo.tokenizer;
/**
 BEGIN_OBJECT（{）
 END_OBJECT（}）
 BEGIN_ARRAY（[）
 END_ARRAY（]）
 NULL（null）
 NUMBER（數字）
 STRING（字符串）
 BOOLEAN（true/false）
 SEP_COLON（:）
 SEP_COMMA（,）
 END_DOCUMENT（表示JSON文檔結束）
 */
public enum TokenType {
 BEGIN_OBJECT(1),
 END_OBJECT(2),
 BEGIN_ARRAY(4),
 END_ARRAY(8),
 NULL(16),
 NUMBER(32),
 STRING(64),
 BOOLEAN(128),
 SEP_COLON(256),
 SEP_COMMA(512),
 END_DOCUMENT(1024);
 private int code; // 每個類型的編號 

 TokenType(int code) {
 this.code = code;
 }
 public int getTokenCode() {
 return code;
 }
}

在TokenType中我們為每一種類型都賦一個數字，目的是在Parser做一些優化操作（通過位運算來判斷是否是期望出現的類型）

在進行第一步之前JSON串對計算機來說只是一串沒有意義的字符而已。第一步的作用就是把這些無意義的字符串變成一個一個的token，上面我們已經為每一種token定義了相應的類型和值。所以計算機能夠區分不同的token，並能以token為單位解讀JSON數據。

下面我們封裝一個token類來存儲每一個token對應的值

 package com.json.demo.tokenizer;
/**
 * 存儲對應類型的字面量
 */
public class Token {
 private TokenType tokenType;
 private String value;
 public Token(TokenType tokenType, String value) {
 this.tokenType = tokenType;
 this.value = value;
 }
 public TokenType getTokenType() {
 return tokenType;
 }
 public void setTokenType(TokenType tokenType) {
 this.tokenType = tokenType;
 }
 public String getValue() { 

 return value;
 }
 public void setValue(String value) {
 this.value = value;
 }
 @Override
 public String toString() {
 return "Token{" +
 "tokenType=" + tokenType +
 ", value='" + value + '\'' +
 '}';
 }
}

在解析的過程中我們通過字符流來不斷的讀取字符，並且需要經常根據相應的字符來判斷狀態的跳轉。所以我們需要自己封裝一個ReaderChar類，以便我們更好的操作字符流。

 package com.json.demo.tokenizer;
import java.io.IOException;
import java.io.Reader;
public class ReaderChar {
 private static final int BUFFER_SIZE = 1024;
 private Reader reader;
 private char[] buffer;
 private int index; // 下標
 private int size;
 public ReaderChar(Reader reader) {
 this.reader = reader;
 buffer = new char[BUFFER_SIZE];
 }
 /**
 * 返回 pos 下標處的字符，並返回
 * @return
 */
 public char peek() {
 if (index - 1 >= size) {
 return (char) -1;
 }
 return buffer[Math.max(0, index - 1)];
 }
 /**
 * 返回 pos 下標處的字符，並將 pos + 1，最後返回字符 

 * @return
 * @throws IOException
 */
 public char next() throws IOException {
 if (!hasMore()) {
 return (char) -1;
 }
 return buffer[index++];
 }
 /**
 * 下標回退
 */
 public void back() {
 index = Math.max(0, --index);
 }
 /**
 * 判斷流是否結束
 */
 public boolean hasMore() throws IOException {
 if (index < size) {
 return true;
 }
 fillBuffer();
 return index < size;
 }
 /**
 * 填充buffer數組
 * @throws IOException
 */
 void fillBuffer() throws IOException {
 int n = reader.read(buffer);
 if (n == -1) {
 return;
 }
 index = 0;
 size = n;
 }
}

另外我們還需要一個TokenList來存儲解析出來的token流

 package com.json.demo.tokenizer;
import java.util.ArrayList;
import java.util.List;
/**
 * 存儲詞法解析所得的token流 

 */
public class TokenList {
 private List<token> tokens = new ArrayList<token>();
 private int index = 0;
 public void add(Token token) {
 tokens.add(token);
 }
 public Token peek() {
 return index < tokens.size() ? tokens.get(index) : null;
 }
 public Token peekPrevious() {
 return index - 1 < 0 ? null : tokens.get(index - 2);
 }
 public Token next() {
 return tokens.get(index++);
 }
 public boolean hasMore() {
 return index < tokens.size();
 }
 @Override
 public String toString() {
 return "TokenList{" +
 "tokens=" + tokens +
 '}';
 }
}
/<token>/<token>

JSON解析比其他文本解析要簡單的地方在於，我們只需要根據下一個字符就可知道接下來它所期望讀取的到的內容是什麼樣的。如果滿足期望了，則返回 Token，否則返回錯誤。

為了方便程序出錯時更好的debug，程序中自定義了兩個exception類來處理錯誤信息。（具體實現參考exception包）

下面就是第一步中的重頭戲（核心代碼）：

 public TokenList getTokenStream(ReaderChar readerChar) throws IOException {
 this.readerChar = readerChar;
 tokenList = new TokenList(); 

 // 詞法解析，獲取token流
 tokenizer();
 return tokenList;
 }
 /**
 * 將JSON文件解析成token流
 * @throws IOException
 */
 private void tokenizer() throws IOException {
 Token token;
 do {
 token = start();
 tokenList.add(token);
 } while (token.getTokenType() != TokenType.END_DOCUMENT);
 }
 /**
 * 解析過程的具體實現方法
 * @return
 * @throws IOException
 * @throws JsonParseException
 */
 private Token start() throws IOException, JsonParseException {
 char ch;
 while (true){ //先讀一個字符，若為空白符（ASCII碼在[0, 20H]上）則接著讀，直到剛讀的字符非空白符
 if (!readerChar.hasMore()) {
 return new Token(TokenType.END_DOCUMENT, null);
 }
 ch = readerChar.next();
 if (!isWhiteSpace(ch)) {
 break;
 }
 }
 switch (ch) {
 case '{':
 return new Token(TokenType.BEGIN_OBJECT, String.valueOf(ch));
 case '}':
 return new Token(TokenType.END_OBJECT, String.valueOf(ch));
 case '[':
 return new Token(TokenType.BEGIN_ARRAY, String.valueOf(ch));
 case ']':
 return new Token(TokenType.END_ARRAY, String.valueOf(ch));
 case ',':
 return new Token(TokenType.SEP_COMMA, String.valueOf(ch));
 case ':':
 return new Token(TokenType.SEP_COLON, String.valueOf(ch)); 

 case 'n':
 return readNull();
 case 't':
 case 'f':
 return readBoolean();
 case '"':
 return readString();
 case '-':
 return readNumber();
 }
 if (isDigit(ch)) {
 return readNumber();
 }
 throw new JsonParseException("Illegal character");
 }

在start方法中，我們將每個處理方法都封裝成了單獨的函數。主要思想就是通過一個死循環不停的讀取字符，然後再根據字符的期待值，執行不同的處理函數。

下面我們詳解分析幾個處理函數：

 private Token readString() throws IOException {
 StringBuilder sb = new StringBuilder();
 while(true) {
 char ch = readerChar.next();
 if (ch == '\\') { // 處理轉義字符
 if (!isEscape()) {
 throw new JsonParseException("Invalid escape character");
 }
 sb.append('\\');
 ch = readerChar.peek();
 sb.append(ch);
 if (ch == 'u') { // 處理 Unicode 編碼，形如 \\u4e2d。且只支持 \\u0000 ~ \\uFFFF 範圍內的編碼
 for (int i = 0; i < 4; i++) {
 ch = readerChar.next();
 if (isHex(ch)) {
 sb.append(ch);
 } else { 

 throw new JsonParseException("Invalid character");
 }
 }
 }
 } else if (ch == '"') { // 碰到另一個雙引號，則認為字符串解析結束，返回 Token
 return new Token(TokenType.STRING, sb.toString());
 } else if (ch == '\r' || ch == '\n') { // 傳入的 JSON 字符串不允許換行
 throw new JsonParseException("Invalid character");
 } else {
 sb.append(ch);
 }
 }
 }

該方法也是通過一個死循環來讀取字符，首先判斷的是JSON中的轉義字符。

JSON中允許出現的有以下幾種

 "
\\
\b
\f
\n
\r
\t
\\u four-hex-digits
\/

具體的處理方法封裝在了isEscape()方法中，處理Unicode 編碼時要特別注意一下u的後面會出現四位十六進制數。當讀取到一個雙引號或者讀取到了非法字符（’\r’或’、’\n’）循環退出。

判斷數字的時候也要特別小心，注意負數，frac，exp等等情況。

通過上面的解析，我們可以得到一組token，接下來我們需要以這組token作為輸入，解析出相應的JSON對象

解析出JSON對象

解析之前我們需要定義出JSON對象（JSONObject）和JSON數組(JSONArray)的實體類。

 package com.json.demo.jsonstyle;
import com.json.demo.exception.JsonTypeException;
import com.json.demo.util.FormatUtil;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
/**
 * JSON的對象形式
 * 對象是一個無序的“‘名稱/值’對”集合。一個對象以“{”（左括號）開始，“}”（右括號）結束。每個“名稱”後跟一個“:”（冒號）；“‘名稱/值’ 對”之間使用“,”（逗號）分隔。
 */
public class JsonObject {
 private Map<string> map = new HashMap<string>();
 public void put(String key, Object value) {
 map.put(key, value);
 }
 public Object get(String key) {
 return map.get(key);
 }
 ...
}
package com.json.demo.jsonstyle;
import com.json.demo.exception.JsonTypeException;
import com.json.demo.util.FormatUtil;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List; 

/**
 * JSON的數組形式
 * 數組是值（value）的有序集合。一個數組以“[”（左中括號）開始，“]”（右中括號）結束。值之間使用“,”（逗號）分隔。
 */
public class JsonArray {
 private List list = new ArrayList();
 public void add(Object obj) {
 list.add(obj);
 }
 public Object get(int index) {
 return list.get(index);
 }
 public int size() {
 return list.size();
 }
 ...
}
/<string>/<string>

之後我們就可以寫解析類了，由於代碼較長，這裡就不展示了。有興趣的可以去GitHub上下載。實現邏輯比較簡單，也易於理解。

解析類中的parse方法首先根據第一個token的類型選擇調用parseJsonObject（）或者parseJsonArray（），進而返回JSON對象或者JSON數組。上面的解析方法中利用位運算來判斷字符的期待值既提高了程序的執行效率也有助於提高代碼的ke’du’xi

完成之後我們可以寫一個測試類來驗證下我們的解析器的運行情況。我們可以自己定義一組JSON串也可以通過HttpUtil工具類從網上獲取。最後通過FormatUtil類來規範我們輸出。

具體效果如下圖所示：

來源：http://t.cn/EamWhIf

搜索微信號（ID：芋道源碼），可以獲得各種 Java 源碼解析。

並且，回覆【書籍】後，可以領取筆者推薦的各種 Java 從入門到架構的書籍。

來吧，騷年~

分享到:

閱讀更多 Java芋道源碼 的文章

關鍵字: 解析器哈希 Python

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"