純SQL查詢語句可以實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)嗎？

2018-10-11

1357

網(wǎng)友解答: 我們熟知的SQL是一種數(shù)據(jù)庫查詢語句，它方便了開發(fā)者在大型數(shù)據(jù)中執(zhí)行高效的操作。但本文從另一角度嵌套SQL查詢語句而構(gòu)建了一個(gè)簡單的三層全連接網(wǎng)絡(luò)，雖然由于語句的嵌套過深而不

網(wǎng)友解答:

我們熟知的SQL是一種數(shù)據(jù)庫查詢語句，它方便了開發(fā)者在大型數(shù)據(jù)中執(zhí)行高效的操作。但本文從另一角度嵌套SQL查詢語句而構(gòu)建了一個(gè)簡單的三層全連接網(wǎng)絡(luò)，雖然由于語句的嵌套過深而不能高效計(jì)算，但仍然是一個(gè)非常有意思的實(shí)驗(yàn)。

在這篇文章中，我們將純粹用SQL實(shí)現(xiàn)含有一個(gè)隱藏層（以及帶 ReLU 和 softmax 激活函數(shù)）的神經(jīng)網(wǎng)絡(luò)。這些神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟包含前向傳播和反向傳播，將在 BigQuery 的單個(gè)SQL查詢語句中實(shí)現(xiàn)。當(dāng)它在 BigQuery 中運(yùn)行時(shí)，實(shí)際上我們正在成百上千臺(tái)服務(wù)器上進(jìn)行分布式神經(jīng)網(wǎng)絡(luò)訓(xùn)練。聽上去很贊，對吧？

也就是說，這個(gè)有趣的項(xiàng)目用于測試 SQL 和 BigQuery 的限制，同時(shí)從聲明性數(shù)據(jù)的角度看待神經(jīng)網(wǎng)絡(luò)訓(xùn)練。這個(gè)項(xiàng)目沒有考慮任何的實(shí)際應(yīng)用，不過最后我將討論一些實(shí)際的研究意義。

我們先從一個(gè)基于神經(jīng)網(wǎng)絡(luò)的簡單分類器開始。它的輸入尺寸為 2，輸出為二分類。我們將有一個(gè)維度為 2 的單隱層和 ReLU 激活函數(shù)。輸出層的二分類將使用 softmax 函數(shù)。我們在實(shí)現(xiàn)網(wǎng)絡(luò)時(shí)遵循的步驟將是在 Karpathy’s CS231n 指南（https://cs231n.github.io/neural-networks-case-study/）中展示的基于 SQL 版本的 Python 示例。

模型

該模型含有以下參數(shù)：

輸入到隱藏層

W: 2×2 的權(quán)重矩陣（元素： w_00, w_01, w_10, w_11）

B: 2×1 的偏置向量（元素：b_0, b_1）

隱藏到輸出層

W2: 2×2 的權(quán)重矩陣(元素： w2_00, w2_01, w2_10, w2_11)

B2: 2×1 的偏置向量(元素：b2_0, b2_1)

訓(xùn)練數(shù)據(jù)存儲(chǔ)在 BigQuery 表格當(dāng)中，列 x1 和 x2 的輸入和輸出如下所示（表格名稱：example_project.example_dataset.example_table）

如前所述，我們將整個(gè)訓(xùn)練作為單個(gè) SQL 查詢語句來實(shí)現(xiàn)。在訓(xùn)練完成后，通過 SQL 查詢語句將會(huì)返回參數(shù)的值。正如你可能猜到的，這將是一個(gè)層層嵌套的查詢，我們將逐步構(gòu)建以準(zhǔn)備這個(gè)查詢語句。我們將會(huì)從最內(nèi)層的子查詢開始，然后逐個(gè)增加嵌套的外層。

前向傳播

首先，我們將權(quán)重參數(shù) W 和 W2 設(shè)為服從正態(tài)分布的隨機(jī)值，將權(quán)重參數(shù) B 和 B2 設(shè)置為 0。 W 和 W2 的隨機(jī)值可以通過 SQL 本身產(chǎn)生。為了簡單起見，我們將從外部生成這些值并在 SQL 查詢中使用。用于初始化參數(shù)的內(nèi)部子查詢?nèi)缦拢?/p>

請注意，表格 example_project.example_dataset.example_table 已經(jīng)包含了列 x1、 x2 和 y。模型參數(shù)將會(huì)被作為上述查詢結(jié)果的附加列添加。

接下來，我們將計(jì)算隱藏層的激活值。我們將使用含有元素 d0 和 d1 的向量 D 表示隱藏層。我們需要執(zhí)行矩陣操作 D = np.maximum(0, np.dot(X, W) + B)，其中 X 表示輸入向量（元素 x1 和 x2）。這個(gè)矩陣運(yùn)算包括將權(quán)重 W 和輸入 X 相乘，再加上偏置向量 B。然后，結(jié)果將被傳遞給非線性 ReLU 激活函數(shù)，該函數(shù)將會(huì)把負(fù)值設(shè)置為 0。SQL 中的等效查詢?yōu)椋?/p>

上面的查詢將兩個(gè)新列 d0 和 d1 添加到之前內(nèi)部子查詢的結(jié)果當(dāng)中。上述查詢的輸出如下所示。

這完成了從輸入層到隱藏層的一次轉(zhuǎn)換?，F(xiàn)在，我們可以執(zhí)行從隱藏層到輸出層的轉(zhuǎn)換了。

首先，我們將計(jì)算輸出層的值。公式是：scores = np.dot(D, W2) + B2。然后，我們將對計(jì)算出來的值用 softmax 函數(shù)來獲得每個(gè)類的預(yù)測概率。SQL 內(nèi)部的等價(jià)子查詢?nèi)缦拢?/p>

首先，我們將使用交叉熵?fù)p失函數(shù)來計(jì)算當(dāng)前預(yù)測的總損失。首先，計(jì)算每個(gè)樣本中正確類預(yù)測概率對數(shù)的負(fù)值。交叉熵?fù)p失只是這些 X 和 Y 實(shí)例中數(shù)值的平均值。自然對數(shù)是一個(gè)遞增函數(shù)，因此，將損失函數(shù)定義為負(fù)的正確類預(yù)測概率對數(shù)很直觀。如果正確類的預(yù)測概率很高，損失函數(shù)將會(huì)很低。相反，如果正確類的預(yù)測概率很低，則損失函數(shù)值將很高。

為了減少過擬合的風(fēng)險(xiǎn)，我們也將同樣增加 L2 正則化。在整體損失函數(shù)中，我們將包含 0.5*reg*np.sum(W*W) + 0.5*reg*np.sum(W2*W2)，其中 reg 是超參數(shù)。在損失函數(shù)中包括這一函數(shù)將會(huì)懲罰那些權(quán)重向量中較大的值。在查詢當(dāng)中，我們同樣會(huì)計(jì)算訓(xùn)練樣本的數(shù)量(num_examples)。這對于后續(xù)我們計(jì)算平均值來說很有用。SQL 查詢中計(jì)算整體損失函數(shù)的語句如下：

反向傳播

接下來，對于反向傳播，我們將計(jì)算每個(gè)參數(shù)對于損失函數(shù)的偏導(dǎo)數(shù)。我們使用鏈?zhǔn)椒▌t從最后一層開始逐層計(jì)算。首先，我們將通過使用交叉熵和 softmax 函數(shù)的導(dǎo)數(shù)來計(jì)算 score 的梯度。與此相對的查詢是：

在上文中，我們用 scores = np.dot(D, W2) + B2 算出了分?jǐn)?shù)。因此，基于分?jǐn)?shù)的偏導(dǎo)數(shù)，我們可以計(jì)算隱藏層 D 和參數(shù) W2，B2 的梯度。對應(yīng)的查詢語句是：

同理，我們知道 D = np.maximum(0, np.dot(X, W) + B)。因此，通過 D 的偏導(dǎo)，我們可以計(jì)算出 W 和 B 的導(dǎo)數(shù)。我們無須計(jì)算 X 的偏導(dǎo)，因?yàn)樗皇悄Ｐ偷膮?shù)，且也不必通過其它模型參數(shù)進(jìn)行計(jì)算。計(jì)算 W 和 B 的偏導(dǎo)的查詢語句如下：

最后，我們使用 W、B、W2 及 B2 各自的導(dǎo)數(shù)進(jìn)行更新操作。計(jì)算公式是 param = learning_rate * d_param ，其中l(wèi)earning_rate 是參數(shù)。為了體現(xiàn) L2 正則化，我們會(huì)在計(jì)算 dW 和 dW2 時(shí)加入一個(gè)正則項(xiàng) reg*weight。我們也去掉如 dw_00, correct_logprobs 等緩存的列，它們曾在子查詢時(shí)被創(chuàng)建，用于保存訓(xùn)練數(shù)據(jù)(x1, x2 及 y 列) 和模型參數(shù)（權(quán)重和偏置項(xiàng)）。對應(yīng)的查詢語句如下：

這包含了正向和反向傳播的一整個(gè)迭代過程。以上查詢語句將返回更新后的權(quán)重和偏置項(xiàng)。部分結(jié)果如下所示：

為了進(jìn)行多次訓(xùn)練迭代，我們將反復(fù)執(zhí)行上述過程。用一個(gè)簡單 Python 函數(shù)足以搞定，代碼鏈接如下：https://github.com/harisankarh/nn-sql-bq/blob/master/training.py。因?yàn)榈螖?shù)太多，查詢語句嵌套嚴(yán)重。執(zhí)行 10 次訓(xùn)練迭代的查詢語句地址如下：https://github.com/harisankarh/nn-sql-bq/blob/master/out.txt

因?yàn)椴樵冋Z句的多重嵌套和復(fù)雜度，在 BigQuery 中執(zhí)行查詢時(shí)多項(xiàng)系統(tǒng)資源告急。BigQuery 的標(biāo)準(zhǔn) SQL 擴(kuò)展的縮放性比傳統(tǒng) SQL 語言要好。即使是標(biāo)準(zhǔn) SQL 查詢，對于有 100k 個(gè)實(shí)例的數(shù)據(jù)集，也很難執(zhí)行超過 10 個(gè)迭代。因?yàn)橘Y源的限制，我們將會(huì)使用一個(gè)簡單的決策邊界來評(píng)估模型，如此一來，我們就可以在少量迭代后得到較好的準(zhǔn)確率。

我們將使用一個(gè)簡單的數(shù)據(jù)集，其輸入 X1、X2 服從標(biāo)準(zhǔn)正態(tài)分布。二進(jìn)制輸出 y 簡單判斷 x1 + x2 是否大于 0。為了更快的訓(xùn)練完 10 個(gè)迭代，我們使用一個(gè)較大的學(xué)習(xí)率 2.0（注意：這么大的學(xué)習(xí)率并不推薦實(shí)際使用，可能會(huì)導(dǎo)致發(fā)散）。將上述語句執(zhí)行 10 個(gè)迭代得出的模型參數(shù)如下：

我們將使用 Bigquery 的函數(shù) save to table 把結(jié)果保存到一個(gè)新表。我們現(xiàn)在可以在訓(xùn)練集上執(zhí)行一次推理來比較預(yù)測值和預(yù)期值的差距。查詢語句片段在以下鏈接中：https://github.com/harisankarh/nn-sql-bq/blob/master/query_for_prediction.sql。僅通過十個(gè)迭代，我們的準(zhǔn)確率就可達(dá) 93%（測試集上也差不多）。

如果我們把迭代次數(shù)加到 100 次，準(zhǔn)確率高達(dá) 99%。

優(yōu)化

下面是對本項(xiàng)目的總結(jié)。我們由此獲得了哪些啟發(fā)？如你所見，資源瓶頸決定了數(shù)據(jù)集的大小以及迭代執(zhí)行的次數(shù)。除了祈求谷歌開放資源上限，我們還有如下優(yōu)化手段來解決這個(gè)問題。

創(chuàng)建中間表和多個(gè) SQL 語句有助于增加迭代數(shù)。例如，前 10 次迭代的結(jié)果可以存儲(chǔ)在一個(gè)中間表中。同一查詢語句在執(zhí)行下 10 次迭代時(shí)可以基于這個(gè)中間表。如此，我們就執(zhí)行了 20 個(gè)迭代。這個(gè)方法可以反復(fù)使用，以應(yīng)對更大的查詢迭代。

相比于在每一步增加外查詢，我們應(yīng)該盡可能的使用函數(shù)的嵌套。例如，在一個(gè)子查詢中，我們可以同時(shí)計(jì)算 scores 和 probs，而不應(yīng)使用 2 層嵌套查詢。

在上例中，所有的中間項(xiàng)都被保留直到最后一個(gè)外查詢執(zhí)行。其中有些項(xiàng)如可以早些刪除（盡管 SQL 引擎可能會(huì)自動(dòng)的執(zhí)行這類優(yōu)化）。

多嘗試應(yīng)用用戶自定義的函數(shù)。如果感興趣，你可以看看這個(gè) BigQuery 的用戶自定義函數(shù)的服務(wù)模型的項(xiàng)目（但是，無法使用 SQL 或者 UDFs 進(jìn)行訓(xùn)練）。

意義

現(xiàn)在，讓我們來看看基于深度學(xué)習(xí)的分布式 SQL 引擎的深層含義。 BigQuery、Presto 這類 SQL 倉庫引擎的一個(gè)局限性在于，查詢操作是在 CPU 而不是 GPU 上執(zhí)行的。研究 blazingdb 和 mapd 等基于 GPU 加速的數(shù)據(jù)庫查詢結(jié)果想必十分有趣。一個(gè)簡單的研究方法就是使用分布式 SQL 引擎執(zhí)行查詢和數(shù)據(jù)分布，并用 GPU 加速數(shù)據(jù)庫執(zhí)行本地計(jì)算。

退一步來看，我們已經(jīng)知道執(zhí)行分布式深度學(xué)習(xí)很難。分布式 SQL 引擎在數(shù)十年內(nèi)已經(jīng)有了大量的研究工作，并產(chǎn)出如今的查詢規(guī)劃、數(shù)據(jù)分區(qū)、操作歸置、檢查點(diǎn)設(shè)置、多查詢調(diào)度等技術(shù)。其中有些可以與分布式深度學(xué)習(xí)相結(jié)合。如果你對這些感興趣，請看看這篇論文（https://sigmodrecord.org/publications/sigmodRecord/1606/pdfs/04_vision_Wang.pdf），該論文對分布式數(shù)據(jù)庫和分布式深度學(xué)習(xí)展開了廣泛的研究討論。

希望你如我一般享受其中！請?jiān)谙路椒窒砟愕母咭姟Ｎ液軜芬饣貜?fù)。

網(wǎng)友解答:

謝邀。在Cross Validate網(wǎng)站上，有個(gè)人要求在SQL中實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的代碼，它引起了我的注意，所以我決定試下看看。

這個(gè)問題很有趣，但我可以理解為什么這個(gè)人會(huì)問這樣一個(gè)問題。由于使用的數(shù)學(xué)和術(shù)語以及人們試圖找到更熟悉的方式來理解神經(jīng)網(wǎng)絡(luò)，大量的論文和書籍看起來有點(diǎn)復(fù)雜和壓倒性。無論如何，這個(gè)問題在某種程度上對我來說很有趣。閱讀完之后，我開始思考它是如何實(shí)現(xiàn)的，然后我想出了一個(gè)簡單的解決方案，我將在這里作為本文的要點(diǎn)提出。

首先，它不是真正的工作或者你可以實(shí)際使用的東西，只是為了好玩。解決方案不靈活，難以擴(kuò)展（但可能）。第二件事是我制作了一個(gè)簡單的工作原型，因此代碼中可能有一些地方可以進(jìn)行優(yōu)化和簡化，但同樣，我并不關(guān)心速度或準(zhǔn)確性。重點(diǎn)是讓它發(fā)揮作用。但是，如果有人感興趣的話，我很樂意為代碼添加一些改進(jìn)。

我添加了三個(gè)包含最重要信息的表。 Dataset和DatasetClass表包含有關(guān)數(shù)據(jù)集的所有信息。正如您在下圖中所看到的，這些表具有非常簡潔的結(jié)構(gòu)，但如果仔細(xì)查看數(shù)據(jù)集和參數(shù)表，它們可能看起來有點(diǎn)奇怪?；旧希鼈兪蔷仃?。每行存儲(chǔ)有關(guān)此矩陣中的單元格的信息。矩陣中的每個(gè)單元格值應(yīng)該具有三個(gè)主要屬性：行索引，列索引和值。為什么這種格式更好，我們很快就會(huì)看到。

由于已經(jīng)創(chuàng)建了數(shù)據(jù)庫方案，我們可以在數(shù)據(jù)集表中添加數(shù)據(jù)。為簡單起見，我使用了簡單的數(shù)據(jù)集。

正如您所看到的，分類任務(wù)非常簡單，使用沒有隱藏層的簡單神經(jīng)網(wǎng)絡(luò)可以更容易地找到一個(gè)好的解決方案。接下來，我們需要為網(wǎng)絡(luò)定義默認(rèn)參數(shù)。

關(guān)于上面的代碼，應(yīng)該注意一件重要的事情。隨機(jī)函數(shù)包括種子參數(shù)。這意味著所有重量都是可重復(fù)的，但如果你愿意你可以改變它。以下是您應(yīng)在“參數(shù)”表中看到的權(quán)重。

現(xiàn)在表包含了我們需要的所有數(shù)據(jù)。接下來我們需要一個(gè)訓(xùn)練網(wǎng)絡(luò)的功能。這一步有點(diǎn)復(fù)雜。我已經(jīng)將訓(xùn)練功能分成了更容易實(shí)現(xiàn)的小部分。

權(quán)重和數(shù)據(jù)集之間的矩陣乘積

來自網(wǎng)絡(luò)的輸出計(jì)算

損失函數(shù)計(jì)算

梯度計(jì)算

使用梯度下降算法更新權(quán)重

第一步并不像看起來那么容易。但我試著盡可能簡單地做到這一點(diǎn)。我在SQL select語句的所有列和參數(shù)中進(jìn)行了所有sum和product操作。該解決方案根本不靈活。但是這里有一種更靈活的方式來處理MySQL中的矩陣。

如果您運(yùn)行上一個(gè)代碼，您將獲得此表：

它很容易閱讀表格。但是如果你在矩陣中有更多的元素，那就不會(huì)那樣了。

下一步是非線性。在MySQL中，很容易創(chuàng)建一個(gè)函數(shù)。

作為損失函數(shù)，我使用了交叉熵。我以類似的方式定義了一些其他函數(shù)，這些函數(shù)將在以后的過程中變得有用。所以現(xiàn)在我們可以通過網(wǎng)絡(luò)創(chuàng)建前向傳播并計(jì)算其損失。讓我們把所有東西放在一起，看看我們得到了什么。

最后一個(gè)查詢通過網(wǎng)絡(luò)進(jìn)行前向傳播并生成兩個(gè)值。第一個(gè)是行索引，用于定義數(shù)據(jù)集中的樣本。第二個(gè)是定義概率的網(wǎng)絡(luò)輸出。以下是網(wǎng)絡(luò)對前五個(gè)樣本的預(yù)測：

我們可以輕松檢查準(zhǔn)確率：

運(yùn)行上述代碼，得到準(zhǔn)確率為0.50，說明我們的PURE SQL神經(jīng)網(wǎng)絡(luò)成功了！

我會(huì)在這里發(fā)布所有與科技、科學(xué)有關(guān)的有趣文章，歡迎訂閱我的酷米號(hào)。偶爾也回答有趣的問題，有問題可隨時(shí)在評(píng)論區(qū)回復(fù)和討論。

（碼字不易，若文章對你幫助可點(diǎn)贊支持~）

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

相關(guān)推薦