導航:首頁 > 網路信息 > 為什麼用深度網路不用寬網路

為什麼用深度網路不用寬網路

發布時間:2024-12-01 02:46:40

網路的寬度如何影響深度學習模型的性能

網路的寬度如何影響深度學習模型的性能?

首先,更深的網路帶來了逐層抽象的顯著優勢,不斷精煉提取知識,但僅有一層網路時,學習的變換非常復雜,難以實現。寬度在另一個維度上起作用,讓每一層學習到更加豐富的特徵,如不同方向和頻率的紋理特徵。

以AlexNet模型的第一個卷積層為例,96個通道捕捉了各種模式,包括彩色和灰色圖像,分別側重於紋理和顏色信息的提取。卷積核與Gabor特徵運算元相似,用於識別圖像中的頻率分布。

若網路過窄,每一層能捕獲的模式有限,增加深度也無法提取足夠信息。經典網路的第一個卷積層寬度為96至24層,似乎已接近下限。網路必須具有足夠的深度才能逼近某些函數,而寬度減少後,性能提升的深度呈多項式增長,這表明寬度不如深度重要。

網路寬度並非越大越好,研究顯示寬度對性能影響顯著。例如,Mobilenet通過調整乘因子控制每層寬度,發現性能隨著寬度增加持續下降。在GHIM數據集和Place20上,實驗結果也驗證了這一觀點。

在深度和寬度之間,深度對模型性能更為敏感,調整寬度更能提升性能。更窄的網路在某些情況下表現出更好的性能,這表明增加網路深度不如增加寬度更有利於性能提升。

如何更有效地利用寬度?首先,提高每一層通道的利用率,例如通過參數互補減少計算量,同時維持原有網路寬度和性能。其次,利用其他通道信息補償,如DenseNet通過各層間concat實現高性能網路。

總之,網路寬度對深度學習模型性能至關重要,深度和寬度都是不可或缺的。寬度的利用需要優化,以提高性能並減少計算量。

② 神經網路,流形和拓撲

本文翻譯自colah的博客中的文章《Neural Networks, Manifolds, and Topology》

鏈接:http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/

發布於2014年4月6日

關鍵詞:拓撲,神經網路,深度學習,流形假設(manifold hypothesis)

最近,深度神經網路給人們帶來很大的振奮,引起了極大的興趣,因為其在像計算機視覺等領域中取得的突破性成果。[1]

但是,人們對其仍存在一些擔憂。一個是要真正理解一個神經網路在做什麼是一件十分具有挑戰的事情。如果一個人將其訓練得很好,它可以取得高質量的結果,但是要理解其是如何做到這一點很難。如果網路出現故障,很難了解哪裡出現了問題。

雖然,總體上來說要理解深度神經網路的行為具有挑戰性,但事實證明,探索低維深度神經網路要容易得多,低維深度神經網路是指每層中只有少量神經元的網路。事實上,我們可以創建可視化來完全理解這種網路的行為和訓練過程。這種觀點將使我們能夠更深入地了解神經網路的行為,並觀察到神經網路和一個稱為拓撲的數學領域之間的聯系。

從中可以得到許多有趣的東西,包括能夠對某些特定數據集進行分類的神經網路復雜度的基本下界。

讓我們從一個非常簡單的數據集開始,在平面上有兩條曲線。網路將學習把點歸類為屬於一個或另一個。

對於這個問題,可視化神經網路行為的明顯方法 - 或者任何分類演算法 - 就是簡單地看一下它如何對每個可能的數據點進行分類。

我們將從最簡單的神經網路類別開始,只有一個輸入層和一個輸出層。這樣的網路只是試圖通過用直線劃分它們來分離這兩類數據。

那種網路不是很有趣。現代神經網路通常在其輸入和輸出之間具有多個層,稱為「隱藏」層。至少有一個。

和前面一樣,我們可以通過查看它對域中不同點的劃分來可視化該網路的行為。它使用比直線更復雜的曲線將數據分離。

對於每一層,網路都會轉換數據,創建一個新的表示。[2] 我們可以查看每個表示中的數據以及網路如何對它們進行分類。當我們到達最終表示時,網路將只繪制一條穿過數據的線(或者,在更高維度下,繪制一個超平面)。

在之前的可視化中,我們以「原始」表示形式查看了數據。當我們看輸入層時,你可以想到這一點。現在我們將在第一層轉換後查看它。你可以把它想像成我們在看隱藏層。

每個維度對應於層中神經元的發射。

在上一節中概述的方法中,我們通過查看與每個層對應的表示來學習理解網路。這給了我們一個離散的表示序列。

棘手的部分是理解我們如何從一個到另一個。值得慶幸的是,神經網路層具有很好的屬性,使這很容易實現。

在神經網路中使用各種不同類型的層。我們將討論tanh(雙曲正切)層作為一個具體示例。 tanh層 tanh(Wx + b) 包括:

1. 經過「權重」矩陣 W 的線性變換

2. 經過矢量 b 的平移

3. 點式地應用tanh。

我們可以將其視為一個連續的轉換,如下所示:

其他標准層的過程大致相同,包括仿射變換,然後逐點應用單調激活函數。

我們可以應用這種技術來理解更復雜的網路。例如,以下網路使用四個隱藏層對兩個略微糾纏的螺旋進行分類。隨著時間的推移,我們可以看到它從「原始」表示轉變為它為了對數據進行分類而學到的更高級別的表示。雖然螺旋最初是纏繞的,但最終它們是線性可分的。

另一方面,以下網路也使用多個層,無法對兩個更糾纏的螺旋進行分類。

值得明確指出的是,這些任務只是有些挑戰,因為我們使用的是低維神經網路。如果我們使用更廣泛的網路,所有這一切都會非常容易。

(Andrej Karpathy基於ConvnetJS做了一個很好的演示,它允許您通過這種對訓練的可視化來互動式地探索網路!)

每一層都伸展並占據空間,但它永遠不會削減,折斷或折疊它。直覺上,我們可以看到它保留了拓撲屬性。例如,如果一個集合之前是連通的那其之後也是連通的(反之亦然)。

像這樣不會影響拓撲的變換,稱為同胚。在形式上,它們是雙向連續函數的雙射。

定理 :如果權重矩陣W是非奇異的,則具有 N 個輸入和 N 個輸出的層是同胚。 (雖然需要注意域和范圍。)

證明 :讓我們一步一步考慮:

1. 假設W具有非零行列式。然後它是具有線性逆的雙射線性函數。線性函數是連續的。因此,乘以 W 是同胚。

2. 平移是同胚的。

3. tanh(和sigmoid和softplus但不是ReLU)是具有連續逆的連續函數。如果我們對我們考慮的域和范圍保持謹慎,它們就是雙射的。逐點應用它們是同胚。

因此,如果 W 具有非零行列式,則我們的層是同胚。 ∎

如果我們將這些層中任意多個組合在一起,這個結果就會繼續存在。

考慮一個二維數據集,有兩個類A和B⊂R2:

A={x|d(x,0)<1/3}

B={x|2/3<d(x,0)<1}

聲明 :如果沒有具有3個或更多隱藏單位的層,神經網路就無法對此數據集進行分類,無論深度如何。

如前所述,使用S形單元或softmax層進行分類等同於嘗試找到在最終表示中分離A和B的超平面(或在這種情況下為線)。由於只有兩個隱藏單元,網路在拓撲上無法以這種方式分離數據,並且註定要在此數據集上失敗。

在下面的可視化中,我們觀察到網路訓練時的隱藏表示以及分類線。正如我們所看到的那樣,它正在努力學習如何做到這一點。

最終,它會被拉入一個相當低效的局部最小值。 雖然,它實際上能夠達到~ 80% 的分類准確度。

這個例子只有一個隱藏層,但無論如何都會失敗。

證明 :每一層都是同胚,或者層的權重矩陣具有行列式0.如果它是一個同胚,A仍然被B包圍,並且一條線不能將它們分開。 但是假設它有一個行列式為0:那麼數據集會在某個軸上折疊。 由於我們處理與原始數據集同胚的某些東西,A被B包圍,並且在任何軸上折疊意味著我們將有一些A和B混合的點並且變得無法區分。∎

如果我們添加第三個隱藏單元,問題就變得微不足道了。 神經網路學習以下表示:

通過這種表示,我們可以使用超平面分離數據集。

為了更好地了解正在發生的事情,讓我們考慮一個更簡單的1維數據集:

A=[−1/3,1/3]

B=[−1,−2/3]∪[2/3,1]

如果不使用兩個或更多隱藏單元的層,我們就無法對此數據集進行分類。 但是如果我們使用有兩個單元的層,我們學會將數據表示為一條很好的曲線,允許我們用一條線來將不同的類分隔開來:

發生了什麼? 一個隱藏單元在x > -1/2時學會開火,一個在x > 1/2時學會開火。當第一個開火但第二個沒開火時,我們知道我們在A中。

這與現實世界的數據集,比如圖像數據有關嗎? 如果你真的認真對待流形假設,我認為值得考慮。

流形假設是自然數據在其嵌入空間中形成低維流形。 理論上[3]和實驗上[4]都有理由認為這是真的。 如果你相信這一點,那麼分類演算法的任務就是從根本上分離出一堆糾結的流形。

在前面的例子中,一個類完全包圍了另一個類。 然而,狗圖像流形似乎不太可能被貓圖像流形完全包圍。 但是,正如我們將在下一節中看到的那樣,還有其他更合理的拓撲情況可能仍然存在問題。

另一個值得考慮的有趣數據集是兩個鏈接的圓環, A 和 B .

與我們考慮的先前數據集非常相似,如果不使用n+1維,即第4維,則無法分離此數據集。

鏈接是在結理論中研究的,這是一個拓撲領域。 有時當我們看到一個鏈接時,它是否是一個非鏈接(一堆東西糾結在一起,但可以通過連續變形分開)並不是很明顯。

如果使用僅有3個單元的層的神經網路可以對其進行分類,那麼它就是非鏈接。 (問題:理論上,所有非鏈接是否都可以被只有3個單元的網路進行分類?)

從這個結的角度來看,我們對神經網路產生的連續可視化的表示不僅僅是一個很好的動畫,它還是一個解開鏈接的過程。在拓撲中,我們將其稱為原始鏈接和分離鏈接之間的環境同位素(ambient isotopy)。

形式上,流形A和B之間的環境同位素是連續函數F:[0,1]×X→Y,使得每個Ft是從X到其范圍的同胚,F0是恆等函數,F1將A映射到B。也就是說,Ft連續地從A向自身映射轉換到A向B映射。

定理 :在輸入和網路層表示之間存在環境同位素,如果:a) W 不是奇異的,b)我們願意置換隱藏層中的神經元,並且c)存在多於1個隱藏單元。

證明 :同樣,我們分別考慮網路的每個階段:

1. 最難的部分是線性變換。 為了使這成為可能,我們需要 W 有一個正的行列式。 我們的前提是它不是零,如果它是負的,我們可以通過切換兩個隱藏的神經元來翻轉符號,那麼我們可以保證行列式是正的。 正行列式矩陣的空間是路徑連通的,因此存在 p :[ 0,1 ] →  GLn (R)5,使得  p(0) = Id  且  p(1) = W 。 我們可以用函數  x → p(t)x  連續地從恆等函數轉換到 W 變換,在每個時間點 t 將 x 乘以連續轉換矩陣 p(t) 。

2. 我們可以用函數 x → x + tb 不斷地從恆等函數轉換到b轉換。

3. 通過函數: x → (1- t)x +tσ(x) ,我們可以不斷地從恆等函數過渡到σ的逐點使用。∎

我想可能有興趣自動發現這種環境同位素並自動證明某些鏈接的等價性,或某些鏈接是可分離的。知道神經網路能否擊敗現有技術水平將會很有趣。

(顯然確定結是否平凡是NP問題。這對神經網路來說不是好兆頭。)

到目前為止我們談到的那種鏈接似乎不太可能出現在現實世界的數據中,但是有更高的維度的拓展。在現實世界的數據中可能存在這樣的事情似乎是合理的。

鏈接和結是一維流形,但我們需要4個維度才能解開所有這些。類似地,人們可能需要更高維度的空間以能夠解開n維流形。所有n維流形都可以在 2n + 2 維中解開。[6]

(我對結理論知之甚少,真的需要更多地了解有關維度和鏈接的知識。如果我們知道流形可以嵌入到n維空間中,而不是流形的維數,我們有什麼限制? )

一個神經網路要做的自然的事情,非常簡單的路線,是試圖將流形分開,並盡可能地拉伸纏繞的部分。 雖然這不會接近真正的解決方案,但它可以實現相對較高的分類准確度並且是誘人的局部最小值。

它會在它試圖拉伸的區域中表現為 非常高的衍生物 (very high derivatives)和近乎不連續性。我們知道這些事情會發生.[7] 在數據點處懲罰層的衍生物的收縮懲罰是對抗這種情況的自然方式.[8]

由於這些局部極小值從試圖解決拓撲問題的角度來看是絕對無用的,拓撲問題可能提供了探索解決這些問題的良好動機。

另一方面,如果我們只關心實現良好的分類結果,似乎我們可能不在乎。如果數據流形的一小部分被另一個流形鉤住,對我們來說這是一個問題嗎?盡管存在這個問題,似乎我們也應該能夠獲得主觀上來看不錯的分類結果。

(我的直覺是試圖欺騙這個問題是一個壞主意:很難想像它不會是一個死胡同。特別是在一個優化問題中,局部最小值是一個大問題,選擇一個架構,不能真正解決問題似乎是表現不佳的秘訣。)

我對標准神經網路層的思考越多 - 即是,通過仿射變換後跟一個逐點激活函數 - 我感覺更加失去理智。 很難想像這些對於操縱流形真的很有益。

或許有一種非常不同的層可以用來組成更傳統的層?

我自然想到的是學習一個矢量場,這個矢量場帶有我們想要改變流形的方向:

然後根據它來變形空間:

人們可以在固定點學習矢量場(只需從訓練集中取一些固定點作為錨點)並以某種方式進行插值。 上面的矢量場的形式如下:

其中v0和v1是向量,f0(x)和f1(x)是n維高斯。 這受到徑向基函數的啟發。

我也開始思考線性可分性對於神經網路的需求可能是巨大的,雖然可能是不合理的。在某些方面,感覺自然要做的就是使用k近鄰(k-NN)。然而,k-NN的成功在很大程度上取決於它對數據進行分類的表示,因此在k-NN能夠很好地工作之前需要一個好的表示。

作為第一個實驗,我訓練了一些MNIST網路(兩層卷積網,沒有丟失),達到了約1%的測試誤差。然後我丟棄了最終的softmax層並使用了k-NN演算法。我能夠始終如一地將測試誤差降低0.1-0.2%。

盡管如此,還是覺得哪裡有些問題。網路仍在嘗試進行線性分類,但由於我們在測試時使用k-NN,因此能夠從錯誤中恢復一點。

由於1/距離的加權,k-NN在它所作用的表示方面是可微的。因此,我們可以直接為k-NN分類訓練一個網路。這可以被認為是一種「最近鄰」層,可以作為softmax的替代品。

我們不希望為每個小批量提供整個訓練集,因為這在計算上非常昂貴。我認為一個很好的方法是根據小批量的其他元素的類別對小批量的每個元素進行分類,給每個元素一個權重1 /(與分類目標的距離)。[9]

遺憾的是,即使使用復雜的架構,使用k-NN也只會降低5-4%的測試錯誤 - 使用更簡單的架構會導致更糟糕的結果。但是,我花了很少的精力去調整超參數。

盡管如此,我在美學上仍然喜歡這種方法,因為看起來我們「要求」網路做的事情要合理得多。我們希望相同流形的點比其他點更接近,而流形可以通過超平面分離。這應該對應於擴張不同類別流形之間的空間並使各個流形收縮。感覺就像簡化。

數據的拓撲屬性(例如鏈接)可能使得無法使用低維網路線性分離類,無論深度如何。即使在技術上可行的情況下,例如螺旋,這樣做也是非常具有挑戰性的。

為了使用神經網路准確地對數據進行分類,有時需要寬層。此外,傳統的神經網路層似乎不能很好地表示對流形的重要操作;即使我們巧妙地手工設置權重,緊湊地表示我們想要的變換也是一項挑戰。新的層,特別是受機器學習的流形觀點驅動的,可能是有用的補充。

(這是一個正在開發的研究項目。它是作為公開進行研究的實驗而發布的。我很高興收到你對這些想法的反饋:你可以內聯或最後發表評論。對於拼寫錯誤,技術錯誤或你想要的澄清看到添加,我們鼓勵你在github上發出pull請求。)

感謝Yoshua Bengio, Michael Nielsen, Dario Amodei, Eliana Lorch, Jacob Steinhardt, and Tamsyn Waterhouse的評論和鼓勵。

1. This seems to have really kicked off with  Krizhevsky  et al. , (2012) , who put together a lot of different pieces to achieve outstanding results. Since then there』s been a lot of other exciting work. ↩

2. These representations, hopefully, make the data 「nicer」 for the network to classify. There has been a lot of work exploring representations recently. Perhaps the most fascinating has been in Natural Language Processing: the representations we learn of words, called word embeddings, have interesting properties. See  Mikolov  et al.  (2013) ,  Turian  et al.  (2010) , and,  Richard Socher』s work . To give you a quick flavor, there is a  very nice visualization  associated with the Turian paper. ↩

3. A lot of the natural transformations you might want to perform on an image, like translating or scaling an object in it, or changing the lighting, would form continuous curves in image space if you performed them continuously. ↩

4.  Carlsson  et al.  found that local patches of images form a klein bottle. ↩

5. GLn(R)is the set of invertible n×n matrices on the reals, formally called the  general linear group  of degree n. ↩

6. This result is mentioned in  Wikipedia』s subsection on Isotopy versions . ↩

7. See  Szegedy  et al. , where they are able to modify data samples and find slight modifications that cause some of the best image classification neural networks to misclasify the data. It』s quite troubling. ↩

8. Contractive penalties were introced in contractive autoencoders. See  Rifai  et al. (2011) . ↩

9. I used a slightly less elegant, but roughly equivalent algorithm because it was more practical to implement in Theano: feedforward two different batches at the same time, and classify them based on each other. ↩

③ 【深度剖析】寬頻、手機流量、隨身WIFI,三者對比,到底該怎麼選

在數字化時代,網路連接方式的多樣化帶來了便利,也帶來了選擇的難題。寬頻、手機流量、隨身WiFi,三者各有千秋,如何做出最合適的選擇?本文將從技術、成本、使用場景等多個維度進行深度剖析,為您提供一份全面的決策指南。

一、寬頻:穩定為王

寬頻網路以其穩定性和高速度贏得了家庭和企業用戶的青睞。根據《中國寬頻發展聯盟》發布的數據,截至2023年,中國固定寬頻用戶數已超過5億戶,普及率高達95%。

穩定性:寬頻網路通常不受移動信號覆蓋和天氣影響,穩定性高。

速度:光纖寬頻的普及使得家庭寬頻速度可達百兆甚至千兆。

適用場景:家庭、辦公室等固定場所。

中國信息通信研究院指出,隨著"寬頻中國"戰略的實施,寬頻網路質量持續提升,用戶體驗不斷改善。

二、手機流量:移動互聯的先鋒

手機流量以其移動性和即時性成為現代生活的重要組成部分。隨著4G、5G網路的普及,手機流量的速度和穩定性也得到了顯著提升。

據GSMA報告,全球移動用戶數量已超過53億,其中4G用戶佔比超過一半。我國的5G移動用戶約有8億,普及率超過52.2%(統計截止2023年9月)。

5G網路的商用化,使得手機流量速度可達千兆級別。

國際電信聯盟(ITU)認為,5G將為移動寬頻帶來革命性的改變。

三、隨身WiFi:靈活的網路解決方案

隨身WiFi作為一種新興的網路接入方式,以其便攜性和靈活性受到用戶歡迎。

根據美國知名市場研究公司ABI的預測,到2025年,全球WiFi晶元出貨量將超過45億顆,年復合增長率達到7.3%,預示著一個高速增長的未來!

另一家權威公司Mordor Intelligence的研究揭示了無線路由器市場的強勁增長:預計到2029年增長至236.4億美元,年復合增長率為9.20%!

而無線WiFi市場的增長更是令人矚目,預計到2029年市場規模將飆升至313.8億美元,年復合增長率預計可達14.19%,這個漲幅無疑將重塑我們的數字生活!

事實上,全球WiFi設備出貨量自2018年的32億台,預計將在2026年超過50億台,這一增長軌跡清晰地表明了市場需求的強勁勢頭。

因此可以說,對於無線WiFi行業,全球專業機構都充滿信心!從WiFi晶元,到無線路由器,再到整個無線WiFi市場,整體規模都在急劇擴大!

近年來,隨著相關技術的突飛猛進,隨身WiFi可以說是完美融合了寬頻和手機流量的優勢,好一點的產品已經可以做到「在家是寬頻,在外是WiFi」,不僅是方便隨身攜帶,還能在同時連接多台設備的情況下保持高速且穩定的網速!

四、綜合評估:選擇最合適的上網方式

寬頻挺好,手機流量也行,隨身WiFi也不錯,那麼問題來了:到底要怎麼選呢?這個問題不能一概而論,需要綜合考慮成本、速度、穩定性、便攜性等多個因素。適合自己的,才是最好的。以下將從成本、網速與穩定性、便攜性幾個方面來剖析:

1、成本

寬頻費用和手機話費套餐基本都是綁定的,一般至少每月都是大幾十,甚至上百。(但一個尷尬的問題是,現在人基本不怎麼打電話,話費基本上都算在流量上了。)

隨身WiFi的費用參差不齊,有高得離譜的5G網,成本價就得快兩千了,賣給消費者就更貴了。也有便宜得離譜的,九塊九那種,但是不靠譜啊:①晶元可能是二手的,網速起不來;②套餐費可能充一次漲一次,讓你越投入越多……

不過,靠譜的隨身WiFi的價格也是相當靠譜的,一個月二十多是完全可能的,要是幾個人拼著用,那就更劃算了。

2、網速和穩定性

寬頻是有線的,速度當然是最快、最穩定的,一般商務辦公和家用比較普遍。但問題停電了就用不了了。

手機網路的速度跟手機和區域信號強度相關,一般是沒問題的,除非是偏遠山區、地下室、海上等,還有就是蘋果機的信號會差一點。

隨身WiFi的網速最神奇,它雖然和手機使用同樣的信號基站,但由於其更「專業」的WiFi功能,有更富裕的空間把天線體積做大,所以在信號強度上要優於手機。另外使用隨身WiFi作為手機的配件,可減少手機本身的損耗,這也是這個產品的一個重要價值。

3、便攜性

寬頻網路不具備便攜性,只能固定在那裡。

手機網路的便攜性次之,因為要綜合考慮流量成本、電量消耗、信號強度、對手機的損傷等因素。

隨身WiFi的便攜性最佳,它一般只有手掌大小,有的不用插電,充一次使用10小時都沒問題,完美解決一整天的用網問題。

總之,寬頻、手機流量、隨身WiFi各有所長,選擇時需根據個人的實際需求和使用場景來決定。

不過個人覺得,隨身WiFi確實更有綜合優勢。小編身邊不少人都停了家裡的寬頻、降低了手機套餐費,只因為買了隨身WiFi。

閱讀全文

與為什麼用深度網路不用寬網路相關的資料

熱點內容
word中文字的編輯 瀏覽:219
c語言點名程序 瀏覽:372
字體下好安裝在ps哪個文件里 瀏覽:805
網路上瓢蟲是什麼意思 瀏覽:872
光貓重置數據後有什麼變化嗎 瀏覽:161
linux下查看二進制文件 瀏覽:429
java面試時的項目介紹範文 瀏覽:120
手機系統文件夾怎麼清理 瀏覽:680
微信小程序怎麼賣商品 瀏覽:159
linux文件系統的結構 瀏覽:87
電腦里文件怎麼刪除文件夾在哪裡 瀏覽:876
1602顯示屏代碼 瀏覽:834
proface密碼 瀏覽:190
什麼app幫別人買感冒葯 瀏覽:365
華為終端客服微信 瀏覽:33
文件後面加內容應該怎麼取名 瀏覽:959
可以學會講白話的app有哪些 瀏覽:332
mysql資料庫navicat 瀏覽:246
word如何固定文本框 瀏覽:974
什麼文件轉換為pst 瀏覽:76

友情鏈接