
正則化的極大似然函數?正則化系數如何確定

大家好,感謝邀請,今天來為大家分享一下正則化的極大似然函數的問題,以及和正則化系數如何確定的一些困惑,大家要是還不太明白的話,也沒有關系,因為接下來將為大家分享,希望可...
大家好,感謝邀請,今天來為大家分享一下正則化的極大似然函數的問題,以及和正則化系數如何確定的一些困惑,大家要是還不太明白的話,也沒有關系,因為接下來將為大家分享,希望可以幫助到大家,解決大家的問題,下面就開始吧!
對于工程來說,機器學習的數學基礎重要嗎
數學在機器學習中非常重要,但我們通常只是借助它理解具體算法的理論與實際運算過程。近日加州大學圣巴巴拉分校的PaulJ.Atzberger回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發高效使用現有方法,或開發新方法來整合特定領域與任務所需要的先驗知識。
近期研究人員越來越多地關注將機器學習方法應用到科學、工程應用中。這主要是受自然語言處理(NLP)和圖像分類(IC)[3]領域近期發展的影響。但是,科學和工程問題有其獨特的特性和要求,對高效設計和部署機器學習方法帶來了新挑戰。這就對機器學習方法的數學基礎,以及其進一步的發展產生了強大需求,以此來提高所使用方法的嚴密性,并保證更可靠、可解釋的結果。正如近期當前最優結果和統計學習理論中「沒有免費的午餐」定理所述,結合某種形式的歸納偏置和領域知識是成功的必要因素[3,6]。因此,即使是現有廣泛應用的方法,也對進一步的數學研究有強需求,以促進將科學知識和相關歸納偏置整合進學習框架和算法中。本論文簡單討論了這些話題,以及此方向的一些思路[1,4,5]。
在構建機器學習方法的理論前,簡要介紹開發和部署機器學習方法的多種模態是非常重要的。監督學習感興趣的是在不完美條件下找出輸入數據x的標注與輸出數據之間的函數關系f,即y=f(x)+ξ,不完美條件包括數據有限、噪聲ξ不等于0、維度空間過大或其他不確定因素。其他模態包括旨在發現數據內在結構、找到簡潔表征的無監督學習,使用部分標注數據的半監督學習,以及強化學習。本文聚焦監督學習,不過類似的挑戰對于其他模態也會存在。
應該強調近期很多機器學習算法的成功(如NLP、IC),都取決于合理利用與數據信號特質相關的先驗知識。例如,NLP中的Word2Vec用于在預訓練步驟中獲取詞標識符的詞嵌入表示,這種表示編碼了語義相似性[3]。在IC中,卷積神經網絡(CNN)的使用非常普遍,CNN通過在不同位置共享卷積核權重而整合自然圖像的先驗知識,從而獲得平移不變性這一重要的屬性[3]。先驗知識的整合甚至包括對這些問題中數據信號的內在層級和構造本質的感知,這促進了深層架構這一浪潮的興起,深層架構可以利用分布式表征高效捕捉相關信息。
在科學和工程領域中,需要類似的思考才能獲取對該領域的洞察。同時我們需要對機器學習算法進行調整和利用社區近期進展,以便高效使用這些算法。為了準確起見,本文對監督學習進行了簡要描述。與傳統的逼近理論(approximationtheory)相反,監督學習的目的不僅是根據已知數據逼近最優解f,還要對抗不確定因素,使模型在未見過的數據上也能獲得很好的泛化性能。這可以通過最小化損失函數L來獲得,其中L的期望定義了真實風險。L有很多不同的度量方法,如最小二乘法中的?(x,y,f)=(f(x)?y)^2,或最大似然方法?(x,y,f)=?log(p(y|x,f))。但是,R(f)在實踐中是無法計算的,因為模型從數據中獲得的關于分布D的信息有限,這促進我們在實踐中使用替代誤差(surrogateerror),如經驗風險。從統計學上來說,使用經驗風險也有很大的成本,因為當數據量不夠大時Rhat可能不會均勻地收斂至真實風險R(f)。但是,因為f來自離散假設空間H,且H在任意選擇的復雜度c(f)下可能都是無限空間,若c(f)滿足時,你可以在m個樣本上推出泛化誤差邊界:
其中,概率1?δ適用于隨機數據集[2]。類似的邊界也可以從具備其他復雜度(如VC維或Rademacher復雜度)的連續假設空間中推導出。這在數學層面上捕捉了當前很多對應RHS優化的訓練方法和學習算法。常見的選擇是適用于有限空間的經驗風險最小化,使用c(f)=log(|H|),其中c不再在正則化中發揮作用。
我們可以了解到如何通過對假設空間H和c(f)的謹慎選擇來實現更好的泛化與更優的性能。對于科學和工程應用而言,這可能包括通過設計c(f)或限制空間H來整合先驗信息。例如限制H僅保持符合物理對稱性的函數、滿足不可壓縮等限制、滿足守恒定律,或者限制H滿足更常見的線性或非線性PDE的類別[1,4,5]。這可以更好地對齊優秀的c(f)和Rhat,并確保更小的真實風險R(f)。盡管傳統上這是機器學習的重點,但這不是唯一策略。
正如近期深度學習方法所展示的那樣,你可以使用復雜的假設空間,但不再依賴于隨機梯度下降等訓練方法,而是支持更低復雜度的模型以僅保留與預測Y相關的輸入信號X。類似的機會也存在于科學和工程應用中,這些應用可獲得關于輸入信號相關部分的大量先驗知識。例如,作為限制假設空間的替代方法,訓練過程中你可以在輸入數據上執行隨機旋轉,以確保選擇的模型可以在對稱情況下保持預測結果不變。還有很多利用對輸入數據和最終目標的洞察來結合這些方法的可能性。
我們看到即使在本文提到的泛化邊界類型方面也可以獲取大量新觀點。針對改進邊界和訓練方法做進一步的數學研究,可能對高效使用現有方法或開發新方法來整合先驗知識方面大有裨益。我們希望本文可以作為在一般理論和當前訓練算法中進行數學研究的開端,開發出更多框架和方法來更好地適應科學和工程應用。
相關論文:ImportanceoftheMathematicalFoundationsofMachineLearningMethodsforScientificandEngineeringApplications
什么是概率論中的最大似然估計
在這篇文章中,我將解釋參數估計的最大似然法是什么,并通過一個簡單的例子來演示該方法。有些內容需要理解基本的概率論的概念,比如聯合概率和事件的獨立性等定義。我寫了一篇博客文章介紹了這些基本概念,所以如果你認為你需要復習一下的話,盡管點擊閱讀吧。(鏈接:https://medium.com/@jonnybrooks04/probability-concepts-explained-introduction-a7c0316de465)
什么是參數?
在機器學習中,我們經常使用一個模型來描述所觀察到的數據產生的過程。例如,我們可以使用一個隨機森林模型來分類客戶是否會取消訂閱服務(稱為流失建模),或者我們可以用線性模型根據公司的廣告支出來預測公司的收入(這是一個線性回歸的例子)。每個模型都包含自己的一組參數,這些參數最終定義了模型的樣子。
我們可以把線性模型寫成y=mx+c的形式。在廣告預測收入的例子中,x可以表示廣告支出,y是產生的收入。m和c則是這個模型的參數。這些參數的不同值將在坐標平面上給出不同的直線(見下圖)。
參數值不同的三個線性模型。
因此,參數為模型定義了一個藍圖。只有將參數選定為特定值時,才會給出一個描述給定現象的模型實例。
最大似然估計的直觀解釋
最大似然估計是一種確定模型參數值的方法。確定參數值的過程,是要找到能夠最大化模型產生真實觀察到的數據的可能性的那一組參數。
上述的定義可能聽起來還是有點模糊,那么讓我們通過一個例子來幫助理解這一點。
假設我們從某個過程中觀察了10個數據點。例如,每個數據點可以代表一個學生回答特定考試問題的時間長度(以秒為單位)。這10個數據點如下圖所示
我們觀察到的10個(假設的)數據點
我們首先要決定我們認為哪個模型最適合描述生成數據的過程。這一部至關重要。至少,我們應該對使用哪種模型有一個不錯的想法。這個判斷通常來自于一些領域內專家,但我們不在這里討論這個問題。
對于這些數據,我們假設數據生成過程可以用高斯分布(正態分布)進行充分描述。對以上數字目測一番就可以得知,高斯分布是合理的,因為這10個點的大部分都集中在中間,而左邊和右邊的點都很少。(對只使用10個數據點的做出這樣的草率決定是不明智的,但考慮到我生成了這些數據點,我們就湊合著用吧)。
回想一下高斯分布有兩個參數:均值μ和標準差σ。這些參數的不同值會對應不同的曲線(就像上面的直線一樣)。我們想知道**哪條曲線最可能產生我們觀察到的數據點?(見下圖)。用最大似然估計法,我們會找到與數據擬合得最好的μ、σ的值。
10個數據點和可能得出這些數據的高斯分布。f1是正態分布,均值為10、方差為2.25(方差等于標準偏差的平方),這也可以表示為f1~N(10,2.25)。f2~N(10,9),f3~N(10,0.25),而f4~N(8,2.25)。最大似然的目標是找到最有可能觀察到已知數據的分布的參數值。
我當時生成數據的真實分布是f1~N(10,2.25),也就是上圖中的藍色曲線。
計算最大似然估計
現在我們對最大似然估計有了直觀的理解,我們可以繼續學習如何計算參數值了。我們找到的參數值被稱為最大似然估計(MLE)。
我們同樣將用一個例子來演示這個過程。假設我們這次有三個數據點,我們假設它們是從一個被高斯分布充分描述的過程中生成的。這些點是9、9.5和11。那么我們如何計算這個高斯分布的最大似然估計參數值μ和σ呢?
我們要計算的是觀察到所有這些數據的總概率,也就是所有觀測數據點的聯合概率分布。要做到這一點,我們需要計算一些可能會很難算出來的條件概率。我們將在這里做出我們的第一個假設。**假設每個數據點都是獨立于其他數據點生成的。**這個假設能讓計算更容易些。如果事件(即生成數據的過程)是獨立的,那么觀察所有數據的總概率就是單獨觀察到每個數據點的概率的乘積(即邊緣概率的乘積)。
從高斯分布中生成的單個數據點x的(邊緣)概率是:
在表達式P(x;μ,σ)中的分號是為了強調在分號后的符號都是概率分布的參數。所以千萬不要把這個與一個條件概率相混淆。條件概率一般會用一根豎線來表達,比如說P(A|B)。
在我們的例子中,觀察到這三個數據點的總(聯合)概率是:
我們只要找出能夠讓上述表達式最大的μ、σ的值就可以了。
如果你在數學課上學過微積分,那么你可能會意識到有一種技巧可以幫助我們找到函數的最大值(和最小值)。它被稱為微分。我們所要做的就是求出函數的導數,把導函數設為零然后重新排列方程,使其參數成為方程的未知數。然后就這樣,我們將得到參數的MLE值。我將串講一下這些步驟,但我假設讀者知道如何對常用函數進行微分。如果你想要更詳細的解釋,請在評論中告訴我。
對數似然函數
上述的總概率表達式實際上是很難微分,所以它幾乎總是通過對表達式取自然對數進行簡化。這完全沒問題,因為自然對數是一個單調遞增的函數。這意味著,如果x軸上的值增加,y軸上的值也會增加(見下圖)。這一點很重要,因為它確保了概率的對數值的最大值出現在與原始概率函數相同的點上。因此,我們可以用更簡單的對數概率來代替原來的概率。
原函數的單調性,左邊是y=x,右邊是(自然)對數函數y=ln(x)。
這是一個非單調函數的例子,因為當你在圖上從左到右考察,f(x)的值會上升,然后下降,然后又上升。
取初始表達式的對數能得到:
我們可以用對數的運算法則再一次簡化這個表達式,得到:
這個表達式可以通過求導得到最大值。在這個例子中,我們要找到平均值,μ。為此我們對函數求μ的偏導數,得到:
最后,設置等式的左邊為零,然后以μ為準整理式子,可以得到:
這樣我們就得到了μ的最大似然估計。我們可以用同樣的方法得到σ的最大似然估計,這留給有興趣的讀者自己練習。
結束語
最大似然估計總是能精確地得到解嗎?
簡單來說,不能。更有可能的是,在真實的場景中,對數似然函數的導數仍然是難以解析的(也就是說,很難甚至不可能人工對函數求微分)。因此,一般采用最大期望值算法等迭代方法為參數估計找到數值解。但總體思路還是一樣的。
為什么叫「最大似然(最大可能性)」,而不是「最大概率」呢?
好吧,這只是統計學家們賣弄學問(但也是有充分的理由)。大多數人傾向于混用「概率」和「可能性」這兩個名詞,但統計學家和概率理論家都會區分這兩個概念。通過觀察這個等式,我們可以更好地明確這種混淆的原因。
這兩個表達式是相等的!所以這是什么意思?我們先來定義P(data;μ,σ)它的意思是「在模型參數μ、σ條件下,觀察到數據data的概率」。值得注意的是,我們可以將其推廣到任意數量的參數和任何分布。
另一方面,L(μ,σ;data)的意思是「我們在觀察到一組數據data之后,參數μ、σ取特定的值的可能性。」
上面的公式表示,給定參數的數據的概率等于給定數據的參數的可能性。但是,盡管這兩個值是相等的,但是可能性和概率從根本上是提出了兩個不同的問題——一個是關于數據的,另一個是關于參數值的。這就是為什么這種方法被稱為最大似然法(極大可能性),而不是最大概率。
什么時候最小二乘參數估計和最大似然估計結果相同?
最小二乘法是另一種常用的機器學習模型參數估計方法。結果表明,當模型向上述例子中一樣被假設為高斯分布時,MLE的估計等價于最小二乘法。對于更深入的數學推導,請參閱這些幻燈片。(鏈接:https://web.archive.org/web/20111202153913/http:/www.cs.cmu.edu/~epxing/Class/10701/recitation/recitation3.pdf)
直覺上,我們可以通過理解兩種方法的目的來解釋這兩種方法之間的聯系。對于最小二乘參數估計,我們想要找到最小化數據點和回歸線之間總距離平方的直線(見下圖)。在最大似然估計中,我們想要最大化數據出現的總概率。當待求分布被假設為高斯分布時,最大概率會在數據點接近平均值時找到。由于高斯分布是對稱的,這等價于最小化數據點與平均值之間的距離。
有隨機高斯噪聲的數據點的回歸線
如果有什么不清楚的,或者我在上面說錯了什么,請留下評論。在下一篇文章中,我將介紹貝葉斯推斷,以及它如何應用于參數估計。
什么是似然比
似然比(likelihoodratio,LR)是反映真實性的一種指標,屬于同時反映靈敏度和特異度的復合指標。
未來根據檢驗水平去決定臨界值c,需要求出在零假設成立時的分布。但這只能在樣本分布為指數型,截斷型等幾種情況下可以做到。威爾克斯(Wilks)在1938年證明了:在一定的正則條件下,在零假設下以分布為極限分布,這可以用來在樣本量很大的時候近似地決定臨界值c。因此,似然比檢驗基本上是大樣本檢驗。
極大似然估計公式
極大似然估計(MaximumLikelihoodEstimation)是統計學中常用的一種估計方法。它的基本思想是,在給定模型參數的情況下,選擇使得樣本觀測數據出現的概率最大的模型參數值。極大似然估計的公式如下:
L(θ)=∏f(x_i|θ)
其中,L(θ)表示樣本觀測數據出現的概率,θ表示模型參數,f(x_i|θ)表示樣本x_i出現的概率。
正則化的極大似然函數和正則化系數如何確定的問題分享結束啦,以上的文章解決了您的問題嗎?歡迎您下次再來哦!
本文鏈接:http://www.wzyaohuidianqi.cn/ke/3306.html
