當(dāng)前位置:首頁 > 科技 > 正文

正則化的極大似然函數(shù)?正則化系數(shù)如何確定

正則化的極大似然函數(shù)?正則化系數(shù)如何確定

大家好,感謝邀請,今天來為大家分享一下正則化的極大似然函數(shù)的問題,以及和正則化系數(shù)如何確定的一些困惑,大家要是還不太明白的話,也沒有關(guān)系,因?yàn)榻酉聛韺榇蠹曳窒恚M?..

大家好,感謝邀請,今天來為大家分享一下正則化的極大似然函數(shù)的問題,以及和正則化系數(shù)如何確定的一些困惑,大家要是還不太明白的話,也沒有關(guān)系,因?yàn)榻酉聛韺榇蠹曳窒恚M梢詭椭酱蠹遥鉀Q大家的問題,下面就開始吧!

對于工程來說,機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)重要嗎

數(shù)學(xué)在機(jī)器學(xué)習(xí)中非常重要,但我們通常只是借助它理解具體算法的理論與實(shí)際運(yùn)算過程。近日加州大學(xué)圣巴巴拉分校的PaulJ.Atzberger回顧了機(jī)器學(xué)習(xí)中的經(jīng)驗(yàn)風(fēng)險與泛化誤差邊界,他認(rèn)為在科學(xué)和工程領(lǐng)域中,我們需要從基本理論與數(shù)學(xué)出發(fā)高效使用現(xiàn)有方法,或開發(fā)新方法來整合特定領(lǐng)域與任務(wù)所需要的先驗(yàn)知識。

近期研究人員越來越多地關(guān)注將機(jī)器學(xué)習(xí)方法應(yīng)用到科學(xué)、工程應(yīng)用中。這主要是受自然語言處理(NLP)和圖像分類(IC)[3]領(lǐng)域近期發(fā)展的影響。但是,科學(xué)和工程問題有其獨(dú)特的特性和要求,對高效設(shè)計和部署機(jī)器學(xué)習(xí)方法帶來了新挑戰(zhàn)。這就對機(jī)器學(xué)習(xí)方法的數(shù)學(xué)基礎(chǔ),以及其進(jìn)一步的發(fā)展產(chǎn)生了強(qiáng)大需求,以此來提高所使用方法的嚴(yán)密性,并保證更可靠、可解釋的結(jié)果。正如近期當(dāng)前最優(yōu)結(jié)果和統(tǒng)計學(xué)習(xí)理論中「沒有免費(fèi)的午餐」定理所述,結(jié)合某種形式的歸納偏置和領(lǐng)域知識是成功的必要因素[3,6]。因此,即使是現(xiàn)有廣泛應(yīng)用的方法,也對進(jìn)一步的數(shù)學(xué)研究有強(qiáng)需求,以促進(jìn)將科學(xué)知識和相關(guān)歸納偏置整合進(jìn)學(xué)習(xí)框架和算法中。本論文簡單討論了這些話題,以及此方向的一些思路[1,4,5]。

在構(gòu)建機(jī)器學(xué)習(xí)方法的理論前,簡要介紹開發(fā)和部署機(jī)器學(xué)習(xí)方法的多種模態(tài)是非常重要的。監(jiān)督學(xué)習(xí)感興趣的是在不完美條件下找出輸入數(shù)據(jù)x的標(biāo)注與輸出數(shù)據(jù)之間的函數(shù)關(guān)系f,即y=f(x)+ξ,不完美條件包括數(shù)據(jù)有限、噪聲ξ不等于0、維度空間過大或其他不確定因素。其他模態(tài)包括旨在發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu)、找到簡潔表征的無監(jiān)督學(xué)習(xí),使用部分標(biāo)注數(shù)據(jù)的半監(jiān)督學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)。本文聚焦監(jiān)督學(xué)習(xí),不過類似的挑戰(zhàn)對于其他模態(tài)也會存在。

應(yīng)該強(qiáng)調(diào)近期很多機(jī)器學(xué)習(xí)算法的成功(如NLP、IC),都取決于合理利用與數(shù)據(jù)信號特質(zhì)相關(guān)的先驗(yàn)知識。例如,NLP中的Word2Vec用于在預(yù)訓(xùn)練步驟中獲取詞標(biāo)識符的詞嵌入表示,這種表示編碼了語義相似性[3]。在IC中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的使用非常普遍,CNN通過在不同位置共享卷積核權(quán)重而整合自然圖像的先驗(yàn)知識,從而獲得平移不變性這一重要的屬性[3]。先驗(yàn)知識的整合甚至包括對這些問題中數(shù)據(jù)信號的內(nèi)在層級和構(gòu)造本質(zhì)的感知,這促進(jìn)了深層架構(gòu)這一浪潮的興起,深層架構(gòu)可以利用分布式表征高效捕捉相關(guān)信息。

在科學(xué)和工程領(lǐng)域中,需要類似的思考才能獲取對該領(lǐng)域的洞察。同時我們需要對機(jī)器學(xué)習(xí)算法進(jìn)行調(diào)整和利用社區(qū)近期進(jìn)展,以便高效使用這些算法。為了準(zhǔn)確起見,本文對監(jiān)督學(xué)習(xí)進(jìn)行了簡要描述。與傳統(tǒng)的逼近理論(approximationtheory)相反,監(jiān)督學(xué)習(xí)的目的不僅是根據(jù)已知數(shù)據(jù)逼近最優(yōu)解f,還要對抗不確定因素,使模型在未見過的數(shù)據(jù)上也能獲得很好的泛化性能。這可以通過最小化損失函數(shù)L來獲得,其中L的期望定義了真實(shí)風(fēng)險。L有很多不同的度量方法,如最小二乘法中的?(x,y,f)=(f(x)?y)^2,或最大似然方法?(x,y,f)=?log(p(y|x,f))。但是,R(f)在實(shí)踐中是無法計算的,因?yàn)槟P蛷臄?shù)據(jù)中獲得的關(guān)于分布D的信息有限,這促進(jìn)我們在實(shí)踐中使用替代誤差(surrogateerror),如經(jīng)驗(yàn)風(fēng)險。從統(tǒng)計學(xué)上來說,使用經(jīng)驗(yàn)風(fēng)險也有很大的成本,因?yàn)楫?dāng)數(shù)據(jù)量不夠大時Rhat可能不會均勻地收斂至真實(shí)風(fēng)險R(f)。但是,因?yàn)閒來自離散假設(shè)空間H,且H在任意選擇的復(fù)雜度c(f)下可能都是無限空間,若c(f)滿足時,你可以在m個樣本上推出泛化誤差邊界:

其中,概率1?δ適用于隨機(jī)數(shù)據(jù)集[2]。類似的邊界也可以從具備其他復(fù)雜度(如VC維或Rademacher復(fù)雜度)的連續(xù)假設(shè)空間中推導(dǎo)出。這在數(shù)學(xué)層面上捕捉了當(dāng)前很多對應(yīng)RHS優(yōu)化的訓(xùn)練方法和學(xué)習(xí)算法。常見的選擇是適用于有限空間的經(jīng)驗(yàn)風(fēng)險最小化,使用c(f)=log(|H|),其中c不再在正則化中發(fā)揮作用。

我們可以了解到如何通過對假設(shè)空間H和c(f)的謹(jǐn)慎選擇來實(shí)現(xiàn)更好的泛化與更優(yōu)的性能。對于科學(xué)和工程應(yīng)用而言,這可能包括通過設(shè)計c(f)或限制空間H來整合先驗(yàn)信息。例如限制H僅保持符合物理對稱性的函數(shù)、滿足不可壓縮等限制、滿足守恒定律,或者限制H滿足更常見的線性或非線性PDE的類別[1,4,5]。這可以更好地對齊優(yōu)秀的c(f)和Rhat,并確保更小的真實(shí)風(fēng)險R(f)。盡管傳統(tǒng)上這是機(jī)器學(xué)習(xí)的重點(diǎn),但這不是唯一策略。

正如近期深度學(xué)習(xí)方法所展示的那樣,你可以使用復(fù)雜的假設(shè)空間,但不再依賴于隨機(jī)梯度下降等訓(xùn)練方法,而是支持更低復(fù)雜度的模型以僅保留與預(yù)測Y相關(guān)的輸入信號X。類似的機(jī)會也存在于科學(xué)和工程應(yīng)用中,這些應(yīng)用可獲得關(guān)于輸入信號相關(guān)部分的大量先驗(yàn)知識。例如,作為限制假設(shè)空間的替代方法,訓(xùn)練過程中你可以在輸入數(shù)據(jù)上執(zhí)行隨機(jī)旋轉(zhuǎn),以確保選擇的模型可以在對稱情況下保持預(yù)測結(jié)果不變。還有很多利用對輸入數(shù)據(jù)和最終目標(biāo)的洞察來結(jié)合這些方法的可能性。

我們看到即使在本文提到的泛化邊界類型方面也可以獲取大量新觀點(diǎn)。針對改進(jìn)邊界和訓(xùn)練方法做進(jìn)一步的數(shù)學(xué)研究,可能對高效使用現(xiàn)有方法或開發(fā)新方法來整合先驗(yàn)知識方面大有裨益。我們希望本文可以作為在一般理論和當(dāng)前訓(xùn)練算法中進(jìn)行數(shù)學(xué)研究的開端,開發(fā)出更多框架和方法來更好地適應(yīng)科學(xué)和工程應(yīng)用。

相關(guān)論文:ImportanceoftheMathematicalFoundationsofMachineLearningMethodsforScientificandEngineeringApplications

什么是概率論中的最大似然估計

在這篇文章中,我將解釋參數(shù)估計的最大似然法是什么,并通過一個簡單的例子來演示該方法。有些內(nèi)容需要理解基本的概率論的概念,比如聯(lián)合概率和事件的獨(dú)立性等定義。我寫了一篇博客文章介紹了這些基本概念,所以如果你認(rèn)為你需要復(fù)習(xí)一下的話,盡管點(diǎn)擊閱讀吧。(鏈接:https://medium.com/@jonnybrooks04/probability-concepts-explained-introduction-a7c0316de465)

什么是參數(shù)?

在機(jī)器學(xué)習(xí)中,我們經(jīng)常使用一個模型來描述所觀察到的數(shù)據(jù)產(chǎn)生的過程。例如,我們可以使用一個隨機(jī)森林模型來分類客戶是否會取消訂閱服務(wù)(稱為流失建模),或者我們可以用線性模型根據(jù)公司的廣告支出來預(yù)測公司的收入(這是一個線性回歸的例子)。每個模型都包含自己的一組參數(shù),這些參數(shù)最終定義了模型的樣子。

我們可以把線性模型寫成y=mx+c的形式。在廣告預(yù)測收入的例子中,x可以表示廣告支出,y是產(chǎn)生的收入。m和c則是這個模型的參數(shù)。這些參數(shù)的不同值將在坐標(biāo)平面上給出不同的直線(見下圖)。

參數(shù)值不同的三個線性模型。

因此,參數(shù)為模型定義了一個藍(lán)圖。只有將參數(shù)選定為特定值時,才會給出一個描述給定現(xiàn)象的模型實(shí)例。

最大似然估計的直觀解釋

最大似然估計是一種確定模型參數(shù)值的方法。確定參數(shù)值的過程,是要找到能夠最大化模型產(chǎn)生真實(shí)觀察到的數(shù)據(jù)的可能性的那一組參數(shù)。

上述的定義可能聽起來還是有點(diǎn)模糊,那么讓我們通過一個例子來幫助理解這一點(diǎn)。

假設(shè)我們從某個過程中觀察了10個數(shù)據(jù)點(diǎn)。例如,每個數(shù)據(jù)點(diǎn)可以代表一個學(xué)生回答特定考試問題的時間長度(以秒為單位)。這10個數(shù)據(jù)點(diǎn)如下圖所示

我們觀察到的10個(假設(shè)的)數(shù)據(jù)點(diǎn)

我們首先要決定我們認(rèn)為哪個模型最適合描述生成數(shù)據(jù)的過程。這一部至關(guān)重要。至少,我們應(yīng)該對使用哪種模型有一個不錯的想法。這個判斷通常來自于一些領(lǐng)域內(nèi)專家,但我們不在這里討論這個問題。

對于這些數(shù)據(jù),我們假設(shè)數(shù)據(jù)生成過程可以用高斯分布(正態(tài)分布)進(jìn)行充分描述。對以上數(shù)字目測一番就可以得知,高斯分布是合理的,因?yàn)檫@10個點(diǎn)的大部分都集中在中間,而左邊和右邊的點(diǎn)都很少。(對只使用10個數(shù)據(jù)點(diǎn)的做出這樣的草率決定是不明智的,但考慮到我生成了這些數(shù)據(jù)點(diǎn),我們就湊合著用吧)。

回想一下高斯分布有兩個參數(shù):均值μ和標(biāo)準(zhǔn)差σ。這些參數(shù)的不同值會對應(yīng)不同的曲線(就像上面的直線一樣)。我們想知道**哪條曲線最可能產(chǎn)生我們觀察到的數(shù)據(jù)點(diǎn)?(見下圖)。用最大似然估計法,我們會找到與數(shù)據(jù)擬合得最好的μ、σ的值。

10個數(shù)據(jù)點(diǎn)和可能得出這些數(shù)據(jù)的高斯分布。f1是正態(tài)分布,均值為10、方差為2.25(方差等于標(biāo)準(zhǔn)偏差的平方),這也可以表示為f1~N(10,2.25)。f2~N(10,9),f3~N(10,0.25),而f4~N(8,2.25)。最大似然的目標(biāo)是找到最有可能觀察到已知數(shù)據(jù)的分布的參數(shù)值。

我當(dāng)時生成數(shù)據(jù)的真實(shí)分布是f1~N(10,2.25),也就是上圖中的藍(lán)色曲線。

計算最大似然估計

現(xiàn)在我們對最大似然估計有了直觀的理解,我們可以繼續(xù)學(xué)習(xí)如何計算參數(shù)值了。我們找到的參數(shù)值被稱為最大似然估計(MLE)。

我們同樣將用一個例子來演示這個過程。假設(shè)我們這次有三個數(shù)據(jù)點(diǎn),我們假設(shè)它們是從一個被高斯分布充分描述的過程中生成的。這些點(diǎn)是9、9.5和11。那么我們?nèi)绾斡嬎氵@個高斯分布的最大似然估計參數(shù)值μ和σ呢?

我們要計算的是觀察到所有這些數(shù)據(jù)的總概率,也就是所有觀測數(shù)據(jù)點(diǎn)的聯(lián)合概率分布。要做到這一點(diǎn),我們需要計算一些可能會很難算出來的條件概率。我們將在這里做出我們的第一個假設(shè)。**假設(shè)每個數(shù)據(jù)點(diǎn)都是獨(dú)立于其他數(shù)據(jù)點(diǎn)生成的。**這個假設(shè)能讓計算更容易些。如果事件(即生成數(shù)據(jù)的過程)是獨(dú)立的,那么觀察所有數(shù)據(jù)的總概率就是單獨(dú)觀察到每個數(shù)據(jù)點(diǎn)的概率的乘積(即邊緣概率的乘積)。

從高斯分布中生成的單個數(shù)據(jù)點(diǎn)x的(邊緣)概率是:

在表達(dá)式P(x;μ,σ)中的分號是為了強(qiáng)調(diào)在分號后的符號都是概率分布的參數(shù)。所以千萬不要把這個與一個條件概率相混淆。條件概率一般會用一根豎線來表達(dá),比如說P(A|B)。

在我們的例子中,觀察到這三個數(shù)據(jù)點(diǎn)的總(聯(lián)合)概率是:

我們只要找出能夠讓上述表達(dá)式最大的μ、σ的值就可以了。

如果你在數(shù)學(xué)課上學(xué)過微積分,那么你可能會意識到有一種技巧可以幫助我們找到函數(shù)的最大值(和最小值)。它被稱為微分。我們所要做的就是求出函數(shù)的導(dǎo)數(shù),把導(dǎo)函數(shù)設(shè)為零然后重新排列方程,使其參數(shù)成為方程的未知數(shù)。然后就這樣,我們將得到參數(shù)的MLE值。我將串講一下這些步驟,但我假設(shè)讀者知道如何對常用函數(shù)進(jìn)行微分。如果你想要更詳細(xì)的解釋,請在評論中告訴我。

對數(shù)似然函數(shù)

上述的總概率表達(dá)式實(shí)際上是很難微分,所以它幾乎總是通過對表達(dá)式取自然對數(shù)進(jìn)行簡化。這完全沒問題,因?yàn)樽匀粚?shù)是一個單調(diào)遞增的函數(shù)。這意味著,如果x軸上的值增加,y軸上的值也會增加(見下圖)。這一點(diǎn)很重要,因?yàn)樗_保了概率的對數(shù)值的最大值出現(xiàn)在與原始概率函數(shù)相同的點(diǎn)上。因此,我們可以用更簡單的對數(shù)概率來代替原來的概率。

原函數(shù)的單調(diào)性,左邊是y=x,右邊是(自然)對數(shù)函數(shù)y=ln(x)。

這是一個非單調(diào)函數(shù)的例子,因?yàn)楫?dāng)你在圖上從左到右考察,f(x)的值會上升,然后下降,然后又上升。

取初始表達(dá)式的對數(shù)能得到:

我們可以用對數(shù)的運(yùn)算法則再一次簡化這個表達(dá)式,得到:

這個表達(dá)式可以通過求導(dǎo)得到最大值。在這個例子中,我們要找到平均值,μ。為此我們對函數(shù)求μ的偏導(dǎo)數(shù),得到:

最后,設(shè)置等式的左邊為零,然后以μ為準(zhǔn)整理式子,可以得到:

這樣我們就得到了μ的最大似然估計。我們可以用同樣的方法得到σ的最大似然估計,這留給有興趣的讀者自己練習(xí)。

結(jié)束語

最大似然估計總是能精確地得到解嗎?

簡單來說,不能。更有可能的是,在真實(shí)的場景中,對數(shù)似然函數(shù)的導(dǎo)數(shù)仍然是難以解析的(也就是說,很難甚至不可能人工對函數(shù)求微分)。因此,一般采用最大期望值算法等迭代方法為參數(shù)估計找到數(shù)值解。但總體思路還是一樣的。

為什么叫「最大似然(最大可能性)」,而不是「最大概率」呢?

好吧,這只是統(tǒng)計學(xué)家們賣弄學(xué)問(但也是有充分的理由)。大多數(shù)人傾向于混用「概率」和「可能性」這兩個名詞,但統(tǒng)計學(xué)家和概率理論家都會區(qū)分這兩個概念。通過觀察這個等式,我們可以更好地明確這種混淆的原因。

這兩個表達(dá)式是相等的!所以這是什么意思?我們先來定義P(data;μ,σ)它的意思是「在模型參數(shù)μ、σ條件下,觀察到數(shù)據(jù)data的概率」。值得注意的是,我們可以將其推廣到任意數(shù)量的參數(shù)和任何分布。

另一方面,L(μ,σ;data)的意思是「我們在觀察到一組數(shù)據(jù)data之后,參數(shù)μ、σ取特定的值的可能性。」

上面的公式表示,給定參數(shù)的數(shù)據(jù)的概率等于給定數(shù)據(jù)的參數(shù)的可能性。但是,盡管這兩個值是相等的,但是可能性和概率從根本上是提出了兩個不同的問題——一個是關(guān)于數(shù)據(jù)的,另一個是關(guān)于參數(shù)值的。這就是為什么這種方法被稱為最大似然法(極大可能性),而不是最大概率。

什么時候最小二乘參數(shù)估計和最大似然估計結(jié)果相同?

最小二乘法是另一種常用的機(jī)器學(xué)習(xí)模型參數(shù)估計方法。結(jié)果表明,當(dāng)模型向上述例子中一樣被假設(shè)為高斯分布時,MLE的估計等價于最小二乘法。對于更深入的數(shù)學(xué)推導(dǎo),請參閱這些幻燈片。(鏈接:https://web.archive.org/web/20111202153913/http:/www.cs.cmu.edu/~epxing/Class/10701/recitation/recitation3.pdf)

直覺上,我們可以通過理解兩種方法的目的來解釋這兩種方法之間的聯(lián)系。對于最小二乘參數(shù)估計,我們想要找到最小化數(shù)據(jù)點(diǎn)和回歸線之間總距離平方的直線(見下圖)。在最大似然估計中,我們想要最大化數(shù)據(jù)出現(xiàn)的總概率。當(dāng)待求分布被假設(shè)為高斯分布時,最大概率會在數(shù)據(jù)點(diǎn)接近平均值時找到。由于高斯分布是對稱的,這等價于最小化數(shù)據(jù)點(diǎn)與平均值之間的距離。

有隨機(jī)高斯噪聲的數(shù)據(jù)點(diǎn)的回歸線

如果有什么不清楚的,或者我在上面說錯了什么,請留下評論。在下一篇文章中,我將介紹貝葉斯推斷,以及它如何應(yīng)用于參數(shù)估計。

什么是似然比

似然比(likelihoodratio,LR)是反映真實(shí)性的一種指標(biāo),屬于同時反映靈敏度和特異度的復(fù)合指標(biāo)。

未來根據(jù)檢驗(yàn)水平去決定臨界值c,需要求出在零假設(shè)成立時的分布。但這只能在樣本分布為指數(shù)型,截斷型等幾種情況下可以做到。威爾克斯(Wilks)在1938年證明了:在一定的正則條件下,在零假設(shè)下以分布為極限分布,這可以用來在樣本量很大的時候近似地決定臨界值c。因此,似然比檢驗(yàn)基本上是大樣本檢驗(yàn)。

極大似然估計公式

極大似然估計(MaximumLikelihoodEstimation)是統(tǒng)計學(xué)中常用的一種估計方法。它的基本思想是,在給定模型參數(shù)的情況下,選擇使得樣本觀測數(shù)據(jù)出現(xiàn)的概率最大的模型參數(shù)值。極大似然估計的公式如下:

L(θ)=∏f(x_i|θ)

其中,L(θ)表示樣本觀測數(shù)據(jù)出現(xiàn)的概率,θ表示模型參數(shù),f(x_i|θ)表示樣本x_i出現(xiàn)的概率。

正則化的極大似然函數(shù)和正則化系數(shù)如何確定的問題分享結(jié)束啦,以上的文章解決了您的問題嗎?歡迎您下次再來哦!

主站蜘蛛池模板: 丁香五月亚洲综合深深爱| 亚洲欧美日韩综合二区三区| 色久综合网精品一区二区| 亚洲综合日韩精品欧美综合区| 一本色道久久88综合日韩精品| 狠狠色噜噜色狠狠狠综合久久| 伊人色综合久久天天人守人婷| 亚洲国产综合人成综合网站| 2021精品国产综合久久| 五月丁香六月综合欧美在线 | 色综合色天天久久婷婷基地| 亚洲另类欧美综合久久图片区| 天天干天天色综合| 亚洲人成综合网站7777香蕉| 99久久国产综合精品五月天喷水| 婷婷亚洲综合五月天小说| 色综合久久天天综合| 色狠狠色狠狠综合天天| 久久天天日天天操综合伊人av| 天天久久狠狠色综合| 亚洲AV成人潮喷综合网| 色婷婷综合久久久中文字幕| 精品国产综合成人亚洲区| 久久综合综合久久狠狠狠97色88| 亚洲综合中文字幕无线码| 欧美激情中文字幕综合一区| 亚洲精品第一综合99久久| 观看 亚洲欧美日韩综合在线一区| 精品国产国产综合精品| 一本一道久久综合狠狠老| 炫硕日本一区二区三区综合区在线中文字幕 | 亚洲国产aⅴ综合网| 狠狠色丁香婷综合久久| 久久狠狠色狠狠色综合| 亚洲综合伊人久久综合| 亚洲AV综合色一区二区三区| 99久久国产综合精品五月天喷水| 亚洲五月激情综合图片区| 久久综合久久综合九色| 精品国产综合区久久久久久| 人人狠狠综合久久亚洲高清|