Sphinx 搜索性能優(yōu)化

[日期：2013-01-22] 來(lái)源：宇塵網(wǎng)絡(luò)幫助中心作者：宇塵網(wǎng)絡(luò)幫助中心閱讀：2696次

　　MySQL、Sphinx及許多數(shù)據(jù)庫(kù)和搜索引擎中的查詢(xún)是單線程的。比如說(shuō)，在一臺(tái)32個(gè)CPU核心、16個(gè)磁盤(pán)的R910服務(wù)器上執(zhí)行一個(gè)查詢(xún)，它最多只會(huì)用到一個(gè)核心和一個(gè)磁盤(pán)。沒(méi)錯(cuò)，只會(huì)使用一個(gè)。

　　如果查詢(xún)是CPU密集型作業(yè)，那么會(huì)使用大約3%的整機(jī)CPU能力(以上述32核機(jī)器為例)。如果是磁盤(pán)密集型，則大約會(huì)使用6%的整機(jī)IO能力(也是與上例同樣的配置，16個(gè)磁盤(pán)組成RAID10或RAID0)。

　　我再換個(gè)說(shuō)法吧。如果你在一臺(tái)單核單磁盤(pán)的機(jī)器上執(zhí)行了某個(gè)查詢(xún)，花了10秒，那么把同樣的查詢(xún)放到一臺(tái)32核16磁盤(pán)的機(jī)器上去跑，同樣需要10秒，不會(huì)有絲毫改善。

　　你早就知道這一點(diǎn)了，對(duì)吧？那么，我的問(wèn)題是——有沒(méi)有辦法可以改善呢？

　　如果是Sphinx，太棒了，答案是有！而且不需要花上太多的工夫。你甚至不需要修改應(yīng)用和數(shù)據(jù)庫(kù)，只需要稍微改下Sphinx的配置。

　　計(jì)劃

　　首先，我來(lái)說(shuō)明一下我們的目標(biāo)。

　　Sphinx本身就支持分布式搜索，在很久以前就已經(jīng)朝著水平擴(kuò)展的目標(biāo)來(lái)設(shè)計(jì)。如果索引在一臺(tái)機(jī)器上放不下，可以讓多臺(tái)機(jī)器分別對(duì)不同的部分進(jìn)行索引，設(shè)置一個(gè)聚合節(jié)點(diǎn)，負(fù)責(zé)從應(yīng)用接收請(qǐng)求，然后把請(qǐng)求再同時(shí)發(fā)給所有的數(shù)據(jù)節(jié)點(diǎn)，最后將它們返回的結(jié)果合并起來(lái)，返回給應(yīng)用。在應(yīng)用看起來(lái)，就好像只有一臺(tái)服務(wù)器在為它服務(wù)。

　　好，下面你猜怎么著？哈，我們可以把這個(gè)功能應(yīng)用到單臺(tái)機(jī)器上，讓我們的查詢(xún)快上n多倍。而且，現(xiàn)在Sphinx已經(jīng)支持這種做法了，所以我們根本不用再假裝查詢(xún)哪些遠(yuǎn)程節(jié)點(diǎn)。

　　還有另外一個(gè)好處，配置分布式搜索以后，索引是可以并行建的！

　　還是有一點(diǎn)需要注意，雖然這種做法可以加速絕大多數(shù)的查詢(xún)，但還是有一些例外的情況。因?yàn)�，并行的查�?xún)結(jié)果仍然需要合并起來(lái)，而這個(gè)合并過(guò)程是單線程的。而且，合并包括一些CPU密集的操作，如分級(jí)、排序，甚至用GROUP BY進(jìn)行COUNT，如果數(shù)據(jù)量很大，合并過(guò)程就會(huì)變成瓶頸。

　　要確認(rèn)這一點(diǎn)也很簡(jiǎn)單，只要查看Sphinx的查詢(xún)?nèi)罩荆纯疵總€(gè)查詢(xún)匹配的記錄數(shù)有多少，我們就心里有數(shù)了。

　　假設(shè)在服務(wù)器上一個(gè)索引配置如下 (很多細(xì)節(jié)都省略了):