新建大數據_如何架構大數據系統 hadoop

A. 如何架構大數據系統 hadoop

大數據數量龐大，格式多樣化。大量數據由家庭、製造工廠和辦公場所的各種設備、互聯網事務交易、社交網路的活動、自動化感測器、移動設備以及科研儀器等生成。它的爆炸式增長已超出了傳統IT基礎架構的處理能力，給企業和社會帶來嚴峻的數據管理問題。因此必須開發新的數據架構，圍繞「數據收集、數據管理、數據分析、知識形成、智慧行動」的全過程，開發使用這些數據，釋放出更多數據的隱藏價值。

一、大數據建設思路

1）數據的獲得

四、總結

基於分布式技術構建的大數據平台能夠有效降低數據存儲成本，提升數據分析處理效率，並具備海量數據、高並發場景的支撐能力，可大幅縮短數據查詢響應時間，滿足企業各上層應用的數據需求。

B. Excel表如何自動統計大數據

都沒有懂你的意思 806257916

C. 我國啟動首個大數據綜合試驗區建設

我國啟動首個大數據綜合試驗區建設

貴州大數據綜合試驗區建設9月18日正式啟動，致力於構建「先試先行的政策法規體系、跨界融合的產業生態體系、防控一體的安全保障體系」。這是國務院本月初印發《促進大數據發展行動綱要》後我國啟動的首個區域試點。

據新華社9月21日消息，貴州省委常委、貴陽市委書記、貴州省大數據產業發展領導小組副組長陳剛在此間召開的新聞發布會上說，貴州將全力打造大數據示範、大數據集聚、大數據應用、大數據交易、大數據金融服務、大數據交流合作、大數據創業創新「七大平台」，實施數據資源匯聚、政府數據共享開放、綜合治理示範提升、大數據便民惠民、大數據三大業態培育、傳統產業改造升級、信息基礎設施提升、人才培養引進、大數據安全保障、大數據區域試點統籌發展「十大工程」。

國家發改委高技術產業司信息化處處長王娜說，推進大數據綜合試驗區建設，將起到示範帶頭、統籌布局、先行先試三大作用。開展綜合試驗區的地區具備一定的基礎條件，在數據共享開放、大數據產業發展的支撐，數據應用創新以及數據安全保障方面有較好的基礎。通過綜合試驗區布局建設來強化大數據中心的國家統籌布局，可以有效控制新建中心，盤活存量資源，促進聚集發展。

按照要求，貴州省將通過綜合試驗區建設，探索大數據應用的創新模式，培育大數據交易新的做法，開展數據交易的市場試點、鼓勵產業鏈上下游之間的數據交換，探索數據資源機制，規范數據資源的交易行為，建設大數據的投融資體系，促進形成新的業態。

據了解，作為《促進大數據發展行動綱要》點名的大數據綜合試驗區，貴州省在全國率先籌建省級政府數據統一匯聚、共享、開放和交換平台——「雲上貴州」系統平台，明年將率先形成省、市、縣三級政府跨部門、跨區域、跨領域的數據共享共用新格局。此外，貴州將在全國率先完成信息基礎建設立法工作。

以上是小編為大家分享的關於我國啟動首個大數據綜合試驗區建設的相關內容，更多信息可以關注環球青藤分享更多干貨

D. 如何看待內蒙古各地新建的大數據中心，發展前景如何

目前來看，內抄蒙古的大數據、雲計算產業還處於發展階段，但是也涌現出一些比較可喜的成績，早期建成的大數據運營中心是包頭，包頭採取與中科曙光、中興股份、華為科技合作，建立起了內蒙古第一家大數據產業平台，主要服務包頭政務領域，後期，呼和浩特與中國電信、中國移動合作，在和林縣建立起雲計算中心，產業園規模居內蒙古之首，再後來，烏蘭察布與蘋果公司合作，建立大數據產業園，不過還處於起步階段，總體來說，包頭、呼和浩特這兩個城市在大數據、雲計算領域的起步比較早，產業成熟度較高，且高校雲集，有利於計算機、通信行業人才的聚集，前景不錯。

E. 全球大數據產業現狀及投資前景預測

全球大數據產業現狀及投資前景預測
縱觀國內外，大數據已經形成產業規模，並上升到國家戰略層面，大數據技術和應用呈現縱深發展。面向大數據的雲計算技術、大數據計算框架等不斷推出，新型大數據挖掘方法和演算法大量出現，大數據新模式、新業態層出不窮，傳統產業開始利用大數據實現轉型升級。人工智慧、深度學習、工業物聯網、虛擬現實、智慧城市等領域的發展推動大數據的應用普及。新興行業、傳統行業圍繞數據服務體系，已經形成了傳統行業數據平台、互聯網數據平台及行業資訊類數據平台。以數據應用為基礎的新一代數據服務企業，在促進主體行業發展的同時，同樣促進了行業內中小企業的發展。
1
大數據發展的產業環境分析
美國政策層面發力推動大數據應用發展。政府推出了一系列的公開數據計劃，在健康、能源、氣候、教育、金融、公共安全等領域開放數據和信息，促進創新的突破,從而推動經濟發展。美國致力於擴大聯邦數據公開范圍和受用對象的范圍，尤其擴大高價值數據資產，探討如何進一步擴展收集和分析工業競爭和創新相關的數據。
為了進一步挖掘聯邦政府數據的應用潛力，促進創新與社會進步，2016年1月美商務部發起了一項旨在使政府數據更加容易使用的數據易用性計劃(CDUP)。5月，白宮發布《聯邦大數據研發戰略計劃》，為未來的大數據研發列出7條戰略計劃，旨在建立大數據創新生態系統，加強數據分析能力，從大量、多樣、實時的資料庫中提取有效信息，服務於科學研究、經濟增長與國家安全。2016年，美國應用大數據預測選舉也引起世界關注，大數據應用開始為廣大公眾所關注，數據的真實性及數據安全成為關注焦點。
英國以數據共享為根本積極推動大數據平台建設。新建哈璀(Hartree)大數據中心，投資1.13億英鎊。新建艾倫圖靈研究所，投資4200萬英鎊，開展大數據科學與技術的研究。投資1.5億英鎊建立第一個國家級老年痴呆症研究所。建立應對重大疾病新的數學研究中心。英國成立大數據戰略委員會，發布《開放數據戰略白皮書》，統一政府數字平台，開通政府部門開放數據通道，設立數據開放共享獎勵基金，2018年還將出台「數據保護通則」的專門法規，旨在開發利用數據資源產生更大的商業價值和經濟增長。
瑞典啟動國家重點科研計劃(NFP)大數據專項(Big Data, NFP75)。2017年正式啟動，計劃投入資金2.5億瑞士法郎，從2017年至2020年為期4年。該專項主要分為三個板快：大數據信息技術：大數據分析基礎性研究、大數據基礎設施構架、資料庫和計算中心;大數據相關社會及法律問題：大數據涉及對社會經濟發展的影響預測(如對貿易、商務模式、人員交通及物流的影響)、個人隱私及空間的保護及相關的社會倫理和法律問題及對策等;大數據應用：對大數據在交通、健康、災害及社會風險控制、能源轉型領域的應用展開基礎性研究。瑞士國家重點科研計劃由瑞士聯邦政府推出，目的是對關系瑞士社會經濟發展全局的重要領域展開基礎性研究並提出對策建議。
我國各地政府積極為大數據發展營造環境。2014年、2015年「大數據」首次寫入國家《政府工作報告》。在2015年3月5日舉行的兩會中，李總理在政府工作報告中提到，制定「互聯網+」行動計劃，推動移動互聯網、雲計算、大數據、物聯網等與現代製造業結合，促進電子商務、工業互聯網和互聯網金融健康發展，引導互聯網企業拓展國際市場。
當前，《國家大數據戰略及行動綱要(2015-2025)》徵求意見稿完成。國家自然基金委、科技部支持了大量大數據研究項目;北京市、上海市、天津市、重慶市、廣東省、貴州省等制定了大數據發展規劃，多地開始建數據產業基地，天津擬打造國家數據聚集區，與北京、河北聯合建「京津冀大數據走廊」;重慶計劃將大數據培育成重要戰略性新興產業，加快建設兩江雲計算產業園，陝西西咸新區、湖北武漢光谷、貴州貴安新區等地提出要設國家級大數據基地。
上海成立數據交易中心。2016年4月1日，上海數據交易中心掛牌成立，上海數據交易中心是經上海市人民政府批准，上海市經濟和信息化委、上海市商務委聯合批復成立的國有控股混合所有制企業，承擔著促進商業數據流通、跨區域的機構合作和數據互聯、公共數據與商業數據融合應用等工作職能。交易中心以國內領先的「技術+規則」雙重架構，創新結合IKVLTP 六要素技術，採用自主知識產權的虛擬標識技術和二次加密數據配送技術，結合面向應用場景的交易規則，將在全面保障個人隱私、數據安全前提下推動數據聚合流動。
上海將圍繞「資源、技術、產業、應用、安全」融合聯動這一條主線，聚焦「政府治理和公共服務能力提升、經濟發展方式轉變」兩個方面，創新「交易機構+創新基地+產業基金+發展聯盟+研究中心」五位一體大數據產業鏈生態發展布局，力爭打造國家數據科學中心、亞太數據交換中心和全球「數據經濟」中心，形成集數據貿易、應用服務、先進產業為一體的大數據戰略高地。
2
大數據產業的行業需求預測
企業需求
傳統企業的大數據轉型。隨著互聯網化進程的不斷推進，在改變了用戶消費習慣的同時，眾多傳統企業面臨了一系列必須面對的問題，其中一條核心主線就是基於已有數據的使用以及對於用戶數據的採集。對於有效利用數據，很多傳統企業開展了試探性的使用和分析，並逐步結合互聯網平台，使數據形成閉環。地產、製造、金融企業已經在逐步建立互聯網銷售平台，其實平台的本身並不是去加大產品銷售量，而是通過平台對傳統營業網點、銷售渠道的信息進行有效管理，從而建立可供判斷或分析的數據之用。
更好的吸納客戶的潛在需求，更快的適應市場變化，從而帶動新一輪研發的生成或變革。而此類企業的成長點，市場化性質，及企業性質將區別於傳統企業，而走上新業態、新模式的道路。包括車聯網、互聯網金融、汽車電商、房產電商，都已經出現了苗頭。對於大數據產業的發展，傳統企業轉型是區別於其他領域的卻又獨樹一幟的重要組成部分。
平台企業的大數據戰略。對於相對IT投入較少，IT基礎較為薄弱的領域，比如零售、餐飲、服裝、農業、出版等行業，企業不會去自建雲計算及大數據平台，更多的則是會依靠專業化的數據服務企業或是數據服務平台來滿足數據分析的需求。行業數據服務平台架構的初衷，主要是用雲服務方式解決上述行業的信息化建設及運維需求。
目前上海類似的行業數據平台不少，建築業的築想網、醫葯業的安捷力等都是在行業垂直領域專業度很高的企業，而且較之通用、普適性的平台，此類平台的發展更具有和行業發展的共存性和相通性，是大數據產業發展過程中一個非常重要的組成部分。
互聯網企業大數據規模化發展。互聯網傳媒是推動企業接觸大數據服務中一個相對快速的行業，傳媒由傳統的單向被動模式轉變成為雙向互動模式，在吸引了用戶群體的同時也通過定義用戶肖像，來推動精準營銷。精準營銷使企業享受了新媒體帶來的最實惠的成果，也為企業帶來了一份較之傳統傳媒更加具體的數據分析報告。
同樣在互聯網領域，無論是社交平台、團購還是移動應用，在其互聯網平台構建的過程中，收集、匯總、分析數據是非常重要的一個環節。通過甄別不同年齡段、性別、愛好的用戶群，來精準定位推送不同的消息，而在這些精準定位的背後，則是每天幾十甚至幾百TB的數據增長量和分析量，可以說，有了互聯網才推進了大數據產業的發展。
熱點關聯領域需求
金融大數據。中國金融信息服務產業存在產業鏈分布廣、市場空間巨大的特點，但與此同時，又表現出產業集中度非常低的現狀。因此，未來必將經歷大量的並購整合，最終出現幾家龐大的IT服務機構。傳統金融服務領域的人才資源、市場能力、技術及研發方面在全國范圍內都具有不可比擬的優勢，產業環境、配套資源都非常成熟。
在金融信息服務產業鏈中，已經擁有了證券、期貨、金融期貨、科技技術等交易所以及鋼鐵、有色金屬等各類生產物資交易所，擁有像安碩信息、萬得資訊、金仕達、銀聯、普蘭金融、春雨供應鏈等一大批具有行業代表性的龍頭企業，還有一批以經爾緯為代表的掌握大數據技術及具有資源整合能力的公司。金融領域的資料庫建設比較完善且都為結構化的數據，隨著人工智慧、深度學習等新興技術的介入，大數據將顯示出大有可為的趨勢，對基於大數據分析的成果的需求也將越加旺盛。
交通大數據。一是智能交通，在交通和環境信息的基礎上，實現交付跟蹤，工作流程監督，和人力資源管理。在智能交通系統中，如果車輛使用了該應用，就可以監測到相關數據。智慧城市首席信息官可以使用從物聯網信息庫中獲取運輸和交通過程的信息。這將大大改善交通運輸，建立服務型的支付方式，而不是簡單的付款程序，如時間收費制度。
智慧城市的核心價值是根據交通數據來建立對公民有益的基礎政策。智能交通也產生了很多新的商業創新。二是自動駕駛，目前GOOGLE藉助大數據及車載技術和感測器,以及高級輔助駕駛系統、軟體、地圖數據、GPS和無線通信數據等，實現了無人駕駛，可以預見，不久的將來，大數據在自動駕駛領域的應用越來越被看好。
新媒體大數據。大數據引領的新媒體已經顛覆了國外數個傳統媒體，比如停刊的美國《新聞周刊》以及德國出現戰後最大的紙媒倒閉潮等。以眼球經濟為基礎的傳統媒體展示型廣告已快速向以數據為基礎的網路媒體精準型廣告進行轉變。百視通和東方明珠的整合已經打造了全國最大的千億級別的傳媒上市公司。在電信、廣電及互聯網領域海量數據處理具有豐富的研發及應用經驗，所用技術涵蓋了分布式計算、海量數據處理、流計算、機器學習及神經網路等，重點關注於互聯網廣告投放技術、效果監測、目標受眾行為分析及精準細分、廣告智能匹配等。未來幾年，新媒體大數據將越來越受到業界的追捧。
製造業大數據。利用大數據推動信息化和工業化深度融合，研究推動大數據在研發設計、生產製造、經營管理、市場營銷、售後服務等產業鏈各環節的應用，研發面向不同行業、不同環節的大數據分析應用平台，選擇典型企業、重點行業、重點地區開展工業企業大數據應用項目試點，積極推動製造業網路化和智能化。最近幾年，從國家到地方政府，日益重視大數據在製造業特別是高端智能製造領域的應用，例如《中國製造2025》。從這個意義上來說，大數據在製造業應該發揮的潛力巨大，釋放空間和餘地很大。
3
大數據投資前景預判
人工智慧等新興領域價值潛力巨大
智能化領域及智慧城市建設。大數據與深度學習、人工智慧交叉的領域成為資本追逐的焦點。例如日本提出建成超智能社會，實現ICT技術在全社會的深度融合應用。日本第五期科技計劃提出建設SOCIETY 5.0(超智能社會)，基於以人工智慧、物聯網、大數據為代表的ICT技術，研究開發先進機器人、超級計算機、感測器、高速通信等技術，實現網路空間與現實空間高度融合的信息物理系統，運用大數據促使社會生活各領域實現高度智能化，推進經濟發展與社會進步。日本超智能社會的提出，受到諸多大數據公司和風投的關注。類似，我國各地正在大力推進的智慧城市建設中的與新興技術交叉應用的環節，大數據將有著重要的一席之地。大數據與智慧交通、綠色環保、民生安全等領域的融合，在人工智慧、深度學習的帶動下，大數據應用商機無限。
支撐分享經濟智能平台被看好
分享經濟在短時間內崛起並成為全球現象，規模和影響力都呈現出指數增長。2014年12月，普華永道發布了預測報告指出全球分享經濟的規模將從2015年的150億美元增長到2025年的3350億美元。在全球經濟努力復甦的背景下，分享經濟模式的新穎性和巨大發展潛力受到各國政府的高度支持，甚至提升到了國家戰略的高度。大數據、雲計算、人工智慧將構建支撐分享經濟的智能平台，而這些平台將日益彰顯其經濟價值，從而能夠靈活、便利、及時、安全、經濟地連接不同需求的陌生人，從而在分享經濟的新模式中，大數據起到了核心作用，佔領核心的地位，其價值不言而喻。

F. 怎麼樣快速向SQL資料庫插入大數據量的數據

添加數據需要知道往哪張表添加，以及自己要添加的內容，然後可用insert語句執行。

1、以版sqlserver2008r2為例，登錄SQL Server Management Studio到指權定的資料庫。

2、登錄後點擊「新建查詢」。

G. 新建數據中心項目（主營雲計算大數據），有3000個9英寸標准伺服器，請問新建項目能效指標准入值有哪些

目前沒有嚴格的標准，聽說信產部發過一個文件，要求PUE值低於1.6。這個在北方地區是可以實現的，但在南方可能就比較困難了。

H. 阿里巴巴為什麼要斥資百億在烏蘭察布市建立大數據平台

不僅滿足當下以及未來大數據產業發展、互聯網經濟發展需求，提高傳統勞動力數字技能、提升數字化素養，也符合烏蘭察布市政府以及國家對此的重視，讓其共同來努力推動「互聯網+」及雲計算、電子信息產品製造、電子商務和服務外包等關聯產業協同發展，傾力打造成為面向華北、服務京津冀的大數據與雲計算中心，打響「草原雲谷」的品牌，擎畫大數據產業發展的藍圖，深化大數據和雲計算各領域應用。

烏蘭察布市圍繞建設「草原雲谷」的信息產業發展戰略，充分發揮區位、交通、電力、氣候、地質、光纜通道等優勢，積極發展大數據核心業態、關聯業態和衍生業態，不斷打造以雲計算、大數據為引領的信息產業的戰略性產業，推動經濟向高質量發展邁進。目前，內蒙古烏蘭察布市大數據產業強勢崛起格局已經形成。

加大大數據產業基礎設施投資力度，同時也在加快數據中心建設之步伐，2019年，共續建、新建及擬建數據中心項目 8 項，計劃總投資 171.8億元，總佔地面積 1220 畝，承載 100 萬台伺服器。不難看出烏蘭察布市現在正在以數據存儲、產品研發、數據交易為核心的大數據中心建成後，將鑄就高新科技產業載體，夯實大數據產業發展的基礎層，進一步拓展上下游產業和配套產業，實現產業體系全覆蓋的准備進行中。

I. 大數據中心是什麼中國最大的大數據中心在哪裡

按理說，對於一個問題，其分析的數據量越多，得出的結果就會越准確。這就是大數專據的高性能分析魅屬力十足的原因。對於一家公司來說，理論上它可以用充足的時間去收集大量數據，然後進行分析，從中得到一些獨特的見解，從而做出企業的最優決策。但是通常情況下，這種理想情況在現實生活中是不會發生的。

大數據分析包含巨大的潛力，但如果分析的不準確，它就會轉變成阻礙。由於技術限制和其他商業因素的考慮，數據分析公司解析數據得出的結果可能並不能反映實際情況。如果企業想要確保通過大數據分析得出的結論是他們想要的結果，他們就需要提高大數據分析的准確性。

在
理想的世界裡，企業會收集大量的數據，分析它，並生成到他們要面對的問題的解決方案。但我們都知道，我們並沒有生活在一個理想的世界。大數據分析結果往往
要在短時間內獲得，一個企業可能沒有足夠先進的技術快速處理這么多的數據信息。這些限制導致許多企業對數據進行抽樣分析。換句話說，他們不看所有的數據，
而是分析小部分的數據樣品。盡管這可能是很多企業的戰略，但這些分析結果非常可能是不準確的。

從上面的例子可以看出，大數據的中心就是保證大數據的准確性！！！

J. 如何用Solr搭建大數據查詢平台

0×00 開頭照例扯淡

自從各種脫褲門事件開始層出不窮，在下就學乖了，各個地方的密碼全都改成不一樣的，重要帳號的密碼定期更換，生怕被人社出祖宗十八代的我，甚至開始用起了假名字，我給自己起一新網名」興才」，這個看起來還不錯的名字，其實是我們家鄉罵人土話，意思是腦殘人士…. -_-|||額好吧，反正是假的，不要在意這些細節。

這只是名，至於姓氏么，每個帳號的注冊資料那裡，照著百家姓上趙錢孫李周吳鄭王的依次往下排，什麼張興才、李興才、王興才……於是也不知道我這樣」興才」了多久，終於有一天，我接到一個陌生電話：您好，請問是馬興才先生嗎?

好么，該來的終於還是來了，於是按名索驥，得知某某網站我用了這個名字，然後通過各種途徑找，果然，那破站被脫褲子了。
果斷Down了那個褲子，然後就一發不可收拾，走上了收藏褲子的不歸路，直到有一天，我發現收藏已經非常豐富了，粗略估計得好幾十億條數據，拍腦袋一想，這不能光收藏啊，我也搭個社工庫用吧……

0×01 介紹

社工庫怎麼搭呢，這種海量數據的東西，並不是簡單的用mysql建個庫，然後做個php查詢select * from sgk where username like 『%xxxxx%』這樣就能完事的，也不是某些幼稚騷年想的隨便找個4g內存，amd雙核的破電腦就可以帶起來的，上面這樣的語句和系統配置，真要用於社工庫查詢，查一條記錄恐怕得半小時。好在這個問題早就被一種叫做全文搜索引擎的東西解決了，更好的消息是，全文搜索引擎大部分都是開源的，不需要花錢。

目前網上已經搭建好的社工庫，大部分是mysql+coreseek+php架構，coreseek基於sphinx，是一款優秀的全文搜索引擎，但缺點是比較輕量級，一旦數據量過數億，就會有些力不從心，並且搭建集群做分布式性能並不理想，如果要考慮以後數據量越來越大的情況，還是得用其他方案，為此我使用了solr。

Solr的基礎是著名的Lucene框架，基於java，通過jdbc介面可以導入各種資料庫和各種格式的數據，非常適合開發企業級的海量數據搜索平台，並且提供完善的solr cloud集群功能，更重要的是，solr的數據查詢完全基於http，可以通過簡單的post參數，返回json,xml,php,python,ruby,csv等多種格式。

以前的solr，本質上是一組servlet，必須放進Tomcat才能運行，從solr5開始，它已經自帶了jetty，配置的好，完全可以獨立使用，並且應付大量並發請求，具體的架構我們後面會講到，現在先來進行solr的安裝配置。

0×02 安裝和配置

以下是我整個搭建和測試過程所用的硬體和軟體平台，本文所有內容均在此平台上完成：

軟體配置: solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS

硬體配置: i7 4770k,16G DDR3,2T西數黑盤

2.1 mysql資料庫

Mysql資料庫的安裝和配置我這里不再贅述，只提一點，對於社工庫這種查詢任務遠遠多於插入和更新的應用來說，最好還是使用MyISAM引擎。
搭建好資料庫後，新建一個庫，名為newsgk，然後創建一個表命名為b41sgk,結構如下：

id bigint 主鍵自動增長

username varchar 用戶名

email varchar 郵箱

password varchar 密碼

salt varchar 密碼中的鹽或者第二密碼

ip varchar ip、住址、電話等其他資料

site varchar 資料庫的來源站點

接下來就是把收集的各種褲子全部導入這個表了，這里推薦使用navicat，它可以支持各種格式的導入，具體過程相當的枯燥乏味,需要很多的耐心，這里就不再廢話了，列位看官自己去搞就是了，目前我初步導入的數據量大約是10億條。

2.2 Solr的搭建和配置

首先下載solr：
$ wget http://mirrors.hust.e.cn/apache/lucene/solr/5.5.0/solr-5.5.0.tgz

解壓縮：
$ tar zxvf solr-5.5.0.tgz

安裝jdk8：
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ sudo apt-get install oracle-java8-set-default

因為是java跨平台的，Windows下和linux下solr是同一個壓縮包，windows下jdk的安裝這里不再說明。

進入解壓縮後的solr文件夾的bin目錄，solr.cmd和solr分別是windows和linux下的啟動腳本：

因為社工庫是海量大數據，而jvm默認只使用512m的內存，這遠遠不夠，所以我們需要修改，打開solr.in.sh文件，找到這一行：

SOLR_HEAP=」512m」

依據你的數據量，把它修改成更高，我這里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的這一行：

set SOLR_JAVA_MEM=-Xms512m -Xmx512m

同樣把兩個512m都修改成4G。

Solr的啟動，重啟和停止命令分別是：
$ ./solr start
$ ./solr restart –p 8983
$ ./solr stop –all

在linux下還可以通過install_solr_service.sh腳本把solr安裝為服務，開機後台自動運行。

Solr安裝完成，現在我們需要從mysql導入數據，導入前，我們需要先創建一個core，core是solr的特有概念，每個core是一個查詢、數據,、索引等的集合體，你可以把它想像成一個獨立資料庫，我們創建一個新core：

在solr-5.5.0/server/solr子目錄下面建立一個新文件夾，命名為solr_mysql，這個是core的名稱，在下面創建兩個子目錄conf和data，把solr-5.5.0/solr-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷貝到我們創建的conf目錄中.接下來的配置主要涉及到三個文件， solrconfig.xml， schema.xml和db-data-config.xml。

首先打開db-data-config.xml，修改為以下內容：
<dataConfig>
<dataSource name="sgk" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/newsgk" user="root" password="password" batchSize="-1" />
<document name="mysgk">
<entity name="b41sgk" pk="id" query="select * from b41sgk">
<field column="id" name="id"/>
<field column="username" name="username"/>
<field column="email" name="email"/>
<field column="password" name="password"/>
<field column="salt" name="salt"/>
<field column="ip" name="ip"/>
<field column="site" name="site"/>
</entity>
</document>
</dataConfig>

這個文件是負責配置導入數據源的，請按照mysql實際的設置修改datasource的內容，下面entity的內容必須嚴格按照mysql中社工庫表的結構填寫，列名要和資料庫中的完全一樣。

然後打開solrconfig.xml，先找到這一段：
<schemaFactory class="ManagedIndexSchemaFactory">
<bool name="mutable">true</bool>
<str name="managedSchemaResourceName">managed-schema</str>
</schemaFactory>

把它全部注釋掉，加上一行，改成這樣：

<schemaFactory class="ClassicIndexSchemaFactory"/>

這是因為solr5 以上默認使用managed-schema管理schema，需要更改為可以手動修改。

然後我們還需要關閉suggest，它提供搜索智能提示，在社工庫中我們用不到這樣的功能，重要的是，suggest會嚴重的拖慢solr的啟動速度,在十幾億數據的情況下，開啟suggest可能會導致solr啟動載入core長達幾個小時!

同樣在solrconfig.xml中，找到這一段：

<searchComponent name="suggest" class="solr.SuggestComponent">
<lst name="suggester">
<str name="name">mySuggester</str>
<str name="lookupImpl">FuzzyLookupFactory</str> 
<str name="dictionaryImpl">DocumentDictionaryFactory</str> 
<str name="field">cat</str>
<str name="weightField">price</str>
<str name="suggestAnalyzerFieldType">string</str>
</lst>
</searchComponent>
<requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy">
<lst name="defaults">
<str name="suggest">true</str>
<str name="suggest.count">10</str>
</lst>
<arr name="components">
<str>suggest</str>
</arr>
</requestHandler>

把這些全部刪除，然後保存solrconfig.xml文件。

接下來把managed-schema拷貝一份，重命名為schema.xml (原文件不要刪除)，打開並找到以下位置：

只保留_version_和_root_節點，然後把所有的field，dynamicField和Field全部刪除，添加以下的部分：
<field name="id" type="int" indexed="true" stored="true" required="true" multiValued="false" />
<field name="username" type="text_ik" indexed="true" stored="true"/>
<field name="email" type="text_ik" indexed="true" stored="true"/>
<field name="password" type="text_general" indexed="true" stored="true"/>
<field name="salt" type="text_general" indexed="true" stored="true"/>
<field name="ip" type="text_general" indexed="true" stored="true"/>
<field name="site" type="text_general" indexed="true" stored="true"/>
<field name="keyword" type="text_ik" indexed="true" stored="false" multiValued="true"/>

<Field source="username" dest="keyword"/>
<Field source="email" dest="keyword"/>
<uniqueKey>id</uniqueKey>

這里的uniqueKey是配置文件中原有的，用來指定索引欄位，必須保留。新建了一個欄位名為keyword，它的用途是聯合查詢，即當需要同時以多個欄位做關鍵字查詢時，可以用這一個欄位名代替，增加查詢效率，下面的Field即用來指定復制哪些欄位到keyword。注意keyword這樣的欄位，後面的multiValued屬性必須為true。

username和email以及keyword這三個欄位，用來檢索查詢關鍵字，它們的類型我們指定為text_ik，這是一個我們創造的類型，因為solr雖然內置中文分詞，但效果並不好，我們需要添加IKAnalyzer中文分詞引擎來查詢中文。在https://github.com/EugenePig/ik-analyzer-solr5下載IKAnalyzer for solr5的源碼包，然後使用Maven編譯，得到一個文件IKAnalyzer-5.0.jar，把它放入solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目錄中，然後在solrconfig.xml的fieldType部分加入以下內容：
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

保存後，core的配置就算完成了，不過要導入mysql數據，我們還需要在mysql網站上下載mysql-connector-java-bin.jar庫文件，連同solr-5.5.0/dist目錄下面的solr-dataimporthandler-5.5.0.jar，solr-dataimporthandler-extras-5.5.0.jar兩個文件，全部拷貝到solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目錄中，然後重啟solr，就可以開始數據導入工作了。

導航:首頁 > 網路數據 > 新建大數據

新建大數據

與新建大數據相關的資料

友情鏈接