新建大数据_如何架构大数据系统 hadoop

A. 如何架构大数据系统 hadoop

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。

一、大数据建设思路

1）数据的获得

四、总结

基于分布式技术构建的大数据平台能够有效降低数据存储成本，提升数据分析处理效率，并具备海量数据、高并发场景的支撑能力，可大幅缩短数据查询响应时间，满足企业各上层应用的数据需求。

B. Excel表如何自动统计大数据

都没有懂你的意思 806257916

C. 我国启动首个大数据综合试验区建设

我国启动首个大数据综合试验区建设

贵州大数据综合试验区建设9月18日正式启动，致力于构建“先试先行的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系”。这是国务院本月初印发《促进大数据发展行动纲要》后我国启动的首个区域试点。

据新华社9月21日消息，贵州省委常委、贵阳市委书记、贵州省大数据产业发展领导小组副组长陈刚在此间召开的新闻发布会上说，贵州将全力打造大数据示范、大数据集聚、大数据应用、大数据交易、大数据金融服务、大数据交流合作、大数据创业创新“七大平台”，实施数据资源汇聚、政府数据共享开放、综合治理示范提升、大数据便民惠民、大数据三大业态培育、传统产业改造升级、信息基础设施提升、人才培养引进、大数据安全保障、大数据区域试点统筹发展“十大工程”。

国家发改委高技术产业司信息化处处长王娜说，推进大数据综合试验区建设，将起到示范带头、统筹布局、先行先试三大作用。开展综合试验区的地区具备一定的基础条件，在数据共享开放、大数据产业发展的支撑，数据应用创新以及数据安全保障方面有较好的基础。通过综合试验区布局建设来强化大数据中心的国家统筹布局，可以有效控制新建中心，盘活存量资源，促进聚集发展。

按照要求，贵州省将通过综合试验区建设，探索大数据应用的创新模式，培育大数据交易新的做法，开展数据交易的市场试点、鼓励产业链上下游之间的数据交换，探索数据资源机制，规范数据资源的交易行为，建设大数据的投融资体系，促进形成新的业态。

据了解，作为《促进大数据发展行动纲要》点名的大数据综合试验区，贵州省在全国率先筹建省级政府数据统一汇聚、共享、开放和交换平台——“云上贵州”系统平台，明年将率先形成省、市、县三级政府跨部门、跨区域、跨领域的数据共享共用新格局。此外，贵州将在全国率先完成信息基础建设立法工作。

以上是小编为大家分享的关于我国启动首个大数据综合试验区建设的相关内容，更多信息可以关注环球青藤分享更多干货

D. 如何看待内蒙古各地新建的大数据中心，发展前景如何

目前来看，内抄蒙古的大数据、云计算产业还处于发展阶段，但是也涌现出一些比较可喜的成绩，早期建成的大数据运营中心是包头，包头采取与中科曙光、中兴股份、华为科技合作，建立起了内蒙古第一家大数据产业平台，主要服务包头政务领域，后期，呼和浩特与中国电信、中国移动合作，在和林县建立起云计算中心，产业园规模居内蒙古之首，再后来，乌兰察布与苹果公司合作，建立大数据产业园，不过还处于起步阶段，总体来说，包头、呼和浩特这两个城市在大数据、云计算领域的起步比较早，产业成熟度较高，且高校云集，有利于计算机、通信行业人才的聚集，前景不错。

E. 全球大数据产业现状及投资前景预测

全球大数据产业现状及投资前景预测
纵观国内外，大数据已经形成产业规模，并上升到国家战略层面，大数据技术和应用呈现纵深发展。面向大数据的云计算技术、大数据计算框架等不断推出，新型大数据挖掘方法和算法大量出现，大数据新模式、新业态层出不穷，传统产业开始利用大数据实现转型升级。人工智能、深度学习、工业物联网、虚拟现实、智慧城市等领域的发展推动大数据的应用普及。新兴行业、传统行业围绕数据服务体系，已经形成了传统行业数据平台、互联网数据平台及行业资讯类数据平台。以数据应用为基础的新一代数据服务企业，在促进主体行业发展的同时，同样促进了行业内中小企业的发展。
1
大数据发展的产业环境分析
美国政策层面发力推动大数据应用发展。政府推出了一系列的公开数据计划，在健康、能源、气候、教育、金融、公共安全等领域开放数据和信息，促进创新的突破,从而推动经济发展。美国致力于扩大联邦数据公开范围和受用对象的范围，尤其扩大高价值数据资产，探讨如何进一步扩展收集和分析工业竞争和创新相关的数据。
为了进一步挖掘联邦政府数据的应用潜力，促进创新与社会进步，2016年1月美商务部发起了一项旨在使政府数据更加容易使用的数据易用性计划(CDUP)。5月，白宫发布《联邦大数据研发战略计划》，为未来的大数据研发列出7条战略计划，旨在建立大数据创新生态系统，加强数据分析能力，从大量、多样、实时的数据库中提取有效信息，服务于科学研究、经济增长与国家安全。2016年，美国应用大数据预测选举也引起世界关注，大数据应用开始为广大公众所关注，数据的真实性及数据安全成为关注焦点。
英国以数据共享为根本积极推动大数据平台建设。新建哈璀(Hartree)大数据中心，投资1.13亿英镑。新建艾伦图灵研究所，投资4200万英镑，开展大数据科学与技术的研究。投资1.5亿英镑建立第一个国家级老年痴呆症研究所。建立应对重大疾病新的数学研究中心。英国成立大数据战略委员会，发布《开放数据战略白皮书》，统一政府数字平台，开通政府部门开放数据通道，设立数据开放共享奖励基金，2018年还将出台“数据保护通则”的专门法规，旨在开发利用数据资源产生更大的商业价值和经济增长。
瑞典启动国家重点科研计划(NFP)大数据专项(Big Data, NFP75)。2017年正式启动，计划投入资金2.5亿瑞士法郎，从2017年至2020年为期4年。该专项主要分为三个板快：大数据信息技术：大数据分析基础性研究、大数据基础设施构架、数据库和计算中心;大数据相关社会及法律问题：大数据涉及对社会经济发展的影响预测(如对贸易、商务模式、人员交通及物流的影响)、个人隐私及空间的保护及相关的社会伦理和法律问题及对策等;大数据应用：对大数据在交通、健康、灾害及社会风险控制、能源转型领域的应用展开基础性研究。瑞士国家重点科研计划由瑞士联邦政府推出，目的是对关系瑞士社会经济发展全局的重要领域展开基础性研究并提出对策建议。
我国各地政府积极为大数据发展营造环境。2014年、2015年“大数据”首次写入国家《政府工作报告》。在2015年3月5日举行的两会中，李总理在政府工作报告中提到，制定“互联网+”行动计划，推动移动互联网、云计算、大数据、物联网等与现代制造业结合，促进电子商务、工业互联网和互联网金融健康发展，引导互联网企业拓展国际市场。
当前，《国家大数据战略及行动纲要(2015-2025)》征求意见稿完成。国家自然基金委、科技部支持了大量大数据研究项目;北京市、上海市、天津市、重庆市、广东省、贵州省等制定了大数据发展规划，多地开始建数据产业基地，天津拟打造国家数据聚集区，与北京、河北联合建“京津冀大数据走廊”;重庆计划将大数据培育成重要战略性新兴产业，加快建设两江云计算产业园，陕西西咸新区、湖北武汉光谷、贵州贵安新区等地提出要设国家级大数据基地。
上海成立数据交易中心。2016年4月1日，上海数据交易中心挂牌成立，上海数据交易中心是经上海市人民政府批准，上海市经济和信息化委、上海市商务委联合批复成立的国有控股混合所有制企业，承担着促进商业数据流通、跨区域的机构合作和数据互联、公共数据与商业数据融合应用等工作职能。交易中心以国内领先的“技术+规则”双重架构，创新结合IKVLTP 六要素技术，采用自主知识产权的虚拟标识技术和二次加密数据配送技术，结合面向应用场景的交易规则，将在全面保障个人隐私、数据安全前提下推动数据聚合流动。
上海将围绕“资源、技术、产业、应用、安全”融合联动这一条主线，聚焦“政府治理和公共服务能力提升、经济发展方式转变”两个方面，创新“交易机构+创新基地+产业基金+发展联盟+研究中心”五位一体大数据产业链生态发展布局，力争打造国家数据科学中心、亚太数据交换中心和全球“数据经济”中心，形成集数据贸易、应用服务、先进产业为一体的大数据战略高地。
2
大数据产业的行业需求预测
企业需求
传统企业的大数据转型。随着互联网化进程的不断推进，在改变了用户消费习惯的同时，众多传统企业面临了一系列必须面对的问题，其中一条核心主线就是基于已有数据的使用以及对于用户数据的采集。对于有效利用数据，很多传统企业开展了试探性的使用和分析，并逐步结合互联网平台，使数据形成闭环。地产、制造、金融企业已经在逐步建立互联网销售平台，其实平台的本身并不是去加大产品销售量，而是通过平台对传统营业网点、销售渠道的信息进行有效管理，从而建立可供判断或分析的数据之用。
更好的吸纳客户的潜在需求，更快的适应市场变化，从而带动新一轮研发的生成或变革。而此类企业的成长点，市场化性质，及企业性质将区别于传统企业，而走上新业态、新模式的道路。包括车联网、互联网金融、汽车电商、房产电商，都已经出现了苗头。对于大数据产业的发展，传统企业转型是区别于其他领域的却又独树一帜的重要组成部分。
平台企业的大数据战略。对于相对IT投入较少，IT基础较为薄弱的领域，比如零售、餐饮、服装、农业、出版等行业，企业不会去自建云计算及大数据平台，更多的则是会依靠专业化的数据服务企业或是数据服务平台来满足数据分析的需求。行业数据服务平台架构的初衷，主要是用云服务方式解决上述行业的信息化建设及运维需求。
目前上海类似的行业数据平台不少，建筑业的筑想网、医药业的安捷力等都是在行业垂直领域专业度很高的企业，而且较之通用、普适性的平台，此类平台的发展更具有和行业发展的共存性和相通性，是大数据产业发展过程中一个非常重要的组成部分。
互联网企业大数据规模化发展。互联网传媒是推动企业接触大数据服务中一个相对快速的行业，传媒由传统的单向被动模式转变成为双向互动模式，在吸引了用户群体的同时也通过定义用户肖像，来推动精准营销。精准营销使企业享受了新媒体带来的最实惠的成果，也为企业带来了一份较之传统传媒更加具体的数据分析报告。
同样在互联网领域，无论是社交平台、团购还是移动应用，在其互联网平台构建的过程中，收集、汇总、分析数据是非常重要的一个环节。通过甄别不同年龄段、性别、爱好的用户群，来精准定位推送不同的消息，而在这些精准定位的背后，则是每天几十甚至几百TB的数据增长量和分析量，可以说，有了互联网才推进了大数据产业的发展。
热点关联领域需求
金融大数据。中国金融信息服务产业存在产业链分布广、市场空间巨大的特点，但与此同时，又表现出产业集中度非常低的现状。因此，未来必将经历大量的并购整合，最终出现几家庞大的IT服务机构。传统金融服务领域的人才资源、市场能力、技术及研发方面在全国范围内都具有不可比拟的优势，产业环境、配套资源都非常成熟。
在金融信息服务产业链中，已经拥有了证券、期货、金融期货、科技技术等交易所以及钢铁、有色金属等各类生产物资交易所，拥有像安硕信息、万得资讯、金仕达、银联、普兰金融、春雨供应链等一大批具有行业代表性的龙头企业，还有一批以经尔纬为代表的掌握大数据技术及具有资源整合能力的公司。金融领域的数据库建设比较完善且都为结构化的数据，随着人工智能、深度学习等新兴技术的介入，大数据将显示出大有可为的趋势，对基于大数据分析的成果的需求也将越加旺盛。
交通大数据。一是智能交通，在交通和环境信息的基础上，实现交付跟踪，工作流程监督，和人力资源管理。在智能交通系统中，如果车辆使用了该应用，就可以监测到相关数据。智慧城市首席信息官可以使用从物联网信息库中获取运输和交通过程的信息。这将大大改善交通运输，建立服务型的支付方式，而不是简单的付款程序，如时间收费制度。
智慧城市的核心价值是根据交通数据来建立对公民有益的基础政策。智能交通也产生了很多新的商业创新。二是自动驾驶，目前GOOGLE借助大数据及车载技术和传感器,以及高级辅助驾驶系统、软件、地图数据、GPS和无线通信数据等，实现了无人驾驶，可以预见，不久的将来，大数据在自动驾驶领域的应用越来越被看好。
新媒体大数据。大数据引领的新媒体已经颠覆了国外数个传统媒体，比如停刊的美国《新闻周刊》以及德国出现战后最大的纸媒倒闭潮等。以眼球经济为基础的传统媒体展示型广告已快速向以数据为基础的网络媒体精准型广告进行转变。百视通和东方明珠的整合已经打造了全国最大的千亿级别的传媒上市公司。在电信、广电及互联网领域海量数据处理具有丰富的研发及应用经验，所用技术涵盖了分布式计算、海量数据处理、流计算、机器学习及神经网络等，重点关注于互联网广告投放技术、效果监测、目标受众行为分析及精准细分、广告智能匹配等。未来几年，新媒体大数据将越来越受到业界的追捧。
制造业大数据。利用大数据推动信息化和工业化深度融合，研究推动大数据在研发设计、生产制造、经营管理、市场营销、售后服务等产业链各环节的应用，研发面向不同行业、不同环节的大数据分析应用平台，选择典型企业、重点行业、重点地区开展工业企业大数据应用项目试点，积极推动制造业网络化和智能化。最近几年，从国家到地方政府，日益重视大数据在制造业特别是高端智能制造领域的应用，例如《中国制造2025》。从这个意义上来说，大数据在制造业应该发挥的潜力巨大，释放空间和余地很大。
3
大数据投资前景预判
人工智能等新兴领域价值潜力巨大
智能化领域及智慧城市建设。大数据与深度学习、人工智能交叉的领域成为资本追逐的焦点。例如日本提出建成超智能社会，实现ICT技术在全社会的深度融合应用。日本第五期科技计划提出建设SOCIETY 5.0(超智能社会)，基于以人工智能、物联网、大数据为代表的ICT技术，研究开发先进机器人、超级计算机、传感器、高速通信等技术，实现网络空间与现实空间高度融合的信息物理系统，运用大数据促使社会生活各领域实现高度智能化，推进经济发展与社会进步。日本超智能社会的提出，受到诸多大数据公司和风投的关注。类似，我国各地正在大力推进的智慧城市建设中的与新兴技术交叉应用的环节，大数据将有着重要的一席之地。大数据与智慧交通、绿色环保、民生安全等领域的融合，在人工智能、深度学习的带动下，大数据应用商机无限。
支撑分享经济智能平台被看好
分享经济在短时间内崛起并成为全球现象，规模和影响力都呈现出指数增长。2014年12月，普华永道发布了预测报告指出全球分享经济的规模将从2015年的150亿美元增长到2025年的3350亿美元。在全球经济努力复苏的背景下，分享经济模式的新颖性和巨大发展潜力受到各国政府的高度支持，甚至提升到了国家战略的高度。大数据、云计算、人工智能将构建支撑分享经济的智能平台，而这些平台将日益彰显其经济价值，从而能够灵活、便利、及时、安全、经济地连接不同需求的陌生人，从而在分享经济的新模式中，大数据起到了核心作用，占领核心的地位，其价值不言而喻。

F. 怎么样快速向SQL数据库插入大数据量的数据

添加数据需要知道往哪张表添加，以及自己要添加的内容，然后可用insert语句执行。

1、以版sqlserver2008r2为例，登录SQL Server Management Studio到指权定的数据库。

2、登录后点击“新建查询”。

G. 新建数据中心项目（主营云计算大数据），有3000个9英寸标准服务器，请问新建项目能效指标准入值有哪些

目前没有严格的标准，听说信产部发过一个文件，要求PUE值低于1.6。这个在北方地区是可以实现的，但在南方可能就比较困难了。

H. 阿里巴巴为什么要斥资百亿在乌兰察布市建立大数据平台

不仅满足当下以及未来大数据产业发展、互联网经济发展需求，提高传统劳动力数字技能、提升数字化素养，也符合乌兰察布市政府以及国家对此的重视，让其共同来努力推动“互联网+”及云计算、电子信息产品制造、电子商务和服务外包等关联产业协同发展，倾力打造成为面向华北、服务京津冀的大数据与云计算中心，打响“草原云谷”的品牌，擎画大数据产业发展的蓝图，深化大数据和云计算各领域应用。

乌兰察布市围绕建设“草原云谷”的信息产业发展战略，充分发挥区位、交通、电力、气候、地质、光缆通道等优势，积极发展大数据核心业态、关联业态和衍生业态，不断打造以云计算、大数据为引领的信息产业的战略性产业，推动经济向高质量发展迈进。目前，内蒙古乌兰察布市大数据产业强势崛起格局已经形成。

加大大数据产业基础设施投资力度，同时也在加快数据中心建设之步伐，2019年，共续建、新建及拟建数据中心项目 8 项，计划总投资 171.8亿元，总占地面积 1220 亩，承载 100 万台服务器。不难看出乌兰察布市现在正在以数据存储、产品研发、数据交易为核心的大数据中心建成后，将铸就高新科技产业载体，夯实大数据产业发展的基础层，进一步拓展上下游产业和配套产业，实现产业体系全覆盖的准备进行中。

I. 大数据中心是什么中国最大的大数据中心在哪里

按理说，对于一个问题，其分析的数据量越多，得出的结果就会越准确。这就是大数专据的高性能分析魅属力十足的原因。对于一家公司来说，理论上它可以用充足的时间去收集大量数据，然后进行分析，从中得到一些独特的见解，从而做出企业的最优决策。但是通常情况下，这种理想情况在现实生活中是不会发生的。

大数据分析包含巨大的潜力，但如果分析的不准确，它就会转变成阻碍。由于技术限制和其他商业因素的考虑，数据分析公司解析数据得出的结果可能并不能反映实际情况。如果企业想要确保通过大数据分析得出的结论是他们想要的结果，他们就需要提高大数据分析的准确性。

在
理想的世界里，企业会收集大量的数据，分析它，并生成到他们要面对的问题的解决方案。但我们都知道，我们并没有生活在一个理想的世界。大数据分析结果往往
要在短时间内获得，一个企业可能没有足够先进的技术快速处理这么多的数据信息。这些限制导致许多企业对数据进行抽样分析。换句话说，他们不看所有的数据，
而是分析小部分的数据样品。尽管这可能是很多企业的战略，但这些分析结果非常可能是不准确的。

从上面的例子可以看出，大数据的中心就是保证大数据的准确性！！！

J. 如何用Solr搭建大数据查询平台

0×00 开头照例扯淡

自从各种脱裤门事件开始层出不穷，在下就学乖了，各个地方的密码全都改成不一样的，重要帐号的密码定期更换，生怕被人社出祖宗十八代的我，甚至开始用起了假名字，我给自己起一新网名”兴才”，这个看起来还不错的名字，其实是我们家乡骂人土话，意思是脑残人士…. -_-|||额好吧，反正是假的，不要在意这些细节。

这只是名，至于姓氏么，每个帐号的注册资料那里，照着百家姓上赵钱孙李周吴郑王的依次往下排，什么张兴才、李兴才、王兴才……于是也不知道我这样”兴才”了多久，终于有一天，我接到一个陌生电话：您好，请问是马兴才先生吗?

好么，该来的终于还是来了，于是按名索骥，得知某某网站我用了这个名字，然后通过各种途径找，果然，那破站被脱裤子了。
果断Down了那个裤子，然后就一发不可收拾，走上了收藏裤子的不归路，直到有一天，我发现收藏已经非常丰富了，粗略估计得好几十亿条数据，拍脑袋一想，这不能光收藏啊，我也搭个社工库用吧……

0×01 介绍

社工库怎么搭呢，这种海量数据的东西，并不是简单的用mysql建个库，然后做个php查询select * from sgk where username like ‘%xxxxx%’这样就能完事的，也不是某些幼稚骚年想的随便找个4g内存，amd双核的破电脑就可以带起来的，上面这样的语句和系统配置，真要用于社工库查询，查一条记录恐怕得半小时。好在这个问题早就被一种叫做全文搜索引擎的东西解决了，更好的消息是，全文搜索引擎大部分都是开源的，不需要花钱。

目前网上已经搭建好的社工库，大部分是mysql+coreseek+php架构，coreseek基于sphinx，是一款优秀的全文搜索引擎，但缺点是比较轻量级，一旦数据量过数亿，就会有些力不从心，并且搭建集群做分布式性能并不理想，如果要考虑以后数据量越来越大的情况，还是得用其他方案，为此我使用了solr。

Solr的基础是著名的Lucene框架，基于java，通过jdbc接口可以导入各种数据库和各种格式的数据，非常适合开发企业级的海量数据搜索平台，并且提供完善的solr cloud集群功能，更重要的是，solr的数据查询完全基于http，可以通过简单的post参数，返回json,xml,php,python,ruby,csv等多种格式。

以前的solr，本质上是一组servlet，必须放进Tomcat才能运行，从solr5开始，它已经自带了jetty，配置的好，完全可以独立使用，并且应付大量并发请求，具体的架构我们后面会讲到，现在先来进行solr的安装配置。

0×02 安装和配置

以下是我整个搭建和测试过程所用的硬件和软件平台，本文所有内容均在此平台上完成：

软件配置: solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS

硬件配置: i7 4770k,16G DDR3,2T西数黑盘

2.1 mysql数据库

Mysql数据库的安装和配置我这里不再赘述，只提一点，对于社工库这种查询任务远远多于插入和更新的应用来说，最好还是使用MyISAM引擎。
搭建好数据库后，新建一个库，名为newsgk，然后创建一个表命名为b41sgk,结构如下：

id bigint 主键自动增长

username varchar 用户名

email varchar 邮箱

password varchar 密码

salt varchar 密码中的盐或者第二密码

ip varchar ip、住址、电话等其他资料

site varchar 数据库的来源站点

接下来就是把收集的各种裤子全部导入这个表了，这里推荐使用navicat，它可以支持各种格式的导入，具体过程相当的枯燥乏味,需要很多的耐心，这里就不再废话了，列位看官自己去搞就是了，目前我初步导入的数据量大约是10亿条。

2.2 Solr的搭建和配置

首先下载solr：
$ wget http://mirrors.hust.e.cn/apache/lucene/solr/5.5.0/solr-5.5.0.tgz

解压缩：
$ tar zxvf solr-5.5.0.tgz

安装jdk8：
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ sudo apt-get install oracle-java8-set-default

因为是java跨平台的，Windows下和linux下solr是同一个压缩包，windows下jdk的安装这里不再说明。

进入解压缩后的solr文件夹的bin目录，solr.cmd和solr分别是windows和linux下的启动脚本：

因为社工库是海量大数据，而jvm默认只使用512m的内存，这远远不够，所以我们需要修改，打开solr.in.sh文件，找到这一行：

SOLR_HEAP=”512m”

依据你的数据量，把它修改成更高，我这里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的这一行：

set SOLR_JAVA_MEM=-Xms512m -Xmx512m

同样把两个512m都修改成4G。

Solr的启动，重启和停止命令分别是：
$ ./solr start
$ ./solr restart –p 8983
$ ./solr stop –all

在linux下还可以通过install_solr_service.sh脚本把solr安装为服务，开机后台自动运行。

Solr安装完成，现在我们需要从mysql导入数据，导入前，我们需要先创建一个core，core是solr的特有概念，每个core是一个查询、数据,、索引等的集合体，你可以把它想象成一个独立数据库，我们创建一个新core：

在solr-5.5.0/server/solr子目录下面建立一个新文件夹，命名为solr_mysql，这个是core的名称，在下面创建两个子目录conf和data，把solr-5.5.0/solr-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷贝到我们创建的conf目录中.接下来的配置主要涉及到三个文件， solrconfig.xml， schema.xml和db-data-config.xml。

首先打开db-data-config.xml，修改为以下内容：
<dataConfig>
<dataSource name="sgk" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/newsgk" user="root" password="password" batchSize="-1" />
<document name="mysgk">
<entity name="b41sgk" pk="id" query="select * from b41sgk">
<field column="id" name="id"/>
<field column="username" name="username"/>
<field column="email" name="email"/>
<field column="password" name="password"/>
<field column="salt" name="salt"/>
<field column="ip" name="ip"/>
<field column="site" name="site"/>
</entity>
</document>
</dataConfig>

这个文件是负责配置导入数据源的，请按照mysql实际的设置修改datasource的内容，下面entity的内容必须严格按照mysql中社工库表的结构填写，列名要和数据库中的完全一样。

然后打开solrconfig.xml，先找到这一段：
<schemaFactory class="ManagedIndexSchemaFactory">
<bool name="mutable">true</bool>
<str name="managedSchemaResourceName">managed-schema</str>
</schemaFactory>

把它全部注释掉，加上一行，改成这样：

<schemaFactory class="ClassicIndexSchemaFactory"/>

这是因为solr5 以上默认使用managed-schema管理schema，需要更改为可以手动修改。

然后我们还需要关闭suggest，它提供搜索智能提示，在社工库中我们用不到这样的功能，重要的是，suggest会严重的拖慢solr的启动速度,在十几亿数据的情况下，开启suggest可能会导致solr启动加载core长达几个小时!

同样在solrconfig.xml中，找到这一段：

<searchComponent name="suggest" class="solr.SuggestComponent">
<lst name="suggester">
<str name="name">mySuggester</str>
<str name="lookupImpl">FuzzyLookupFactory</str> 
<str name="dictionaryImpl">DocumentDictionaryFactory</str> 
<str name="field">cat</str>
<str name="weightField">price</str>
<str name="suggestAnalyzerFieldType">string</str>
</lst>
</searchComponent>
<requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy">
<lst name="defaults">
<str name="suggest">true</str>
<str name="suggest.count">10</str>
</lst>
<arr name="components">
<str>suggest</str>
</arr>
</requestHandler>

把这些全部删除，然后保存solrconfig.xml文件。

接下来把managed-schema拷贝一份，重命名为schema.xml (原文件不要删除)，打开并找到以下位置：

只保留_version_和_root_节点，然后把所有的field，dynamicField和Field全部删除，添加以下的部分：
<field name="id" type="int" indexed="true" stored="true" required="true" multiValued="false" />
<field name="username" type="text_ik" indexed="true" stored="true"/>
<field name="email" type="text_ik" indexed="true" stored="true"/>
<field name="password" type="text_general" indexed="true" stored="true"/>
<field name="salt" type="text_general" indexed="true" stored="true"/>
<field name="ip" type="text_general" indexed="true" stored="true"/>
<field name="site" type="text_general" indexed="true" stored="true"/>
<field name="keyword" type="text_ik" indexed="true" stored="false" multiValued="true"/>

<Field source="username" dest="keyword"/>
<Field source="email" dest="keyword"/>
<uniqueKey>id</uniqueKey>

这里的uniqueKey是配置文件中原有的，用来指定索引字段，必须保留。新建了一个字段名为keyword，它的用途是联合查询，即当需要同时以多个字段做关键字查询时，可以用这一个字段名代替，增加查询效率，下面的Field即用来指定复制哪些字段到keyword。注意keyword这样的字段，后面的multiValued属性必须为true。

username和email以及keyword这三个字段，用来检索查询关键字，它们的类型我们指定为text_ik，这是一个我们创造的类型，因为solr虽然内置中文分词，但效果并不好，我们需要添加IKAnalyzer中文分词引擎来查询中文。在https://github.com/EugenePig/ik-analyzer-solr5下载IKAnalyzer for solr5的源码包，然后使用Maven编译，得到一个文件IKAnalyzer-5.0.jar，把它放入solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录中，然后在solrconfig.xml的fieldType部分加入以下内容：
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

保存后，core的配置就算完成了，不过要导入mysql数据，我们还需要在mysql网站上下载mysql-connector-java-bin.jar库文件，连同solr-5.5.0/dist目录下面的solr-dataimporthandler-5.5.0.jar，solr-dataimporthandler-extras-5.5.0.jar两个文件，全部拷贝到solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录中，然后重启solr，就可以开始数据导入工作了。

导航:首页 > 网络数据 > 新建大数据

新建大数据

与新建大数据相关的资料

友情链接