fortran大数据_大数据分析哪款工具比较好求专家介绍

㈠学习经济学需要熟悉哪些编程语言

学习经济学需要熟悉哪些编程语言？

1)坛友arthur_2006
处理和分析数据都用得到，最基本的是excel，如果你的VBA用得好的话会有很大的帮助，如果你要分析数据的话，比如你要建模那么SAS还是不错的，不过比较难掌握如果你没有语言方面的基础，其他还有很多软件也能做得到。很多银行证券期货企业都使用的是oracle或者DB2,一些小企业可能使用的是SQL, 所以如果想在这方面发展就要掌握数据库的知识，毕竟金融和计算机兼备的人才还是稀缺的，而且国内很多行业都是用的是这几大数据库比如电信医疗航空等等，不会分析金融数据恐怕称不上什么金融专家吧，至于你分析得准还是不准那就要看你的金融知识掌握的程度啦，尤其是投资专业的学生学习一些这方面的知识是必要的，很多人是应用金融学专业的偏向于财务，那就去考考CFA,ACCA什么的，也没必要在这上面花费太多精力而且工作中很可能用不到的，金融数学金融工程精算专业的同学花点时间研究一下还是很有必要的，总而言之一句话，首先要看你的兴趣再就是你的专业和发展方向。

2)编程爱好者任坤
做统计和计量的话，想要跟当今的国际学术界接轨，最好学R，至少我所知道的目前美国的统计学术界被R占领的趋势很明显了。

如果只是做简单地回归随便解读一下，那随便选个傻瓜软件就可以了。如果只是应用现成的成熟的计量模型来做实证研究，那么傻瓜软件一般也就可以了。如果要以统计、计量为研究领域或者专业领域，那么编程性的东西是少不了的，即使是做实证如果涉及较为复杂的数据结构，懂编程也能帮你大幅提高生产力。另外，R的社区比较活跃，能够较好地跟上前沿。

如果涉及到处理较大的数据，一种办法是用SAS，如果不想用SAS可以学数据库方面的东西，比如把数据放在SQLite数据库中然后用{RSQLite}访问数据库，或者用{sqldf}通过SQL操作环境中的data frame。

如果觉得执行某项任务R单核速度慢，那么可以使用{parallel}或者{parallelMap}做并行计算，也可以利用云计算来处理数据。

如果涉及到其他社区的东西在R社区中没有实现，例如Java的东西，可以用{rJava}来调用Java的对象，不过速度有些慢。

比较好的办法是我在想从事数据分析工作，学什么软件或语言最好？提到的F#函数式编程语言，用RProvider可以直接调用R，用JavaProvider直接调用Jar打包的Java程序，用PythonProvider（即将发布）直接调用Python程序，等等，很容易将各大社区的资源整合在一起使用。

目前我在GitHub上面弄一个通过R学习统计、计量、非参、数据可视化、数据库的repo: renkun-ken/learnR on GitHub ，虽然目前还没什么内容，不过可以跟踪一下。

以上说得都是经济学相关的统计和计量方面所需要的编程。事实上统计和计量所需的「编程」较为简单，基本也就是处理数据、应用已经提供的计量模型，更多需要编程的是：一、如果涉及较为前沿的计量模型，可能还需要自己实现；二、一些蒙特卡罗模拟需要一些编程。

从经济学相关的一些新型领域来说，计算经济学（Computational Economics）、计算统计学（Computational Statistics）以及计算计量学（Computational Econometrics）则需要较强的编程能力，包括算法实现、算法分析等等。举个例子，计算经济学中目前做的一块研究是Agent-based computational finance，就是建立一个模拟的金融市场，里面有几种资产，每种资产的基本面由随机的红利决定，里面有许多遵循各种逻辑的投资者，投资者对于红利发放持有的信念不同，因而从各自的逻辑触发的交易行为不同。在一个复式竞价（double auction）的交易市场中，什么样的投资者组成或者行为方式、什么样的记忆长短，能够最大程度地复制出我们在现实金融市场中观测到的资产价格或者资产收益率规律，例如资产收益率尖峰肥尾、不对称性。此时，研究者就需要较扎实的金融知识来设计一个不过于简单而又不过于复杂的模拟金融市场，也需要相应的编程能力把模型用程序语言编写出来。这中间会设计许多编程技术，例如数据库（有时要跟踪许多变量，例如投资者现金流动、财富分布）、并行计算（CPU多核并行、多进程并行、集群上的并行甚至GPU计算）等等。这方面的研究从1990s年代才开始。

3)知乎网友Jichun Si
计量经济学也有很多小的门类，请对号入座。有很多软件，Stata, matlab, R, SAS是相对来说用的比较多的。

如果是做应用计量（特别是横截面数据、面板数据），Stata是不二之选，因为不管是管理数据还是跑回归，实在太太太方便了。现在主流期刊的应用微观计量文章里面能用到的模型stata几乎都有，而且其中的绝大多数都是用stata做的。而且最大的优点是，简单！

如果做应用的时间序列，Eviews似乎是一个不错的选择。但是我一般不做这方面，也不是很有发言权。

如果做理论计量，stata eviews是没有现成的包的，而且即便Stata可以编程，可编程能力也是很差的，而且不稳健。所以懂R和Matlab就非常顺手。当然也可以用Python，最近Sargent就写了本用Python做计量的书。还有一个Julia，是这三种语言的混合，但是速度快很多，缺点是太过于小众。

如果对速度要求高，特别是金融计量很多对速度有要求的，可以考虑C、Fortran等语言。C和Fortran肯定是最快的。还有一个叫做OX的，速度快，但是也很小众。但是这些语言的缺点是学习难度比较高，开发时间比较慢。Julia据说速度堪比C，而且语法特别像Matlab、Python（意味着容易学习），但是处于刚起步阶段，用的人太少了。

如果是金融计量领域，强烈建议学会SAS。SAS是最权威，速度也很快，当然最大的问题是昂贵，而且可编程能力不是多么好。但是金融里面数据量都非常非常非常大，一般的软件都瘫的时候，SAS就派上用场了。

像我自己，做应用的时候都是用stata整理数据，能用stata的坚决不用其他软件。但是因为有的时候做一些理论计量的工作，所以matlab也是必不可少的。我也在学习Julia，因为matlab的速度实在太慢。Python我一般不用来做科学计算，用的人不多，而且速度慢，一般是用来抓数据的。

最后还是补充一点吧，为什么我推荐matlab而不是其他的软件，也是有道理的。很多模型，比如空间计量模型（spatial econometrics）、贝叶斯估计、以及宏观计量里面的DSGE model、SVAR等模型，在stata、Eviews里面都是没有什么现成的东西可以用的，但是matlab提供了丰富的包，比如Dynare就是基于Matlab的，还有LeSage的空间计量软件包等等，也是基于matlab的。所以几乎你想用的模型matlab里面都能找到codes然后直接用。就算没有，你自己在matlab里面写，也不是什么难事。

最后想起一句话来，关于这些软件的选择（stata除外，因为stata在应用计量领域的地位是几乎不可替代的）可以用两句话来概括：如果你自己的时间比计算机的时间宝贵的话，学习matlab、R、甚至Python、Julia是最合适的，如果计算机的时间比你的时间宝贵的话，学习C、Fortran是必须的。当然除非你的工作非常特殊（比如一些大型的结构模型的估计），一般来说，还是自己的时间更宝贵一点。

综上，做应用和做理论是不可能用一种软件解决的，建议根据自己的方向进行挑选。我觉着stata、matlab是比较推荐的，一个方便，一个灵活，都很强大，而且学习难度都不大，用的人都很多，交流起来相当方便。

4）网友张真实
数据，简单的用excel，直观，方便。复杂一些的…excel最多可以有6万多行，你确定你需要从那么大量的数据开始“学经济学么？

复杂的用R，各种模型，算法，实现，基本上R都有对应的软件包了，下载下来直接用即可，多读文档多练多用，半年左右就可以抛开excel直接用R作实战了。我博士论文全部回归和输出都是用R的，现在写的论文也都用它。替代品是Stata。也很好，但如果你和我一样是从0开始，那么强烈建议选R。

R的一个不足是没法作符号运算，这个免费的解决方案有python搭配scipy numpy等几个包，不过建议你用mathematica，它的符号计算功能最强大，输出格式也最好。你可以找个jacobian矩阵搞一下符号计算，比较一下结果就知道了。

Python这东西，熟悉了R之后，发现有功能是R实现不了的，到时候有实际需求了，再学也不迟。不是立刻就需要的。

此外，所有经济学研究(我是指empirics类型的，具体意思你懂的)，都要会用latex，可以把它看做是一门编程语言。在word里排数学公式，用不了多久你就会疯掉。R中可以用ggplot2来绘图，输出到tex中。普通数据表用xtable包输出到tex，回归结果用stargazer输出到tex，都很方便。

5）网友bayes
首先要说的是R，绝对是目前国外学术界的主流，统计系基本除R以外没有其他了，计量作为和统计相关的方向，R也在逐渐渗透。所以推荐学习。

顺便说一句，R的学习曲线是比较陡峭的，所以我不太建议零基础的人从R开始，否则挫折感会比较强烈。而python会略好，所以我建议从python开始。

python并非是专用于统计或者计量的软件，而是一种非常流行的通用编程语言。经过多年发展，库也非常齐备。我试用过numpy，scipy和pandas等库，与其他通用编程语言相比，算是相当好用，不过个人感觉还是比不上R，比如画图，

ggplot2真心是神一般的存在，python的库还是略逊一筹。但是，除了数据处理之外，python可以干的事情太多了，也太牛了。我们主要要用到的，比如网页采集数据，需要正则表达式，解析网页等等。这些方面python就比R有优势多了。

当然，从趋势来看，未来似乎python比R更优。R是一群统计学家在编程序，python是一群计算机专家在争取搞数据处理。似乎python的基础更扎实。个人观点，仅供参考。

stata我认为是除了R以外最好的计量软件了，我两者均用过数年数个项目，但是依然感觉R更好用，整理和处理数据更方便。所以即使在楼上诸位所提到的微观计量领域，我依然更喜欢R。

除此以外spss，或者eviews等，感觉管理类学生用的更多，功能比较受限，不太推荐。这里不赘述。上述的几个软件，还有个问题，在于都是收费的，考虑到未来知识产权的保护，还是用免费的略靠谱。

R的主要缺点有两个：
1，面对大数据乏力。这方面sas确实有优势，但是不得不说，sas的语法太反人类了，完全接受不能。面对这个问题，我要说的是，你得看问题有多大。以我的经验，经济里面的数据量似乎还不足以超过R的处理上限很多。可能金融的高频数据会比较大，我个人没啥经验，如果遇到再补充。我尝试过10g的数据，最简单的办法，不是学sas，而是买16g的内存。：）以现在的内存价格，我觉得32g以下的问题不大。

2，性能不足。这方面python也有同样的问题，最好的解决方案是混合c/c++，不过这个就是无底洞了，耗时极多，都不见得能学好。建议的方法，还是买硬件，这个最简单。：）当然用并行包等，也是解决方法之一，我尝试过几次用机房的多台机器做集群，不是太成功。求高人指点。

上面诸位还提到过几个软件，我也略微说一下自己知道的一些软件的看法：

matlab：好东西，关键还是性能问题，同样可以靠c/c++来解决。但是我不喜欢比较大的软件，为了求个均值方差，等它启动就占了5分钟。。。

julia：好东西X2，目前关注中，可能还比较年轻，导致配套的库略少，不过看好未来发展，主要是吸取了matlab，python和c/c++的有点，写的快，运算的也快，未来看涨，紧密关注。

最后提一下函数式编程，是个好东西，但是不看好纯粹函数式编程的未来。它体现了一种颇先进的编程思想，但是在实际工作中，往往性能方面的问题较大。要解决这个问题，还是的混合函数式编程和其他方式，但这就是python，R等软件已经实现的方式，似乎又没有必要专门去学其他的函数式编程了。

6）上海财经大学博士荣健欣
Stata微观计量中应用极多，主要是直接输命令回归，需要编程的地方不多。

至于编程，推荐R、Python.
R是非常好的统计分析软件，在计量经济学中的应用可以见Econometrics in R, Applied Econometrics with R Time Series Analysis with Applications in R这几本书

Python用来抓数据很好，并且有数学计算包SciPy可以部分替代Matlab之类科学计算的功能。

7）知乎网友justin
本科经济统计学，由于学校奇葩的课程设置，我们分别使用过：

EViews：计量经济学，时序和多元统计。
Stata：计量经济学。
SPSS：专门开的一门课，这个巨汗，权当复习了一遍统计学。
Excel：大一的统计入门课使用的，这个也巨坑，就是简单的函数使用，一点没有涉及VBA。

Matlab：这个没有专门的课，是上完了C语言程序设计以后副产品，后来接触了R和Mathematica就基本抛弃了它。

R/S-Plus：在回归分析的时候使用了S-Plus，不过那时候我已经使用R语言很久了，而且S-Plus基本兼容，所以没有使用过S-Plus。

Minitab：质量控制课程上用的，基本的统计加上一些实验设计。

SAS：这个在实验室中自学过几次，直接被其奇葩的语法雷到了，据说我们学校的研究生有专门的SAS课程（类似于本科的SPSS课程），呵呵了～

我们系的妹（xue）纸（ba）就曾经抱怨说使用的软件太多了，完全被逼疯的感觉，还给我们亲爱的系主任提过意见。作为学渣也就这个问题问过系主任，她的意思是不同的软件在处理不同的数据时候是各有所长的，而且你们课程还是蛮轻松的，就多学点吧，另外不同的老师有不同的软件使用爱好，上课使用不同的软件是必然的。

学习经济学的同学，Excel和SPSS，EViews（或者Stata)就蛮好的了，Stata和EViews都可以写一些程序的，SPSS的界面化操作也是很友好的。本人使用的R，在上各种课中也都会在学了那些软件后再使用R来实现（其实绝大多数时候R都已经有现成的包了，我也大多是直接使用），R还是很不错的，推荐。

很多前辈也提出了，经济学学生学习编程适可而止就好了，要不然就是一条不归路啊，面临着彻底转行的危险，本人就是一枚反面例子（泪～。所以什么Python啊，C++啊，Julia啊就不要接触了。

㈡ fortran求中位数

摘要您好，很高兴为您解答，求中位数的方法很多，对于大数据量最经典是桶的计数方法，但是对于这个问题不适用，因为数据是不断变化的

㈢数据分析师需要掌握哪些能力，需要做哪些准备

1、懂业务。从事数据分析工作的前提就会需要懂业务，即熟悉行业知识、公司业务及流程，最好有自己独到的见解，若脱离行业认知和公司业务背景，分析的结果只会是脱了线的风筝，没有太大的使用价值。

2、懂管理。一方面是搭建数据分析框架的要求，比如确定分析思路就需要用到营销、管理等理论知识来指导，如果不熟悉管理理论，就很难搭建数据分析的框架，后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。

3、懂分析。指掌握数据分析基本原理与一些有效的数据分析方法，并能灵活运用到实践工作中，以便有效的开展数据分析。基本的分析方法有：对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有：相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

4、懂工具。指掌握数据分析相关的常用工具。数据分析方法是理论，而数据分析工具就是实现数据分析方法理论的工具，面对越来越庞大的数据，我们不能依靠计算器进行分析，必须依靠强大的数据分析工具帮我们完成数据分析工作。

5、懂设计。懂设计是指运用图表有效表达数据分析师的分析观点，使分析结果一目了然。图表的设计是门大学问，如图形的选择、版式的设计、颜色的搭配等等，都需要掌握一定的设计原则。
参考链接：http://ke..com/link?url=b8z_U8-QuI49JAGq#3

㈣ R 和 Python 用于统计学分析，哪个更好

总的概括：R主要在学术界流行，python(numpy scipy)在工程方便比较实用。

R是S（Splus）的开源版本，或者下一代。发源地在新西兰奥克兰。这个软件的统计背景很浓烈。我这里浓烈的意思是，如果你不熟习统计知识（历史）的话，R的帮助文档看起来是很累的。由统计背景的人开发。R的维护组叫CRAN-R。在生物信息方便，有个叫bioconctor的组织，里面有很多生物信息方面可以用的软件包，他们有一套自己维护package系统。

Python是个综合语言（这里特指指CPython解释器），numpy scipy是数值计算的扩展包，pandas是主要用来做数据处理（numpy依赖），sympy做符号计算（类似mathematica？）此外还有一些不太成熟的包如sciki learn，statistical models。成熟度不如R。但是已经到了可用的水平了。是读计算机的人写的统计包。ipython 更新到1.0以后，功能基本完善，其notebook非常强大（感觉就像mathematica)而且还是基于web，在合作分享方面非常好用。

性能：
大家都说R慢，特别是CS的人。其实这里主要是两点：一个R里面数组的调用都是用复制的，二是Rscript慢。三是处理大数据慢。如果R用的好的话，R是不太慢的。具体来说就是Rscript用的少，多用命令，跑点小数据。这样的话，实际在跑的都是背后的fortran和C库。他们都有快二三十年历史了。可谓异常可靠，优化得不能再优化了（指单线程，如果去看源代码挥发先许多莫名的常数，永用了以后精度高速度快！）。比如一个自己编写一个R脚本，loop套loop的那种，那真是想死的心都会有。外加一点，R处理文本文件很慢！

Python归根揭底还是个有解释器的脚本语言，而且有致命伤——GIL，但python最难能可贵的就是它很容易变得更快。比如pypy，cython，或者直接ctypes挂C库。纯python写个原型，然后就开是不断的profiling和加速吧。很轻易可以达到和C一个数量级的速度，但是写程序、调试的时间少了很多。

并行计算：
R v15 之后有了自带的parallel包，用挺轻松的。不过其实就是不停的fork，或者mpi，内存消耗挺厉害的。parSapply，parApply什么的，真是很好用。

Python虽然有GIL——并行计算的死敌，但是有multiprocessing(fork依赖) ，是可以共享数据的什么的，估计内存消耗方面比R好点，数据零散的话overhead很多。到了MPI的话，mpi4py还是挺好用的。用cython的话结合openmp可以打破GIL，但是过程中不能调用python的对象。

学习曲线：假设什么编程都不会的同学。
R一开始还是很容易上手的，查到基本的命令，包，直接print一下就有结果了。但是如果要自己写算法、优化性能的时候，学习难度陡增。

Python么，挺好学的，绝大多数的帮助文档都比R好了许多。有些包用起来没R方便。总的来说深入吼R陡。

扩展资源：
基本上新的统计方法都会有R的package，安装实用都不麻烦。但是基本上都是搞统计的人写的计算机包。所以效能上可能有问好。比较出名的有两个包的管理网站，cran-r 和bioconctor。所以搞生化的估计R用起来很方便。

python的统计计算包们比R少，多很年轻，还在不断的开发中。优于是计算机人写的统计包，用起来的时候要多涨个心眼。

画图：
R自带的那些工具就挺好用了，然后还有ggplot这种非常优美的得力工具。

python 有matplotlib，画出来效果感觉比R自带的好一些些，而且界面基于QT，跨平台支持。可能是R用得多了，pyplot用起来还是不太顺手，觉得其各个组建的统一性不高。

IDE：
Rstudio非常不错，提供类matlab环境。（用过vim-r-plugin，用过emacs + ess现在用vim。）

windows 下有python(x,y) 还有许多商业的工具。（本人现在的emacs环境还不是很顺手~）

建议：
如果只是处理（小）数据的，用R。结果更可靠，速度可以接受，上手方便，多有现成的命令、程序可以用。

要自己搞个算法、处理大数据、计算量大的，用python。开发效率高，一切尽在掌握。

ps：盲目地用R的包比盲目的地用python的包要更安全。起码R会把你指向一篇论文，而python只是指向一堆代码。R出问题了还有论文作者、审稿人陪葬。

㈤大数据分析哪款工具比较好求专家介绍

有一个公司做的还是不错的，晓明科技，他们很多成功的案例，你内可以到他们的公容司去看看，很多大公司也都是跟这家公司合作的，很不错的

㈥数据是什么

何谓数据结构
?
数据结构是在整个计算机科学与技术领域上广泛被使用的术语。它用来反映一个数据的内部构成，即一个数据由那些成分数据构成，以什么方式构成，呈什么结构。数据结构有逻辑上的数据结构和物理上的数据结构之分。逻辑上的数据结构反映成分数据之间的逻辑关系，而物理上的数据结构反映成分数据在计算机内部的存储安排。数据结构是数据存在的形式。数据结构是信息的一种组织方式，其目的是为了提高算法的效率，它通常与一组算法的集合相对应，通过这组算法集合可以对数据结构中的数据进行某种操作。
?
数据结构主要研究什么？
?
数据结构作为一门学科主要研究数据的各种逻辑结构和存储结构，以及对数据的各种操作。因此，主要有三个方面的内容：数据的逻辑结构；数据的物理存储结构；对数据的操作（或算法）。通常，算法的
?
设计取决于数据的逻辑结构，算法的实现取决于数据的物理存储结构。
?
什么是数据结构？什么是逻辑结构和物理结构？
?
数据是指由有限的符号（比如，"0"和"1"，具有其自己的结构、操作、和相应的语义）组成的元素的集合。结构是元素之间的关系的集合。通常来说，一个数据结构DS 可以表示为一个二元组：
?
DS=(D,S), //i.e., data-structure=(data-part,logic-structure-part) 这里D是数据元素的集合（或者是“结点”，可能还含有“数据项”或“数据域”），S是定义在D（或其他集合）上的关系的集合，S = ，称之为元素的逻辑结构。逻辑结构有四种基本类型：集合结构、线性结构、树状结构和网络结构。表和树是最常用的两种高效数据结构，许多高效的算法可以用这两种数据结构来设计实现。表是线性结构的（全序关系），树(偏序或层次关系)和图（局部有序(weak/local orders)）是非线性结构。
?
数据结构的物理结构是指逻辑结构的存储镜像(image)。数据结构 DS 的物理结构 P对应于从 DS 的数据元素到存储区M（维护着逻辑结构S）的一个映射：
?
(PD,S) -- > M 存储器模型：一个存储器 M 是一系列固定大小的存储单元，每个单元 U 有一个唯一的地址 A(U)，该地址被连续地编码。每个单元 U 有一个唯一的后继单元 U'=succ(U)。 P 的四种基本映射模型：顺序（sequential）、链接（linked）、索引（indexed）和散列（hashing）映射。
?
因此，我们至少可以得到4×4种可能的物理数据结构：
?
sequential (sets)
linked lists
indexed trees
hash graphs
?
（并不是所有的可能组合都合理）
?
??? 数据结构DS上的操作：所有的定义在DS上的操作在改变数据元素（节点）或节点的域时必须保持DS的逻辑和物理结构。
?
DS上的基本操作：任何其他对DS的高级操作都可以用这些基本操作来实现。最好将DS和他的所有基本操作看作一个整体——称之为模块。我们可以进一步将该模块抽象为数据类型（其中DS的存储结构被表示为私有成员，基本操作被表示为公共方法），称之为ADT。作为ADT，堆栈和队列都是一种特殊的表，他们拥有表的操作的子集。对于DATs的高级操作可以被设计为（不封装的）算法，利用基本操作对DS进行处理。
?
好的和坏的DS：如果一个DS可以通过某种“线性规则”被转化为线性的DS（例如线性表），则称它为好的DS。好的DS通常对应于好的（高效的）算法。这是由计算机的计算能力决定的，因为计算机本质上只能存取逻辑连续的内存单元，因此如何没有线性化的结构逻辑上是不可计算的。比如对一个图进行操作，要访问图的所有结点，则必须按照某种顺序来依次访问所有节点（要形成一个偏序），必须通过某种方式将图固有的非线性结构转化为线性结构才能对图进行操作。
?
树是好的DS——它有非常简单而高效的线性化规则，因此可以利用树设计出许多非常高效的算法。树的实现和使用都很简单，但可以解决大量特殊的复杂问题，因此树是实际编程中最重要和最有用的一种数据结构。树的结构本质上有递归的性质——每一个叶节点可以被一棵子树所替代，反之亦然。实际上，每一种递归的结构都可以被转化为（或等价于）树形结构。
?

从机器语言到高级语言的抽象
?
我们知道，算法被定义为一个运算序列。这个运算序列中的所有运算定义在一类特定的数据模型上，并以解决一类特定问题为目标。这个运算序列应该具备下列四个特征。有限性，即序列的项数有限，且每一运算项都可在有限的时间内完成;确定性，即序列的每一项运算都有明确的定义，无二义性;可以没有输入运算项，但一定要有输出运算项;可行性，即对于任意给定的合法的输入都能得到相应的正确的输出。这些特征可以用来判别一个确定的运算序列是否称得上是一个算法。但是，我们现在的问题不是要判别一个确定的运算序列是否称得上是一个算法，而是要对一个己经称得上是算法的运算序列，回顾我们曾经如何用程序设计语言去表达它。
?
算法的程序表达，归根到底是算法要素的程序表达，因为一旦算法的每一项要素都用程序清楚地表达，整个算法的程序表达也就不成问题。
?
作为运算序列的算法，有三个要素。作为运算序列中各种运算的运算对象和运算结果的数据;运算序列中的各种运算;运算序列中的控制转移。这三种要素依序分别简称为数据、运算和控制。由于算法层出不穷，变化万千，其中的运算所作用的对象数据和所得到的结果数据名目繁多，不胜枚举。最简单最基本的有布尔值数据、字符数据、整数和实数数据等;稍复杂的有向量、矩阵、记录等数据;更复杂的有集合、树和图，还有声音、图形、图像等数据。同样由于算法层出不穷，变化万千，其中运算的种类五花八门、多姿多彩。最基本最初等的有赋值运算、算术运算、逻辑运算和关系运算等;稍复杂的有算术表达式和逻辑表达式等;更复杂的有函数值计算、向量运算、矩阵运算、集合运算，以及表、栈、队列、树和图上的运算等:此外，还可能有以上列举的运算的复合和嵌套。关于控制转移，相对单纯。在串行计算中，它只有顺序、分支、循环、递归和无条件转移等几种。
?
我们来回顾一下，自从计算机问世以来，算法的上述三要素的程序表达，经历过一个怎样的过程。
?
最早的程序设计语言是机器语言，即具体的计算机上的一个指令集。当时，要在计算机上运行的所有算法都必须直接用机器语言来表达，计算机才能接受。算法的运算序列包括运算对象和运算结果都必须转换为指令序列。其中的每一条指令都以编码(指令码和地址码)的形式出现。与算法语言表达的算法，相差十万八千里。对于没受过程序设计专门训练的人来说，一份程序恰似一份"天书"，让人看了不知所云，可读性
?
极差。
?
用机器语言表达算法的运算、数据和控制十分繁杂琐碎，因为机器语言所提供的指令太初等、原始。机器语言只接受算术运算、按位逻辑运算和数的大小比较运算等。对于稍复杂的运算，都必须一一分解，直到到达最初等的运算才能用相应的指令替代之。机器语言能直接表达的数据只有最原始的位、字节、和字三种。算法中即使是最简单的数据如布尔值、字符、整数、和实数，也必须一一地映射到位、字节和字
中，还得一一分配它们的存储单元。对于算法中有结构的数据的表达则要麻烦得多。机器语言所提供的控制转移指令也只有无条件转移、条件转移、进入子程序和从子程序返回等最基本的几种。用它们来构造循环、形成分支、调用函数和过程得事先做许多的准备，还得靠许多的技巧。直接用机器语言表达算法有许多缺点。
?

大量繁杂琐碎的细节牵制着程序员，使他们不可能有更多的时间和精力去从事创造性的劳动，执行对他们来说更为重要的任务。如确保程序的正确性、高效性。程序员既要驾驭程序设计的全局又要深入每一个局部直到实现的细节，即使智力超群的程序员也常常会顾此失彼，屡出差错，因而所编出的程序可靠性差，且开发周期长。由于用机器语言进行程序设计的思维和表达方式与人们的习惯大相径庭，只有经过
较长时间职业训练的程序员才能胜任，使得程序设计曲高和寡。因为它的书面形式全是"密"码，所以可读性差，不便于交流与合作。因为它严重地依赖于具体的计算机，所以可移植性差，重用性差。这些弊端造成当时的计算机应用未能迅速得到推广。
?
克服上述缺点的出路在于程序设计语言的抽象，让它尽可能地接近于算法语言。为此，人们首先注意到的是可读性和可移植性，因为它们相对地容易通过抽象而得到改善。于是，很快就出现汇编语言。这种语言对机器语言的抽象，首先表现在将机器语言的每一条指令符号化:指令码代之以记忆符号，地址码代之以符号地址，使得其含义显现在符号上而不再隐藏在编码中，可让人望"文"生义。其次表现在这种语言摆脱了具体计算机的限制，可在不同指令集的计算机上运行，只要该计算机配上汇编语言的一个汇编程序。这无疑是机器语言朝算法语言靠拢迈出的一步。但是，它离算法语言还太远，以致程序员还不能从分解算法的数据、运算和控制到汇编才能直接表达的指令等繁杂琐碎的事务中解脱出来。到了50年代中期，出现程序设计的高级语言如Fortran，Algol60，以及后来的PL/l， Pascal等，算法的程序表达才产生一次大的飞跃。
?
诚然，算法最终要表达为具体计算机上的机器语言才能在该计算机上运行，得到所需要的结果。但汇编语言的实践启发人们，表达成机器语言不必一步到位，可以分两步走或者可以筑桥过河。即先表达成一种中介语言，然后转成机器语言。汇编语言作为一种中介语言，并没有获得很大成功，原因是它离算法语
?
言还太远。这便指引人们去设计一种尽量接近算法语言的规范语言，即所谓的高级语言，让程序员可以用它方便地表达算法，然后借助于规范的高级语言到规范的机器语言的"翻译"，最终将算法表达为机器语言。而且，由于高级语言和机器语言都具有规范性，这里的"翻译"完全可以机械化地由计算机来完成，就像汇编语言被翻译成机器语言一样，只要计算机配上一个编译程序。上述两步，前一步由程序员去完成，后一步可以由编译程序去完成。在规定清楚它们各自该做什么之后，这两步是完全独立的。它们各自该如何做互不相干。前一步要做的只是用高级语言正确地表达给定的算法，产生一个高级语言程序;后一步要做的只是将第一步得到的高级语言程序翻译成机器语言程序。至于程序员如何用高级语言表达算法和编译程序如何将高级语言表达的算法翻译成机器语言表达的算法，显然毫不相干。
?
处理从算法语言最终表达成机器语言这一复杂过程的上述思想方法就是一种抽象。汇编语言和高级语言的出现都是这种抽象的范例。与汇编语言相比，高级语言的巨大成功在于它在数据、运算和控制三方
?
面的表达中引入许多接近算法语言的概念和工具，大大地提高抽象地表达算法的能力。在运算方面，高级语言如Pascal，除允许原封不动地运用算法语言的四则运算、逻辑运算、关系运算、算术表达式、逻辑表达式外，还引入强有力的函数与过程的工具，并让用户自定义。这一工具的重要性不仅在于它精简了重复的程序文本段，而且在于它反映出程序的两级抽象。
?
在函数与过程调用级，人们只关心它能做什么，不必关心它如何做。只是到函数与过程的定义时，人们才给出如何做的细节。用过高级语言的读者都知道，一旦函数与过程的名称、参数和功能被规定清楚，那么，在程序中调用它们便与在程序的头部说明它们完全分开。你可以修改甚至更换函数体与过程体，而不影响它们的被调用。如果把函数与过程名看成是运算名，把参数看成是运算的对象或运算的结果，那么
?
，函数与过程的调用和初等运算的引用没有两样。利用函数和过程以及它们的复合或嵌套可以很自然地表达算法语言中任何复杂的运算。
?
在数据方面，高级语言如Pascal引人了数据类型的概念，即把所有的数据加以分类。每一个数据(包括表达式)或每一个数据变量都属于其中确定的一类。称这一类数据为一个数据类型。因此，数据类型是数据或数据变量类属的说明，它指示该数据或数据变量可能取的值的全体。对于无结构的数据，高级语言如Pascal，除提供标准的基本数据类型--布尔型、字符型、整型和实型外，还提供用户可自定义的枚举类、子界类型和指针类型。这些类型(除指针外)，其使用方式都顺应人们在算法语言中使用的习惯。对于有结构的数据，高级语言如Pascal，提供了数组、记录、有限制的集合和文件等四种标准的结构数据类型。其中，数组是科学计算中的向量、矩阵的抽象;记录是商业和管理中的记录的抽象;有限制的集合是数学中足够小的集合的势集的抽象;文件是诸如磁盘等外存储数据的抽象。
?
人们可以利用所提供的基本数据类型(包括标准的和自定义的)，按数组、记录、有限制的集合和文件的构造规则构造有结构的数据。此外，还允许用户利用标准的结构数据类型，通过复合或嵌套构造更复杂更高层的结构数据。这使得高级语言中的数据类型呈明显的分层。高级语言中数据类型的分层是没有穷尽的，因而用它们可以表达算法语言中任何复杂层次的数据。在控制方面，高级语言如Pascal，提供了表达算法控制转移的六种方式。
?
(1)缺省的顺序控制";"。
?
(2)条件(分支)控制:"if表达式(为真)then S1 else S2;" 。
?
(3)选择(情况)控制:
?
"Case 表达式 of
?
值1: S1
值2: S2
...
值n: Sn
end"
?
(4)循环控制:
?
"while 表达式(为真) do S;" 或
"repeat S until 表达式(为真);" 或
"for变量名:=初值 to/downto 终值do S;"
?
(5)函数和过程的调用，包括递归函数和递归过程的调用。
?
(6)无条件转移goto。

这六种表达方式不仅覆盖了算法语言中所有控制表达的要求，而且不再像机器语言或汇编语言那样原始、那样繁琐、那样隐晦，而是如上面所看到的，与自然语言的表达相差无几。程序设计语言从机器语言到高级语言的抽象，带来的主要好处是：高级语言接近算法语言，易学、易掌握，一般工程技术人员只要几周时间的培训就可以胜任程序员的工作；高级语言为程序员提供了结构化程序设计的环境和工具，使得设计出来的程序可读性好，可维护性强，可靠性高；高级语言远离机器语言，与具体的计算机硬件关系不大，因而所写出来的程序可移植性好，重用率高；由于把繁杂琐碎的事务交给了编译程序去做，所以自动化程度高，开发周期短，且程、序员得到解脱，可以集中时间和精力去从事对于他们来说更为重要的创造性劳动，以提高、程序的质量。
?
数据结构、数据类型和抽象数据类型
?
数据结构、数据类型和抽象数据类型，这三个术语在字面上既不同又相近，反映出它们在含义上既有区别又有联系。
?
数据结构是在整个计算机科学与技术领域上广泛被使用的术语。它用来反映一个数据的内部构成，即一个数据由哪些成分数据构成，以什么方式构成，呈什么结构。数据结构有逻辑上的数据结构和物理上的数据结构之分。逻辑上的数据结构反映成分数据之间的逻辑关系，物理上的数据结构反映成分数据在计算机内的存储安排。数据结构是数据存在的形式。
?
数据是按照数据结构分类的，具有相同数据结构的数据属同一类。同一类数据的全体称为一个数据类型。在程序设计高级语言中，数据类型用来说明一个数据在数据分类中的归属。它是数据的一种属性。这个属性限定了该数据的变化范围。为了解题的需要，根据数据结构的种类，高级语言定义了一系列的数据类型。不同的高级语言所定义的数据类型不尽相同。Pascal语言所定义的数据类型的种类。
?
其中，简单数据类型对应于简单的数据结构;构造数据类型对应于复杂的数据结构;在复杂的数据结构里，允许成分数据本身具有复杂的数据结构，因而，构造数据类型允许复合嵌套;指针类型对应于数据结构中成分数据之间的关系，表面上属简单数据类型，实际上都指向复杂的成分数据即构造数据类型中的数据，因此这里没有把它划入简单数据类型，也没有划入构造数据类型，而单独划出一类。
?
数据结构反映数据内部的构成方式，它常常用一个结构图来描述:数据中的每一项成分数据被看作一个结点，并用方框或圆圈表示，成分数据之间的关系用相应的结点之间带箭号的连线表示。如果成分数据本身又有它自身的结构，则结构出现嵌套。这里嵌套还允许是递归的嵌套。
?
由于指针数据的引入，使构造各种复杂的数据结构成为可能。按数据结构中的成分数据之间的关系，数据结构有线性与非线性之分。在非线性数据结构中又有层次与网状之分。由于数据类型是按照数据结构划分的，因此，一类数据结构对应着一种数据类型。数据类型按照该类型中的数据所呈现的结构也有线性与非线性之分，层次与网状之分。一个数据变量，在高级语言中的类型说明必须是读变量所具有的数据结构所对应的数据类型。最常用的数据结构是数组结构和记录结构。数组结构的特点是：
?
成分数据的个数固定，它们之间的逻辑关系由成分数据的序号(或叫数组的下标)来体现。这些成分数据按照序号的先后顺序一个挨一个地排列起来。每一个成分数据具有相同的结构(可以是简单结构，也可以是复杂结构)，因而属于同一个数据类型(相应地是简单数据类型或构造数据类型)。这种同一的数据类型称为基类型。所有的成分数据被依序安排在一片连续的存储单元中。概括起来，数组结构是一个线性的、均匀的、其成分数据可随机访问的结构。
?
由于这、种结构有这些良好的特性，所以最常被人们所采用。在高级语言中，与数组结构相对应的、数据类型是数组类型，即数组结构的数据变量必须说明为array [i] of T0 ，其中i是数组、结构的下标类型，而T0是数组结构的基类型。记录结构是另一种常用的数据结构。它的特点是:与数组结构一样，成分数据的个数固定。但成分数据之间没有自然序，它们处于平等地位。每一个成分数据被称为一个域并赋予域名。不同的域有不同的域名。不同的域允许有不同的结构，因而允许属于不同的数据类型。与数组结构一样，它们可以随机访问，但访问的途径靠的是域名。在高级语言中记录结构对应的数据类型是记录类型。记录结构的数据的变量必须说明为记录类型。
?
抽象数据类型的含义在上一段已作了专门叙述。它可理解为数据类型的进一步抽象。即把数据类型和数据类型上的运算捆在一起，进行封装。引入抽象数据类型的目的是把数据类型的表示和数据类型上运算的实现与这些数据类型和运算在程序中的引用隔开，使它们相互独立。对于抽象数据类型的描述，除了必须描述它的数据结构外，还必须描述定义在它上面的运算(过程或函数)。抽象数据类型上定义的过程和函
数以该抽象数据类型的数据所应具有的数据结构为基础。
?
泛型设计和数据结构与算法
?
下面我想再说说关于泛型程序设计模型对于数据结构和算法方面的最新推动，泛型思想已经把数据结
?
构和算法方面的基本思想抽象到了一个前所未有的高度，现在有多种程序设计语言支持泛型设计，比如
ADA，C++，而且据说在JAVA的下一版本和C#中也将对泛型设计进行全面的支持。
?
先说说泛型设计的基本思想：泛型编程（generic programming，以下直接以GP称呼）是一种全新的程序设计思想，和OO，OB，PO这些为人所熟知的程序设计想法不同的是GP抽象度更高，基于GP设计的组件之间偶合度底，没有继承关系，所以其组件间的互交性和扩展性都非常高。我们都知道，任何算法都是作用在一种特定的数据结构上的，最简单的例子就是快速排序算法最根本的实现条件就是所排序的对象是存
贮在数组里面，因为快速排序就是因为要用到数组的随机存储特性，即可以在单位时间内交换远距离的对象，而不只是相临的两个对象，而如果用联表去存储对象，由于在联表中取得对象的时间是线性的既O[n]，这样将使快速排序失去其快速的特点。也就是说，我们在设计一种算法的时候，我们总是先要考虑其应用的数据结构，比如数组查找，联表查找，树查找，图查找其核心都是查找，但因为作用的数据结构不同
?
将有多种不同的表现形式。数据结构和算法之间这样密切的关系一直是我们以前的认识。泛型设计的根本思想就是想把算法和其作用的数据结构分离，也就是说，我们设计算法的时候并不去考虑我们设计的算法将作用于何种数据结构之上。泛型设计的理想状态是一个查找算法将可以作用于数组，联表，树，图等各种数据结构之上，变成一个通用的，泛型的算法。这样的理想是不是很诱惑人？
?
泛型编程带来的是前所未有的弹性以及不会损失效率的抽象性，GP和OO不同，它不要求你通过额外的间接层来调用函数：它让你撰写完全一般化并可重复使用的算法，其效率与针对特定数据结构而设计的算法旗鼓相当。我们大家都知道数据结构在C++中可以用用户定义类型来表示，而C++中的模板技术就是以类型作为参数，那么我可以想象利用模板技术可以实现我们开始的GP思想，即一个模板函数可以对于各种传递进来的类型起作用，而这些类型就可以是我们定义的各种数据结构。
?
泛型算法抽离于特定类型和特定数据结构之外，使得其适应与尽可能的一般化类型，算法本身只是为了实现算法其需要表达的逻辑本质而不去被为各种数据结构的实现细节所干扰。这意味着一个泛型算法实际具有两部分。1，用来描叙算法本质逻辑的实际指令；2，正确指定其参数类型必须满足的性质的一组需求条件。到此，相信有不少人已经开始糊涂了，呵呵，不要紧。毕竟GP是一种抽象度非常高的程序设计思想，里面的核心就是抽象条件成为成为程序设计过程中的核心，从而取代了类型这在OO里面的核心地位，正是因为类型不在是我们考虑的重点，类型成为了抽象条件的外衣，所以我们称这样的程序思想为泛型思想------把类型泛化。

㈦怎样学习人工智能和大数据

大数据主要关注抄点是性能，所以跟行业关系比较大，当然跟数据分析也沾边
人工智能主要是机器学习算法，当然当前主流是用深度学习的技术，老一点的传统统计学习方法也有使用场景。既然有了统计学基础，传统算法应该很容易理解，深度学习可以去看 B站一下李宏毅的课
实现上以python为核心，机器学习有sklearn库，深度学习框架很多，可以挑选一个封装好的的比如fastai
其他编程语言就不用扩展了，

㈧ fortran语言转换为C语言的程序

f2c 和 p2c 是两个源代码转换程序. f2c 把 FORTRAN 代码转换为 C 代码, p2c 把 Pascal 代码转换为 C 代码. 当你安装 GCC 时这两个程序都会被安装上去.

如果你有一些用 FORTRAN 或 Pascal 写的代码要用 C 重写的话, f2c 和 p2c对你非常有用. 这两个程序产生的 C 代码一般不用修改就直接能被 GCC 编译.

如果要转换的 FORTRAN 或 Pascal 程序比较小的话可以直接使用 f2c 或 p2c不用加任何选项. 如果要转换的程序比较庞大, 包含很多文件的话你可能要用到一些命令行选项.

在一个 FORTRAN 程序上使用 f2c , 输入下面的命令:

f2c my_fortranprog.f

注意: f2c 要求被转换的程序的扩展名为 .f 或 a .F .

要把一个Pascal 程序装换为 C 程序, 输入下面的命令:

p2c my_pascalprogram.pas

这两个程序产生的 C 源代码的文件名都和原来的文件名相同, 但扩展名由 .f或 .pas 变为 .c.

㈨数据可视化工具系统有哪些

近几年冒出来复的BI之秀，如TB、qlk都强制调可视化，一改传统BI工具SAP BO、IBM家的cognos（不过近几年貌似都在研发云BI）。这里不谈开源，还没见到能成熟应用的BI。成熟的BI工具如 FineBI （国内）和 Tableau（国外），都很推荐。tableau可视化探索分析很赞，数据量多的时候性能较差，企业用多并发价格贵。FineBI 国产帆软，为数不多能占据世界领先地位的数据工具，重在数据处理性能和企业应用的复杂情况（市场步伐很快），自带ETL，可视化还行，价格良心，个人用免费。如图可视化效果：

㈩ fortran 语言中GE,GT,LE,LT代表什么意思

1、GE：大于等于号（>=）；

2、GT是大于号(>)；

3、LE是小于等于号(<=)；

4、LT是小于号(<)。

(10)fortran大数据扩展阅读：

最大特性是接近数学公式的自然描述，在计算机里具有很高的执行效率。易学，语法严谨。可以直接对矩阵和复数进行运算，这一点类似matlab。

自诞生以来广泛地应用于数值计算领域，积累了大量高效而可靠的源程序。很多专用的大型数值运算计算机针对Fortran做了优化。广泛地应用于并行计算和高性能计算领域。

网络-公式翻译器

导航:首页 > 网络数据 > fortran大数据

fortran大数据

与fortran大数据相关的资料

友情链接