大數據hu_大數據技術的發展趨勢有哪些

Ⅰ 大數據技術的發展趨勢有哪些

大數據的發展趨勢

1、演算法（Algorithms）的崛起

霧計算正在迅速地獲得大量動力。霧計算是指推進連接到物聯網的終端設備和存儲數據的雲計算之間的存儲、傳輸和計算。隨著物聯網的進步，霧計算勢頭越來越猛，因為感測器變得相當精密，它們現在可以收集大量數據。

據Gartner稱，智能機器是新的現實。因此，在未來我們將看到更多的智能機器有著越來越多的精密感測器，能收集大量的數據。組織將不得不轉向霧分析，以便數據易於管理，保持洞察力可用並盡可能降低成本。

Ⅱ 數據湖和數據倉庫的區別是什麼

數據湖和數據倉庫的區別：

一個數據湖專門用於存儲任何形式的數據，即結構化或非結構化。它還使我們能夠以其本機格式保存大量原始數據，直到需要它為止。該術語主要與面向Hadoop的對象存儲相關。在這種情況下，首先將組織的數據載入到Hadoop平台，然後再載入到業務分析。進一步，將數據挖掘工具添加到該數據中，該數據挖掘工具通常位於商用計算機的Hadoop群集節點中。

數據倉庫

而數據倉庫收集來自多個源（內部或外部），該數據被進一步用於商業目的優化的數據。以這種形式，數據大部分是結構化的，並來自關系資料庫。但是，也可以收集非結構化數據，但是大多數情況是要收集結構化數據。

數據湖與數據倉庫：兩者都使用兩種不同的策略來存儲數據。

兩者之間的主要區別之一是，在數據湖中沒有特定的預定架構，它可以輕松容納結構化或非結構化數據。數據湖的概念僅在2000年才開始興起，國內數據湖的概念也是在2020年才由阿里在雲棲大會上提出並展露鋒芒，數據湖展示了如何存儲數據以及如何同時節省成本。

但數據倉庫卻不是這種情況，數據倉庫通常由確定的架構組成並處理主數據。

數據湖和數據倉庫在處理非結構化數據方面足夠有效，但是隨著生成的數據量的增加，存儲所有數據可能會變得昂貴。除此之外，這很耗時並且需要相當長的時間來進行分析和存儲。數據湖之所以走到最前沿的眾多原因之一。它可以最有效，最經濟地處理非結構化數據。

作為數據分析專業人士，您需要了解以下兩個術語之間的區別：

1.數據湖中使用的像大數據這樣的技術是一個新概念，但是，像數據倉庫這樣的概念已經使用了數十年。

2.在數據湖中，無論其結構如何，都可以存儲數據，並以原始形式保存數據，直到需要使用為止。但是在數據倉庫中，提取的數據組成了定量指標，其中對數據進行了清理和轉換。

3.數據湖具有存儲所有數據的能力，可以存儲當前數據和將來需要使用的數據。在數據倉庫中，需要花費大量時間專門用於分析多個源。

4.數據湖可以收集所有類型的數據，包括結構化和非結構化。但是，在數據倉庫中，它會收集結構化數據並將其按照專門為數據倉庫設計的架構進行排列。

5.數據湖包含所有類型的數據，並促使用戶在處理和清除數據之前訪問數據。數據倉庫提供對預定義數據類型的預定義問題的見解。

隨著非結構化數據的不斷增長，數據湖的興起將變得越來越流行。但是，仍然需要數據倉庫。因此，根據您的項目，您可能需要選擇最佳的存儲解決方案。

Ⅲ 數據管理，數據治理，數據中心，數據中台，數據湖都是什麼意思，有什麼關系呢

數據治理和數據管理

簡單來說治理就是管理的管理。

管理你得遵循一定得標准規范體系，一定得流程，一定得組織角色分工，而這些內容就必須先通過數據治理定義清楚。管理只是根據數據治理規范體系去執行管理和監督得職責。

既管理執行得依據是治理規范體系。

：

數據中台和數據湖

這個要解釋清楚不太容易，因此我盡量做簡化。

數據湖一般是公有雲服務商提出得一個概念，即企業得結構化，非結構化數據都可以全部採集和存儲到我這里來。數據湖就是一個大得存儲站，這個存儲是分布式可無限擴展得，存儲過來得數據也不會去清洗和加工，盡量保持原樣。

在存過來後，數據湖再困橡提供一些標准得開放介面給你使用數據，這些介麵包括了查詢SQL類介面，計算引擎介面，流處理介面等。提供介面得目的也很簡單，你能夠方便得使粗物用你存儲過來得數據。

數據湖得存儲一般是分布式對象存儲或分布式文件存儲，即使你是結構化資料庫採集過來得數據，仍然會轉成統一的存儲方法，方便擴展。

數據中台簡單來說企業共享數據能力下沉並對外開放。

數據中台包括了底層數據技術平台（可以是我們熟悉的大數據平台能力），中間的數據資產層，上層的數據對外能力開放。

核心的資產層本身也分層，從最底層的貼源數據，到分域應用數據，再到上層的數據倉庫和數據標簽庫。而數據湖更多對應到數據中台概念裡面的數據貼源層。

企業實際在建數據中台的時候實際很少用數據湖汪凳旁這個概念。

兩者的對比映射如下：

數據中心

對於數據中心這個詞，原來在BI系統應用裡面也經常出現。

但是現在數據中心一般特指IT基礎設施，大的公有雲數據機房等，在BI系統或數據中台裡面都很少用這個詞。即數據中心這個詞偏IT硬體基礎設施層面了。

Ⅳ 如何區別資料庫、數據中台、數據湖

數據湖、數據倉庫和數據中台，他們並沒有直接的關系，只是他們為業務產生價值的形式有不同的側重。

一、區別：

數據湖作為一個集中的存儲庫，可以在其中存儲任意規模的所有結構化和非結構化數據。在數據湖中，可以存儲數據不需要對其進行結構化，就可以運行不同類型的分析。

數據倉庫，也稱為企業數據倉庫，是一種數據存儲系統，它將來自不同來源的結構化數據聚合起來，用於業務智能領域的比較和分析，數據倉庫是包含多種數據的存儲庫，並且是高度建模的。

數據中台是一個承接技術，引領業務，構建規范定義的、全域可連接萃取的、智慧的數據處理平台，建設目標是為了高效滿足前台數據分析和應用的需求。數據中台距離業務更近，能更快速的相應業務和應用開發的需求，可追溯，更精準。

二、關系：

數據湖、數據倉庫更多地是面向不同對象的不同形態的數據資產。而數據中台更多強調的是服務於前台，實現邏輯、標簽、演算法、模型的復用沉澱。

數據中台像一個「數據工廠」，涵蓋了數據湖、數據倉庫等存儲組件，隨著數據中台的發展，未來很有可能數據湖和數據倉庫的概念會被弱化。

三、小結：

數據空間持續增長，為了更好地發揮數據價值，未來數據技術趨於融合，同時也在不斷創新。

Ⅳ 估值380億美元的數據湖引領者，Databricks是如何發展壯大的

阿爾法公社

重度幫助創業者的天使投資基金

Databricks是一家正在崛起的企業軟體巨頭。2021年，它連續獲得兩輪10億美元級別的大額融資，估值躍升到380億美元，它在數據和人工智慧領域具有全球雄心。

Databricks是一個非典型的創業故事，它由七位聯合創始人創辦，其中大部分是學者。它從Spark開源項目起步，現在引領了數據湖範式，這將加速其與主要競爭對手Snowflake的競爭。

本文是投資人Matt Turck與Databricks聯合創始人兼CEO Ali Ghodsi的對話實錄，Matt Turck在2015年就與Databricks的聯合創始人Ion Stoica有過對話，對於Databricks的情況相當熟悉。在本文中Ali Ghodsi將透露Databricks從一個開源項目到大型公司的成長經歷，以及在團隊，產品，進入市場，擴張等方面積累的洞見，Enjoy。

科學家創始人們推動Databricks起步

Matt Turck： 我們談一下Databricks的起步，AMPLab、Spark和Databricks，這一切是如何開始的？

Ali Ghodsi： 我們當時正處於人工智慧革新的風口浪尖：Uber剛剛起步，Airbnb、Twitter處於早期，Facebook還不是巨頭。他們聲稱，使用20世紀70年代誕生的機器學習演算法實現了很好的效果。

以當時的常識來想這不可能是真的，我們覺得那些演算法不可能Work，但他們說，「不，我們得到了非常厲害的結果。」當仔細觀察後，我們的想法被顛覆了——他們確實獲得了驚人的結果。以現代硬體和大量數據為支撐，運用上世紀的演算法依舊可以獲得令人難以置信的產出，我們對此感到震驚。我們想："需要使之普適化"。例如，在Facebook，他們可以提前檢測到情侶分手，如果地球上的每個企業都有這種技術，這會對現有商業產生巨大影響。這就是AMPLab的起點。

Matt Turck： 當時AMPLab的Spark是怎麼來的？

Ali Ghodsi： 圖靈獎得主之一戴夫·帕特森當時是伯克利的教授，他非常相信人們應該聚在一起，打破孤島。伯克利的教授們放棄了自己的私人辦公室，和所有學生一起在巨大的開放區域辦公。

他們試圖解決的機器學習問題以當時的技術背景來說是很有挑戰性的。AMPLab里做機器學習的人，做數學的人，不得不使用Hadoop，數據的每一次迭代都必須運行MapRece，這樣光是做一次迭代就需要20到30分鍾。所以當時我們決定："聯合起來，建立一個反應快速的基礎架構。」我們在數據上做了很多迭代。因此，不只是做一次，不只是一個SQL引擎，而是可以做遞歸機器學習的東西，並可以極快地找到數據中的內涵模式。

Matt Turck： Databricks創始故事的特殊之處在於，你們有七、八個聯合創始人。回過頭看，擁有這樣一個大的創始團隊利與弊是什麼？

Ali Ghodsi： 肯定是有利有弊的。如果你知道如何真正讓由七個人組成的緊密小組真正信任對方，並在一起工作得很好，就會發生令人驚訝的事情。我認為Databricks的成功很大程度上歸因於我們互相的信任。

創業早期的創始人，即使只有兩個人，他們也會爭吵，然後可能會在一兩年內分裂，這就是問題所在。我們找到了一種方法，使大家真正了解對方的長處和短處，使這段創業旅程成為一種樂趣。

人們總說CEO是地球上最漫長的工作，我從來沒有這種感覺。我有很多聯合創始人和我在一起，他們一直都在，這對我們來說絕對是一種力量。如果我們沒有這些人，就不會有現在的成就。

從開源項目到公司，

從0到100萬美元ARR

Matt Turck： 你們是如何從學術性的開源項目（Spark）變成一家公司，然後從0做到1000萬美元ARR的？這背後是否有任何決定性的時刻，或其他特別的增長手段？

Ali Ghodsi： 我們從0到100萬美元ARR的旅程非常特別，與其他的旅程非常不同。我們經歷了三個階段，第一個階段是PMF（產品與市場契合）階段，當你有了一個產品，你能找到它與用戶之間的契合點么？這對任何公司都存在挑戰。

你一旦你找到PMF，接下來就得弄清楚什麼是能將該產品與市場聯系起來的渠道，你的產品或許符合市場需求，但怎麼通過渠道銷售呢？事實上，我們一開始在這方面走了彎路，花了幾年時間才確定正確的發展方向。在這幾年裡，為了弄清楚Databricks的正確模式我們進行了大量的實驗。

接下來，讓我們從產品開始，然後再談談渠道。

產品方面，我們有在伯克利建立的開源技術，但這不一定符合大企業的需要，因為在大企業，他們沒有來自伯克利的博士。因此，我們需要為他們大簡化問題，我們開始在雲中託管它，但事實證明，即使是雲版本對他們來說也太復雜了，無法使用。

因此，我們開始與用戶一起進行迭代。我們在這之後削減了很多特性和功能，甚至可以說重新構建了一個產品。我們問自己："如果我們知道現在的一切，回去再做一次，會怎麼做？"

於是，我們重新做了另一個開源項目，Delta，你可以把它看作Spark為大型企業所做的非常簡單和自動化的軟體。當我們在伯克利時，我們的產品設想是提供盡可能多的功能和設置項，因為可能是一個博士在用它做研究。但當我們把產品在企業中推廣時，我們意識到不是每個人都有博士學位，大家不知道如何使用它。這就是早期我們遇到的問題。在渠道方面，錯誤在於，我們在早期真的是非常相信這種產品主導的增長。

關於銷售，當時我們的設想是，有了一個簡化的產品，我們把它做成基於雲的產品，就會有人會使用它，會為它刷信用卡，我們會非常成功。我們可以僱用銷售人員，給年輕人打電話進行推銷，我們不會僱傭企業的銷售人員。我們更喜歡這種模式，它更便宜，更簡單。

但那是一個錯誤。你不能憑空選擇你的渠道。你有一個產品和相應的市場，必須找到正確的渠道來連接它們。

Databricks如何開發產品，

數據倉庫VS數據湖

Matt Turck： 我們一會再繼續談進入市場。現在讓我們先談談產品，我在Databricks觀察到的令人著迷的事情之一是，你們發布新產品並將其轉化為一個平台的速度。從Spark到機器學習到AI工作台再到Lakehouse，請向我們介紹一下產品的思路——一個產品如何導致另一個產品的出現。

Ali Ghodsi： 我們從Spark開始起步，它讓用戶可以訪問所有數據；於是人們開始在企業中創建資料庫，並在其中積累了大量數據。但過了一段時間，企業高管會問：「我不在乎我們獲得和存儲了多少數據，你能用這些數據為我做什麼？」這就是我們試圖建立其他應用程序的原因。

起初我們的收入很少，然後我們意識到它太復雜了，有太多的選項和配置。我們就問自己："如果必須重做，必須簡化，會做什麼？"這種思路後的第一個創新是Delta，它重新定義了Spark，以一種真正企業友好的簡化方式。但最初我們沒有將它開源。

接下來，我們想：「如果拓寬資料庫的用途，不僅僅是數據科學家和機器學習工程師，而是真正廣泛的用例，應該怎麼做？」這就是我們開始重視商業分析師的原因。

商業分析師習慣於像Tableau那樣的操作軟體。如果他們想做一些更復雜的事情，只能使用SQL。因此，我們在四年前開始致力於構建數據倉庫能力，把它建立在我們稱為Lakehouse的核心基礎設施中，然後在前年較大規模的推廣。

我們的秘訣是：看企業的問題，弄清楚那是什麼，通過實際的客戶問題來深入了解它，把問題帶回來，解決這個問題，在雲中與客戶快速迭代。一旦它有了產品的市場適應性，就把它開放出來。建立巨大的開源勢頭，幾乎像一個B2C病毒式的形式。然後，用基於雲的SaaS版本將其變現。

這是受AWS的啟發，當創立Databricks時，我們認為AWS是地球上最好的雲計算開源公司。他們本身不進行開發，其盈利模式基於開源軟體，託管它並在上面賺很多錢。我們只是在這一點上進行了調整和演變。我們認為：「這是一個偉大的商業模式。我們將在雲上託管開源軟體。但不同的是，我們將自己創建開源軟體。這樣一來，就獲得了相對於其他任何想做同樣事情的人的競爭優勢。」否則，任何人都可以建立任何開源軟體並在雲中託管它。

Matt Turck： 接下來，讓我們從Lakehouse開始，了解一下數據湖和數據倉庫的演變，以及Lakehouse是如何在這兩個領域中取得最好的成績。

Ali Ghodsi： 這很簡單。人們在數據湖裡存儲所有的數據：數據集，視頻、音頻、隨機文本，這既迅速又便宜。利用各種各樣的數據集，你可以基於數據湖進行AI創新，AI與數據湖密切相關。如果你想做BI，而不是AI，你就使用數據倉庫，數據倉庫和BI有一個單獨的技術堆棧，但是它其實和AI一樣，有很多同樣的數據集。

BI用於回答過去的問題，比如上個季度的收入是多少；AI用來問關於未來的問題，哪些客戶將會回來？所以，這意味著需要兩個獨立的堆棧，你必須有兩個數據副本，而且你必須管理它們，這造成了很多復雜性。但當年的FAANG（矽谷幾個頂尖互聯網巨頭的聯合簡稱）可不是這樣做的，他們有一個統一的平台。所以，我們的想法是把這兩個統一成一個平台—Lakehouse、人工智慧數據湖--提出關於未來的問題。這兩者的結合將使企業能夠更快地發展。它是數據工程師、數據科學家和商業分析師的平台，這樣他們就可以在整個企業內一起工作。所以這是一個用於AI和BI的數據平台。

Matt Turck： 實現這一點靠的是什麼重大的技術突破么？是Delta Lake？還是Iceberg？那是如何工作的？

Ali Ghodsi： 是的，我認為有四個技術突破是在2016、2017年同時發生的，Hudi、Hive ACID、Iceberg、Delta Lake，我們貢獻的是Delta Lake。問題是這樣的，在數據湖裡有人們收集了所有的數據，這些數據非常有價值，但很難對它們進行結構化查詢。之前的傳統方式是利用SQL資料庫，然後應用在BI領域。因此，你需要一個單獨的數據倉庫。

為什麼這么難？因為數據湖是為大數據、大數據集建立的，它並不是為真正的快速查詢而建立的。它太慢了，而且沒有任何方法來結構化數據，並以表格的形式展現數據，這就是問題所在。那麼，你如何把像一個大的數據塊存儲的東西，變成一個數據倉庫？這就是這些項目的秘訣。我們找出了解決這些數據湖效率低下的方法，並使用戶能夠直接從數據湖的數據倉庫中獲得相同的價值。

Matt Turck： 這種方法有什麼取捨嗎？

Ali Ghodsi： 事實上並非如此，我們做到了魚與熊掌可以兼得。我知道這聽起來很瘋狂，但試試就是如此。我們減少了很多在80、90年代由數據倉庫供應商發明的技術，調整它們，使它們在數據湖上工作。你可以問：「為什麼這在10或15年前沒有發生？」因為開放標準的生態系統並不存在，它是隨著時間的推移慢慢出現的。所以，它從數據湖開始，然後有一個很大的實際技術先導突破。我們在這里談論的，是數據的標准化格式。他們被稱為Parquet和ORC，但這些是數據格式，行業要將所有的數據集標准化。

這些類型的標准化步驟是需要的，以獲得數據湖的突破。這有點像USB，一旦你有了它，你就可以把任何兩個設備相互連接起來。所以，正在發生的事情是，開源領域的一個生態系統正在出現，在那裡你可以在數據湖的範式中做所有的分析。最終，你將不需要所有這些自八十年代以來的專有舊系統，包括數據倉庫和其他類似系統。

Matt Turck： 我會針對這個再問問題，業界有很多關於Snowflake和Databricks之間即將發生大沖突的議論，作為這個領域的兩個巨大的公司，你對未來的看法是，數據湖最終成為範式，然後隨著時間的推移，其他一切都被吸收？還是你認為未來更多的是混合，用戶可以用數據倉庫做某些事情，數據湖做其他事情？

Ali Ghodsi： 我將從兩個方面回答這個問題。首先，人們把這說成是零和博弈，但你認為谷歌雲會淘汰AWS和微軟雲，還是AWS會淘汰其他雲？沒有人這么認為，對吧。他們會共存，都將獲得成功。

數據空間是巨大的。將會有很多供應商參與其中。我認為Snowflake將獲得成功，他們現在有一個偉大的數據倉庫，可能是市場上最好的數據倉庫。而它肯定會與Databricks共存。事實上，Databricks與Snowflake共存於可能70%的客戶中。我認為這種情況將繼續存在，人們將使用數據倉庫進行商業智能。

但是，如果長期來看，我認為數據湖的範式將獲勝。為什麼？因為數據太重要了，人們所有的數據都在這些數據湖中，而且更多的數據正在進入數據湖中。公有雲計算供應商也有動力推動更多的動力讓人們把數據存到他們的數據湖中，因為這對他們來說是既得利益。因此，任何使其真正有價值的解決方案，都將是未來的趨勢。所以，我認為從長遠來看，越來越多的人將傾向於這種數據湖的範式。

為什麼Databricks能夠不斷產出創新產品？

Matt Turck： 我想了解你的產品和工程團隊是如何組織的？對於一家公司，能夠在第一個產品成功的基礎上做第二個產品是非常罕見的。但在這里，我們正在談論，如何成功的做出三個、四個、五個不同的產品。你的公司是如何管理好團隊組織結構和其他資源，以不斷創新？

Ali Ghodsi： 我們從創立Databricks時，就在試圖找到這個問題的答案。我們不想靠一個單一的產品生存。當我們有了Spark，卻並沒有把它當成公司的名字，因為如果Spark變得落後了，我們就會把它迭代掉，然後繼續向前，我們想不斷找到數據的最佳答案。那麼如何不斷的有創新產品出現？我認為非常重要的是，要把創新和現有的現金流業務分開。

有一本關於這個問題的好書，叫Zone To Win。書中談到，當你創造出一些新東西時，你需要快速迭代。你需要讓工程師直接與客戶交談，甚至不一定要讓產品經理來做，快速的創新迭代是最要緊的。而在在企業端，你需要一個慢得多的周期來迭代。

另外，所有的工程和產品團隊組織被分成兩個不同的部分。一部分專注於企業客戶需要的東西：加密，安全，認證，穩定性等。另一部分則專注於創新，而且你應該把這些分開，分別的投入資源，否則前者（企業那部分）將得到所有的資源。你會傾向於不斷地建立那些擴大你的TAM的東西。TAM擴展實際上是安全能力，它本身並沒有任何創新。

我認為，有些公司已經做得很好了，比如AWS，它不是一招鮮，亞馬遜本身也不是一招鮮，它不斷有新的創新。所以我們希望我們的公司也是這樣的，因此取名為Databricks。

Matt Turck： MLflow Delta Lake, Koalas。這屬於創新陣營還是商業陣營的子層？

Ali Ghodsi： 這些都是創新陣營。當然，其中一些項目，當他們不那麼創新的時候，像Spark，會轉移到維護方面，我們通常也會移動核心人員。因此，實際上是同一個人或同一撥人在不斷地進行創新。我們試圖培養更多的創新者，但我們試圖把那種已經真正有訣竅破解從0到1的人轉移到下一個問題，然後把現有的項目移交給其他人去運行，比方說Spark，這已經是一個巨大的成功項目。

當我們把已經創造出東西的人轉移到別的地方去創造下一個東西，對於一個優秀人才，獲得這種責任是一個很大的職業提升。而我們也會發現誰是擅長從0到1人。我們實際上是在做實驗，給研發部門的人一個機會去試驗從0到1的東西，他們並不總是成功。這需要幾次嘗試，直到他們成為真正擅長的人。所以你必須慎重考慮這種高失敗的策略。

開源的商業模式，有何優越性？

Matt Turck： 如果你今天要再開一家企業軟體公司，你會先去開源代碼嗎？

Ali Ghodsi： 是的，我認為它很優越。我認為如果你從進化的角度來考慮，它在進化上比以前的商業模式要好。為什麼我這么說？因為任何專有的軟體公司都是成熟的，可以被開源的競爭者破壞。因此，任何專有的東西都可以立即被顛覆，就像Windows被Linux顛覆一樣。我的意思是，那是最先進的東西，是真正復雜的技術操作系統，對嗎？你不會認為大學里的某個傢伙會發明，然後成為工業的標准。任何專有軟體都是成熟的，可以進行這樣的顛覆。問題是，你能靠它賺錢嗎？在紅帽和所有這些做支持網路服務的公司之前，這真的很難，直到AWS破解了商業模式的密碼。

商業模式是我們為你運行軟體，你從我們這里租用它。這是一個優越的商業模式，因為你實際上可以擁有大量的IP，這是很難復制的。所以我認為我創辦的下一家公司將是這樣的。如果你要問我，我的下一次創業會在哪個領域開始，我會在人工智慧方面做什麼？我會認為我們現在在人工智慧方面的應用還很淺層，尤其是操作性的人工智慧。人工智慧未來將會被嵌入到各個地方。我知道這很老套。馬克·安德森說，軟體正在吞噬世界。我們真的相信，人工智慧將吞噬所有的軟體。你擁有的任何軟體，人工智慧都會悄悄進入，就像軟體悄悄進入你的汽車、冰箱和恆溫器一樣。所以這真的是早期的事情，我認為任何加入或創辦人工智慧領域公司的人，他們還在早期，他們有機會創辦下一個谷歌。所以這就是我想做的。

Matt Turck： 我們談到了開源，也繼續談進入市場的問題，在這個階段，作為一個非常晚期的創業公司。開源在進入市場的過程中處於什麼位置？你們進入市場的策略是自下而上與自上而下？你們如何分配BDR小組與AE的工作，讓他們協作而不是互相拖後腿？

Ali Ghodsi： Databricks是混合模式，我們是自下而上與自上而下在同一時間結合。一開始我們是自下而上，但是也會做自上而下的事情。我們有BDRs和SDRs。這是一個從市場營銷開始的篩選器。

Databricks社區版是完全免費的，你想怎麼用就怎麼用，永遠不需要付錢，而且有完整的功能。但是從這里產生的線索會導入到SDR。因此，這也是一個非常重要的管道。我們一半的線索來自於此，這就是為什麼開源對我們是一個重要的引擎。

現在，我們也有傳統的企業銷售動作，比如給CIO遞名片，一對一的交流，但發生的情況是，開發人員在這些組織中也變得越來越強大。例如，CIO說，我與Databricks的CEO進行了一次很好的談話，我正在探索這項技術，但我擔心，這對我們來說是正確的選擇嗎？那家公司的聽眾中會有人說，是的，我使用社區版。我們不需要做6個月的POC。我認識這些人，他們真的非常好，或者我認識他們，他們來自伯克利。我已經使用了這些技術。我去參加了一些聚會等。

因此，這有助於證實用例，你可以消除整個POC，因為他們已經知道它是什麼，而不是像10-20年前那樣，一個銷售人員進來，解釋這個軟體有多棒，但你不能相信他們。因此你就必須去做POC，然後去花時間檢驗這個軟體是不是真的有用。我們不必這樣做，我們可以穿過所有這些層次。因此，我們把自上而下和自下而上結合起來，而這兩方面對於Databricks的成功都是非常必要的。

從創業公司到超級獨角獸，

領導者的修煉之路

Matt Turck： 你已經把一家小型創業公司帶成了超級獨角獸，很快還會上市。你是如何讓自己完成角色轉變的，從一個講願景，講故事的人，變成管理一個全球組織？

Ali Ghodsi： 其實就是如何找到你可以信任的具有領導力的幫手，並和他們建立更深的信任。我可以把我大部分時間都花在這上面，而公司能夠繼續正常運行。我有運行良好的銷售團隊，市場營銷團隊，工程團隊，我卻不需要自己直接參與其中，因為我找到了適合領導這些部門的領導者，並且花了很多時間與他們建立起信任。

這是你在早期就要開始准備的事情，早期時，你的組織規模小，你可以參與到每個環節，如臂使指。但是當團隊規模擴展到150-200人直到超過鄧巴數。你會感覺自己完全被淹沒了。因此你必須找到可以信任的正確的領導人，而且要找到自己與組織溝通的方法，因為現在不是直接溝通，而是通過領導層間接溝通，所以幫助你與團隊組織溝通的人就特別重要。

Matt Turck： 你如何找到他們？你是偏向在內部提拔人才，還是從外部引入已經獲得成功的高管，哪一個效果更好？你是如何處理的？

Ali Ghodsi： 要找到與公司文化相適應的、你能與之建立強大信任的高管是非常困難的，我認為不應該排除任何選項。如果能夠從內部提拔人，那很好，但是如果只是內部晉升，你就不能獲得市場上已經存在的成功經驗，這種經驗可能是超級有價值的。

如果我們尋找外部的高管，他必須經歷過我們現在所處的階段，有實戰的經驗。不是說他必須從零開始創建一個估值幾百億的公司，而是建立和操作過這種階段公司的工程等相應部門，他是否在這個過程中有第一性思考，有自己的沉澱。我認為能力和智商還是非常重要的。

文化看起來是個很復雜的東西，但是對與我，會把它分解成一連串問題：我可以和這個人相處嗎？願意每天花10個小時和他在一起工作么？當事情變得非常棘手和困難的時候，我們能一起去解決問題么？所以你要做的就是花大量時間與這個人相處，然後問自己是否喜歡他們，就像婚姻一樣。你可以問他們一些困難的問題，與他們爭論或者聽取他們的意見，直到確定這就是正確的人。如果你感覺到自己無法和某個人一起好好工作，那他就可能是文化不匹配。

本文編譯整理自Matt Turck個人博客，略有刪節。

關於阿爾法公社

阿爾法公社（Alpha Startup Fund）是中國領先的早期投資基金，由曾帶領公司在納斯達克上市的許四清和前創新工場聯合管理合夥人蔣亞萌在2015年共同創立。

阿爾法公社基金的三大特點是系統化投資、社交化創業者社區運營和重度產業資源加速成長。專注在半導體、企業服務軟體、人工智慧應用、物聯網技術、金融科技等科技創新領域進行早期投資。目前已經在天使輪投資了包括白山雲科技、領創集團(Advance Intelligence Group)、Zenlayer、帷幄科技、所思科技等為數眾多的優秀項目。

Ⅵ 鑱婁簯鏁版嵁婀栧浗浼佽繕鏄縐佷紒

鑱婁簯鏁版嵁婀鏄鍥戒紒銆傝亰鍩庡煄甯傛暟鎹婀栭」鐩鍧愯惤浜涓滄槍搴滃尯錛岀敱鑱婂煄甯備漢姘戞斂搴滀笌鍖椾含鏄撳崕褰曘佸寳浜鏃瘋嗗叡鍚屽緩璁撅紝欏圭洰闆嗏滀駭銆佸︺佺爺銆佺敤鈥濅負涓浣擄紝鎵撻犫滄暟鎹婀栤濊炬柦銆佽繍鑿呫佷漢鎵嶃佽祫鏈絳変紭鍔挎潯浠剁幆澧冿紝鈥滄暟鎹婀栤濆瓨鍌ㄨ兘鍔涜揪50PB錛屽叾瀛樺偍閲忓拰璁＄畻鑳藉姏錛屽湪灞變笢鐪佸潎鎺掔涓銆傞氳繃鏁版嵁璧勬簮奼囪仛銆佹暟鎹寮鏀懼叡浜銆佹暟鎹浠峰兼寲鎺橈紝鏈夋晥鍦板艦鎴愪互鏁版嵁婀栦負鏍稿績鐨勫ぇ鏁版嵁鐢熸佸湀錛屼負鏀垮簻銆佷紒涓氥佸叕浼楃瓑澶氭柟鎻愪緵鏁版嵁鏈嶅姟銆

導航:首頁 > 網路數據 > 大數據hu

大數據hu

與大數據hu相關的資料

友情鏈接