无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 數(shù)據(jù)庫 > 理解SQL在數(shù)據(jù)科學(xué)中的應(yīng)用

理解SQL在數(shù)據(jù)科學(xué)中的應(yīng)用

2020-07-31 16:20:44 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

要了解SQL,我們需要了解DBMS的工作方式。DBMS或數(shù)據(jù)庫管理系統(tǒng)本質(zhì)上是一種用于創(chuàng)建和管理數(shù)據(jù)庫的軟件。SQL是否需要成為數(shù)據(jù)科學(xué)家?我們討論了SQL的重要性以及SQL知識如何幫助成功的數(shù)據(jù)科學(xué)事業(yè)的基礎(chǔ)。在此讓我們繼續(xù)前進,并進行更詳細的討論。如果您具有SQL的一些基本知識并且正在準(zhǔn)備面試,請閱讀我們的SQL面試問題列表,這將幫助您找到工作。但是,在深入探討這一點之前,了解SQL在數(shù)據(jù)科學(xué)領(lǐng)域為何如此重要的原因以及如何發(fā)揮作用將非常有用。

  什么是數(shù)據(jù)科學(xué)?

數(shù)據(jù)科學(xué)是一個使用許多科學(xué)方法和過程來收集數(shù)據(jù)并從中獲得有用見解的領(lǐng)域。這樣做會創(chuàng)造新的機會,設(shè)計,業(yè)務(wù)案例,甚至是革命性的創(chuàng)新。

人工智能的未來在于數(shù)據(jù)科學(xué)。數(shù)據(jù)科學(xué)涉及使用算法,軟件程序和統(tǒng)計信息來整理和處理巨大的復(fù)雜數(shù)據(jù)塊。數(shù)據(jù)的復(fù)雜性來自其非結(jié)構(gòu)化的性質(zhì)-當(dāng)今的數(shù)據(jù)可以是任何形式-文本,圖像,傳感器和儀器的輸出,而沒有!

到目前為止,數(shù)據(jù)科學(xué)的好處可以在電子商務(wù),醫(yī)療保健,制造業(yè),銀行業(yè),金融和運輸?shù)阮I(lǐng)域中感受到。

  DBMS和關(guān)系數(shù)據(jù)庫的基礎(chǔ)

要了解SQL,我們需要了解DBMS的工作方式。DBMS或數(shù)據(jù)庫管理系統(tǒng)本質(zhì)上是一種用于創(chuàng)建和管理數(shù)據(jù)庫的軟件。借助DBMS,程序員可以創(chuàng)建,管理或選擇數(shù)據(jù)。

數(shù)據(jù)庫充當(dāng)最終用戶和應(yīng)用程序之間的接口,以有組織且一致的方式訪問數(shù)據(jù)。例如,用戶登錄Facebook。

根據(jù)用戶注冊的電子郵件地址和密碼,從應(yīng)用程序?qū)?shù)據(jù)庫進行API調(diào)用,并檢索用戶詳細信息。

在關(guān)系型DBMS或RDBMS中,SQL是用戶和應(yīng)用程序通過其訪問數(shù)據(jù)的API??梢砸员砑捌淞械男问皆L問數(shù)據(jù)。

表之間的關(guān)系使得不需要重新組織數(shù)據(jù)或表。使用SQL語句,我們可以獲得有關(guān)多個表及其關(guān)系的信息。

  什么是SQL?

SQL或結(jié)構(gòu)化查詢語言是一種“編程語言”,它通過“查詢”管理關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。通過使用SQL,我們可以根據(jù)各種過濾器和條件插入,更新,刪除和選擇數(shù)據(jù)。SQL還可以幫助自動運行某些需要定期運行的計劃腳本。

借助SQL,開發(fā)人員和數(shù)據(jù)分析人員可以輕松地編寫代碼并運行查詢。例如,從客戶中選擇*;是一個簡單的查詢,提供了客戶表的詳細信息。

分析師可以訪問大量數(shù)據(jù),進行處理,而無需在其他任何地方復(fù)制或存儲數(shù)據(jù)。

使用SQL查詢比使用Excel工作表或其他任何方法都更容易分析數(shù)據(jù)。SQL中有很多聚合函數(shù),它們可以處理大型數(shù)據(jù)集和多個表。

  了解數(shù)據(jù)科學(xué)的生命周期

要了解SQL在數(shù)據(jù)科學(xué)中的使用方式,我們需要了解數(shù)據(jù)科學(xué)的不同階段。

  數(shù)據(jù)科學(xué)生命周期中有2個重要階段:

  1.數(shù)據(jù)整理和清潔

從各種來源發(fā)現(xiàn)數(shù)據(jù)后,必須準(zhǔn)備和構(gòu)建數(shù)據(jù)。這意味著,應(yīng)刪除所有冗余和重復(fù)數(shù)據(jù),并形成整潔的結(jié)構(gòu),以便于對數(shù)據(jù)進行建模。這稱為DBMS規(guī)范化,所有關(guān)系數(shù)據(jù)庫都遵循此方法。

使用SQL,由于SQL具有主鍵和約束的概念,因此可以輕松完成數(shù)據(jù)的結(jié)構(gòu)化和條件化,其中可以消除冗余和依賴性,并可以在不同數(shù)據(jù)類型之間建立適當(dāng)?shù)年P(guān)系。

SQL還可以幫助清理數(shù)據(jù),這意味著可以通過自動批處理腳本定期刪除無關(guān),不正確或損壞的記錄,而無需任何手動干預(yù)。您也可以使用R進行數(shù)據(jù)清理和轉(zhuǎn)換,但是將SQL與R結(jié)合使用可以減少要編寫的代碼量并帶來更大的靈活性。

  2.數(shù)據(jù)建模和挖掘

模型規(guī)劃和構(gòu)建完全依賴于DBMS(數(shù)據(jù)庫管理系統(tǒng)),尤其是結(jié)構(gòu)化查詢語言或SQL(如果您還不知道的話)。大數(shù)據(jù)是大量的非結(jié)構(gòu)化數(shù)據(jù),只有結(jié)構(gòu)化語言才能節(jié)省我們在顯示數(shù)據(jù)變量之間建立關(guān)系的時間。

一個簡單的建模示例是嘗試購買計劃,訂購和一些增值服務(wù)的后付費移動連接的客戶。

這些中的每一個都可以是關(guān)系DBMS中的一個表,并且可以使用可以唯一的通用鍵(例如customer_id,phone_number或subscription_id)建立它們之間的關(guān)系。因此,我們正在創(chuàng)建實體(表),屬性(列),關(guān)系(鏈接到subscription_id或phone_number等的customer_id等)和完整性(customer_id應(yīng)該是唯一的,phone_number和subscription_id可以是一個組合鍵,等等)。

我們還可以創(chuàng)建觸發(fā)器,例如,每當(dāng)客戶更改任何增值服務(wù)時,觸發(fā)器都可以在執(zhí)行必要的資格檢查后自動激活該服務(wù)。

數(shù)據(jù)挖掘是一個過程,其中檢查大量數(shù)據(jù)的模式和趨勢以評估數(shù)據(jù)以解決業(yè)務(wù)目的。當(dāng)組織和構(gòu)造大型數(shù)據(jù)集時,該過程變得更加容易。

繼續(xù),讓我們說我們想確定大多數(shù)用戶感興趣的增值服務(wù)是什么。由于當(dāng)今每個人至少擁有一部手機,并且可以添加的服務(wù)數(shù)量是無限的,所以這將是大量數(shù)據(jù)進行合并,分類和檢查。

SQL通過根據(jù)特定的用戶查詢提供特定的記錄使事情變得更容易。例如,如果我們想知道在通話過程中激活了“鈴聲”服務(wù)的用戶,我們可以將查詢寫為-

select customer_id from value_added_service table where service = ‘ringtone’ and is_service_enabled = ‘Y’ and service_end_date > NOW();

對于復(fù)雜的查詢,可以進行索引以更快地獲取結(jié)果。

我們還可以使用內(nèi)置的SQL函數(shù)根據(jù)service_end_date升序列出數(shù)據(jù),并按特定順序分組等等。

  SQL數(shù)據(jù)分析基礎(chǔ)

您可能想說具有大量數(shù)據(jù)的excel工作表也可以獲取結(jié)果并執(zhí)行一些過濾操作。的確如此,但與SQL存儲數(shù)據(jù)的規(guī)模沒有可比性。但是多少SQL足以讓您成為數(shù)據(jù)科學(xué)家?

沒有確定的答案,但是我們嘗試了很多信息,這些信息將幫助您掌握基本概念。如果您已經(jīng)了解SQL,那么您將熟悉其中的大多數(shù)內(nèi)容;如果您不熟悉,請不用擔(dān)心,此博客將為您提供有關(guān)基礎(chǔ)知識的深刻見解。

大多數(shù)情況下,數(shù)據(jù)庫和架構(gòu)已經(jīng)存在,并且建立了所有關(guān)系。作為數(shù)據(jù)科學(xué)家,您將需要了解架構(gòu),關(guān)系以及如何查詢數(shù)據(jù)庫以從業(yè)務(wù)角度獲得最佳結(jié)果。

讓我們創(chuàng)建一些數(shù)據(jù),然后使用下面將要學(xué)習(xí)的不同技術(shù)來獲取數(shù)據(jù)。

以下是您每天將要使用的最重要的語句和命令。

  選擇行和列

從表中獲取所有數(shù)據(jù)的基本查詢是–

select * from table_name;

讓我們從學(xué)生表中獲取一些記錄。

select * from student;

將獲取我們表格中存在的所有行和列。

如果我們只想要名字和生日該怎么辦?然后,我們應(yīng)該在查詢中指定列名稱。

select first_name, date_of_birth from student;

名date_of_birth

-------------------------------------------

瑪麗亞17-11 -1984

戈帕爾1983年4月2日

凱沙夫14-12-1983

亞倫1984年5月3日

納曼1984年6月6日

我們還可以使用一些表達式以特定方式顯示數(shù)據(jù)。例如,

select first_name + ‘ ‘ + last_name as full_name from student;

您會得到類似–

全名

------------

瑪麗亞·托馬斯·

戈帕爾(Maria Thomas Gopal)錢德拉·

克沙夫(Chandra Keshav)夏爾馬

·亞倫(Shara Aaron V)

  根據(jù)條件過濾行

大多數(shù)時候,我們只需要特定的趨勢和模式。這些模式可以作為我們的過濾器,基于這些過濾器,我們將僅從數(shù)據(jù)庫中獲取那些相關(guān)且滿足我們條件的記錄。例如,

如果我們只想讓老師Brunda的學(xué)生參加,可以使用where子句。

select first_name, date_of_birth from student where teacher_name = ‘Brunda’;

使用分組和排序功能也很簡單有效。首先,如果我們要基于deptt對記錄進行分組,則可以添加group by子句。

select first_name, date_of_birth from student where adm_year = 2001 group by deptt;

“具有”是另一個過濾器,類似于可應(yīng)用于組函數(shù)的where子句。例如,我們要獲得所有ECE部門的記錄以及2001年之后的入學(xué)日期,我們可以將查詢寫為–

select first_name, deptt, date_of_birth from student group by deptt having adm_year > 2001;

這將獲取類似:

first_name deptt date_of_birth

Maria ECE 17-11-1984

Naman ECE 06-06-1984

Keshav CSE 14-12-1983

可能會發(fā)生類似的記錄,而我們只想獲得其中之一。例如,deptt列。如果要列出數(shù)據(jù)庫中存在的所有部門,則可以使用關(guān)鍵字distinct。這將在列中提供所有唯一值。

同樣,我們可以根據(jù)特定條件獲取學(xué)生人數(shù),求和,平均,找到具有特定出生日期的記錄以及更多其他信息。

  使用內(nèi)置功能匯總結(jié)果

聚合函數(shù)與group by,having子句一起使用,可從select語句中獲取標(biāo)量值。最常見的功能是: SUM,AVG,COUNT,MAX,MIN。除計數(shù)功能外,其他所有功能均忽略NULL值。在上面的示例中,如果我們想獲得ECE部門的學(xué)生人數(shù),我們可以將查詢形成為:

select count(*) from student where deptt = ‘ECE’;

同樣,如果我們想獲得各個年級的CSE學(xué)生所獲得的平均百分比,則可以使用AVG函數(shù)等等。

  加入

眾所周知,一個關(guān)系數(shù)據(jù)庫有多個可以相互映射的小表。為了在單個結(jié)果中從多個表中獲取數(shù)據(jù),我們將這些表聯(lián)接起來并顯示所需的列。有不同類型的聯(lián)接:

· 左聯(lián)接

· 正確加入

· 外加入

· 內(nèi)部聯(lián)接

· 自加入

· 交叉聯(lián)接

如果您想詳細了解上述各項中的任何一項,則此交互式課程將滿足您成為數(shù)據(jù)科學(xué)家所需的所有SQL以及我們上面已經(jīng)討論的所有內(nèi)容。

  SQL分析服務(wù)

Microsoft提供了一個很好的工具,許多組織都使用它來分析分布在多個數(shù)據(jù)庫中的巨大數(shù)據(jù)。此在線分析處理和數(shù)據(jù)挖掘工具簡稱為SSAS,包括許多服務(wù),例如建模,集成,報告和分析。有關(guān)更多信息,請從此處查看 Microsoft官方頁面上的信息。

數(shù)據(jù)科學(xué)中有許多子領(lǐng)域,但是無論如何,SQL仍然是數(shù)據(jù)科學(xué)領(lǐng)域的重要組成部分。沒有SQL的本質(zhì),您在此字段中的輸入將是不完整的。學(xué)習(xí)和實施SQL將在幫助您思考更多創(chuàng)造性想法并將數(shù)據(jù)轉(zhuǎn)換為有用的業(yè)務(wù)用例或見解方面大有幫助。想了解更多關(guān)于數(shù)據(jù)庫的信息,請繼續(xù)關(guān)注中培偉業(yè)。

主站蜘蛛池模板: 成人综合婷婷国产精品久久蜜臀 | 欧美日韩国产成人在线 | 天天操天天做 | 国产精品嫩草影视在线观看 | 久久国产精品99国产 | 日本在线看 | 在线精品免费观看一区 | 青娱乐激情视频 | 日韩人在线观看 | 在线看免费无码av天堂的 | 女十八毛片 | 日本精品一区二区三区高清 | 久久精品国内一区二区三区 | 国产精品久久精品国产 | 4438五月天丁香综合亚洲 | 国产人妻精品一区二区三区不卡 | 亚洲精品国产乱码在线看蜜月 | 色综合久久久久无码专区 | 99在线免费播放 | 九草视频在线观看 | 131美女MM爱做爽爽爽视频 | 国产精品第一页在线 | 成版人性视频 | 日本一区二区高清不卡 | 成人小视频在线看 | 中文字幕无码中文字幕有码在线 | 中文字幕日本二区 | 久久国产影视 | 国产综合视频在线播放 | 欧美亚洲成人特黄一级三区在线观看 | 97久久精品人妻人人搡人人玩 | 亚洲va中文字幕无码 | 久久综合精品不卡一区二区 | 国产小嫩模无套中出视频 | 97亚洲狠狠色综合久久 | 久久人人av| 国产精品久久久久9999赢消 | 精品视频在线一区二区三区 | 一区二区三区视频国产日韩 | 亚洲成色精品一区二区三区 | 亚洲羞羞网站 |