{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}
免運費
Yami

Nickname

請告訴我們怎麼更好地稱呼你

更新你的名字
賬戶 訂單 收藏
{{ inviteNavTitle }}
退出登入

切換配送區域

不同區域的庫存和配送時效可能存在差異。

歷史郵編

{{email ? __('Got it!') : __('Restock Alert')}}

我們將在商品到貨後第一時間通知你。

取消
Yami

京東圖書

干净的数据 数据清洗入门与实践

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

干净的数据 数据清洗入门与实践

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}
後結束
{{ itemCurrency }}{{ item.valid_price }}
{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}
{{ itemDiscount }}
{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}
{{ itemCurrency }}{{ item.valid_price }}
後結束促銷
後開始秒殺 後結束秒殺
{{ getSeckillDesc(item.seckill_data) }}
{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 詳情
商品有效期

已下架

我們不知道該商品何時或是否會重新有庫存。

當前地址無法配送
已售完

商品描述

展開全部描述
Editer Recommend

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
- 理解数据清洗在整个数据科学过程中的作用
- 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
- 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
- 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
- 采用三种策略来解析和清洗HTML文件中的数据
- 揭开PDF文档的秘密,提取需要的数据
- 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
- 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
- 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目
Content Description

本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
Author Description

Megan Squire 依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。
Catalogue

目录

第1 章 为什么需要清洗数据 1
1.1新视角1
1.2数据科学过程2
1.3传达数据清洗工作的内容3
1.4数据清洗环境4
1.5入门示例5
1.6小结9
第2章 基础知识——格式、 类型与编码11
2.1文件格式11
2.1.1文本文件与二进制文件11
2.1.2常见的文本文件格式14
2.1.3分隔格式14
2.2归档与压缩20
2.2.1归档文件20
2.2.2压缩文件21
2.3数据类型、空值与编码24
2.3.1数据类型25
2.3.2数据类型间的相互转换29
2.3.3转换策略30
2.3.4隐藏在数据森林中的空值37
2.3.5字符编码41
2.4小结46
第3章 数据清洗的老黄牛——电子表格和文本编辑器47
3.1电子表格中的数据清洗47
3.1.1Excel 的文本分列功能47
3.1.2字符串拆分51
3.1.3字符串拼接51
3.2文本编辑器里的数据清洗54
3.2.1文本调整55
3.2.2列选模式56
3.2.3加强版的查找与替换功能56
3.2.4文本排序与去重处理58
3.2.5Process Lines Containing60
3.3示例项目60
3.3.1第一步:问题陈述60
3.3.2第二步:数据收集60
3.3.3第三步:数据清洗61
3.3.4第四步:数据分析63
3.4小结63
第4章 讲通用语言——数据转换64
4.1基于工具的快速转换64
4.1.1从电子表格到CSV65
4.1.2从电子表格到JSON65
4.1.3使用phpMyAdmin 从SQL语句中生成CSV 或JSON67
4.2使用PHP 实现数据转换69
4.2.1使用PHP 实现SQL 到JSON的数据转换69
4.2.2使用PHP 实现SQL 到CSV的数据转换70
4.2.3使用PHP 实现JSON 到CSV的数据转换71
4.2.4使用PHP 实现CSV 到JSON的数据转换71
4.3使用Python 实现数据转换72
4.3.1使用Python 实现CSV 到JSON的数据转换72
4.3.2使用csvkit 实现CSV 到JSON的数据转换73
4.3.3使用Python 实现JSON 到CSV的数据转换74
4.4示例项目74
4.4.1第一步:下载GDF 格式的Facebook 数据75
4.4.2第二步:在文本编辑器中查看GDF 文件75
4.4.3第三步:从GDF 格式到JSON格式的转换76
4.4.4第四步:构建D3 图79
4.4.5第五步:把数据转换成Pajek格式81
4.4.6第六步:简单的社交网络分析83
4.5小结84
第5章 收集并清洗来自网络的数据85
5.1理解HTML 页面结构85
5.1.1行分隔模型86
5.1.2树形结构模型86
5.2方法一:Python 和正则表达式87
5.2.1第一步:查找并保存实验用的Web 文件88
5.2.2第二步:观察文件内容并判定有价值的数据88
5.2.3第三步:编写Python 程序把数据保存到CSV 文件中89
5.2.4第四步:查看文件并确认清洗结果89
5.2.5使用正则表达式解析HTML的局限性90
5.3方法二:Python 和BeautifulSoup90
5.3.1第一步:找到并保存实验用的文件90
5.3.2第二步:安装BeautifulSoup91
5.3.3第三步:编写抽取数据用的Python 程序91
5.3.4第四步:查看文件并确认清洗结果92
5.4方法三:Chrome Scraper92
5.4.1第一步:安装Chrome 扩展Scraper92
5.4.2第二步:从网站上收集数据92
5.4.3第三步:清洗数据94
5.5示例项目:从电子邮件和论坛中抽取数据95
5.5.1项目背景95
5.5.2第一部分:清洗来自Google Groups 电子邮件的数据96
5.5.3第二部分:清洗来自网络论坛的数据99
5.6小结105
第6章 清洗PDF 文件中的数据106
6.1为什么PDF 文件很难清洗106
6.2简单方案——复制107
6.2.1我们的实验文件107
6.2.2第一步:把我们需要的数据复制出来108
6.2.3第二步:把复制出来的数据粘贴到文本编辑器中109
6.2.4第三步:轻量级文件110
6.3第二种技术——pdfMiner111
6.3.1第一步:安装pdfMiner111
6.3.2第二步:从PDF 文件中提取文本111
6.4第三种技术——Tabula113
6.4.1第一步:下载Tabula113
6.4.2第二步:运行Tabula113
6.4.3第三步:用Tabula 提取数据114
6.4.4第四步:数据复制114
6.4.5第五步:进一步清洗114
6.5所有尝试都失败之后——第四种技术115
6.6小结117
第7章 RDBMS 清洗技术118
7.1准备118
7.2第一步:下载并检查Sentiment140119
7.3第二步:清洗要导入的数据119
7.4第三步:把数据导入MySQL120
7.4.1发现并清洗异常数据121
7.4.2创建自己的数据表122
7.5第四步:清洗&字符123
7.6第五步:清洗其他未知字符124
7.7第六步:清洗日期125
7.8第七步:分离用户提及、标签和URL127
7.8.1创建一些新的数据表128
7.8.2提取用户提及128
7.8.3提取标签130
7.8.4提取URL131
7.9第八步:清洗查询表132
7.10第九步:记录操作步骤134
7.11小结135
第8章 数据分享的最佳实践136
8.1准备干净的数据包136
8.2为数据编写文档139
8.2.1README 文件139
8.2.2文件头141
8.2.3数据模型和图表142
8.2.4维基或CMS144
8.3为数据设置使用条款与许可协议144
8.4数据发布146
8.4.1数据集清单列表146
8.4.2Stack Exchange 上的OpenData147
8.4.3编程马拉松147
8.5小结148
第9章 Stack Overflow 项目149
9.1第一步:关于Stack Overflow 的问题149
9.2第二步:收集并存储Stack Overflow数据151
9.2.1下载Stack Overflow 数据151
9.2.2文件解压152
9.2.3创建MySQL 数据表并加载数据152
9.2.4构建测试表154
9.3第三步:数据清洗156
9.3.1创建新的数据表157
9.3.2提取URL 并填写新数据表158
9.3.3提取代码并填写新表159
9.4第四步:数据分析161
9.4.1哪些代码分享网站最为流行161
9.4.2问题和答案中的代码分享网站都有哪些162
9.4.3提交内容会同时包含代码分享URL 和程序源代码吗165
9.5第五步:数据可视化166
9.6第六步:问题解析169
9.7从测试表转向完整数据表169
9.8小结170
第10章 Twitter 项目171
10.1第一步:关于推文归档数据的问题171
10.2第二步:收集数据172
10.2.1下载并提取弗格森事件的数据文件173
10.2.2创建一个测试用的文件174
10.2.3处理推文ID174
10.3第三步:数据清洗179
10.3.1创建数据表179
10.3.2用Python 为新表填充数据180
10.4第四步:简单的数据分析182
10.5第五步:数据可视化183
10.6第六步:问题解析186
10.7把处理过程应用到全数据量(非测试用)数据表186
10.8小结187

規格參數

品牌 京東圖書
品牌屬地 China

免責聲明

產品價格、包裝、規格等資訊如有調整,恕不另行通知。我們盡量做到及時更新產品資訊,但請以收到實物為準。使用產品前,請始終閱讀產品隨附的標籤、警告及說明。

查看詳情
加入收藏
{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}
{{__("Buy Directly")}} {{ itemCurrency }}{{ item.directly_price }}
數量
{{ quantity }}
{{ instockMsg }}
{{ limitText }}
{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}
由 JD@CHINA 銷售
送至
{{ __("Ship to United States only") }}
滿69免運費
正品保證

已加入購物車

繼續逛逛

為你推薦

{{ item.brand_name }}

{{ item.item_name }}

{{ item.currency }}{{ item.market_price }}

{{ item.currency }}{{ item.unit_price }}

{{ item.currency }}{{ item.unit_price }}

優惠券

{{ coupon.coupon_name_new | formatCurrency }}
領取 已領取 已領完
{{ getCouponDescStr(coupon) }}
{{ coupon.use_time_desc }}
即將過期: {{ formatTime(coupon.use_end_time) }}

分享給好友

取消

亞米禮卡專享價

使用禮卡支付即可獲得禮卡專享價

規則說明

禮卡專享價是部分商品擁有的特殊優惠價格;

購買禮卡專享價商品時,若在結算時使用電子禮卡抵扣支付,且禮卡餘額足夠支付訂單中所有禮卡專享價商品的專享價總和,則可以啟用禮卡專享價;

不使用禮卡支付,或禮卡餘額不滿足上一條所述要求時,將無法啟用禮卡專享價,按照普通售價計算,但您仍然可以購買這些商品;

在購買禮卡專享價商品時,若餘額不足,可以在購物車或結算頁中點擊“充值”按鈕對禮卡進行購買和充值;

商品若擁有禮卡專享價,會顯示“專享”的特殊價格標記;

如有疑問,請隨時聯繫客服;

禮卡專享價相關規則最終解釋權歸亞米所有。

由 亞米 銷售

服務保障

Yami 滿$49免運費
Yami 無憂退換
Yami 從美國出貨

配送資訊

  • 美國

    標準配送 $5.99(不含阿拉斯加,夏威夷),最終價滿$49免運費

    本地配送$5.99(加州,紐約州,新澤西,麻省和賓夕法尼亞,以上州部分地區);最終價滿$49免運費

    兩日達(含阿拉斯加夏威夷)運費19.99美元起

退換政策

亞米網希望為我們的客戶提供最優秀的售後服務,讓所有人都能放心在亞米購物。亞米自營商品在滿足退換貨條件的情況下,可在收到包裹的30天之內退換商品(食品因商品質量問題7天內可退換;為了確保每位客戶都能獲得安全和高質量的商品,對於美妝類產品,一經開封或使用即不提供退款或退貨服務,質量問題除外;其他特殊商品需聯繫客服諮詢)。
感謝您的理解和支持。

查看詳情

由 亞米 銷售

亞米電子禮品卡使用規則

若購買時選擇自動儲值,訂單完成後禮品卡將自動儲值至您的帳戶;

若購買時選擇發送郵件,訂單完成後系統將自動發送卡號和密碼到您填寫的郵箱;

寄送郵件時,任何使用者均可使用郵件中的卡號密碼進行禮卡儲值,請妥善保管郵件資訊。

如接收郵件遇到問題,請聯絡客服處理;

發送郵件時,若禮卡沒有被兌換,可以補發郵件。若已經被其他用戶兌換,無法補償;

亞米網電子禮卡可用於購買自營或第三方商品;

亞米網電子禮卡沒有有效期限限制,長期有效;

亞米網電子禮卡的金額,可分多次使用;

亞米網電子禮卡業務規則,最終解釋權歸亞米網所有。

退換政策

已消費的電子禮卡不支持退款。

JD@CHINA 銷售

服務保障

Yami 滿$49免運費
Yami 最優售後
Yami 美國本土出貨

配送資訊

  • 美國

    標準配送 $5.99(不含阿拉斯加,夏威夷),最終價滿$49免運費

    本地配送$5.99(加州,紐約州,新澤西,麻省和賓夕法尼亞,以上州部分地區);最終價滿$49免運費

    兩日達(含阿拉斯加夏威夷)運費19.99美元起

退換政策

提供30天內退還保障。產品需全新未使用原包裝內,並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤,將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

由 JD@CHINA 銷售

服務保障

Yami 跨店滿$69免運費
Yami 30天退換保障

亞米-中國集運倉

由亞米從中國精選並集合各大優秀店舖的商品至亞米中國整合中心,合併包裹後將一次合包跨國郵寄至您的地址。跨店包郵門檻低至$69。您將在多商家集合提供的廣泛選購商品中選購商品,輕鬆享有跨店鋪包郵後的低郵資。

退換政策

提供30天內退換保障。產品需在全新未使用的原包裝內,並附有購買憑證。產品品質問題、錯發、或漏發等商家造成的失誤,將進行退款處理。其它原因造成的退換貨郵費客戶將需要自行承擔。由於所有商品均長途跋涉,偶有簡易外包壓磨等但不涉及內部品質問題者,不予退換。

配送資訊

亞米中國集運 Consolidated Shipping 運費$9.99(訂單滿$69 包郵)

下單後2個工作天中國商家出貨,所有包裹抵達亞米中國整合中心(除特別情況及中國境內個別法定假日外)會合併包裹後透過UPS發往美國。 UPS從中國出貨後到美國境內的平均時間為10個工作天左右,可隨時根據直發單號追蹤查詢。受疫情影響,目前物流可能延遲5天左右。包裹需要客人簽收。如未簽收,客人須承擔包裹遺失風險。

由 JD@CHINA 銷售

服務保障

滿69免運費
正品保證

配送資訊

Yami Consolidated Shipping 運費$9.99(訂單滿$69包郵)


Seller will ship the orders within 1-2 business days. The logistics time limit is expected to be 7-15 working days. In case of customs clearance, the delivery time will be extended by 3-7 days. The final receipt date is subject to the information of the postal company.

積分規則

不參加任何折扣活動以及亞米會員積分制度。

退換政策

提供30天內退還保障。產品需全新未使用原包裝內,並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤,將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

Yami

下載亞米應用

返回頂部

為您推薦

品牌故事

京東圖書

为您推荐

Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折

評論{{'('+ commentList.posts_count + ')'}}

分享您的感受,幫助更多用戶做出選擇。

撰寫評論
{{ totalRating }} 撰寫評論
  • {{i}}星

    {{i}} 星

    {{ parseInt(commentRatingList[i]) }}%

Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}
Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

暫無符合條件的評論~

評論詳情

Yami Yami

{{ showTranslate(commentDetails) }}收起

{{ strLimit(commentDetails,800) }}查看全部

Show Original

{{ commentDetails.content }}

Yami
查看更多

{{ formatTime(commentDetails.in_dtm) }} 已購買 {{groupData}}

{{ commentDetails.likes_count }} {{ commentDetails.likes_count }} {{ commentDetails.reply_count }} {{commentDetails.in_user==uid ? __('Delete') : __('Report')}}

請輸入內容

回覆{{'(' + replyList.length + ')'}}

Yami Yami

{{ showTranslate(reply) }}收起

{{ strLimit(reply,800) }}查看全部

Show Original

{{ reply.reply_content }}

{{ formatTime(reply.reply_in_dtm) }}

{{ reply.reply_likes_count }} {{ reply.reply_likes_count }} {{ reply.reply_reply_count }} {{reply.reply_in_user==uid ? __('Delete') : __('Report')}}

請輸入內容

取消

這是到目前為止的所有評論!

發表評論
商品評分

請輸入評論

  • 一個好的暱稱,會讓你的評論更受歡迎!
  • 修改了這裡的暱稱,個人資料中的暱稱也將被修改。
感謝你的評論
你的好評可以幫助我們的社區發現更好的亞洲商品。

舉報

取消

確認刪除該評論嗎?

取消

歷史瀏覽

品牌故事

京東圖書