{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}
무료배송

배송 지역 전환

지역에 따라 재고 및 배송 속도가 다를 수 있습니다.

위치 기록

{{email ? __('Got it!') : __('Restock Alert')}}

상품입고 후 바로 알려드리겠습니다.

취소
Yami

Jingdong book

干净的数据 数据清洗入门与实践

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

干净的数据 数据清洗入门与实践

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}
후 종료
{{ itemCurrency }}{{ item.valid_price }}
{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}
{{ itemDiscount }}
{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}
{{ itemCurrency }}{{ item.valid_price }}
후에 세일 종료
후 초특가세일 시작 후 초특가세일 종료
{{ getSeckillDesc(item.seckill_data) }}
{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 상세정보
상품 유효 기간

판매 중단

이 상품이 언제 재입고될지는 알 수 없습니다.

현재 주소로 배송 불가
품절

제품 설명

제품 세부 정보 전체보기
Editer Recommend

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
- 理解数据清洗在整个数据科学过程中的作用
- 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
- 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
- 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
- 采用三种策略来解析和清洗HTML文件中的数据
- 揭开PDF文档的秘密,提取需要的数据
- 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
- 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
- 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目
Content Description

本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
Author Description

Megan Squire 依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。
Catalogue

目录

第1 章 为什么需要清洗数据 1
1.1新视角1
1.2数据科学过程2
1.3传达数据清洗工作的内容3
1.4数据清洗环境4
1.5入门示例5
1.6小结9
第2章 基础知识——格式、 类型与编码11
2.1文件格式11
2.1.1文本文件与二进制文件11
2.1.2常见的文本文件格式14
2.1.3分隔格式14
2.2归档与压缩20
2.2.1归档文件20
2.2.2压缩文件21
2.3数据类型、空值与编码24
2.3.1数据类型25
2.3.2数据类型间的相互转换29
2.3.3转换策略30
2.3.4隐藏在数据森林中的空值37
2.3.5字符编码41
2.4小结46
第3章 数据清洗的老黄牛——电子表格和文本编辑器47
3.1电子表格中的数据清洗47
3.1.1Excel 的文本分列功能47
3.1.2字符串拆分51
3.1.3字符串拼接51
3.2文本编辑器里的数据清洗54
3.2.1文本调整55
3.2.2列选模式56
3.2.3加强版的查找与替换功能56
3.2.4文本排序与去重处理58
3.2.5Process Lines Containing60
3.3示例项目60
3.3.1第一步:问题陈述60
3.3.2第二步:数据收集60
3.3.3第三步:数据清洗61
3.3.4第四步:数据分析63
3.4小结63
第4章 讲通用语言——数据转换64
4.1基于工具的快速转换64
4.1.1从电子表格到CSV65
4.1.2从电子表格到JSON65
4.1.3使用phpMyAdmin 从SQL语句中生成CSV 或JSON67
4.2使用PHP 实现数据转换69
4.2.1使用PHP 实现SQL 到JSON的数据转换69
4.2.2使用PHP 实现SQL 到CSV的数据转换70
4.2.3使用PHP 实现JSON 到CSV的数据转换71
4.2.4使用PHP 实现CSV 到JSON的数据转换71
4.3使用Python 实现数据转换72
4.3.1使用Python 实现CSV 到JSON的数据转换72
4.3.2使用csvkit 实现CSV 到JSON的数据转换73
4.3.3使用Python 实现JSON 到CSV的数据转换74
4.4示例项目74
4.4.1第一步:下载GDF 格式的Facebook 数据75
4.4.2第二步:在文本编辑器中查看GDF 文件75
4.4.3第三步:从GDF 格式到JSON格式的转换76
4.4.4第四步:构建D3 图79
4.4.5第五步:把数据转换成Pajek格式81
4.4.6第六步:简单的社交网络分析83
4.5小结84
第5章 收集并清洗来自网络的数据85
5.1理解HTML 页面结构85
5.1.1行分隔模型86
5.1.2树形结构模型86
5.2方法一:Python 和正则表达式87
5.2.1第一步:查找并保存实验用的Web 文件88
5.2.2第二步:观察文件内容并判定有价值的数据88
5.2.3第三步:编写Python 程序把数据保存到CSV 文件中89
5.2.4第四步:查看文件并确认清洗结果89
5.2.5使用正则表达式解析HTML的局限性90
5.3方法二:Python 和BeautifulSoup90
5.3.1第一步:找到并保存实验用的文件90
5.3.2第二步:安装BeautifulSoup91
5.3.3第三步:编写抽取数据用的Python 程序91
5.3.4第四步:查看文件并确认清洗结果92
5.4方法三:Chrome Scraper92
5.4.1第一步:安装Chrome 扩展Scraper92
5.4.2第二步:从网站上收集数据92
5.4.3第三步:清洗数据94
5.5示例项目:从电子邮件和论坛中抽取数据95
5.5.1项目背景95
5.5.2第一部分:清洗来自Google Groups 电子邮件的数据96
5.5.3第二部分:清洗来自网络论坛的数据99
5.6小结105
第6章 清洗PDF 文件中的数据106
6.1为什么PDF 文件很难清洗106
6.2简单方案——复制107
6.2.1我们的实验文件107
6.2.2第一步:把我们需要的数据复制出来108
6.2.3第二步:把复制出来的数据粘贴到文本编辑器中109
6.2.4第三步:轻量级文件110
6.3第二种技术——pdfMiner111
6.3.1第一步:安装pdfMiner111
6.3.2第二步:从PDF 文件中提取文本111
6.4第三种技术——Tabula113
6.4.1第一步:下载Tabula113
6.4.2第二步:运行Tabula113
6.4.3第三步:用Tabula 提取数据114
6.4.4第四步:数据复制114
6.4.5第五步:进一步清洗114
6.5所有尝试都失败之后——第四种技术115
6.6小结117
第7章 RDBMS 清洗技术118
7.1准备118
7.2第一步:下载并检查Sentiment140119
7.3第二步:清洗要导入的数据119
7.4第三步:把数据导入MySQL120
7.4.1发现并清洗异常数据121
7.4.2创建自己的数据表122
7.5第四步:清洗&字符123
7.6第五步:清洗其他未知字符124
7.7第六步:清洗日期125
7.8第七步:分离用户提及、标签和URL127
7.8.1创建一些新的数据表128
7.8.2提取用户提及128
7.8.3提取标签130
7.8.4提取URL131
7.9第八步:清洗查询表132
7.10第九步:记录操作步骤134
7.11小结135
第8章 数据分享的最佳实践136
8.1准备干净的数据包136
8.2为数据编写文档139
8.2.1README 文件139
8.2.2文件头141
8.2.3数据模型和图表142
8.2.4维基或CMS144
8.3为数据设置使用条款与许可协议144
8.4数据发布146
8.4.1数据集清单列表146
8.4.2Stack Exchange 上的OpenData147
8.4.3编程马拉松147
8.5小结148
第9章 Stack Overflow 项目149
9.1第一步:关于Stack Overflow 的问题149
9.2第二步:收集并存储Stack Overflow数据151
9.2.1下载Stack Overflow 数据151
9.2.2文件解压152
9.2.3创建MySQL 数据表并加载数据152
9.2.4构建测试表154
9.3第三步:数据清洗156
9.3.1创建新的数据表157
9.3.2提取URL 并填写新数据表158
9.3.3提取代码并填写新表159
9.4第四步:数据分析161
9.4.1哪些代码分享网站最为流行161
9.4.2问题和答案中的代码分享网站都有哪些162
9.4.3提交内容会同时包含代码分享URL 和程序源代码吗165
9.5第五步:数据可视化166
9.6第六步:问题解析169
9.7从测试表转向完整数据表169
9.8小结170
第10章 Twitter 项目171
10.1第一步:关于推文归档数据的问题171
10.2第二步:收集数据172
10.2.1下载并提取弗格森事件的数据文件173
10.2.2创建一个测试用的文件174
10.2.3处理推文ID174
10.3第三步:数据清洗179
10.3.1创建数据表179
10.3.2用Python 为新表填充数据180
10.4第四步:简单的数据分析182
10.5第五步:数据可视化183
10.6第六步:问题解析186
10.7把处理过程应用到全数据量(非测试用)数据表186
10.8小结187

명세서

상표 Jingdong book
브랜드 영역 China

면책성명

제품 가격, 포장, 사양 등의 정보는 예고 없이 변경될 수 있습니다. 적시에 제품 정보를 업데이트 할 수 있도록 최선을 다하지만, 받은 실제 제품을 참고하시기 바랍니다. 제품을 사용하기 전에 반드시 제품에 동봉된 라벨, 경고 및 설명을 읽어 주십시오.

상세정보 보기
찜한 목록에 추가
{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}
{{__("Buy Directly")}} {{ itemCurrency }}{{ item.directly_price }}
수량
{{ quantity }}
{{ instockMsg }}
{{ limitText }}
{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}
JD@CHINA 판매
배송지
{{ __("Ship to United States only") }}
69이상 주문 시 무료 배송
정품 보증

장바구니에 추가됨

쇼핑 계속하기

당신을 위한 추천

{{ item.brand_name }}

{{ item.item_name }}

{{ item.currency }}{{ item.market_price }}

{{ item.currency }}{{ item.unit_price }}

{{ item.currency }}{{ item.unit_price }}

쿠폰

{{ coupon.coupon_name_new | formatCurrency }}
받기 받았음 마감
{{ getCouponDescStr(coupon) }}
{{ coupon.use_time_desc }}
곧 만료됩니다: {{ formatTime(coupon.use_end_time) }}

친구들과 공유하세요

취소

Yami 기프트카드 전용특가

기프트카드로 결제하면 전용특가를 받을 수 있습니다

규칙 설명

기프트카드 전용특가는 일부 상품에 대한 특혜가격입니다.

기프트카드 전용특가 상품 구매 시 E-기프트 카드 잔액으로 결제하고 기프트카드 잔액이 주문 내 상품의 총액을 지불하기에 충분하하 기프트카드 전용특가가 자동으로 활성화됩니다.

기프트 카드 잔액으로 결제하지 않거나 기프트카드 잔액이 전항의 요건을 충족하지 못할 경우 기프트카드 전용특가를 활성화할 수 없으며 상품은 정상 가격으로 구매할 수 있습니다.

기프트카드 전용특가 상품 구매 시 잔액이 부족할 경우 장바구니 또는 결제 페이지에서 "충전" 버튼을 클릭하여 기프트카드를 구매 및 충전할 수 있습니다.

기프트카드 전용특가가 있는 상품은 "전용특가"라는 특별한 가격표시가 표시됩니다.

질문이 있으시면 언제든지 고객 서비스에 문의하십시오.

Yami는 기프트카드 전용특가 관련 최종 해석권을 보유합니다.

Yami 판매

서비스 보장

Yami $49 이상 무료 배송
Yami 걱정 없는 반품/교환
Yami 미국에서 발송

배송 정보

  • 미국

    표준 배송 $5.99(알래스카, 하와이 제외), 최종 가격 $49 이상 시 무료 배송

    지역 배송 $5.99(캘리포니아, 뉴욕, 뉴저지, 매사추세츠, 펜실베이니아, 위 주의 일부 지역), 최종 가격 $49 이상 시 무료 배송

    2일 이내 배송(알래스카 및 하와이 포함) $19.99부터 시작

반품 및 교환 정책

Yami는 고객님께 최상의 A/S를 제공하고, 모든 분들이 Yami에서 안심하고 쇼핑할 수 있도록 노력하고 있습니다. Yami의 자영 상품은 반품 및 교환 조건을 충족하는 경우, 상품 수령 후 30일 이내에 반품 및 교환할 수 있습니다(식품은 품질 문제로 인해 7일 이내에 반품 및 교환이 가능합니다. 모든 고객이 안전하고 고품질의 제품을 받을 수 있도록 뷰티 제품은 개봉 또는 사용 후에는 품질 문제를 제외하고 환불 또는 반품을 제공하지 않습니다. 기타 특별 카테고리의 제품은 고객 서비스에 문의하시기 바랍니다).
이해와 지원에 감사드립니다.

상세정보 보기

Yami 판매

Yami E-기프트카드 사용 약관

구매 시 자동 충전을 선택한 경우, 주문 완료 후 기프트카드가 자동으로 계정에 충전됩니다.

구매 시 이메일 발송을 선택한 경우, 주문 완료 후 시스템이 자동으로 카드 번호와 비밀번호를 입력한 이메일로 발송합니다.

이메일을 보낼 때, 모든 사용자는 이메일에 있는 카드 번호와 비밀번호를 사용하여 기프트카드를 충전할 수 있으니, 이메일 정보를 잘 보관하세요.

이메일을 받는 데 문제가 있으면, 고객 서비스에 연락하여 처리해 주세요.

이메일을 보낼 때, 기프트카드가 교환되지 않았다면 이메일을 재발송할 수 있습니다. 이미 다른 사용자에 의해 교환된 경우에는 보상할 수 없습니다.

Yamibuy의 E-기프트카드는 자영 또는 제3자 상품 구매에 사용할 수 있습니다.

Yamibuy의 E-기프트카드는 유효 기간 제한이 없으며, 장기간 유효합니다.

Yami 전자 상품권의 금액은 여러 번에 나눠서 사용할 수 있습니다;

Yami 전자 상품권 업무 규칙의 최종 해석 권한은 Yami 웹사이트에 있습니다.

반품 및 교환 정책

이미 사용된 E-기프트카드는 환불이 불가능합니다.

판매자: JD@CHINA

서비스 보장

Yami $49 이상 무료 배송
Yami 최고의 A/S
Yami 미국 본토에서 발송

배송 정보

  • 미국

    표준 배송 $5.99(알래스카, 하와이 제외), 최종 가격 $49 이상 시 무료 배송

    지역 배송 $5.99(캘리포니아, 뉴욕, 뉴저지, 매사추세츠, 펜실베이니아, 위 주의 일부 지역), 최종 가격 $49 이상 시 무료 배송

    2일 이내 배송(알래스카 및 하와이 포함) $19.99부터 시작

반품 및 교환 정책

제품을 받으신 후 30일 이내에 제품을 반품하실 수 있습니다. 반품된 품목은 구매에 대한 원본 송장을 포함하여 원래 포장된 새 품목이어야 합니다. 고객이 자신의 비용으로 제품을 반품합니다.

JD@CHINA 판매

서비스 보장

Yami 점포간 $:amount 이상 구매 시 무료 배송
Yami 30일 반품/교환 보장

Yami-중국 집하창고

Yami는 중국 내 주요 우수매장에서 제품을 선별하여 모아 Yami 중국통합센터로 배송하며 택배를 합친 후 전국 각지의 주소로 배송해 드립니다. 점포간 무료 배송 조건은 최저 $69입니다. 여러 판매자가 제공하는 다양한 상품 중에서 원하는 상품을 선택하고 점포간 무료배송으로 저렴한 배송비를 쉽게 누릴 수 있습니다.

반품 정책

30일 이내 반품 및 교환 보증을 제공합니다. 제품은 새로 사용하지 않은 원래 포장에 구매 증명서가 첨부되어 있어야 합니다. 상품 품질 문제, 잘못된 배송, 배송 누락 등 판매자의 실수로 인한 경우 환불 처리됩니다. 기타 사유로 인한 반품 및 교환은 배송비는 고객이 자체로 부담하셔야 합니다. 모든 제품은 장거리 배송을 하기 때문에 간혹 간단한 외부 포장이 눌려 마모되는 등이 있지만 내부 품질 문제가 없는 경우 반품 및 교환할 수 없습니다.

배송 정보

Yami 중국집하배송 Consolidated Shipping 배송비 $9.99 ($69 이상 주문시 무료배송)

중국 판매자는 주문 후 영업일 기준 2일 후에 상품을 발송합니다. 모든 택배는 Yami 중국통합센터(특별한 상황 및 중국 내 개별 법정 공휴일 제외)에 도착하여 택배를 합친 후 UPS를 통해 미국으로 배송됩니다. UPS는 중국에서 발송 후 미국까지 평균 10영업일 정도 소요되며 직배송 주문 번호에 따라 수시로 추적 및 조회할 수 있습니다 전염병의 영향으로 현재 물류가 5일 정도 지연될 수 있습니다. 택배는 고객 서명이 필요합니다. 서명하지 않은 경우 고객은 택배가 분실될 위험을 부담하게 됩니다.

JD@CHINA 판매

서비스 보장

69이상 주문 시 무료 배송
정품 보증

배송 정보

Yami Consolidated Shipping배송비$9.99($69 이상 주문 시 무료 배송)


Seller will ship the orders within 1-2 business days. The logistics time limit is expected to be 7-15 working days. In case of customs clearance, the delivery time will be extended by 3-7 days. The final receipt date is subject to the information of the postal company.

포인트 규칙

모든 품목은 Yamibuy 의 프로모션이나 포인트 이벤트에서 제외됩니다.

반품 및 교환 정책

제품을 받으신 후 30일 이내에 제품을 반품하실 수 있습니다. 반품된 품목은 구매에 대한 원본 송장을 포함하여 원래 포장된 새 품목이어야 합니다. 고객이 자신의 비용으로 제품을 반품합니다.

Yami

Yami 앱 다운로드

맨 위로 돌아가기

당신을 위한 추천

브랜드 스토리

Jingdong book

为您推荐

Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折

리뷰{{'('+ commentList.posts_count + ')'}}

당신의 체험을 공유하고 더 많은 사용자가 선택할 수 있도록 도와줍니다.

리뷰 작성
{{ totalRating }} 리뷰 작성
  • {{i}}별

    {{i}} 별

    {{ parseInt(commentRatingList[i]) }}%

Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}접기

{{ strLimit(comment,800) }}전체 보기

Show Original

{{ comment.content }}

Yami
모두 보기

{{ formatTime(comment.in_dtm) }} 구매 완료 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}
Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}접기

{{ strLimit(comment,800) }}전체 보기

Show Original

{{ comment.content }}

Yami
모두 보기

{{ formatTime(comment.in_dtm) }} 구매 완료 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

조건에 맞는 리뷰가 없습니다

리뷰 상세

Yami Yami

{{ showTranslate(commentDetails) }}접기

{{ strLimit(commentDetails,800) }}전체 보기

Show Original

{{ commentDetails.content }}

Yami
모두 보기

{{ formatTime(commentDetails.in_dtm) }} 구매 완료 {{groupData}}

{{ commentDetails.likes_count }} {{ commentDetails.likes_count }} {{ commentDetails.reply_count }} {{commentDetails.in_user==uid ? __('Delete') : __('Report')}}

내용을 입력하세요

답변{{'(' + replyList.length + ')'}}

Yami Yami

{{ showTranslate(reply) }}접기

{{ strLimit(reply,800) }}전체 보기

Show Original

{{ reply.reply_content }}

{{ formatTime(reply.reply_in_dtm) }}

{{ reply.reply_likes_count }} {{ reply.reply_likes_count }} {{ reply.reply_reply_count }} {{reply.reply_in_user==uid ? __('Delete') : __('Report')}}

내용을 입력하세요

취소

지금까지의 모든 리뷰입니다!

리뷰 작성하기
상품 평점

댓글을 입력하세요.

  • 좋은 닉네임이 당신의 리뷰를 더 인기 있게 만들 것입니다!
  • 여기에서 닉네임을 변경하면 개인정보의 닉네임도 같이 변경됩니다.
리뷰를 남겨주셔서 감사합니다
당신의 좋은 리뷰는 우리 커뮤니티가 아시아 최고의 상품을 찾는 데 도움이 됩니다.

신고하기

취소

이 리뷰를 삭제하시겠습니까?

취소

최근 본 상품

브랜드 스토리

Jingdong book