설명
문제해결 방식에
정답은 없어도 패턴은 있습니다
이 책에는 수많은 캐글 수상자의 노트북을 리팩터링하며 찾아낸 공통된 패턴이 담겨 있습니다. 이 책과 함께 체계적인 머신러닝·딥러닝 문제해결 프로세스를 숙달해보세요. 단순 따라하기에서 벗어나 어떤 점을 분석해야 하는지, 분석 결과를 어떻게 적용하는지, 이 기법이 왜 유용하고 어떻게 활용하는지까지 친절하게 알려드립니다. 기본이 몸에 익으면 새로운 문제가 주어져도 쉽게 응용할 수 있습니다. 엄선한 7가지 대회와 별책부록인 〈공략집〉을 통해 기본기와 문제해결 능력을 확실하게 길러드립니다.
이 책은 수많은 캐글 수상자의 노트북을 수집/분석하여 여러분께 공통된 문제해결 패턴을 안내해줍니다. 총 7개의 경진대회를 이 패턴에 따라 함께 진행하면서 자연스럽게 효과적인 프로세스와 전략을 체득할 수 있게 꾸렸습니다.
머신러닝·딥러닝 문제를 하나 해결하려면 데이터 분석부터 시작하여 적합한 모델을 설계하고 최적화를 반복하는 긴 여정을 완주해야 합니다. 체계적인 프로세스를 따르더라도 몸에 익기 전까지는 도중에 길을 잃기 쉽다는 뜻입니다.
그래서 여러분이 외롭게 표류하지 않게끔 책 자체의 구성은 물론 외적으로도 여러 장치를 마련했습니다. 대표적으로 〈공략집〉과 〈미니맵〉, 〈체크리스트〉가 있습니다.
공략집(with 미니맵)
체크리스트
문제해결 과정에서 짚어봐야 할 사항들을 프로세스 단계별로 정리한 표입니다. 저자 깃허브에서 최신 버전을 확인하실 수 있습니다. 사본을 만드신 후 자유롭게 수정·개선하여 여러분만의 비밀 무기로 활용해주세요.
책의 구성
이 책은 총 3부로 구성됩니다.
1부에서는 머신러닝·딥러닝 문제해결 역량을 키우는 데 캐글이 최적인 이유를 알아보고, 2부와 3부에서 본격적으로 대회를 공략하는 데 필요한 채비를 갖춥니다.
1장과 2장은 캐글 소개와 튜토리얼이니 캐글에 이미 익숙하신 분은 건너뛰어도 크게 상관없습니다. 3장은 중요합니다. 바로 이 책에서 반복 숙달할 문제해결 프로세스의 틀을 설명하기 때문입니다. 상위권 캐글러들의 공통된 패턴을 정리한 것이니 한 번씩 꼼꼼히 정리해보시면 좋을 것 같습니다. 4장은 데이터 유형을 나누고 각 유형에 유용한 시각화 기법들을 간단히 소개합니다.
2부에서는 머신러닝 모델을 사용하는 캐글 경진대회에 익숙해질 수 있습니다. 먼저 머신러닝의 주요 개념들을 정리해본 다음, 총 4개의 경진대회를 공략하면서 머신러닝 프로젝트 방법론을 터득하게 됩니다. 중점적으로 익힐 내용이 학습 흐름과 난이도에 맞춰 분배되도록 경진대회들을 선별해 배치했습니다. 2부부터는 본격적인 문제해결에 나서는 만큼 별책부록인 공략집의 미니맵이 큰 도움이 되리라 생각합니다.
마지막 3부에서는 비정형 데이터를, 그중에서도 이미지 데이터를 분류하는 딥러닝 문제들을 공략합니다. 전체적인 구성 방식은 2부와 같습니다. 대회를 하나하나 정복할수록 레벨업되는 느낌이 확실히 느껴지도록 구성했습니다.
추천사
“어떤 일이든 일정 수준에 도달하면 경험적으로 최적화된 패턴이 생기기 마련입니다. 이 책은 수 많은 캐글 대회와 솔루션을 수집/분석했고, 여러분께 체계적으로 머신러닝·딥러닝 문제를 해결할 수 있는 패턴을 제공합니다. 여러분만이 다뤄낼 수 있는 핵심에서만 새로운 방식을 시도하시고, 그 외 최적화된 공통 패턴은 이 책을 그대로 흡수하세요. 이를 토대로 여러분에게 좀 더 잘 맞는 문제해결 전략을 체득할 수 있을 것입니다.”
박찬성 | ML GDE(Google Developer Expert)
“이 책은 머신러닝 기초를 학습한 사람이 그다음 학습을 어떻게 이어가고, 프로젝트를 어떻게 진행해야 하는지를 중점적으로 다룹니다. 이는 앞으로의 머신러닝 책들이 나아가야 할 방향이기도 한 것 같습니다. 머신러닝 프로젝트를 진행하면서 온갖 난관에 부딪히며 고민하고 있는 분들께 이 책을 추천합니다.”
조성빈 | 코드스테이츠 코칭 어시스턴트
“캐글은 얻기 힘든 현실 데이터를 간접 경험할 수 있는 아주 좋은 커뮤니티입니다. 하지만 초보자 입장에서는 대회나 데이터가 너무 많아서 어떤 대회부터 참가할지 고민하게 되는데, 여기 이 책에 막 시작하려는 캐글러를 위한 ‘비밀지도’가 있습니다.”
박조은 | 오늘코드 대표(데이터 분석가)
더 보기
“저는 IT 전공자이지만 머신러닝·딥러닝 기초가 없는 상태로 현업에 투입되었습니다. 어떤 분야든 뼈대부터 튼실히 갖춰야 한다는 게 저의 생각이기 때문에 ‘기초를 보다 쉽고 재미있게 배울 수는 없을까’라는 고민을 많이 해왔습니다. 이 책은 이러한 제 고민의 해결책 중 하나라고 봅니다. 책의 구성이나 예제가 뭐 하나 빠질 것 없이 마음에 듭니다. 사실 배타리딩 기간에 DACON 대회에도 참여했는데, 이 책의 도움을 많이 받았습니다. 너무 감사합니다.”
김대원 | (주)인타운 부설연구소 연구원
“사실 지금도 스크롤 압박이 거셀 만큼 매우 많은 인공지능 서적이 출간되어 있습니다. 그럼에도 이 책을 추천하는 이유는 이 책이 지닌 명확한 장점 때문입니다. 저 또한 수많은 관련 책을 탐독했지만 대부분 이론 설명과 간단한 예제로 구성되어 있습니다. 하지만 이 책은 멋진 예제와 함께 현업 엔지니어가 문제를 어떻게 접근하고 어떤 식으로 마지막까지 성능을 끌어올리는지에 대한 실무까지 겸비했습니다. 초보자는 물론이고, 머신러닝·딥러닝 개발 경력이 있는 개발자에게 오히려 더 유용한 참고서입니다.”
임은수 | ViewMagine 팀 리드
“이 책은 데이터 과학의 기술적인 측면을 학습한 이가 캐글을 통해서 그 기술을 어떻게 체계적으로 활용할지를 알려줍니다. 자신만의 분석 프로세스를 체계화해주고 실제 업무에도 적용해볼 수 있는 매력적인 책을 꼭 읽어보시길 바랍니다.”
이봉호 | 우아한형제들 데이터 분석가
“실제로 캐글을 처음 접하는 분들은 대부분 캐글 노트북을 필사하는 것으로 시작합니다. 그러나 필사만 반복해서는 놓치는 부분이 생깁니다. 이 책은 프로세스와 체크리스트를 제공하여 이런 부분을 놓치지 않게 예방해주어, 초심자는 물론 이미 캐글에 익숙하신 분께도 유용합니다. 고득점자 분들도 최고득점에 도전해보시려면 이 책을 한 번 읽어보시길 추천드립니다.”
하헌진 | 세이지 리서치 책임 연구원
“머신러닝·딥러닝 문제해결 프로세스를 캐글 경진대회를 통해 독자들에게 이해하기 쉽게 전달하는 탄탄한 구성이 매우 좋았습니다. 입문하려는 독자들이 흥미를 잃지 않고 문제해결 역량을 키워나갈 수 있으리라 생각합니다.”
강경수 | 삼육대학교 연구원 및 비전임 교수
“처음부터 끝까지 하나도 버릴 것 없는 정말 알뜰한 책이란 생각이 듭니다. 이제 갓 머신러닝·딥러닝에 입문한 분들께 이 책으로 기본기를 다져보라고 무조건 추천하고 싶네요!”
이동훈 | 경북대학교 학부생
“많은 사람이 인공지능에 관심을 갖고 도전하고 있습니다. 그러나 개념과 실제 적용 사이에는 크나큰 괴리가 있어서 실전에 들어선 초심자들은 대체로 갈피를 잡지 못하고 헤매게 됩니다. 이 책은 개념과 코드 구현을 유기적으로 연결해주어 초심자도 쉽게 따라올 수 있도록 일관된 프로세스를 제시합니다. 그래서 이 책으로 기반을 닦아 여러 문제에 도전하며 실력을 향상시키다 보면, 어느새 인공지능 전문가가 되어 있을 것 같습니다.”
신원지 | 연세대학교 학부졸업생(취준생)
“요즘 정말 ‘핫’한 캐글! 하지만 머신러닝·딥러닝의 기초를 익혔다고 해도 캐글을 혼자서 정복하기란 쉽지 않은 것 같습니다. 이 책은 캐글을 아주 쉽게 익힐 수 있는 멋진 지침서입니다. 책의 내용을 하나 하나 따라가다 보면, 막막했던 캐글 경진대회도 어느새 어렵지 않게 느껴질 것입니다.”
이승엽 | 서울과학종합대학원 석사과정(AI·빅데이터 MBA)
목차
[1부] 머신러닝 레벨업의 지름길, 캐글
01장 왜 캐글인가?
__1.1 왜 캐글을 해야 하는가?
__1.2 캐글 구성요소
__1.3 캐글러 등급
__학습 마무리
02장 캐글 정복 첫걸음
__2.1 캐글 가입
__2.2 경진대회 참여
__2.3 주피터 노트북 설정
__2.4 결과 제출하기
__2.5 컨트리뷰터 되기
__2.6 예제 코드 캐글 노트북 복사하기
__학습 마무리
03장 문제해결 프로세스 및 체크리스트
__3.1 머신러닝 문제해결 프로세스
__3.2 머신러닝 문제해결 체크리스트
__3.3 딥러닝 문제해결 프로세스
__3.4 딥러닝 문제해결 체크리스트
04장 데이터를 한눈에 : 주요 시각화 그래프
__4.1 데이터 종류
__4.2 탐색적 데이터 분석과 그래프
__4.3 수치형 데이터 시각화
__4.4 범주형 데이터 시각화
__4.5 데이터 관계 시각화
[2부] 머신러닝 문제해결
05장 다시 살펴보는 머신러닝 주요 개념
__5.1 분류와 회귀
__5.2 분류 평가지표
__5.3 데이터 인코딩
__5.4 피처 스케일링
__5.5 교차 검증
__5.6 주요 머신러닝 모델
__5.7 하이퍼파라미터 최적화
06장 [경진대회] 자전거 대여 수요 예측 ★☆☆
__6.1 경진대회 이해
__6.2 경진대회 접속 방법 및 세부 메뉴
__6.3 탐색적 데이터 분석
__분석 정리 및 모델링 전략
__6.4 베이스라인 모델
__6.5 성능 개선 I : 릿지 회귀 모델
__6.6 성능 개선 II : 라쏘 회귀 모델
__6.7 성능 개선 III : 랜덤 포레스트 회귀 모델
__학습 마무리
__실전 문제
더 보기
07장 [경진대회] 범주형 데이터 이진분류 ★★☆
__7.1 경진대회 이해
__7.2 탐색적 데이터 분석
__분석 정리 및 모델링 전략
__7.3 베이스라인 모델
__7.4 성능 개선 I
__7.5 성능 개선 II
__학습 마무리
__실전 문제
08장 [경진대회] 안전 운전자 예측 ★★☆
__8.1 경진대회 이해
__8.2 탐색적 데이터 분석
__분석 정리 및 모델링 전략
__8.3 베이스라인 모델
__8.4 성능 개선 I : LightGBM 모델
__8.5 성능 개선 II : XGBoost 모델
__8.6 성능 개선 III : LightGBM과 XGBoost 앙상블
__학습 마무리
09장 [경진대회] 향후 판매량 예측 ★★★
__9.1 경진대회 이해
__9.2 탐색적 데이터 분석
__분석 정리 및 모델링 전략
__9.3 베이스라인 모델
__9.4 성능 개선
__9.5 머신러닝 경진대회를 마치며
__학습 마무리
[3부] 딥러닝 문제해결
10장 다시 살펴보는 딥러닝 주요 개념
__10.1 인공 신경망
__10.2 합성곱 신경망(CNN)
__10.3 성능 향상을 위한 딥러닝 알고리즘
11장 [경진대회] 항공 사진 내 선인장 식별 ★☆☆
__11.1 경진대회 이해
__11.2 탐색적 데이터 분석
___분석 정리 및 모델링 전략
__11.3 베이스라인 모델
__11.4 성능 개선
___학습 마무리
12장 [경진대회] 병든 잎사귀 식별 ★★☆
__12.1 경진대회 이해
__12.2 탐색적 데이터 분석
___분석 정리 및 모델링 전략
__12.3 베이스라인 모델
__12.4 성능 개선
___학습 마무리
___실전 문제
13장 [데이터셋] 흉부 엑스선 기반 폐렴 진단 ★★☆
__13.1 경진대회 이해
__13.2 탐색적 데이터 분석
___분석 정리 및 모델링 전략
__13.3 베이스라인 모델
__13.4 성능 개선
___학습 마무리
부록 A 캐글 생활백서
__A.1 피처 요약표
__A.2 메모리 절약을 위한 데이터 다운캐스팅
__A.3 디버깅을 위한 간단한 팁
__A.4 훈련된 모델 저장하고 불러오기
CONTENTS
관련 콘텐츠들
[강의] 3. 파이썬 데이터 분석가 되기_데이터 분석 기초 개념
이번 강의에서는 6장 넷플릭스 데이터 분석 프로젝트를 실습합니다. 교보문고에서 도서 출간을 기념하여 독자분들을 위해 준비한 특별 강연으로, 넷플릭스 데이터를 활용한 실전 데이터 분석 과정을 함께 실습해 볼 예정입니다. 3편은 데이터 분석 기초 개념입니다.
Read More[강의] 2. 파이썬 데이터 분석가 되기_강의 학습 방법_5단계
이번 강의에서는 6장 넷플릭스 데이터 분석 프로젝트를 실습합니다. 교보문고에서 도서 출간을 기념하여 독자분들을 위해 준비한 특별 강연으로, 넷플릭스 데이터를 활용한 실전 데이터 분석 과정을 함께 실습해 볼 예정입니다. 2편은 강의 학습 방법_5단계입니다.
Read More[강의] 1. 파이썬 데이터 분석가 되기_저자 강의 | 저자 소개, 강의 소개, 책 소개
이번 강의에서는 6장 넷플릭스 데이터 분석 프로젝트를 실습합니다. 교보문고에서 도서 출간을 기념하여 독자분들을 위해 준비한 특별 강연으로, 넷플릭스 데이터를 활용한 실전 데이터 분석 과정을 함께 실습해 볼 예정입니다. 1편은 저자 및 책 소개, 강의 소개입니다.
Read More[무료강의] 《파이썬 데이터 분석가 되기》 출간기념 업로드 완료!
★ 파이썬으로 데이터 분석을 하고 싶다면? 파이썬 입문 그다음에 꼭 보세요! ‘패스트캠퍼스’, ‘메가스터디’ 셀레나 쌤과 함께 실패 없이 완주하세요!
Read MoreSUBSCRIPTION
책 이야기를 들려드립니다.
책이 만들어지는 집필, 편집, 베타리딩 등의 출간 소식뿐 아니라,
관련 주제의 책 소식, 저자와의 만남, 강의, 오탈자 등 책 관련 소식을 전해드립니다.
Reviews
There are no reviews yet.