본문 바로가기
코딩 이것저것/시각화(관심분야)

[책] 데이터과학 입문(1) - 레이철 슈트, 캐시 오닐

by 글쓰는 홍차 2020. 9. 17.

이 책은 데이터 과학을 입문하는 사람에게 모두 추천하는 책이라고 한다.
지금 봤더니 작가 중 한 명이 캐시 오닐(대량살상 수학 무기 - 너무 관심 있게 읽은 책이며, 어제 넷플릭스에서 봤던 소셜 딜레마라고 하는 다큐를 보니, 더 인상 깊네)

*소셜 딜레마 - 매우 추천하는 다큐멘터리다. 어떻게 거대 데이터 기업이 개인의 정보를 팔아서 거대 수익 집단이 되었는지, 어떻게 개인을 조종하고 있는지를 적나라하게 보여준다. 아무래도 비슷한 생각을 해서 페북은 이전에 그만뒀다. 인스타그램과 트위터를 끊지 못했는데 이제 시간 조절 좀 해야겠다는 생각을 했다. 정치의 양극화 현상이나 우울증 발병 등 사람의 시선에 좌우되는 것 같은 현상을 보면 자신들이 속하는 세계에 갇혀 다른 세계의 사람들을 이해하지 못하는 사람들을 이해할 수 있을 것 같다. 종교 집단도 그렇고 극우 집단도 그렇다. 자신이 접하는 정보만을 믿게 되는 현상,, 나 또한 그런 위험 속에 있다는 것이다. (어디서 좋은 정보를 얻을 수 있을까?)

이 책은 데이터 과학이란 무엇인가라는 것을 중심으로 데이터 과학자가 탐구하는 영역이나 기술, 지식을 정리한 책이다.
데이터 과학 강의 기반으로 블로그로 옮겨 적고(캐시 오닐) - 그 블로그 내용으로 집필한 책이라고 한다.
*캐시 오닐 - http://mathbabe.org에서 활동하고 <대량 살상 수학 무기>라는 책을 썼는데 데이터를 기반으로 알고리즘을 작성하고, 이러한 알고리즘이 얼마나 사람을 위험하게 하는지를 알려주는 책 -  강력하게 추천한다.

목차

  • 1장 - 데이터 과학 소개,
  • 2, 3장 - 통계적 모형화와 기계학습 알고리즘을 개괄적으로 살펴봄
  • 4,5,6,8장 - 다양한 맥락에 따라 특정한 모형과 알고리즘의 사례 검토
  • 7장 - 데이터에 어떻게 의미를 도출하고 모형에 포함될 특징을 만드는지 살펴봄
  • 9,10장 - 데이터 시각화와 소셜 네트워크
  • 11,12장 - 예측과 인과성
  • 13,14장 - 데이터 준비와 공학
  • 15장 데이터 과학을 학습한다는 것
  • 16장 - 데이터 과학의 미래에 대해 우리가 희망하는 것


이렇게 구성되어 있어서 나도 위에서 언급한 대로 한 장씩 정리해볼까 한다. (배경지식은 선형대수와 기본 통계 지식이 필요하다고 한다)

1장. 소개: 데이터 과학이란 무엇인가?

이번장은 데이터 과학자란 무엇인가를 설명하는 장으로 이 한 줄로 요약하면 되겠다)

최고위직의 데이터 과학자는 회사의 데이터 전략을 세워야 한다. 거기에는 다음과 같은 다양한 역할이 포함된다. 데이터를 수집하고, 기록하기 위한 공학과 인프라부터 프라이버시 문제까지 어떤 데이터가 사용자 대면이고, 의사결정을 위해 데이터가 어떻게 사용될 것인지, 그것이 어떻게 제품에 반영될 것인지에 이르는 모든 사항을 기획해야 한다. 그는 공학자, 과학자, 분석가로 구성된 팀을 관리해야 하고, 최고 경영자(CEO), 최고 기술 책임자(CTO), 제품 책임자 등 기업 내 다양한 리더들과 커뮤니케이션해야 한다.(p.42)

댓글