티스토리 뷰


제조업 회사에 근무하고 있어 다양한 센서에 의해 수많은 데이터가 쏟아지고 있다. 하지만 몇개월치의 데이터만 화면에서 조회하는 수준으로 사용하고 있다. 버려지는 데이터들에 의미를 부여하고 회사에 유용한 데이터로 활요하는 방법을 고민하다가 만난 책이다. 데이터 모델링을 통해 원하는 비즈니스 요구사항을 만족하게 하는 등 유용한 정보가 가득했다. 처음으로 배우는 스파크에 대해다양한 예제를 볼 수 있어 좋았다.
이 책은 급변하는 비즈니스 환경에서 대규모 데이터를 실시간으로 처리해서 분류, 회귀, 클러스터 등 다양한 모델을 트레이닝한다. 데이터의 모델 트레이닝을 통해 다양한 소프트웨어 비즈니스 요구사항을 높은 정확도로 예측할 때 사용할 수 있다. 이 책은 독자가 대규모 실시간 데이터를 처리할 때 다양한 모델을 이용해서 애플리케이션을 작성할 수 있도록 안내한다.

1 스파크의 시작과 구동
로컬 모드로 스파크 설치와 환경 설정
스파크 클러스터
스파크 프로그래밍 모델
__SparkContext와 SparkConf
__스파크 셸
__복구할 수 있는 분산 데이터 집합
____RDD 생성
____스파크 오퍼레이션
____RDD 캐싱
__브로드캐스트 변수와 누산기
스칼라를 이용한 스파크 프로그램의 첫 단계
자바로 개발하는 스파크 프로그램의 첫 단계
파이썬으로 스파크 프로그램 작성하는 첫 단계
아마존 EC2에서 스파크 구동
__EC2 스파크 클러스터 실행
정리

2 머신 러닝 시스템
무비스트림 소개
머신 러닝 시스템을 위한 비즈니스 유스케이스
__개인화
__타겟 마케팅과 사용자 분류
__예측 모델링과 해석학
머신 러닝 모델의 타입
데이터 기반의 머신 러닝 시스템 컴포넌트
__데이터 획득과 저장
__데이터 클렌싱과 변환
__모델 학습과 테스트 루프
__모델 적용과 정합
__모델 모니터링과 피드백
__배치 프로세스와 실시간 프로세스
머신 러닝 시스템의 아키텍처
__실습
정리

3 스파크를 이용한 데이터 수집, 프로세싱, 준비
공개적으로 가용한 데이터 집합 접근
__무비렌즈 100킬로바이트 데이터 집합
데이터 탐색과 가시화
__사용자 데이터 집합 탐색
__영화 데이터 집합 탐색
__평점 데이터 집합 탐색
데이터 처리와 변환
__부적절하거나 소실된 데이터로 채우기
데이터에서 유용한 특징 추출
__숫자 특징
__카테고리 특징
__파생 특징
____타임스탬프를 카테고리 특징으로 변환
__텍스트 특징
____단순 텍스트 특징 추출
__특징 정규화
____특징 정규화를 위한 MLlib 라이브러리 사용
__특징 추출을 위한 패키지 사용
정리

4 스파크를 이용한 추천 엔진 구현
추천 모델의 타입
__콘텐트 기반의 필터링
__공동 필터링
____행렬 인수분해
목표 데이터에서 적절한 특징 추출
__무비렌즈 100k 데이터 집합에서 특징 추출
추천 모델 트레이닝
__무비렌즈 100k 데이터 집합으로 모델 트레이닝
____암시적인 피드백 데이터를 이용한 모델 트레이닝
추천 모델 사용
__사용자 추천
____무비렌즈 100k 데이터 집합에서 영화 추천 생성
__제품 추천
____무비렌즈 100k 데이터 집합에서 유사 영화 생성
추천 모델의 성능 평가
__평균 제곱 오차
__K 평균 정확도의 평균
__MLlib 라이브러리의 내장 평가 메소드 사용
____RMSE와 MSE
____맵
정리

5 스파크를 이용한 분류 모델 구현
분류 모델의 타입
__선형 모델
____로지스틱 회귀
____선형 지원 벡터 머신
__나이브 베이즈 모델
__의사결정 트리
데이터 집합에서 적절한 특징 추출
__캐글/스텀블업온 에버그린 분류 데이터 집합에서 특징 추출
분류 모델 트레이닝
__캐글/스텀블업온 지속적인 분류 데이터 집합에 분류 모델을 트레이닝
분류 모델 사용
__캐글/스텀블업온 지속 가능한 분류 데이터 집합을 이용한 예측 생성
분류 모델의 성능 평가
__정확도와 예측 오차
__정확도와 회자
__ROC 곡선과 AUC
모델 성능을 향상하고 매개변수를 튜닝
__특징 표준화
__추가적인 특징
__정확한 형태의 데이터 사용
__모델 매개변수 튜닝
____선형 모델
____의사결정 트리
____나이브 베이즈 모델
__교차 검증
정리

6 스파크를 이용한 회귀 모델 구현
회귀 모델의 타입
__최소 제곱 회귀
__회귀에 대한 의사결정 트리
데이터 집합에서 적절한 특징 추출
__자전거 공유 데이터 집합에서 특징 추출
____선형 모델에 적용할 특징 벡터 생성
____의사결정 트리를 위한 특징 벡터 생성
회귀 모델 트레이닝과 사용
__자전거 공유 데이터 집합을 이용한 회귀 모델 트레이닝
회귀 모델의 성능 평가
__평균 제곱 에러와 루트 평균 제곱 에러
__평균 절댓값 에러
__루트 평균 제곱 로그 에러
__R 제곱 계수 값
__자전거 공유 데이터 집합을 이용한 성능 메트릭스 계산
____선형 모델
____의사결정 트리
모델 성능 향상과 매개변수 튜닝
__타겟 변수를 변환
____로그 변환한 타겟으로 트레이닝할 때의 영향
__모델 매개변수 튜닝
____매개변수를 평가하기 위한 데이터 집합 트레이닝과 테스트 생성
____선형 모델에 적용하는 매개변수 설정의 영향
____의사결정 트리에 매개변수 설정 값을 적용할 때의 영향
정리

7 스파크를 이용한 클러스터 구축 모델 구현
클러스터 모델의 타입
__K 평균 클러스터
____초기화 메소드
____변수
__혼합 모델
__계층적인 클러스터
데이터에서 적절한 특징 추출
__무비렌즈 데이터 집합에서 특징 추출
____영화 장르 레이블 추출
____추천 모델 트레이닝
____정규화
클러스터 모델 트레이닝
__무비렌즈 데이터 집합을 이용해 구성한 클러스터 모델 트레이닝
클러스터 모델을 이용한 예측
__무비렌즈 데이터 집합에 대한 클러스터 예측 해석
____영화 클러스터 해석
클러스터화한 모델의 성능 평가
__내부 평가 메트릭스
__외부 평가 메트릭스
__무비렌즈 데이터 집합에 적용한 메트릭스의 성능 계산
클러스터 모델에 적용하는 매개변수 튜닝
__교차 검증을 통한 K 값 선택
정리

8 스파크를 이용한 차원 축소
차원 축소의 타입
__주요 컴포넌트 분석
__단일 값 분해
__행렬 요소화를 가진 관계
__차원 축소와 같은 클러스터화
분석 데이터의 적절한 특징 추출
__LWF 데이터 집합의 특징 추출
____얼굴 데이터 분석
____얼굴 데이터의 가시화
____벡터 형태로 된 얼굴 이미지 추출
____정규화
차원 축소 모델 트레이닝
__LFW 데이터 집합에 주요 컴포넌트 분석 기법 적용
____아이겐페이스의 가시화
____아이겐페이스 해석
차원 축소 모델 적용
__LWF 데이터 집합에 적용한 주요 컴포넌트 분석을 이용한 데이터 주입
__주요 컴포넌트 분석과 단일 값 분해 간 관계
차원 축소 모델 평가
__LFW 데이터 집합에 단일 값 분해 적용을 위한 k 값 평가
정리

9 스파크를 이용한 고급 텍스트 프로세싱
텍스트 데이터의 중요한 면
데이터 집합에서 올바른 특징 추출
__용어 가중치 스킴
__특징 해싱
__20개 뉴스그룹 데이터 집합에서 TF-IDF 특징 추출
____20개 뉴스그룹 데이터 분석
____기본적인 토큰화 기능 적용
____토큰화 향상
____중지 단어 제거
____빈도수를 바탕으로 단어 제거
____스테밍에 대한 참고
____TF-IDF 모델 트레이닝
____TF-IDF 가중치 분석
TF-IDF 모델 사용
__20개의 뉴스그룹 데이터 집합과 TF-IDF 특징을 이용한 문서 유사성
__TF-IDF를 이용한 20개 뉴스그룹 데이터 집합의 텍스트 분류자 트레이닝
텍스트 프로세싱의 영향 평가
__20개의 뉴스그룹 데이터 집합을 이용해서 원본 특징과 프로세싱된 TF-IDF 특징 비교
Word2Vec 모델
__20개 뉴스그룹 데이터 집합에 Word2Vec 적용
정리

10 스파크 스트리밍을 이용한 실시간 머신 러닝
온라인 러닝
스트림 프로세싱
__스파크 스트리밍에 대한 소개
____입력 소스
____변환
____액션
____윈도우 연산자
__스파크 스트리밍을 이용한 캐싱과 고장 허용
스파크 스트리밍 애플리케이션 개발
__생산자 애플리케이션
__기본적인 스트리밍 애플리케이션 개발
__스트리밍 분석
__스테이트풀 스트리밍
스파크 스트리밍을 이용한 온라인 러닝
__스트리밍 회귀
__간단한 스트리밍 회귀 프로그램
____스트리밍 데이터 생산자 개발
____스트리밍 회귀 모델 생성
__스트리밍 K 평균
온라인 모델 평가
__모델 성능과 스파크 스트리밍 비교
정리

 

놀이가 아이를 바꾼다

놀이가 아이를 바꾼다책읽기 삶읽기 263놀이가 사라지면 인류한테는 ‘재앙’이 된다― 놀이가 아이를 바꾼다김민아·김차명·김청연·이영애·이희원·지정우 글시사일본어사 펴냄, 2016.6.30. 11500원 집에서 찹쌀떡을 빚으려고 이모저모 살핍니다. 옛날이라면 어머니한테 여쭈어서 배웠을 테고, 때로는 이웃집에 여쭈기도 했을 텐데, 오늘날에는 인터넷으로도 찹쌀떡 빚기를 손쉽게 찾아볼 수 있습니다. 수많은 사람이 수많은 집에서 저마다 다르게 빚는 찹쌀떡을 여러

tiuzdxd.tistory.com

 

나는 뇌입니다

이 책은 저자가 추구했던 (부제) "What It Does, How It Works and How It Affects Behaviour"를 백프로 달성한 성실한 책이라고 말하고 싶다. 그래서 뇌를 공부하려고 할 때 기본 텍스트로 삼으면 좋을 것이다. 뇌라는 것이 무엇이고 어떻게 작동하고 행동에 어떤 영향을 주는지, 정성스럽고 시원시원한 삽화가 이해를 돕는다. 이 책의 도움을 받고서 나는 그동안 어렵게만 느껴졌던 시상, 시상하부, 편도체

hjtrs.tistory.com