Ch.01-1 인공지능과 머신러닝, 딥러닝
인공지능 - 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 ( 강인공지능 / 약인공지능 )
머신러닝 - 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 ( 대표적인 라이브러리 : 사이킷런 )
딥러닝 - 인공 신경망 ( 대표적인 라이브러리 : 텐서플로, 파이토치 )
Ch.01-2 코랩과 주피터 노트북
코랩 - 구글 계정이 있으면 누구나 사용할 수 있는 웹 브라우저 기반의 파이썬 코드 실행 환경
노트북
- 코랩의 프로그램 작성 단위
- 일반 프로그램 파일과 달리 대화식으로 프로그램을 만들 수 있어 데이터 분석이나 교육에 적합
- 코드, 코드의 실행 결과, 문서를 모두 저장하여 보관 가능
구글 드라이브
- 구글이 제공하는 클라우드 파일 저장 서비스
- 코랩에서 만든 노트북은 구글 드라이브의 'Colab Notebooks'폴더에 저장
Ch.01-3 마켓과 머신러닝
특성 - 데이터를 표현하는 하나의 성질
훈련 - 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정 ( 사이킷런의 fit() 메서드 )
k-최근접 이웃 알고리즘
- 가장 간단한 머신러닝 알고리즘 중 하나
- 규칙을 찾기보다는 전체 데이터를 메모리에 가지고 있는 것
모델
- 머신러닝 프로그램에서 알고리즘이 구현된 객체
- 종종 알고리즘 자체를 의미
정확도
- 정확한 답을 몇개 맞혔는지 백분율로 나타낸 값
- 정확도 = (정확히 맞힌 개수) / (전체 데이터 개수)
Ch.02-1 훈련 세트와 테스트 세트
지도 학습 - 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용 ( k-최근접 이웃 )
비지도 학습
- 타깃 데이터 없음
- 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는데 활용
훈련 세트
- 모델을 훈련할 때 사용하는 데이터
- 보통 훈련 세트가 클수록 좋음
- 테스트 세트를 제외한 모든 데이터
테스트 세트 - 전체 데이터에서 20~30%를 테스트 세트로 사용 ( 전체 데이터가 크면 1%로도 충분할 수 있음 )
Ch.02-2 데이터 전처리
데이터 전처리 - 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계 ( 많은 시간 소모되기도 함 )
표준점수
- 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나
- 표준점수 = 특성의 평균을 빼고 표준편차로 나누기
- 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 함
브로드캐스팅 - 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능
'혼공' 카테고리의 다른 글
혼공머신 3차시 _ 다양한 분류 알고리즘 (0) | 2024.07.15 |
---|---|
혼공머신 2차시 _ 회귀 알고리즘과 모델 규제 (0) | 2024.07.14 |
혼공파 6차시 (0) | 2024.02.13 |
혼공파 5차시 (0) | 2024.02.04 |
혼공파 4차시 (1) | 2024.01.28 |