혼공머신 1차시 _ 데이터 다루기

Ch.01-1 인공지능과 머신러닝, 딥러닝

인공지능 - 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 ( 강인공지능 / 약인공지능 )

머신러닝 - 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 ( 대표적인 라이브러리 : 사이킷런 )

딥러닝 - 인공 신경망 ( 대표적인 라이브러리 : 텐서플로, 파이토치 )

Ch.01-2 코랩과 주피터 노트북

코랩 - 구글 계정이 있으면 누구나 사용할 수 있는 웹 브라우저 기반의 파이썬 코드 실행 환경

노트북

- 코랩의 프로그램 작성 단위

- 일반 프로그램 파일과 달리 대화식으로 프로그램을 만들 수 있어 데이터 분석이나 교육에 적합

- 코드, 코드의 실행 결과, 문서를 모두 저장하여 보관 가능

구글 드라이브

- 구글이 제공하는 클라우드 파일 저장 서비스

- 코랩에서 만든 노트북은 구글 드라이브의 'Colab Notebooks'폴더에 저장

Ch.01-3 마켓과 머신러닝

특성 - 데이터를 표현하는 하나의 성질

훈련 - 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정 ( 사이킷런의 fit() 메서드 )

k-최근접 이웃 알고리즘

- 가장 간단한 머신러닝 알고리즘 중 하나

- 규칙을 찾기보다는 전체 데이터를 메모리에 가지고 있는 것

모델

- 머신러닝 프로그램에서 알고리즘이 구현된 객체

- 종종 알고리즘 자체를 의미

정확도

- 정확한 답을 몇개 맞혔는지 백분율로 나타낸 값

- 정확도 = (정확히 맞힌 개수) / (전체 데이터 개수)

Ch.02-1 훈련 세트와 테스트 세트

지도 학습 - 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용 ( k-최근접 이웃 )

비지도 학습

- 타깃 데이터 없음

- 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는데 활용

훈련 세트

- 모델을 훈련할 때 사용하는 데이터

- 보통 훈련 세트가 클수록 좋음

- 테스트 세트를 제외한 모든 데이터

테스트 세트 - 전체 데이터에서 20~30%를 테스트 세트로 사용 ( 전체 데이터가 크면 1%로도 충분할 수 있음 )

Ch.02-2 데이터 전처리

데이터 전처리 - 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계 ( 많은 시간 소모되기도 함 )

표준점수

- 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나

- 표준점수 = 특성의 평균을 빼고 표준편차로 나누기

- 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 함

브로드캐스팅 - 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능

'혼공' 카테고리의 다른 글

혼공머신 3차시 _ 다양한 분류 알고리즘 (3)	2024.07.15
혼공머신 2차시 _ 회귀 알고리즘과 모델 규제 (6)	2024.07.14
혼공파 6차시 (2)	2024.02.13
혼공파 5차시 (3)	2024.02.04
혼공파 4차시 (3)	2024.01.28

story-study

혼공머신 1차시 _ 데이터 다루기

Ch.01-1 인공지능과 머신러닝, 딥러닝

Ch.01-2 코랩과 주피터 노트북

Ch.01-3 마켓과 머신러닝

Ch.02-1 훈련 세트와 테스트 세트

Ch.02-2 데이터 전처리

'혼공' 카테고리의 다른 글

티스토리툴바

혼공머신 1차시 _ 데이터 다루기

Ch.01-1 인공지능과 머신러닝, 딥러닝

Ch.01-2 코랩과 주피터 노트북

Ch.01-3 마켓과 머신러닝

Ch.02-1 훈련 세트와 테스트 세트

Ch.02-2 데이터 전처리

'혼공' 카테고리의 다른 글

'혼공' Related Articles

티스토리툴바