타이타닉 데이터 다운로드

나는 처음에 „타이타닉 : 재해에서 기계 학습”대회의 일환으로, kaggle.com이 게시물을 썼다. 이 도전에서, 우리는 타이타닉에 승객이 살아남았는지 여부를 예측하도록 요청받습니다. titanic.csv 파일은 실제 타이타닉 승객의 887에 대한 데이터가 포함되어 있습니다. 각 행은 한 사람을 나타냅니다. 열은 생존 여부($S$), 나이($A$), 승객 클래스($C$), 성별($G$) 및 지불한 요금($X$)을 포함하여 해당 사람에 대한 다양한 특성을 설명합니다. 옆으로 : 이 문제를 만들기에서 나는 타이타닉에 현재 레바논 (당시 오스만 제국)에서 80과 153 승객 사이 어딘가에 있다는 것을 배웠습니다. 그것은 승선하는 사람들의 7 %가 될 것입니다. 데이터 집합없이 예측 분석을 수행 할 수 없습니다. 데이터에 둘러싸여 있지만 예측 분석에 맞게 조정된 데이터 집합을 찾는 것이 항상 간단하지는 않습니다. 이 섹션에서는 자유롭게 사용할 수 있는 몇 가지 리소스를 제공합니다. 타이타닉 데이터 세티스는 예측 분석을 위한 고전적인 소개 데이터 집합입니다.

이것은 문제 세트 5의 마지막 질문입니다. 이 문제에서는 타이타닉의 실제 데이터를 사용하여 조건부 확률과 기대치를 계산합니다. 이러한 변수에 대한 자세한 내용은 http://campus.lakeforest.edu/frank/FILES/MLFfiles/Bio150/Titanic/TitanicMETA.pdf 살펴보십시오. 이 블로그 게시물에서는 전 세계 많은 사람들이 사용하는 유명한 타이타닉 데이터 집합에서 기계 학습 모델을 만드는 전체 과정을 거닐것입니다. 그것은 타이타닉에 승객의 운명에 대한 정보를 제공합니다, 경제 상태 (클래스), 성별, 나이와 생존에 따라 요약. 이 문서에서는 Amazon 웹 서비스 및 타이타닉 데이터 집합을 사용하여 데이터 집합을 사용하고 해결하는 방법에 대해 배웠습니다. 또한 데이터와 Amazon S3 서비스를 준비하는 방법도 배웠습니다. 우리는 고전적인 타이타닉 데이터 세트를 사용합니다. 데이터는 타이타닉 승객의 인구 통계 및 여행 정보로 구성되어 1,309, 목표는이 승객의 생존을 예측하는 것입니다.

전체 타이타닉 데이터 세트는 밴더빌트 대학 의과 대학의 생물 통계학과에서 사용할 수 있습니다 (http://biostat.mc.vanderbilt.edu/위키/pub/Main/DataSets/titanic3.csv). 백과 사전 티타니카 웹 사이트 (https://www.encyclopedia-titanica.org/)는 타이타닉에 관한 참조의 웹 사이트입니다. 여기에는 승객과 승무원의 전체 목록을 포함하여 타이타닉을 둘러싼 모든 사실, 역사 및 데이터가 포함되어 있습니다. 타이타닉 데이터 세티스는 또한 Kaggle.com 대한 입문 경쟁의 주제 (https://www.kaggle.com/c/titanic, Kaggle로 계정을 개설해야합니다). 또한 https://github.com/alexperrier/packt-aml/blob/master/ch4 GitHub 리포지토리에서 csv 버전을 찾을 수도 있습니다.