Dev Letter Vol 19 – 기술 업계의 독성 말투 문제, 고칩시다!
개발자 이모저모
다양한 개발자 이야기를 모아 전합니다.
● 도메인 지식이 결여된 인과 추정이 위험한 이유 – NC DAN BI | DANBI
데이터 분석가에게 도메인 지식은 필수일까? 엔씨소프트 인텔리전스&인사이트 실이 도메인 지식이 결여된 인과 추론의 위험성을 고찰했다. 변수의 인과관계를 회귀 분석한 네 가지 사례를 통해서다. 필자는 통계 기법으로는 주어진 모델에 대한 유의성을 검증할 수 있을 뿐 데이터를 보고 자동으로 모델을 만들어주지는 못한다며, 예측모델을 인과적으로 해석하는 것 또한 위험하다고 결론을 내렸다. 과연 데이터 분석가에게 도메인 지식이 중요할까? 상세 내용은 이 글에서 확인할 수 있다. 상세보기
● 구글 번역에서 성편견을 줄이기 위한 확장 가능한 접근 - 시나브로의 테크산책 | 서진호
“판사는 믿을 수 없으니 기계가 처리하는 게 낫다.” 최근 공분을 불러일으킨 사건에 대한 판결을 접한 네티즌들의 말이다. 그런데 우리가 바라는 대로 AI는 솔로몬의 지혜가 될 수 있을까? AI도 결국 과거의 판결 데이터를 학습해 판결하기 때문에 훈련 데이터에 반영된 편향성에서 자유로울 수 없다. 이러한 편향성 문제는 구글도 겪고 있다. 바로 신경망 기계번역(NMT)를 사용한 구글 번역이 대표적이다. 영어를 성별 구분이 없는 터키어로 번역할 경우 의사는 he로, 간호사는 nurse로 번역하는 성편향성(gender bias)이 이슈가 된 것. 구글은 이 문제를 어떻게 해결했을까? AI에서 인종, 성, 사회적 편견 등 다양한 편향성을 어떻게 해소해나갈 수 있을까? 그 실마리를 이 글에서 확인해보자. 상세보기
● Google Analytics Raw Data를 활용한 웹 로그 분석환경 만들기 - 미디엄 | 안성환
대표적인 웹 데이터 수집과 분석 도구인 구글 애널리틱스. 대표 도구인 만큼 강력한 분석 기능을 제공하나, 다각도로 분석하기에는 한계가 있는 게 사실이다. 그래서 마이리얼트립은 구글 애널리틱스의 RAW 데이터를 빅쿼리에 적재해 분석키로 했다. 이 글은 마이리얼트립이 애널리틱스 RAW 데이터를 빅쿼리에 적재해 분석한 여정이다. 어떤 기술을 검토했고, 최종적으로 어떻게 구현했는지, 연간 이용료가 1.8억 원에 이르는 GA360 대신, 그들이 찾은 기술과 구현 방법을 이 글에서 만날 수 있다. 상세보기
아리송한 IT 용어/은어
최소한의 용어 습득, 아리송한이 도와드립니다.
- 디자인 패턴 - 한줄 정의 설계 문제의 해답을 문서화하기 위한 고안된 형식 방법. 과거 소프트웨어 개발 과정에서 발견된 설계 노하우를 축적하고 일므을 붙여 재사용하기 좋은 형태의 특정 규약으로 묶어 정리한 것(출처: 위키백과)
- 함수형 프로그래밍(TDD) - 한줄 정의 자료처리를 수학적 함수의 계산으로 취급하고 상태와 가변 데이터를 멀리하는 프로그래밍 패러다임의 하나(출처: 위키백과)
p
안녕하세요 출처를 밝히고 블로그에 퍼가도되나요?