'o1 VS GPT-4o' 수능 국어 풀기, 챗GPT 신구 대결의 승자는?

Contents News Letter

‘o1 VS GPT-4o’ 수능 국어 풀기, 챗GPT 신구 대결의 승자는?

'o1 VS GPT-4o' 수능 국어 풀기, 챗GPT 신구 대결의 승자는?

(Dev + IT + )

한빛출판네트워크 9월 넷째 주 Dev

- # 이슈 픽 #Best 오픈AI o1에 “수능 국어 킬러문항 풀어봐”…챗GPT 신구대결 승자는?
- # 추천 픽 #꾸욱꾹이 개발자를 위한 코딩 파트너, 효과적인 AI 페어 프로그래밍 도구 6종
- # 맛IT는 녀석들 #줍줍 다른 회사에서는 AI를 이렇게 쓰고 있습니다
  # 데브잇냥 독자탐구생활 <쓸모 있는 AI 서비스 만들기> by Ryan Kim 님
  # 데브잇냥 지식in LLM으로 게임 텍스트 번역해보기

이슈 픽 #Best‍

오픈AI o1에 “수능 국어 킬러문항 풀어봐”…챗GPT 신구대결 승자는?

오픈AI의 새 모델 ‘o1(오원)’은 직전 모델 ‘GPT-4o’보다 얼마나 더 개선됐을까? 두 모델에게 간단한 추론 퀴즈부터 수능 국어, 법학적성시험(LEET, 이하 리트)까지 다양한 난이도의 7개 문제를 풀어보게 했는데, 전반적으로 o1이 더 높은 점수를 얻었지만 난이도가 높아질수록 두 모델의 성능 차이가 줄더라고.

불수능이었던 2022년 국어 시험은 o1이 압도적이었지만, 난이도 최상인 리트에서는 두 모델 모두 유사하게 접근하여 동일한 오답을 내놨어. 리트 시험의 특성상 일상적인 용어도 수험적인 의미로 해석해야 하기 때문에 온전히 문제를 해결하는 데 어려움이 있었던 것 같아. 두 모델의 확연한 차이를 볼 수 있던 건 주관적인 철학을 묻는 트롤리 딜레마 문제였어.

GPT-4o는 제러미 벤담의 ‘공리주의*’와 칸트의 ‘의무론**’을 설명하는데 그쳤지만, o1은 ‘공리주의’ 관점에서 판단을 내렸어. AI가 자신의 기준으로 인간사를 판단하는 모습이 좀 무섭기도 하다. AI 모델 간 성능을 비교하려고 시작한 실험이었지만, 윤리적 고민의 필요성도 다시 한번 느꼈어.

*공리주의: 최대 다수 최대 행복 추구
**의무론: 행위의 결과보다 그 행위 자체의 도덕성과 보편적 원칙을 중시

AI 프로그래밍 도구의 효과가 실제 연구를 통해 입증되고 있어. 마이크로소프트 연구에 따르면, 깃허브 코파일럿 사용자의 90% 이상이 개발 속도가 향상되는 경험을 했대. 맥킨지 앤 컴퍼니에서도 미국과 아시아의 다양한 경력을 가진 개발자 40여 명이 참여해 코드 생성, 리팩터링, 문서화 작업을 수행하는 등 유사한 실험을 진행했어. 결과는 AI 어시스턴트가 문서화 작업 시간을 절반으로 줄여주었고, 코드 작성과 리팩터링에서도 사람과 비슷한 성능을 보였다고.

현재 주목받는 AI 프로그래밍 도구로는 ①강력한 성능을 자랑하는 커서(Cursor), ②보안에 강한 탭나인(tabnine), ③러스트 기반으로 좋은 사용자 경험을 제공하는 워프(Warp), ④30개의 프로그래밍 언어를 이해하는 리플릿(replit), ⑤전체 소프트웨어 수명 주기를 지원하는 아마존 Q 디벨로퍼(Amazon Q Developer), ⑥전체 코드베이스 인식과 코드 맞춤 설정이 가능한 제미나이 코드 어시스트(Gemini Code Assist) 등이 있어. AI 어시스턴트는 소프트웨어 개발 분야에서 점차 중요한 역할을 하게 될 거라는 전망이야. 여섯가지 도구 중 하나를 골라 체험해 보는 건 어때?

맛IT는 녀석들 #줍줍

재미난 소식과 알짜 정보들을 물어왔다냥 한빛출판네트워크

[정보] 다른 회사에서는 AI를 이렇게 쓰고 있습니다
다른 회사에서 AI를 어떻게 쓰고 있는지 실제 활용 사례 7가지를 카테고리별로 간략히 소개할게. ①요약: Geek News는 해커뉴스 아티클을 요약해 업로드하고, Nomad List는 여행자 리뷰를 정리해. ②분류: 당근은 상품 제목으로 카테고리를 자동 분류하며, ③검수/교정: 드롭박스는 아티클을 교정하고, Nomad List는 프로필 사진 검수를 AI가 수행하고 있어. ④챗봇: 고객 서비스에서는 Immi 챗봇이 CS 문의의 50%를 처리하고, Webflow는 내부 문서 검색을 지원하여 65%의 직원이 사용하고 하고 있다네. 자세한 내용은 링크에서!
[세미나] 우아한형제들_생성AI로 똑똑하게 일하는 법
생성형 AI를 단순히 사용하는 데에서 그쳤거나, 생성형 AI로 진짜 생산성을 높일 수 있는지 궁금했던 사람을 위해 세미나 영상을 공유할게. 1부는 우리가 어떻게 하면 생성형 AI를 통해 더 똑똑해질 수 있는지 알아보는 시간이야. 좋은 활용을 위해서는 단순한 사용을 넘어서 잘 사용하는 것이 중요하잖아. 2부는 데이터 보안과 프라이버시 문제와 맞닿은 생성형 AI를 더욱 현명하게 활용하는 방법에 대해 알아보는 시간이야. 특히 보안 문제를 회피하기 위해 로컬 LLM을 어떻게 사용했는지 3가지 사례를 확인해 보셔.
[정보] 카카오_LLM, 더 저렴하게, 더 빠르게, 더 똑똑하게
AI 서비스를 구현할 때 어떤 LLM을 선택할지 고민이 많을 거야. 언제든지 LLM을 바꿀 수 있도록 서비스를 설계하는 걸 추천해. LLM은 지속적으로 변화하고 있기 때문이지. 대략적인 이유를 살펴보자면, LLM의 ①사용 가격이 낮아지고 있음, ②생성 속도가 빨라지고 있음, ③성능이 향상되고 있음, ④처리량이 증가하고 있음, ⑤경량 LLM의 활용도가 높아고 있음으로 정리!
[칼럼] 자바의 아버지 제임스 고슬링, 생성AI를 생각한다
많은 사람이 생성형 AI가 만능이라고 생각하지만, 제임스 고슬링은 과대평가되고 있다고 경고해. 생성형 AI는 대규모 언어 모델에 기반해 통계적 패턴을 배우고 생성할 뿐, 실제로 이해하거나 추론하지 않아. 거기에 VC 자본이 생성형 AI에 집중되면서 과장된 기대가 커지고, 대중은 미디어의 영향을 받아 비현실적인 기대를 품고 있거든. 생성형 AI는 효율적인 도구지만, 그 한계를 이해해야 해. 과열된 거품이 꺼져도 기술이 사라지지 않기를 바라. 적절히 사용하면 너무도 유용한 기술이니까 말이야.
[정보] 당근_MVP를 빠르고 효과적으로 개발하기: 혼자 하면 빨리 가고, 함께 하면..?
만약 모든 일을 혼자 하게 된다면, 한 사람에게 의존해서 빠르게 문제 개선을 할 수 없는 상황으로 흘러가게 돼. 당근에서는 함께해도 빨리 갈 수 있도록 먼저 문서를 작성하고, 피드백을 받고, 함께 고민하고, 유연하게 대응하는 체계적인 협업을 하고 있어. 복잡도 높은 이슈가 발생하더라도 안정적이고 빠르게 해결할 수 있는 협업 체계가 돌아가고 있다는 말씀. 우리가 협업하는 이유는 단순히 일을 나눠서 하기 위함이 아니라 지속 가능한 방식으로 팀을 전진시키기 위해서가 아닐까.
[정보] 쏘카_누가 내 쿠키를 먹었을까?
iOS 웹뷰에서만 세션 쿠키가 갑자기 소실되는 현상을 마주한 적 있어? 쏘카에서도 이 현상을 겪었는데 앱을 백그라운드 상태에 두고 한참 후에 다시 열었을 때 에러가 발생했대. 세션 쿠키가 왜 손실되는지 여러 가설을 세워 다양한 기종에서 테스트한 후 내린 결론은 iOS 앱 자체의 메모리 정리 시점에 백그라운드에 존재하는 웹의 세션 쿠키를 소실 시킨다는 것. 쿠키에 저장 시에 지속 쿠키(Expires/Max-Age가 있는 쿠키)로 이용할 수 있도록 기간을 정의해 주면 하루 평균 약 99.66%의 이슈가 감소하는 기적을 맛볼 수 있다고.