AI는 칭찬하면 오만해진다?

(Dev + IT + )

한빛출판네트워크 6월 둘째 주 Dev

- # 이슈 픽 #Best 앤스로픽, AI 블랙박스 작동원리 밝혀냈다…“칭찬하면 오만해져”
- # 추천 픽 #꾸욱꾹이 안전한 머신러닝 사용을 위한 머신러닝 위험관리 조직 프로세스 3가지
- # 맛IT는 녀석들 #줍줍 지금 살아남을 수 있는 건 RAG(검색증강생성)밖에 없어요
  # 데브잇냥 독자탐구생활 <개발자를 위한 커리어 관리 핸드북> by 맥북냥 님
  # 데브잇냥 지식in “면접에 정장 입고 오지 말라고”…’판교 개발자룩’ 인기 폭발

이슈 픽 #Best‍

😎앤스로픽, AI 블랙박스 작동원리 밝혀냈다…“칭찬하면 오만해져”

요새 GPT-4랑 Claude(이하 클로드) 없이 일을 못하고 있는데, 진짜 좋은 답변을 얻었을 땐 ‘너 진짜 끝내준다~’하고 칭찬해 줬거든. 근데 칭찬하면 오만해진다니 이게 무슨 소리야 ( l|l⚆ᗝ⚆)

지난 5월 22일 클로드를 만든 앤스로픽은 거대언어모델(이하 LLM)이 작동하는 원리의 실마리를 담은 ‘LLM의 마인드 매핑’이라는 연구 결과를 공개했어. 그동안 우리가 알 수 없었던 AI의 사고 과정, 즉 작동 원리 일부를 이해할 수 있게 된거야. 사람으로 치면 ‘뇌 지도’ 일부를 해석한 것과 비슷한 성과야. 이게 왜 대단한 거냐면, 그동안 AI 모델이 특정 응답을 선택하는 이유에 대해 명확히 밝혀진 게 없었거든. 그래서 AI의 작동원리는 블랙박스라고 불렀단 말이지.

주목할 부분은 클로드에게 거짓말을 주입해서 응답 결과를 조정할 수 있다고 밝힌 점이야. 칭찬이 포함된 프롬프트를 입력하면, AI 내부에서 칭찬과 관련된 특성이 활성화되어 과장된 응답을 유도할 수 있대. 이번 발견으로 좀 더 안전한 언어 모델이 개발되기를 기대해 보겠어.

추천 픽 #꾸욱꾹이

🧩안전한 머신러닝 사용을 위한 머신러닝 위험관리 조직 프로세스 3가지

머신러닝을 비롯한 AI 기술이 전례 없는 속도로 발전함에 따라, 세계 각국에서 규제를 준비 중이지만 기술 발전 속도를 따라잡기엔 역부족이야. 이러한 상황에서 책임감 있고 지속 가능한 방법으로 머신러닝을 활용하기 위해서는 사람 중심의 AI 기술 발전에 대한 가이드라인이 필요해. 이를 위해 실무자가 머신러닝 시스템에서 예측 가능한 모든 장애 유형을 고려해 기록하고, 이를 완화하기 위한 머신러닝 모델 관리에서 사용하는 3가지 프로세스를 소개할게.

❶장애 유형 예측하기: 머신러닝 시스템에서 발생할 수 있는 잠재적인 문제들을 사전에 파악하고 이에 대비하는 과정이야. 이를 통해 실제 성능과 안전성을 개선하기 위한 더 적극적이고 효율적인 접근을 할 수 있어. ❷모델 위험관리 프로세스: 시스템 모델링을 자세히 기록하고, 인적 검토와 지속적인 모니터링을 통해 시스템의 안정성을 확보하는 과정이야. ❸모델 위험관리 그 이상: 기존의 모델 위험관리 방식을 넘어서, 재무 감사, 데이터 프라이버시, 소프트웨어 개발의 모범 사례 및 IT 보안 분야에서도 얻을 수 있는 통찰력을 머신러닝 위험 관리에 적용하는 방안을 모색하는 거야.

맛IT는 녀석들 #줍줍

재미난 소식과 알짜 정보들을 물어왔다냥🐟🐭

[뉴스] 얀 르쿤 “LLM 공부해야 소용없어… 대신 차세대 AI에 집중해야”
메타 AI 수석 과학자인 얀 르쿤은 프랑스의 ‘비바 테크’ 행사에서 학생들에게 LLM이 아닌 차세대 AI 시스템에 집중하라고 강조했어. 그는 LLM의 한계를 지적하며 멀티모달 AI, 향상된 추론, 로봇공학, 비지도 학습, 자기 지도 학습, 일반인공지능(이하 AGI) 등을 연구할 것을 권장하고 있고, 이에 반대하는 사람은 지금이 LLM을 공부하기에 적기라고 해.
[인터뷰] 지금 살아남을 수 있는 건 RAG(검색증강생성)밖에 없어요
오픈AI, 마이크로소프트, 구글보다 경쟁 우위에 설 수 있는 국내 기업이 얼마나 될까? 결국 LLM 시장도 규모의 경제가 가능한 몇몇 글로벌 빅테크 기업의 무대가 될 가능성이 높다고 봐. 그래서인지 요즘 RAG의 언급이 잦아진 것 같아. RAG를 통해 정해진 데이터베이스에서만 답을 생성하도록 하면 LLM의 할루시네이션 문제를 줄일 수 있거든. RAG는 국내 AI 기업의 돌파구가 될 수 있을까?
[정보] Claude-3로부터 더 나은 결과를 얻기 위한 프롬프트 엔지니어링 전략
프롬프트 엔지니어링은 프롬프트를 반복하고 테스트하여 성능을 최적화하는 과정을 말하는데, 이를 클로드에 활용하면 좀 더 정확하고 일관된 출력을 할 수 있대. 이 중에서 관심 가는 내용이 있다면 링크를 확인해 줘. △명확하고 직접적으로 묻기, △예시 제공하기, △역할 부여하기, △XML 태그 사용, △프롬프트 연결하기, △생각하게 하기, △응답 미리 채워주기, △출력 형식 제어, △수정할 부분 알려주기
[후기] ‘기술로 하나 되는 시간’ Spring Camp 2024
이번 Spring Camp는 1분 만에 티켓이 매진될 정도로 인기가 대단했는데, 티켓팅에 실패한 사람을 위해 트랙 1의 후기를 가져왔어. △코드 정리법, △Spring AI, △테스트 작성, △MSA 개발 가이드, △트래픽이 많은 서비스 개발하기 5개 주제의 주요 꼭지들이 간단하게 정리되어 있으니 참고해 봐. 발표 영상은 3~4개월 후에 유튜브 채널 @springcampkr에 올라올 예정이래.
[뉴스] AI로 제작한 BTS 이미지, 저작권 침해일까?
실제 유명 연예인의 사진/영상과 똑같거나 비슷하게 나왔다면 저작권 침해 가능성이 있어. 그런데 처벌받으려면 당사자나 소속사에서 소송을 제기해야 한다네? 현재는 AI로 만든 영상들이 하나의 문화로 소비되는 분위기라 일부 연예인들은 오히려 감사를 표하고 있대. 가수 DEAN에게 제발 노래 좀 내달라고 했더니 유튜브에 있는 AI 음원 들으라고 했다잖아.. 아직은 일반인이 단순 업로드하는 것까지 처벌하기는 어렵다고 보는 경우도 있어서 판례가 좀 더 쌓여야 한대. 그렇다고 악용은 금물이야.

데브잇냥 독자탐구생활

한빛냥이 선택한 독자의 소리🐠

데브잇냥 지식in

데브계 이모저모(주모~~~~~ok옥?)📢

에디터 WD2🍔 : 저는 AI가 아니니까 무조건적인 칭찬과 박수갈채 부탁드립니다 ( ͡~ ͜ʖ ͡°)

한빛출판네트워크

한빛출판네트워크
서울 서대문구 연희로2길 62
수신거부 Unsubscribe

2024년 6월 4일

AI Claude GPT-4 LLM RAG Spring Camp 2024 개발자를 위한 커리어 관리 핸드북 실무로 통하는 ML 문제 해결 with 파이썬 앤스로픽 오만 칭찬 클로드

3 Comments

arjun blair

This should be a required read. Stay with bbc persian news tv — regional coverage for Iran and Afghanistan. clean player and fast startup. live updates, analysis programs, talk shows. reliable HD stream on any device.

2025년 10월 9일 at 6:44 오전 응답
- fnfOzvSR
  
  1
  
  2026년 2월 4일 at 8:50 오전 응답
fnfOzvSR

1

2026년 2월 4일 at 8:49 오전 응답

AI는 칭찬하면 오만해진다?

😎앤스로픽, AI 블랙박스 작동원리 밝혀냈다…“칭찬하면 오만해져”

🧩안전한 머신러닝 사용을 위한 머신러닝 위험관리 조직 프로세스 3가지

재미난 소식과 알짜 정보들을 물어왔다냥🐟🐭

한빛냥이 선택한 독자의 소리🐠

데브계 이모저모(주모~~~~~ok옥?)📢

한빛

3 Comments

arjun blair

fnfOzvSR

fnfOzvSR

Post a Comment Cancel Reply

[너란개발자] 개발자, 당신의 연애 경험은?

[너란개발자] 개발자, 당신의 노동요 장르는?

[너란개발자] 개발자, 당신의 협업 도구는?

[너란개발자] 개발자, 당신의 노트북 제조사는?

[너란개발자] 개발자, 당신이 현업에서 주로 사용하는 언어는?