22:17 18-06-2022 234 lượt xem

Phần mềm AI có tên DALL-E biến lời nói của bạn thành hình ảnh

Phần mềm AI có tên DALL-E biến lời nói của bạn thành hình ảnh

Phần mềm DALL-E Mini của một nhóm các nhà phát triển mã nguồn mở không hoàn hảo, nhưng đôi khi nó tạo ra những hình ảnh phù hợp với mô tả văn bản của mọi người một cách hiệu quả.

Ảnh chụp màn hình

Khi cuộn qua các nguồn cấp dữ liệu mạng xã hội của bạn vào cuối giờ, rất có thể bạn đã nhận thấy các hình minh họa kèm theo chú thích. Bây giờ chúng đã trở nên phổ biến.

Những bức ảnh bạn đang thấy có thể được tạo ra nhờ một chương trình chuyển văn bản thành hình ảnh có tên DALL-E. Trước khi đăng các hình minh họa, mọi người sẽ chèn các từ, sau đó được chuyển đổi thành hình ảnh thông qua các mô hình trí tuệ nhân tạo.

Ví dụ, một người dùng Twitter đã đăng một dòng tweet với nội dung, “Có thể tồn tại hay không, giáo sĩ Do Thái đang cầm quả bơ, tác phẩm điêu khắc bằng đá cẩm thạch.” Hình đính kèm, khá trang nhã, cho thấy một bức tượng bằng đá cẩm thạch của một người đàn ông có râu trong chiếc áo choàng và đội mũ quả dưa, đang cầm một quả bơ.

Các mô hình AI đến từ phần mềm Imagen của Google cũng như OpenAI, một công ty khởi nghiệp được hỗ trợ bởi Microsoft đã phát triển DALL-E 2. Trên trang web của mình, OpenAI gọi DALL-E 2 “là một hệ thống AI mới có thể tạo ra hình ảnh và nghệ thuật chân thực từ một mô tả bằng ngôn ngữ tự nhiên. “

Nhưng hầu hết những gì đang xảy ra trong lĩnh vực này đến từ một nhóm tương đối nhỏ những người chia sẻ hình ảnh của họ và trong một số trường hợp, tạo ra sự tương tác cao. Đó là bởi vì Google và OpenAI chưa cung cấp công nghệ rộng rãi cho công chúng.

Nhiều người dùng đầu tiên của OpenAI là bạn bè và người thân của nhân viên. Nếu bạn đang tìm kiếm quyền truy cập, bạn phải tham gia danh sách chờ và cho biết bạn là nghệ sĩ chuyên nghiệp, nhà phát triển, nhà nghiên cứu hàn lâm, nhà báo hay người sáng tạo trực tuyến.

“Chúng tôi đang làm việc chăm chỉ để tăng tốc độ truy cập, nhưng có thể sẽ mất một thời gian cho đến khi chúng tôi đến được với tất cả mọi người; tính đến ngày 15 tháng 6, chúng tôi đã mời 10,217 người dùng thử DALL-E”, Joanne Jang của OpenAI viết trên trang trợ giúp của công ty trang mạng.

Một hệ thống được công bố rộng rãi là DALL-E Mini. nó dựa trên mã nguồn mở từ một nhóm các nhà phát triển được tổ chức lỏng lẻo và thường bị quá tải với nhu cầu. Những nỗ lực sử dụng nó có thể được chào đón bằng một hộp thoại có nội dung “Quá nhiều lưu lượng truy cập, vui lòng thử lại”.

Nó hơi gợi nhớ đến dịch vụ Gmail của Google, dịch vụ thu hút mọi người với không gian lưu trữ email không giới hạn vào năm 2004. Ban đầu, những người dùng đầu tiên chỉ có thể tham gia bằng lời mời, khiến hàng triệu người phải chờ đợi. Giờ đây, Gmail là một trong những dịch vụ email phổ biến nhất trên thế giới.

Tạo hình ảnh từ văn bản có thể không bao giờ phổ biến như email. Nhưng công nghệ chắc chắn đang tồn tại một thời điểm và một phần sức hấp dẫn của nó là ở tính độc quyền.

Phòng nghiên cứu tư nhân Midjourney yêu cầu mọi người điền vào biểu mẫu nếu họ muốn thử nghiệm với bot tạo hình ảnh của nó từ một kênh trên ứng dụng trò chuyện Discord. Chỉ một nhóm người được chọn đang sử dụng Imagen và đăng ảnh từ đó.

Các dịch vụ chuyển văn bản thành hình ảnh rất phức tạp, xác định những phần quan trọng nhất trong lời nhắc của người dùng và sau đó đoán cách tốt nhất để minh họa các thuật ngữ đó. Google đã đào tạo mô hình Imagen của mình với hàng trăm chip AI nội bộ trên 460 triệu cặp văn bản hình ảnh bên trong, ngoài dữ liệu bên ngoài.

Các giao diện rất đơn giản. Nói chung có một hộp văn bản, một nút để bắt đầu quá trình tạo và một khu vực bên dưới để hiển thị hình ảnh. Để chỉ ra nguồn, Google và OpenAI thêm hình mờ ở góc dưới cùng bên phải của hình ảnh từ DALL-E 2 và Imagen.

Các công ty và nhóm xây dựng phần mềm lo ngại chính đáng về việc mọi người xông vào cổng cùng một lúc. Việc xử lý các yêu cầu web để thực thi các truy vấn bằng các mô hình AI này có thể tốn kém. Quan trọng hơn, các mô hình không hoàn hảo và không phải lúc nào cũng tạo ra kết quả đại diện chính xác cho thế giới.

Các kỹ sư đã đào tạo các mô hình về các bộ sưu tập từ và hình ảnh phong phú từ web, bao gồm cả những bức ảnh mà mọi người đã đăng trên Flickr.

OpenAI, có trụ sở tại San Francisco, nhận ra khả năng gây hại có thể đến từ một mô hình học cách tạo hình ảnh bằng cách tìm kiếm cơ bản trên web. Để thử và giải quyết rủi ro, các nhân viên đã xóa nội dung bạo lực khỏi dữ liệu đào tạo và có các bộ lọc ngăn DALL-E 2 tạo hình ảnh nếu người dùng gửi lời nhắc có thể vi phạm chính sách của công ty về ảnh khỏa thân, bạo lực, âm mưu hoặc nội dung chính trị.

Prafulla Dhariwal, một nhà khoa học nghiên cứu OpenAI cho biết: “Có một quá trình đang diễn ra để cải thiện sự an toàn của các hệ thống này.

Các thành kiến ​​trong kết quả cũng rất quan trọng cần phải hiểu và thể hiện mối quan tâm rộng rãi hơn đối với AI. Boris Dayma, một nhà phát triển đến từ Texas và những người khác làm việc trên DALL-E Mini đã giải thích vấn đề này trong phần giải thích của họ.

Họ viết: “Những nghề nghiệp thể hiện trình độ học vấn cao hơn (như kỹ sư, bác sĩ hoặc nhà khoa học) hoặc lao động thể chất cao (chẳng hạn như trong ngành xây dựng), hầu hết được đại diện bởi nam giới da trắng. “Ngược lại, y tá, thư ký hoặc trợ lý thường là phụ nữ, thường là người da trắng.”

Google đã mô tả những thiếu sót tương tự của mô hình Imagen trong một bài báo học thuật.

Bất chấp rủi ro, OpenAI rất hào hứng với những thứ mà công nghệ có thể kích hoạt. Dhariwal cho biết nó có thể mở ra cơ hội sáng tạo cho các cá nhân và có thể giúp tạo ra các ứng dụng thương mại cho các trang web thiết kế nội thất hoặc trang điểm.

Kết quả sẽ tiếp tục được cải thiện theo thời gian. DALL-E 2, được giới thiệu vào tháng 4, cho ra những hình ảnh thực tế hơn so với phiên bản đầu tiên mà OpenAI đã công bố vào năm ngoái và mô hình tạo văn bản của công ty, GPT, đã trở nên tinh vi hơn theo từng thế hệ.

“Bạn có thể mong đợi điều đó xảy ra cho rất nhiều hệ thống này,” Dhariwal nói.

ĐỒNG HỒ: Nguyên Pres. Obama tiếp nhận thông tin sai lệch, nói rằng nó có thể trở nên tồi tệ hơn với AI

Nguồn: CNBC
Dịch bởi: tapchiso.com

THEO DÕI CHÚNG TÔI TRÊN: FACEBOOK | TELEGRAM | TWITTER | YOUTUBE
Bài viết liên quan