深浅拷贝——利用模拟实现basic_string深入理解

文章列表

一、深浅拷贝的基本概念

深拷贝和浅拷贝都是指在对象复制时，复制对象的内存空间的方式。
深浅拷贝——利用模拟实现basic_string深入理解

1.1 深浅拷贝的不同之处

浅拷贝是指将一个对象的所有成员变量都直接拷贝给另一个对象，包括指针成员变量，两个对象共享同一块内存空间。

深拷贝是指在对象复制时，分配一块新的内存空间，将原对象的成员变量复制到新的内存空间中。
深浅拷贝——利用模拟实现basic_string深入理解

1.2 适用场景及优缺点

浅拷贝通常用于类的复制操作，可以在一定程度上提高性能，但是如果一个对象的成员变量指向的是堆内存空间，那么当其中一个对象释放了这块内存空间后，另一个对象仍然指向这块内存空间，容易出现问题。

浅拷贝适用于对象的成员变量是基本数据类型，或指向栈空间的指针的情况。因为这些数据类型的内存是在栈上分配的，所以可以直接拷贝，共享同一块内存空间也不会带来问题。

深拷贝可以避免两个对象共享同一块内存空间带来的问题，但是也会增加内存空间的消耗，以及复制成员变量的时间消耗。

深拷贝适用于对象的成员变量是指向堆内存空间的指针，或者成员变量是对象的情况。因为这些情况下，如果采用浅拷贝的方式，两个对象共享同一块内存空间，可能会导致一个对象释放了内存空间，另一个对象还在使用这块内存空间，造成不可预料的错误。

二、basic_string的模拟实现

深浅拷贝——利用模拟实现basic_string深入理解

2.1 中规中矩的传统写法

#include<iostream>;
#include<string.h>;using namespace std;//深浅拷贝——利用模拟实现basic_string深入理解
namespace yfy
{class string{public:string(const char* str):_str(new char[strlen(str) + 1])	//若此处不在堆上开空间，而是将str作为参数赋值给_str，就是浅拷贝，其后果是无法修改常量字符串{strcpy(_str, str);}string(const string& s):_str(new char[strlen(s._str) + 1])		//自定义拷贝构造函数，深拷贝————开辟同样大小空间，并将数据拷贝{strcpy(_str, s._str);}~string(){delete[] _str;_str = nullptr;}char& operator[](size_t pos){return _str[pos];}string& operator=(const string& s)		//不管左值右值谁长，直接将左值释放，开辟和右值同样大小空间，再拷贝右值{if (this != &s)		//防止自己给自己赋值{char* tmp = new char[strlen(s._str) + 1];	//如果先释放_str，new失败了会导致赔了夫人又折兵，new如果失败会抛异常，所以先不要释放_str，new成功后再释放delete[] _str;									_str = tmp;strcpy(_str, s._str);}return *this;}private:char* _str;};void test_string1(){string s1("hello");s1[0] = 'x';string s2(s1);//若是编译器默认实现的拷贝构造，则为浅拷贝————导致：1、同一块空间析构两次 2、一个对象修改值，另一个随之改变string s3("hello world");s1 = s3;}
}int main()
{yfy::test_string1();return 0;
}

2.2 富有"资本主义"的现代写法

//拷贝构造string(const string& s):_str(nullptr)			//若不置空，tmp作为临时变量，在生命结束时调用析构，此时tmp为一个随机值，会出问题{string tmp(s._str);		//调用构造函数为tmp开空间swap(_str, tmp._str);}//赋值string& operator=(string s){swap(_str, s._str);return *this;}

3.3 basic_string模拟汇总

#include<iostream>
#include<string.h>
#include<assert.h>using namespace std;//深浅拷贝——利用模拟实现basic_string深入理解
namespace yfy
{class string{public:typedef char* iterator;			//string 中的迭代器就是原生指针typedef const char* const_iterator;iterator begin(){return _str;}iterator end(){return _str + _size;}const_iterator begin() const{return _str;}const_iterator end() const{return _str + _size;}/*string()						//默认构造函数:_str(new char[1]), _size(0), _capacity(0){*_str = '\\0';//初始化}*/string(const char* str = "")	//给一个空串作为缺省值即可替代上面的默认构造函数:_size(strlen(str)),_capacity(_size){_str = new char[_capacity + 1];strcpy(_str, str);}void swap(string& s){::swap(_str, s._str);		//swap前加作用域限定符代表调用全局域中的swap函数，若不加，编译器无法区分::swap(_size, s._size);::swap(_capacity, s._capacity);}string(const string& s):_str(nullptr)			//若不置空，tmp作为临时变量，在生命结束时调用析构，此时tmp为一个随机值，会出问题{string tmp(s._str);		//调用构造函数为tmp开空间this->swap(tmp);}~string(){delete[] _str;_str = nullptr;}//可读可写char& operator[](size_t pos){assert(pos < _size);return _str[pos];}//只读const char& operator[](size_t pos) const{assert(pos < _size);return _str[pos];}string& operator=(string s){this->swap(s);return *this;}void reserve(size_t n)		//重新开辟空间{if (n > _capacity){char* tmp = new char[n + 1];strcpy(tmp, _str);delete[] _str;_str = tmp;_capacity = n;}}void resize(size_t n, char ch = '\\0'){if (n <= _size){_size = n;_str[_size] = '\\0';}else{if (n > _capacity){reserve(n);}for (size_t i = _size; i < n; i++){_str[i] = ch;}_size = n;_str[_size] = '\\0';}}void push_back(char ch){//if (_size >= _capacity)//{//	size_t newcapactiy = _capacity == 0 ? 4 : _capacity * 2;//	reserve(newcapactiy);//}//_str[_size] = ch;//++_size;//_str[_size] = '\\0';insert(_size, ch);}void append(const char* str){//size_t len = strlen(str);//if (_size + len > _capacity)//{//	reserve(_size + len);//}//strcpy(_str + _size, str);//_size += len;insert(_size, str);}string& operator+=(char ch){push_back(ch);return *this;}string& operator+=(const char* str){append(str);return *this;}string& operator+=(const string& s){*this += s._str;return *this;}size_t size() const{return _size;}size_t capacity() const{return _capacity;}string& insert(size_t pos, char ch){assert(pos <= _size);if (_size == _capacity){size_t newcapacity = _capacity == 0 ? 4 : _capacity * 2;reserve(newcapacity);}int end = _size;						//进行头插时，此处的end会变为负数，在与pos比较时会整型提升到无符号数，从而导致死循环while (end >= (int)pos)						//解决方案：将比较时的pos强转为int或控制end不能为负数{_str[end + 1] = _str[end];end--;}_str[pos] = ch;_size++;return *this;}string& insert(size_t pos, const char* str){assert(pos <= _size);size_t len = strlen(str);if (len == 0)				//插入空串{return *this;}if (_size + len > _capacity){reserve(_size + len);}size_t end = _size + len;while (end >= pos + len)			//字符移位{_str[end] = _str[end - len];end--;}											for (int i = 0; i < len; i++)		//字符填充{_str[pos + i] = str[i];}_size += len;return* this;}string& erase(size_t pos, size_t len = npos){assert(pos < _size);if (len == npos || pos + len >= _size)			//删除的长度大于剩余的长度{_str[pos] = '\\0';_size = pos;}else                                            //删除的长度小于剩余长度，需要把遗留字符移花接木 {strcpy(_str + pos, _str + pos + len);_size -= len;}return *this;}const char* c_str(){return _str;}void clear(){_str[0] = '\\0';_size = 0;}size_t find(char ch, size_t pos = 0){for (size_t i = pos; i < _size; i++){if (_str[i] == ch){return i;}}return npos;}size_t find(const char* sub, size_t pos = 0){const char* p = strstr(_str + pos, sub);if (p == nullptr){return npos;}else{return p - _str;}}private:char* _str;size_t _size;size_t _capacity;static const size_t npos;};const size_t string::npos = -1;ostream& operator<<(ostream& out, const string& s){for (size_t i = 0; i < s.size(); i++){out << s[i];}return out;}istream& operator>>(istream& in, string& s){s.clear();char ch;//in >> ch;                    //如此写会自动忽略换行和空格，导致死循环ch = in.get();while (ch != ' ' && ch != '\\n'){s += ch;ch = in.get();}return in;}istream& getline(istream& in, string& s){s.clear();char ch;ch = in.get();while (ch != '\\n')			//区别在于读到空格不结束{s += ch;ch = in.get();}return in;}void print(const string& s1)					//输入时用于清空字符串{for (int i = 0; i < s1.size(); i++){cout << s1[i] << " ";					//s1不可修改，所以[]需要有两个版本}cout << endl;string::const_iterator it = s1.begin();			//s1不可修改，所以定义const迭代器和重载begin和endwhile (it != s1.end()){cout << *it << " ";it++;}cout << endl;}bool operator>(const string& s1, const string& s2){size_t i1 = 0, i2 = 0;while (i1 < s1.size() && i2 < s2.size()){if (s1[i1] > s2[i2]){return true;}else if (s1[i1] < s2[i2]){return false;}else{i1++;i2++;}}//abc abc	false//abcd abc	true//abc abcd	falseif (i1 == s1.size()){return false;}else{return true;}}bool operator==(const string& s1, const string& s2){size_t i1 = 0, i2 = 0;while (i1 != s1.size() && i2 != s2.size()){if (s1[i1] != s2[i2]){return false;}else{i1++;i2++;}}if (i1 == s1.size() && i2 == s2.size()){return true;}else{return false;}}bool operator!=(const string& s1, const string& s2){return !(s1 == s2);}bool operator>=(const string& s1, const string& s2){return (s1 > s2 || s1 == s2);}bool operator<(const string& s1, const string& s2){return !(s1 >= s2);}bool operator<=(const string& s1, const string& s2){return !(s1 > s2);}string operator+(const string& s1, const char* str){string ret = s1;										//存在深拷贝对象，尽量少用ret += str;return ret;}void test_string1(){string s1("hello");s1[0] = 'x';string s2(s1);//若是编译器默认实现的拷贝构造，则为浅拷贝————导致：1、同一块空间析构两次 2、一个对象修改值，另一个随之改变string s3("hello world");s1 = s3;s1.push_back(' ');s1.append("by");s1 += ' ';s1 += "cplusplus";}void test_string2(){string s1;string s2(s1);//s1 += 'x';s1 += "hello";s1.resize(2);s1.resize(8, 'x');}void test_string3(){string s1("hello world");//遍历字符串————三种方式：普通for循环、迭代器、范围forfor (int i = 0; i < s1.size(); i++){cout << s1[i] << " ";}cout << endl;string::iterator it = s1.begin();			//指定iterator在string类域中，而不在全局中while (it != s1.end()){cout << *it << " ";it++;}cout << endl;for (auto e : s1)			//语法上支持迭代器、迭代器命名规范即可使用范围for--本质上是替换为迭代器{cout << e << " ";}cout << endl;print(s1);}void test_string4(){string s1("hello world");s1.insert(5, 'x');s1.push_back('!');s1.insert(0, ' ');s1.insert(0, "hehe");s1.erase(0, 5);cout << s1.c_str() << endl;}void test_string5(){string s1("hello world");s1.resize(20);s1[18] = 'x';cout << s1 << endl;						//区别在于输出了_size个字符cout << s1.c_str() << endl;				//遇到\\0就终止string s2("hehe");cin >> s2;cout << s2 << endl;}void test_string6(){string s1;//cin >> s1;			//输入带空格的字符//cout << s1 << endl;getline(cin, s1);cout << s1 << endl;}
}int main()
{//yfy::test_string1();//yfy::test_string2();//yfy::test_string3();//yfy::test_string4();//yfy::test_string5();yfy::test_string6();return 0;
}

三、关于string对象的大小

在 Visual Studio 2019 中，当 basic_string 的长度小于等于 15 个字符时，标准库会将字符串的字符数组存储在 basic_string 对象内部的一个名为 buf 的字符数组中，而不是动态分配内存。这个 buf 数组的大小是 16 个字节，其中包括 15 个字符和一个用于存储字符串结尾的 null 字符的位置。

因此，如果你在 VS2019 的 32 位环境下创建一个 basic_string 对象，它的大小可能是 28 个字节。其中，16 个字节用于存储 buf 数组，4 个字节用于存储指向 buf 数组的指针，4 个字节用于存储 size_，4 个字节用于存储 capacity_。但需要注意的是，这个大小可能因为编译器版本、编译器选项等因素而有所不同。

四、浅拷贝缺陷的解决方案

下面我们再来回顾一下浅拷贝：

C++中浅拷贝是指当对象被复制时，只复制指向数据的指针，而不是数据本身。这意味着当一个对象的内容发生更改时，所有指向该对象的指针都会受到影响，从而导致潜在的内存泄漏和程序错误，例如对象的生命周期结束时，多次调用析构函数。

4.0 浅拷贝改深拷贝

浅拷贝的缺陷示例：

class MyClass {
public:MyClass(int size) {m_data = new int[size];m_size = size;}~MyClass() {delete[] m_data;}
private:int* m_data;int m_size;
};MyClass obj1(10);
MyClass obj2 = obj1;

在这个例子中，当obj2被复制为obj1时，m_data指针也被复制，这意味着两个对象都指向相同的内存地址。如果一个对象更改了其内部数据，另一个对象也会受到影响。

要解决这个问题，可以使用深拷贝来复制对象。深拷贝不仅复制指针，而且复制指针所指向的数据本身，因此每个对象都有其自己的内存空间。

以下是深拷贝的示例实现：

class MyClass {
public:MyClass(int size) {m_data = new int[size];m_size = size;}~MyClass() {delete[] m_data;}// 拷贝构造函数MyClass(const MyClass& other) {m_size = other.m_size;m_data = new int[m_size];memcpy(m_data, other.m_data, m_size * sizeof(int));}// 赋值操作符MyClass& operator=(const MyClass& other) {if (this != &other) {delete[] m_data;m_size = other.m_size;m_data = new int[m_size];memcpy(m_data, other.m_data, m_size * sizeof(int));}return *this;}
private:int* m_data;int m_size;
};MyClass obj1(10);
MyClass obj2 = obj1; // 使用拷贝构造函数进行深拷贝
MyClass obj3(5);
obj3 = obj1; // 使用赋值操作符进行深拷贝

4.1 引用计数

引用计数是一种内存管理技术，它通过跟踪对象被引用的次数来决定何时释放内存。当对象被创建时，引用计数被初始化为1。每当对象被复制时，引用计数也会增加1。当对象不再被使用时，引用计数会减少1。当引用计数为0时，内存被释放。

class MyClass {
public:MyClass(int size) {m_data = new int[size];m_size = size;m_refCount = new int(1);}~MyClass() {if (--(*m_refCount) == 0) {delete[] m_data;delete m_refCount;}}// 拷贝构造函数MyClass(const MyClass& other) {m_data = other.m_data;m_size = other.m_size;m_refCount = other.m_refCount;++(*m_refCount);}// 赋值操作符MyClass& operator=(const MyClass& other) {if (this != &other) {if (--(*m_refCount) == 0) {delete[] m_data;delete m_refCount;}m_data = other.m_data;m_size = other.m_size;m_refCount = other.m_refCount;++(*m_refCount);}return *this;}
private:int* m_data;int m_size;int* m_refCount;
};MyClass obj1(10);
MyClass obj2 = obj1;
MyClass obj3(5);
obj3 = obj1;

在这个例子中，引用计数被实现为一个指向整数的指针，它被存储在对象中。每当对象被复制时，引用计数都会增加1。当对象不再被使用时，引用计数会减少1。当引用计数为0时，内存被释放。这种方法可以避免浅拷贝的问题，并且在对象被复制时不需要进行大量的数据复制。但是，引用计数需要额外的内存空间来存储计数器，而且在多线程环境下，需要进行额外的同步和保护。

引用计数指针不能直接写成int类型，因为这样会导致内存管理出现问题。

如果我们将引用计数实现为一个普通的int类型，那么当对象被复制时，每个副本都将拥有一个独立的引用计数。这意味着，如果其中一个副本被销毁，它的引用计数会减少，但是其它副本的引用计数并不会减少，这会导致内存泄漏。

使用一个指向int的指针可以解决这个问题。每个副本都可以共享同一个引用计数，这样当其中一个副本被销毁时，它的引用计数会减少，而其它副本的引用计数也会随之减少，从而避免了内存泄漏的问题。

4.2 写时拷贝

写时拷贝（Copy on Write，简称COW）是一种内存管理技术，它允许多个对象共享同一块内存，在对象被修改时才进行复制，从而减少内存的消耗。

在COW中，当一个对象被拷贝时，只有指向原始对象的引用被复制，而不是整个对象。在拷贝对象被修改时，COW会将原始对象复制到一个新的内存地址，并且将引用指向新的内存地址。这个过程是透明的，使用者无需关心内部实现。

COW实现：

#include <iostream>
#include <string.h>class MyString {
public:MyString(const char* str) {m_data = new char[strlen(str) + 1];strcpy(m_data, str);m_refCount = new int(1);}~MyString() {if (--(*m_refCount) == 0) {delete[] m_data;delete m_refCount;}}// 拷贝构造函数MyString(const MyString& other) {m_data = other.m_data;m_refCount = other.m_refCount;++(*m_refCount);}// 赋值操作符MyString& operator=(const MyString& other) {if (this != &other) {if (--(*m_refCount) == 0) {delete[] m_data;delete m_refCount;}m_data = other.m_data;m_refCount = other.m_refCount;++(*m_refCount);}return *this;}// 修改字符串时进行复制void ModifyString() {if (*m_refCount > 1) {char* newData = new char[strlen(m_data) + 1];strcpy(newData, m_data);--(*m_refCount);m_data = newData;m_refCount = new int(1);}}
private:char* m_data;int* m_refCount;
};int main() {MyString str1("hello");MyString str2 = str1;std::cout << "str1: " << str1 << std::endl;std::cout << "str2: " << str2 << std::endl;str2.ModifyString();std::cout << "str1: " << str1 << std::endl;std::cout << "str2: " << str2 << std::endl;return 0;
}

在这个例子中，MyString类中的m_data指向一个包含字符串的内存块，m_refCount存储引用计数。在拷贝对象时，只有指向m_data的指针被复制，m_refCount也被增加。当对象被修改时，如果引用计数大于1，则表示有多个对象共享同一块内存，此时MyString类会将原始数据复制到一个新的内存地址，并将指针指向新的内存地址。这个过程是透明的，使用者无需关心内部实现。

在上述示例代码中，ModifyString()函数模拟了对字符串进行修改的操作，如果对象被多个引用共享，则会将数据复制到一个新的内存地址，并将引用指向新的内存地址。这样，其他对象的数据不会被修改，也就避免了浅拷贝带来的问题。

COW技术的缺点是它会增加额外的开销，因为每次修改对象时，都需要检查引用计数并复制数据。因此，COW适用于多读少写的场景，在写操作比较频繁的场景中可能会带来性能问题。

深浅拷贝——利用模拟实现basic_string深入理解

深浅拷贝——利用模拟实现basic_string深入理解

一、深浅拷贝的基本概念

1.1 深浅拷贝的不同之处

1.2 适用场景及优缺点

二、basic_string的模拟实现

2.1 中规中矩的传统写法

2.2 富有"资本主义"的现代写法

3.3 basic_string模拟汇总

三、关于string对象的大小

四、浅拷贝缺陷的解决方案

4.0 浅拷贝改深拷贝

4.1 引用计数

4.2 写时拷贝

公告

标签

深浅拷贝——利用模拟实现basic_string深入理解

深浅拷贝——利用模拟实现basic_string深入理解

一、深浅拷贝的基本概念

1.1 深浅拷贝的不同之处

1.2 适用场景及优缺点

二、basic_string的模拟实现

2.1 中规中矩的传统写法

2.2 富有"资本主义"的现代写法

3.3 basic_string模拟汇总

三、关于string对象的大小

四、 浅拷贝缺陷的解决方案

4.0 浅拷贝改深拷贝

4.1 引用计数

4.2 写时拷贝

相关问题

公告

标签

四、浅拷贝缺陷的解决方案